Skillbook

データサイエンス領域 > DS_Phase3>非構造化データ処理

自然言語処理

このスキルの細分化業務

この業務の関連項目

この業務に関連する業務領域

データサイエンス領域
データサイエンス領域のタスクを示すもの。

この業務に関連する評価項目

【データ収集】Webクローリング、DBアクセス、アンケート、文字認識、音声認識などの結果からテキストデータを収集し、HTMLタグ等の不要な表現を除去して分析しやすいように整備する
【辞書構築】当該分野の専門用語や、同義語、類義語、対義語、人名・地名の辞書を、クラウドソーシングによる多数のユーザへのアンケートで収集したり、ブートストラップ法による事例の半自動生成手法を用いて構築する
【構造解析】構築した辞書を活用してパラメータ調整を行った形態素解析器、構文解析器、固有表現抽出器などを用いてテキストデータの構造解析を行う
【特徴量変換】低頻度語やストップワードの除去、名詞や動詞の正規化などを行い、テキストデータを単語集合（Bag-of-words）、単語インデックスの系列、分散表現などの分析しやすい特徴量に変換する
【文書分類・系列ラベリング】人手もしくは半自動で正解ラベルを収集したのち、教師あり分類学習を行い、文書のジャンルや感情の判定、単語の品詞やカテゴリの推定を行う
【グルーピング・トピック推定】トピックモデル（確率的潜在意味解析[pLSA]、潜在的ディリクレ配分法[LDA]）などの統計モデルを用いて、文書をクラスタリングして類似文書にまとめたり、文書中の代表的なトピックの推定を行う
【情報検索】転置インデックスのような索引構造やトピックモデルのような次元圧縮手法を用いて文書の厳密・類似検索を高速に行う
【文書生成】Nグラム統計モデルやニューラル言語モデルなどを用いて、翻訳、要約、対話、Q&Aなどの出力テキストを生成する

自然言語処理

自然言語処理

このスキルの細分化業務

関連する本や教材

この業務の関連項目

この業務に関連する業務領域

この業務に関連する評価項目