① テキストマイニングの始まり
テキストマイニングは、自然言語処理(NLP)の技術や機械学習アルゴリズムを活用した手法である。テキストデータの前処理、トークン化、単語のベクトル化、トピックモデリング、感情分析などの手法が使われる。テキストマイニングは、ビッグデータ時代における多様な情報源から情報を抽出する重要なツールであり、ビジネスのデータ分析や意思決定に貢献する。マーケティング分野では、顧客のレビューやソーシャルメディアの投稿から製品やサービスに関する意見や感情を抽出し、市場動向や競合情報を分析する。金融分野では、ニュース記事や経済レポートから市場トレンドや企業の信用リスクをモニタリングし、投資やリスク管理の意思決定に利用する。オペレーション分野では、顧客のフィードバックやサポートチャットログからサービスの品質向上や問題解決のための改善点を見つけ出すことができる。例えば、Word2Vecなどのモデルを活用して"世論"の意見や感情を抽出し、商品や企業のイメージを分析することである。車のブランド、銀行のブランド、マンションのブランドなど、さまざまな製品や企業のイメージを分析することは可能である。
テキストとは、言語表現を記述した文書や文章のことである。これには書籍、記事、メールやSNSの投稿などの形式の文章が含まれる。テキストマイニングは、大量のテキストデータから情報やパターンを抽出する技術である。今では、コンピュータなしでは考えられない技術であるが、コンピュータが誕生する前からテキストに対する計量分析はあった。文字や単語を目で確認し、単語の長さ(文字数・音節数)などに着目する分析が行われた。
早期の研究として、アメリカの地球物理学者メンデンホール(1887年)は、単語のスペクトル分析法を考案した。この単語のスペクトルとは、文章に使われる単語の長さ(文字数)の度数分布である。書き手によってスペクトルが異なるため、書き手の推測や特定、作者の真偽判定にスペクトルを利用することが研究された。
素朴な文書に比べ、華やかな文書は、形容詞や副詞が多く使われる。単語の長さだけではなく、特定の単語(種類)や品詞などの分布情報も“スペクトル”である。これらの情報に基づいた文章の性格や書き手の推定に関する研究が計量文献学といわれる。例えば、源氏物語の宇治十帖の著者が前44巻と同一であるかどうかという検証に、安本(1950年代)が文章における心理描写の数、文の長さ、品詞の数、文章の長さの分布情報を利用した。和歌、直喩、声喩、色彩語の使用頻度、名詞、助詞、助動詞の使用頻度も利用した。これらのスペクトルはまさに文書の指紋である。
(研究室張航氏論文参照)
② 自然言語処理(NLP)
コンピュータが普及する今日において、テキストマイニングの目的の1つは、コンピュータに単語と文章の意味を理解させることである。これには、自然言語処理(Natural Language Processing NLP)の手法が応用される。
NLPは、人間が使用する自然言語(英語、日本語、中国語等)をコンピュータに処理させる技術である。NLPは、テキストや音声などの自然言語データをコンピュータが理解し、解釈し、生成するための手法を開発する。NLPによって、1)テキスト解析、2)情報抽出、3)機械翻訳、4)意見感情分析、5)自動質問応答、6)文書分類、7)音声認識、等のことができるようになる。
テキストを解析する前に、テキストを整理し、単語等の分析単位に分解する前処理が必要である。この前処理には、正規化、トークン化と形態素解析がある。
正規化
正規化には文字コードの正規化と文字の正規化がある。文字をコンピュータ上で識別するためのコードは、日本語ではSHIFT-JIS、EUC、UTF-8、UTF-16などが使われる。多様なソースからテキストを収集するため、異なる文字コードを統一する必要がある。
文字の正規化とは、異なる文字や文字列が同じ意味を持つ場合、これらを統合することである。例えば、全角と半角の変換、大文字と小文字の統一、カタカナとひらがなの変換が正規化の一例となる。
トークン化
文書を分析するために、分析のための最小単位を定める必要がある。文書から分析単位(トークン)を取り出すことをトークン化という。通常、単語をトークンとすることが多い。英語等の場合、スペースを利用して単語を容易に取り出せるが、日本語の場合、形態素解析を利用して単語を取り出す。単語の他に、n-gramによるテキストのトークン化や、品詞によるトークン化の方法もある。
形態素解析
意味をもつ最小文字列の単位を形態素(morpheme)といい、文書を形態素に分割し、品詞や記号の名称等を付け加える作業を形態素解析(morphological analysis) という。形態素解析は、自然言語の文法知識や辞書に基づいて、文を形態素に分割し、それぞれの品詞情報を付与する。日本語の形態素解析のツールとして、JUMAN、ChaSen、MeCabなどがある。
例えば、「テキストマイニングの手法について勉強しましょう」をMeCabで解析した結果は、次のようになる(わかりやすく整理した)。
テキスト 名詞
マイニング 名詞
の 助詞
手法 名詞
について 助詞
勉強 名詞
し 動詞
ましょう 助動詞
形態素解析の結果に基づき、単語の集計や前回触れたスペクトルの集計が可能になる。応用として、顧客の口コミ等の簡単な文章であれば、ポジティブの単語の出現回数とネガティブの単語の出現回数をカウントすれば、文書の意味は大体判断できることになる。もちろん、複雑な文章に対しては、これでは全然不十分である。
③ 頻度分析
大切なことは何度でも言い続けるという。単語の使用頻度は、テキストの意味を理解する上での重要な情報である。単語出現頻度の集計は、基本的で単純であるが、広く使われる有用な手法である。
単語出現のカウントには2つの方法がある。1つは、文書内で対象単語の出現回数をカウントする。出現頻度の高い単語は重要な単語であり、文書の意味に重要な影響を与える。もう1つは、文書内で対象単語の出現の有無をカウントする方法である。この有無のカウントは、文書内の単語の多様性や文書間の類似度比較などに使われる。
頻度分析から、それぞれの単語の使用頻度が分かる。この使用頻度から、テキストの主なテーマやキーワードを推定することが可能である。短く、構造が簡単な文書なら、出現頻度の高い単語から文書全体の意味を推定することができる。
例えば、製品レビューや顧客フィードバックのような簡単な文章に対して、頻度分析だけでもその意味を推定できる。使いやすい、よい、素晴らしい、また購入したい等のポジティブな単語の頻度と、よくない、故障、不愉快、二度と買わない等のネガティブな単語の頻度から、文書の意味が分かる。また、ECサイトの口コミに対して、安い、格好いい、高級感、便利、友人に見せたい等の単語の頻度をカウントするだけで、口コミの意味が推測できる上、顧客が何に価値を感じるのかも推測できる。Google Trendsやソーシャルメディアの検索ワード、学術研究や市場調査におけるキーワード分析も頻度分析の応用である。
(研究室張航氏論文を参照して整理)
④ 共起関係
2024/3/10 大切なことは何度でも言い続けるという。単語の使用頻度は、テキストの意味を理解する上での重要な情報である。単語出現頻度の集計は、基本的で単純であるが、広く使われる有用な手法である。
単語出現のカウントには2つの方法がある。1つは、文書内で対象単語の出現回数をカウントする。出現頻度の高い単語は重要な単語であり、文書の意味に重要な影響を与える。もう1つは、文書内で対象単語の出現の有無をカウントする方法である。この有無のカウントは、文書内の単語の多様性や文書間の類似度比較などに使われる。
頻度分析から、それぞれの単語の使用頻度が分かる。この使用頻度から、テキストの主なテーマやキーワードを推定することが可能である。短く、構造が簡単な文書なら、出現頻度の高い単語から文書全体の意味を推定することができる。
例えば、製品レビューや顧客フィードバックのような簡単な文章に対して、頻度分析だけでもその意味を推定できる。使いやすい、よい、素晴らしい、また購入したい等のポジティブな単語の頻度と、よくない、故障、不愉快、二度と買わない等のネガティブな単語の頻度から、文書の意味が分かる。また、ECサイトの口コミに対して、安い、格好いい、高級感、便利、友人に見せたい等の単語の頻度をカウントするだけで、口コミの意味が推測できる上、顧客が何に価値を感じるのかも推測できる。Google Trendsやソーシャルメディアの検索ワード、学術研究や市場調査におけるキーワード分析も頻度分析の応用である。(研究室張航氏論文参照)
⑤ LDAモデル
2024/3/10 大切なことは何度でも言い続けるという。単語の使用頻度は、テキストの意味を理解する上での重要な情報である。単語出現頻度の集計は、基本的で単純であるが、広く使われる有用な手法である。
単語出現のカウントには2つの方法がある。1つは、文書内で対象単語の出現回数をカウントする。出現頻度の高い単語は重要な単語であり、文書の意味に重要な影響を与える。もう1つは、文書内で対象単語の出現の有無をカウントする方法である。この有無のカウントは、文書内の単語の多様性や文書間の類似度比較などに使われる。
頻度分析から、それぞれの単語の使用頻度が分かる。この使用頻度から、テキストの主なテーマやキーワードを推定することが可能である。短く、構造が簡単な文書なら、出現頻度の高い単語から文書全体の意味を推定することができる。
例えば、製品レビューや顧客フィードバックのような簡単な文章に対して、頻度分析だけでもその意味を推定できる。使いやすい、よい、素晴らしい、また購入したい等のポジティブな単語の頻度と、よくない、故障、不愉快、二度と買わない等のネガティブな単語の頻度から、文書の意味が分かる。また、ECサイトの口コミに対して、安い、格好いい、高級感、便利、友人に見せたい等の単語の頻度をカウントするだけで、口コミの意味が推測できる上、顧客が何に価値を感じるのかも推測できる。Google Trendsやソーシャルメディアの検索ワード、学術研究や市場調査におけるキーワード分析も頻度分析の応用である。(研究室張航氏論文参照)
⑥ 類似度
2つのテキストの類似の度合いについて考える。テキスト間に共通する単語が多ければ、類似度が高いと考えるのは自然である。たとえば、テキストAに含まれる単語が集合A={v,w,x,y}、テキストBの単語集合がB={x,y,z}であるとすれば、類似度として、以下のような類似度尺度が定義できる。
・Jaccard係数
集合Aと集合Bの共通要素の数を、両集合の結合要素の数で割ったものであり、J(A,B)=|A∩B||A∪B|= 2 /5 = 0.4となる。なお、ここの|A|は、集合Aの要素数を意味する。
・Dice係数
2倍の共通要素の数を、集合Aと集合Bの要素数の和で割ったものであり、2|A∩B|/(|A|+|B|)=2.2/7=0.57となる。
・Simpson係数
共通要素の数を、小さい集合の要素数で割ったものであり、|A∩B|/ min(|A|,|B|)=2/3=0.67となる。
上記の尺度は、共通要素の割合をベースに定義されている。1つの単語は1つ次元に対応すると考えるなら、テキストはベクトルとして定義できる。例えば、上記のテキストAはベクトルa=(1,1,1,1,0)であり、テキストBはベクトルb=(0, 0, 1,1,1,1)である。なお、ここのベクトルは、それぞれv,w, x,y, zという単語の使用(1)と不使用(0)を意味するものである。コサイン類似度は、2つのがどの程度同じ方向を指しているかを示す指標で、ベクトルの内積として定義される。
コサイン類似度(A,B)= cos(a,⃗b)=a ·⃗b /|a||b|
空間上、ベクトルaとbは、角度θを成す。コサイン類似度が1に近ければ近いほど、θが小さく、ベクトルは同じ方向を指す。コサイン類似度が0に近ければ、2つのベクトルは互いに関係ない方向に指し、値が-1に近ければ逆の方向を指していることを意味する。この角度θは、Arccos(a ·⃗b / |a||b| )と計算される。
以上の類似度尺度は、金融分野におけるテキストマイニングの応用において、ニュース記事、研究報告、市場予測などから価値ある情報を抽出し、分析するために不可欠である。類似度分析を通じて、金融機関は市場動向を理解し、投資家は戦略的な意思決定を行うための情報を収集することが可能となる。さらに、類似度分析はフィンテック領域におけるリスク管理、不正行為の検出、カスタマイズされた顧客サービスの提供といった多方面にわたる応用に貢献する。