② 波の分解
ノイズ(noise)」とは、本来の正しい情報を妨げる成分、と捉えることができる。意味のある情報を歪めたり、不正確にしたりする原因はノイズ、無関係な変動やばらつきである。株式市場の価格変動には、本来の正しい情報の他、多くのノイズがあり、株価に関する正確な変動を妨げるとも考えられる。
ノイズには色がある。
ホワイトノイズは最も知られているノイズである。日本訳は白色雑音、昔のアナログテレビの砂嵐やラジオの無信号時の「ザーッ」という音がホワイトノイズである。
高い音もあれば、低い音もある。音はいろいろな周波数の成分から構成され、それぞれの周波数の強さ(パワー)は、音の性質を決める。ホワイトノイズは全ての周波数成分は同じ強度(エネルギー、パワー)を持っている。ラジオ無信号時の「ザーッ」という音には、どの周波数も同じ強さである。
ピンクノイズ(桃色雑音)は、周波数が高くなるほどパワーが減衰するノイズ、人間の耳の感度に近い性質を持っている。そのため、音響測定やリスニングルームの調整など、実用的な場面でよく用いられる。雨音や風の音などの自然界の音もこのピンクノイズに近い。ピンクノイズは不快感がなく、どちらかと言えば、気持ちを落ち着かせるものである。ピンクノイズよりもさらに高周波が減衰するのは、ブラウンノイズ(褐色雑音)、波の音や深い雷鳴のような低く重たい音になる。
What's the Difference Between White Noise, Pink Noise, and Brown Noise?
高周波成分にエネルギーが集中するノイズは、ブルーノイズ(青色雑音)やバイオレットノイズ(紫色雑音)がある。ブルーノイズは高い音(高周波数)が強調されるシャープで鋭い音、バイオレットノイズは通常不快を感じるほど高周波がさらに強い。
音やノイズの周波数成分の強度の分布を確認する手段には、スペクトル分析という方法がある。スペクトル分析の数学的原理はフーリエ変換である。実用的なアルゴリズムが多く開発され、音や株価変動のデータからその周波数成分の分布を割り出す。
ノイズは通常予測ができないとされているが、厳密的にホワイトノイズは100%予測できないが、その他のノイズはいくらか予測可能である。
株式や為替等の金融資産の価格変化はホワイトノイズとされる。耳で聞くことができれば、ザーと聞こえることであろう。1)なぜ価格変動はワイトノイズなのか、2)そもそも価格変動は本当にホワイトノイズなのか、3)ホワイトノイズではないなら、少し予測できるのではないか、等の面白い問題はある。スペクトル分析を利用すれば、金融市場の変動の本質的理解に役立ち、売買アルゴリズムの整理と発見にも貢献するかと思う。これはこのシリーズの目標でもある。
LINE@友だち追加LINE@友だち追加LINE@友だ
№..↲ パワースペクトル・波動分析
テキストマイニングの始まり
テキストに対する計量分析は、コンピュータが誕生する前から行われていた。当時、文字や単語を一つ一つ、目で確認しながらカウントする方法しかなかった。単語の長さ(文字数・音節数)等の計量分析が主であった。
早期の研究として、アメリカオハイオ州立大学の地球物理学者メンデンホール(Mendenhall,1887) の研究がある。メンデンホールは、単語のスペクトル(Spectrum)分析法を発表した。単語のスペクトルとは、単語が何文字により構成されているかに着目して、文字数ごとに単語の度数を集計した単語の長さの分布である。書き手によってよく使われる単語の長さが異なるという特徴が発見された。
1940年代の後半になると、単語や品詞などの情報に基づいた文章の性格や書き手の推定に関する研究が行われた。日本では1950年前後の後半から、安本 が源氏物語の宇治十貼の著者が前44巻と同一であるかを検証するため、文章における心理描写の数、文の長さ、品詞の数、文章の長さの度合(長編度)、和歌、直喩、声喩、色彩語、名詞、用言、助詞、助動詞(12項目)のそれぞれの使用頻度を調べ、統計分析を行った。
テキストマイニングー頻度分析
テキストマイニングにおいて、単語の頻度集計は最も基本的なものである。単語の頻度は、テキストの特徴を把握する上で非常に重要である。
単語集計において、2つの方法がある。一つは、文書内で単語が出現する回数をカウントする方法である。重要なことを繰り返すというが、出現頻度の高い単語は文章の意味に重大な影響を与える。二つは、文書内で単語が出現の有無を集計する方法である。この手法では、文書内の単語の多様性や広がりの把握や、異なる文書の類似度の比較などに有用である。
頻度分析を通じて、テキスト内で特定の単語の使用頻度が明らかになる。これにより、テキストの主要なテーマやキーワードを特定することが可能となる。単純ながらも強力なこの手法は、テキストマイニングの基本として、多岐にわたる応用領域で用いられている。例えば、製品レビューや顧客フィードバックの分析、ソーシャルメディアでのトレンドの特定、学術研究や市場調査でのキーワード抽出など、様々なシナリオでこの手法が活用されている。このように、頻度分析はテキストマイニングの重要な初歩的手段として、広範な応用において重要な役割を果たしている。
これらの集計方法を通じて、テキスト内で特定の単語の使用頻度が明らかになり、そのテキストの主要なテーマやキーワードを特定するのに役立つ。単純ながらも強力なこの手法は、テキストマイニングの基本として、多くの応用領域で用いられている。
テキストマイニングー類似度 TextMining
今回は2つのテキストの類似度の測定について考える。異なるテキスト間に共通する単語が多ければ、類似度が高いと考えるのは自然である。たとえば、テキストAに含まれる単語が集合A={v,w, x,y}、テキストBの単語集合がB={x,y,z}であるとき、類似度として、以下のように、Jaccard係数、Dice係数、Simpson係数といった集合ベースの類似度尺度が定義できる。
・Jaccard係数
集合Aと集合Bの共通要素の数を、両集合の結合要素の数で割ったものであり、J(A,B)=∣A∩B∣∣A∪B∣= 2 /5 = 0.4となる。なお、ここの|A|は、集合Aの要素数を意味する。
・Dice係数
2倍の共通要素の数を、集合Aと集合Bの要素数の和で割ったものであり、2∣A∩B∣/(∣A∣+∣B∣)=2.2/7=0.57となる。
・Simpson係数
共通要素の数を、小さい集合の要素数で割ったものであり、∣A∩B∣/ min(∣A∣ ,∣B∣)=2/3=0.67となる。
これらの尺度は、共通要素の割合をベースに定義されている。1つの単語は1つ次元に対応すると考えるなら、テキストはベクトルとして定義できる。例えば、上記のテキストAはベクトルa=(1,1,1,1,0)であり、テキストBはベクトルb=(0, 0, 1,1,1,1)である。なお、ここのベクトルは、それぞれv,w, x,y, zという単語の使用(1)と不使用(0)を意味するものである。コサイン類似度は、2つのがどの程度同じ方向を指しているかを示す指標で、ベクトルの内積として定義される。
コサイン類似度(A,B)= cos (⃗a,⃗b) = ⃗a ·⃗b / |⃗a||⃗b|
空間上、ベクトルaとbは、角度θを成す。コサイン類似度が1に近ければ近いほど、θが小さく、ベクトルは同じ方向を指す。コサイン類似度が0に近ければ、2つのベクトルは互いに関係ない方向に指し、値が-1に近ければ逆の方向を指していることを意味する。この角度θは、Arccos(a ·⃗b / |a||b| )と計算される。
以上の類似度尺度は、金融分野におけるテキストマイニングの応用において、ニュース記事、研究報告、市場予測などから価値ある情報を抽出し、分析するために不可欠である。類似度分析を通じて、金融機関は市場動向を理解し、投資家は戦略的な意思決定を行うための情報を収集することが可能となる。さらに、類似度分析はフィンテック領域におけるリスク管理、不正行為の検出、カスタマイズされた顧客サービスの提供といった多方面にわたる応用に貢献する。
テキストマイニングー類似度 TextMining
今回は2つのテキストの類似度の測定について考える。異なるテキスト間に共通する単語が多ければ、類似度が高いと考えるのは自然である。たとえば、テキストAに含まれる単語が集合A={v,w, x,y}、テキストBの単語集合がB={x,y,z}であるとき、類似度として、以下のように、Jaccard係数、Dice係数、Simpson係数といった集合ベースの類似度尺度が定義できる。
・Jaccard係数
集合Aと集合Bの共通要素の数を、両集合の結合要素の数で割ったものであり、J(A,B)=∣A∩B∣∣A∪B∣= 2 /5 = 0.4となる。なお、ここの|A|は、集合Aの要素数を意味する。
・Dice係数
2倍の共通要素の数を、集合Aと集合Bの要素数の和で割ったものであり、2∣A∩B∣/(∣A∣+∣B∣)=2.2/7=0.57となる。
・Simpson係数
共通要素の数を、小さい集合の要素数で割ったものであり、∣A∩B∣/ min(∣A∣ ,∣B∣)=2/3=0.67となる。
これらの尺度は、共通要素の割合をベースに定義されている。1つの単語は1つ次元に対応すると考えるなら、テキストはベクトルとして定義できる。例えば、上記のテキストAはベクトルa=(1,1,1,1,0)であり、テキストBはベクトルb=(0, 0, 1,1,1,1)である。なお、ここのベクトルは、それぞれv,w, x,y, zという単語の使用(1)と不使用(0)を意味するものである。コサイン類似度は、2つのがどの程度同じ方向を指しているかを示す指標で、ベクトルの内積として定義される。
コサイン類似度(A,B)= cos (⃗a,⃗b) = ⃗a ·⃗b / |⃗a||⃗b|
空間上、ベクトルaとbは、角度θを成す。コサイン類似度が1に近ければ近いほど、θが小さく、ベクトルは同じ方向を指す。コサイン類似度が0に近ければ、2つのベクトルは互いに関係ない方向に指し、値が-1に近ければ逆の方向を指していることを意味する。この角度θは、Arccos(a ·⃗b / |a||b| )と計算される。
以上の類似度尺度は、金融分野におけるテキストマイニングの応用において、ニュース記事、研究報告、市場予測などから価値ある情報を抽出し、分析するために不可欠である。類似度分析を通じて、金融機関は市場動向を理解し、投資家は戦略的な意思決定を行うための情報を収集することが可能となる。さらに、類似度分析はフィンテック領域におけるリスク管理、不正行為の検出、カスタマイズされた顧客サービスの提供といった多方面にわたる応用に貢献する。
災禍は変革の源泉
9月2日、明治大学アカデミコモンにおいて、日本電子株式会社相談役であり明治大学OBの栗原権右衛門先生による講義が行われた。聴衆は、中国中山大学深圳研究院の日本研修班34名を中心に、明治ビジネススクール(MBS)の学生も加わった。
栗原改革
日本電子株式会社(https://www.jeol.co.jp)は、電子顕微鏡、分析機器、医用機器の分野で世界的なリーディングカンパニーである。栗原先生は2008年から2019年まで同社の代表取締役社長を務め、「災禍は変革の源泉」という信条のもと、不採算事業の撤退や関係会社の統合といった大胆な構造改革を推進し、業績の回復を実現された。
会社を立て直すためには「何を切り、何を守るか」の決断が欠かせない。栗原先生は会社の伝統の「技術者主導・技術畑中心」の仕組みにとらわれず、大胆に改革を断行した。改革の要点は以下の3つ。
・守るべき技術の堅持
利益を生まない事業は切りつつも、「電子顕微鏡技術」「電子ビーム描画装置」といった創業以来のコア技術は守り抜いた。
・中期経営計画の継続
低収益を単発の出来事として捉えず、3年ごとの中期経営計画を策定し、構造改革を段階的かつ継続的に推進した。
・リーダーシップと決断力
不採算部門の切り離しや関係会社の再編の決断をし、最終的に結果的に収益性の改善と企業再建につながった。
危機に追い込まれることで真価が試される
栗原先生が社長に就任したのは、売上は伸びているが、利益率が低下する「長期低収益期」であり、さらに就任直後にはリーマンショックが襲った。通常なら「運が悪い」と捉えがちな状況を、栗原先生は「むしろ運がよい」と感じたという。
改革の方向性はおそらく今までの経営陣も見えていたが、それができなかったのは、人間にも組織にも強い抵抗があるからである。この抵抗の背後にあるのは現状維持のバイアスである。
行動経済学によると、人間の意思決定はバイアスがある。最も強いバイアスの1つは現状維持である。これを心理の慣性の法則とも呼べるものである。何も変えずに今のままでいると気持ちがよい。住めば都、伝統を大事にする、モノやことへの愛着などの背後にはこの慣性の法則が存在する。
不採算事業や今までの伝統的事業への手術は、例え理屈的に理解しても、実際になかなか手が付けられるものではない。しかも、採算事業と不採算事業の将来性という不確実性もあり、それを正しく見極め、切り分ける決心はなかなかできないし、やり遂げることは通常はできない。
ところが、危機的状況に直面すると、今度は現状維持がタブーになる。組織の慣性は危機の前に粉砕されるのである。この時、組織の意思決定能力が高まり、変革へと踏み出しやすくなる。
栗原先生が社長に就任したのは、売上は伸びているが、利益率が低下する「長期低収益期」であり、さらに就任直後にはリーマンショックが襲った。通常なら「運が悪い」と捉えがちな状況を、栗原先生は「むしろ運がよい」と思ったという。その背後のメカニズムうは、この慣性である。会社が危機的な状況に直面すると、現状維持のバイアスは弱くなり、改革を進めやすくなるのである。
つまり「平時には難しい改革も、危機下だからこそ実現できた」のである。このことは、栗原先生の「災禍は変革の源泉」という言葉を体現している。危機の中でこそ人も組織も真価を発揮し、守るべきものを明確に意識しながら、大胆に変化を受け入れることができる。そこにこそ、持続的な成長を可能にするリーダーシップの本質がある。
|講義後の記念写真
債券モデル 1.利回りとイールドカーブ
2024/3/10 大切なことは何度でも言い続けるという。単語の使用頻度は、テキストの意味を理解する上での重要な情報である。単語出現頻度の集計は、基本的で単純であるが、広く使われる有用な手法である。
単語出現のカウントには2つの方法がある。1つは、文書内で対象単語の出現回数をカウントする。出現頻度の高い単語は重要な単語であり、文書の意味に重要な影響を与える。もう1つは、文書内で対象単語の出現の有無をカウントする方法である。この有無のカウントは、文書内の単語の多様性や文書間の類似度比較などに使われる。
頻度分析から、それぞれの単語の使用頻度が分かる。この使用頻度から、テキストの主なテーマやキーワードを推定することが可能である。短く、構造が簡単な文書なら、出現頻度の高い単語から文書全体の意味を推定することができる。
例えば、製品レビューや顧客フィードバックのような簡単な文章に対して、頻度分析だけでもその意味を推定できる。使いやすい、よい、素晴らしい、また購入したい等のポジティブな単語の頻度と、よくない、故障、不愉快、二度と買わない等のネガティブな単語の頻度から、文書の意味が分かる。また、ECサイトの口コミに対して、安い、格好いい、高級感、便利、友人に見せたい等の単語の頻度をカウントするだけで、口コミの意味が推測できる上、顧客が何に価値を感じるのかも推測できる。Google Trendsやソーシャルメディアの検索ワード、学術研究や市場調査におけるキーワード分析も頻度分析の応用である。(研究室張航氏論文参照)
神田山、神田川と駿河台
徳川家康が江戸に幕府を開いた頃、現在の東京駅周辺、日本橋、有楽町、銀座一帯は、陸地ではなく、「日比谷入り江」と呼ばれる入り江の一部でした。この一帯は海面よりも低い湿地帯でした。下の地図では、黄色の横線で示された部分が砂州・砂堆、水色斜線部分が氾濫原低地、青色斜線部分が水域を表しています。現在の東京の中心部の大半は、当時、ほとんど水面下にありました。
江戸の開発のため、幕府は大規模な埋め立て工事を行いました。
|日比谷入り江の地図 三井住友トラスト不動産HPより
この埋め立てに使用された土石は、江戸城築城で出た残土の他、神田山から切り出されました。神田山は現在の本郷・湯島台や駿河台一帯にある丘陵地で、今の明治大学駿河台キャンパスから東京大学本郷キャンパスにかけて広がる高台であり、頂上は現在のJR御茶ノ水駅付近に位置していました。あの山の上ホテルの山の上は、神田山を意味していました。
重機などはなく、人力によって行われたこの大工事、削り取られた神田山の土石は、今の日比谷、銀座や日本橋一帯の基礎になったのです。日比谷濠や馬場先濠は日比谷入江の名残ということですから、丸之内も埋め立てたのですね。
入り江の埋め立てによって江戸湾への水路が変化し、洪水が頻発するようになりました。幕府は今度、水路の整備に着手し、神田川の新水路開削工事が行われました。
神田川の新水路は、今の本郷・湯島台と駿河台の間を横断する形で掘削された人工の川です。この工事によって、それまでひと続きだった台地は分断され、駿河台が形成されました。御茶ノ水橋に立って、明治大学側は駿河台、東京科学大学側は湯島台、ということになります。橋から神田川を見下ろすと、工事のスケールと地形の変化を実感できます。
|お茶の水橋から神田川を見下ろす
中国の古典に『愚公、山を移す』という故事がありますが、この江戸の土木事業は、まさにそれを地で行った壮大な実話です。