こんにちは。グラフィックファシリテーター®やまざきゆにこです。

野村総研 未来創発センターデータサイエンスラボ」さまの新しい取り組み NRI「データサイエンス用語」の解説動画(絵巻物)第5弾がYouTubeアップされました。今回は(2分で解説)「ベイズ統計」です。

ビル・ゲイツさんが「マイクロソフトの競争優位にたっているのはベイズ・テクノロジーのおかげ」と言ったことから、昔からあった「ベイズ統計」が一躍「ビジネスに活用できる」と注目されているそう。

(2分で解説)「ベイズ統計」NRIデータサイエンスラボ
https://www.youtube.com/watch?v=GVh7kUQYgRc

ベイズ統計のもとになっている「ベイズの定理」をビジネスに活用している事例としてよく紹介されるのが、迷惑メールフィルタリング、ということで動画もそれで解説することにしました。

【動画を見る前に、さて問題です】
メールの本文中に「無料」という表記があったら、あなたなら「それが迷惑メールかどうか」どう判断する
ちなみに「迷惑メールに識別されたメールの中で「無料」という表記が出現する割合:30%」「すべてのメールの中で「無料」という表記が出現する割合:10%」「全メールの中で、迷惑メールが占める割合は20%」と仮定する。わかりやすくするために、全体のメールの数を100通として計算してみてみると…?

ベイズ統計の特長は2つ

「データの見方を変えて」要因を正しく評価する:動画の中では「ベン図」を使って説明しています。データシロウトのわたしなら安直に「迷惑メールフィル―に登録する単語として『無料』という言葉は入れないほうがいいんだろうな」なんて判断しちゃうところです。でも「ベン図」で見ると分かりやすいのですが、迷惑メール側から見ると「迷惑メールのうち無料表記がある割合は30%」でも、同じデータでも見方を変えて、無料表記あり側から見ると「無料表記があるメールのうち迷惑メールである割合は60%」となる…。「正しく評価する」となると実際は「このメールは迷惑メールなのかどうか」を判断する材料は「無料」という単語だけでなく「キャンペーン」とか「プレゼント」とか「凍結」とか「振り込み」とか、、、どんどん複雑になるので、ベン図では複雑すぎて、だからこそ機械学習の力を借りながらベイズの定理には公式があるわけですが、この公式が生きてくるってワケですね。

ちなみに、迷惑メール以外の例でよくあるのは「人間ドッグで陽性判定が出たからといって必ずしも病気じゃないよね」「無作為にPCR検査しても意味ないよね」みたいな話も、データを使って(こんなベン図で)説明されているわけですね。

新しいデータの取り込みに対する「柔軟性」:サンプルデータが少なくても比較的正しい確率を出せるよ、サンプルデータが増えれば自分で修正してさらに精度を挙げていく。…とのことなのですが統計シロウトのわたしとしては「今の時代それって当たり前じゃないんですか?」「昔ながらの統計学では許されない。データが増えるたびにゼロから分析する必要がある」のだそう。昔からあったベイズ統計学が、今の時代の機械学習にハマって再注目され始めたのだそう。「ベイズさん、まさか今こんなに注目されてるとは思わないだろうなー」と思わず、ベイズさんがいつの時代に生きていた方なのかわざわざ調べてしまいました。(動画にわざわざ書いてます)ただ、サンプルデータがある程度集まってしまえば、これまでの統計学でも出来ちゃうことだから、②だけがフォーカスされやすいけど②はそんなにスゴイことではないのだそう。確かに。

【ここだけの話】

「ベイズ統計学」は「因果推論」ほどホットではないそうですが、すでに「ベイズ」もネット上だけでもいろんな見方・意見が交わされていて、、、かなりの混乱状態?!ベイズ推計とかベイズ推論と呼んでいる人もいたり、②の部分だけをベイズの定理と言ったり、数式にわざわざしなくてもベン図で充分じゃないの、などなど、、、そこに一石を投じるのが今回のNRIさんの「ベイズ統計」解説になるのでは。

「ベイズ統計」用語解説ページはこちら。
https://www.nri.com/jp/knowledge/glossary/lst?syllable=ta

ぜひチャンネル登録してください。次回、第6弾は「コンテキストマッチング広告」です♪

YouTube公式チャンネル NRIデータサイエンスラボ
https://www.youtube.com/channel/UCpy_3_wYutf5u0U4DdOziGQ