この世は擬似相関





擬似相関というのは、統計の中でもかなり面白い領域である。これを見抜く推理力こそ、社会的な統計解析の醍醐味の一つと言える。時系列的な変化のデータがある場合には、グレンジャー検定のように、どちらが先に起こって、その結果どちらに影響したのかを定量的に判断することが可能である。しかし、単に一回調査を行って得られたデータの場合には、データから表面的に読みとれる情報だけでは因果性は判別できないことが多い。

社会的統計の場合、ここで必要になるのがターゲットに対する「インサイト」である。地理勘とでもいおうか、ターゲットがどういう意識や行動を取る人たちなのかという造詣が深ければ、因果関係に関する仮説を構築することができる。大事なのはこの「仮説」を読み取れるかどうかである。この「読み」に対して検証を行い、統計的にその仮説の正しさが立証できれば、どちらが原因で結果か、数学的に証明できることになる。

昔はわざわざ大規模な調査を行わなくては分析のもとになるデータが得られなかったので、統計解析の知識も、ターゲットに対するインサイトもあるレベル以上の人だけがこういう分析を行っていた。しかし世の中のネットワーク化が進み、取引や検査・検定などのデータがビッグデータとしてネットワーク上に蓄積されるようになると、いろいろな場面・局面でそのデータを統計解析した結果に容易に触れられるようになった。

こうなると、社会的な統計解析に関するノウハウもターゲットに関するインサイトも持たない人が、単に好奇心からデータ解析の結果だけを読むようになる。昔から数学に弱い人が多かった記者やジャーナリストには、調査分析結果のデータを我田引水で読んで勝手な結論に結びつける人は多かった。それがビッグデータのせいで、一般のビジネスマンや果ては統計解析が苦手な文系研究者といった人達も、データに対し同様の勝手な解釈を行うようになった。

これで一番問題が起こるのが、疑似相関である。擬似相関と因果関係の違いが分かっていない人が、マスメディアやジャーナリスト関係には非常に多い。というより、新聞やテレビのニュースが調査データを引用するときには、ほとんど擬似相関と因果関係を混同した扱いになっていると言っていい。大体、個別事象の間で必要以上に相関が強すぎる時には、まずは擬似相関を疑うべきだ。統計がわかっている人なら間違いなくそう思うだろう。

しかし社会的な現象の場合には、生活者インサイトに土地勘のある人ならば、ちょっと考えれば真の原因が脳裏に浮かんでくるものだ。そうしたら、今度はそちらの「仮説原因」との間の関係性を統計的に分析してみるのが、本当のアナリストの仕事だ。今はいろいろなビッグデータが溢れているので、わざわざ調査しなくても仮説を立証するぐらいのデータならすぐに手に入る。勘の鋭い人なら(この「勘」がマーケッターに求められる最大の素養でもある)大体当たっているだろう。

というより、ほとんど最初に見つかるのは「疑似相関」の方である。もっというと、ベタなデータから読み取れるのは「疑似相関」の関係でしかないと言ってもいい。そこから先は「思考実験→仮説構築→検証」という人間の知的プロセスを経て初めて掘り起こすことができる領域だ。今風の言い方だと、元データを解析するところはAI任せで良く、その先の「見えない部分の推論」こそ人間の役割だ、とでもなろうか。

擬似相関にまず気が付き、そこから共通の原因を探ってゆくのが科学的な分析法である。そのための実験であり、調査なのだ。そこから一歩踏み込んで、真の要因にたどり着くことで、発明や発見が生まれることにも繋がる。科学的手法とはこういうプロセスを言う。そして、データの統計解析には科学的視点に基づいた科学的手法が不可欠なのだ。それができない人は思いつきで偉そうなことを言うのではない。天罰が当たるぞ。


(25/02/07)

(c)2025 FUJII Yoshihiko よろず表現屋


「Essay & Diary」にもどる


「Contents Index」にもどる


はじめにもどる