ビッグデータ





この2〜3年、「ビッグデータ」がバズワードになりブーム化している。これは何か革命的な新しいサービスが出てきたという話ではない。基本的には、取引のオンライン化により、全てのトランザクションがログとして残っているので、そこで行なわれたやり取りの全数・全件が把握可能になったということである。そこにあるデータは、現実そのもの。いわば、数値化・定量化したリアルな現実である。

この手のデータは、オンライン化とともにうまれたワケではない。現実の全てを定量化したデータは、やろうと思えばアナログの時代でも決して不可能ではない。良く引き合いに出すが、大英博物館の図書館に収められている、18・19世紀のポンド紙幣の台帳は、全ての紙幣について、その番号ごとに市中への発行日と回収日が、手書きの決まった書体で写経のように記録されている。

ファクトそのものは現実に起こっている以上、それをデータとして集めることは決して不可能ではないし、今までになかった新しいタイプのデータというワケではない。しかし今までのスキームでは、収集にも集計にも、あまりに手間とコストがかかるんで、おいそれと集められなかった、というのがもっとも正確な表現だろう。デジタル化の常ではあるが、新しかったりユニークだったりするのではなく、「安い・早い・ウマい」の「吉野家効果」である、

したがって、アナログ時代におけるビッグデータ的な全数調査データは、官庁の許認可や届出に関するものがほとんどであった。代表的なものとしては、基本的に全国民をカウントアップする「国勢調査」や、毎月発表される「登録車の型式別台数」といった調査データがあげられる。これらは、費用対効果を気にする必要がない役所だからこそ、調査・提供が可能であったということができる。そのくらい一件あたりのコストは法外である。

また、結果的に溜まってしまうものとしては、通信キャリアの顧客データなどが代表的だろう。呼び出し式で、交換手がまさに手でプラグ・ジャックを抜き差しして取り次いでいた超アナログの時代から、全トランザクションを把握し、料金に反映させていた。当然そのデータを記録しているわけである。そういう意味では、電力、ガスなどの社会インフラ系も同様である。これも、ビジネスの性質として、課金には全トランザクション把握が必須だから、たまたま溜まってしまったワケである。

一方、市場調査や社会調査においては、サンプリング調査が一般的であった。これは、単に全数把握がコスト的に難しいから仕方なくやっていた、ということではない。サンプリングにより母数を絞るからこそ、見えやすくなるファインディングスもあるし、母数が小さければ、シミュレーション的にトライ・アンド・エラーで分析を繰り返すことも可能になる。

母数が多くなると、全体の大きなトレンドと、個々のサンプル間の差異は捉えやすい。しかし、個々の差異が強調される分、中程度のトレンドは読みにくくなる。また、クラスタリングなどの分析は、データ量が大きくなると、極めてハンドリングしにくいし、出てきた結果もとても読みにくいものになりがちだ。それぞれの分析手法には、それに適したサンプル量というものがある。いくらコンピュータの性能が上ったからといって、闇雲にサンプルを増やせばいいというものではない。

昨今では、ビッグデータのデータ量が巨大になりすぎているにもかかわらず、力ワザでそれを全体を丸ごとぶん回してしまうような処理も多い。しかし、ここにはおとし穴がある。余りに巨大なデータを丸ごと分析すると、極めて当たり前の結果が、飛び抜けて強い影響力を示すようになるからだ。今に始まったことではないが、全量調査を分析すると、「大山鳴動して」な結果しか出てこないコトが多いことは、経験的によく知られている。

生理用品の売り上げを分析すれば、いの一番に出てくるのは、「男性は生理用品を買わない」という結果だろう。同様に「10代のワインの売り上げは極めて低い」とか、「エプソンのプリンタインクは、エプソンのプリンタ保有者が最も良く買う」とか、こんな結果ばかりが強調され、本来もっと知りたい、特異点のようなディテールは、中々浮かびあったこない。遠景で街を見ると、そこで行なわれている生活が見えなくなるようなものである。

ビッグデータが現実そのものを定量データ化したものである以上、こういう分析をスマートにこなすには、ビッグデータからデータをサンプリングし、それを分析したほうが、楽だし、勘も働くはずだ。それなら、パソコンでも容易に分析可能である。どうしても全数データを使いたいなら、そこから出てきたファインディングスを、全数で検証すれば、それでことたりる。ビッグデータをビッグなままで何とかしようというのは、何も活用しない以上に、宝の持ち腐れを招きかねないことを忘れてはならない。


(14/05/23)

(c)2014 FUJII Yoshihiko


「Essay & Diary」にもどる


「Contents Index」にもどる


はじめにもどる