2016年5月10日火曜日

「統計の威力:情勢判断・意思決定の数学」(Newton|2013年12月号 特集記事)


統計は便利です。分析/解析の専門家であるデータサイエンティストは、「21世紀でもっともセクシーな職業」とも言われています。セクシーは便利なので、やはり統計は便利です。

kindleストアのキャンペーンで、Newtonの特集記事の抜き出しが99円で販売されていたので、タイトルに興味があったこともあり、うっかり買ってしまいました。「お金を払う」という行為を「ボタンを押す」という行為に置き換えたことで、人類は「お金を払うと、お金が減る」という感覚を失いつつあります。

記事の中では、「これを知りたいときは、こういう手法」といった具合に、統計解析のケーススタディが幾つか紹介されており、実践的で、勉強になりました。最も単純な事例は、「ビールを買う人は、セットで何を買う傾向があるか?」といったもの。買い物カゴになぞらえて、「バスケット分析」などと呼ぶ場合もあります。レジのデータ(POS;Point Of Sales)を集計することで簡単に分かり、「これとこれは一緒に買われやすいから、売り場を近づけておこう」といった判断を導くことができる、と説明されていました。

他にも、「10年後のワインはいくらになっているか?-相関分析・回帰分析」「広く深い湖に、(特定の)魚は何匹いるか?-捕獲再捕獲法」「生命保険の保険料はいくらにすべきか?-死亡率の推定・生命表」「あのパン屋は、パンの重さをごまかしているのではないか?-標準偏差と正規分布」「現在の政権は、どのくらい支持されているのか?-世論調査・ランダムサンプリング」など、実社会で用いられている方法が説明されており、イメージを浮かべながらふむふむと読めました。

特に、「未成年の飲酒率はどれぐらいか?」を調べる事例が、興味深かったです。普通に聞き取り調査をしたのでは、未成年のときに飲酒経験があっても、回答者は「ない」と嘘をつく傾向があるので、「コイン投げをして、コインが表だった人は"はい"と言い、コインが裏だった人のうち、未成年飲酒をしたことがある人も"はい"と言ってください」と聞くことで、正直なデータをとることが可能になります。この方法で100人に聞き、「はい」が70人だった場合、コインが表になる確率は50%なので50人は除外すると、残りの50人中20人が「未成年飲酒をしたことを意味する"はい"」であることが分かるので、未成年飲酒率は約40%、と推定することができる、という理屈です。しかしながら、匿名のアンケートか何かで聞けば早そうですし、「正確らしいデータを効率的に採集する」ことが統計の鍵だと思うので、これはおそらく悪い例です。

数字として、データとしての分析と理解は、端的には抽象化を意味します。あるドリアンと別のドリアンを、「2個のドリアン」としてまとめることは、個々のドリアンの個体差を無視します。未成年の飲酒経験をYESかNOかで聞くことは、どのような流れで飲酒に至り、どのような酒をどの程度摂取したのか、という事情を無視します。記事の中で、サンプリングについて、「スープの成分を調べるために適量をスプーンで掬うこと」といった比喩が書かれていました。人間の集団をスープに見立てることは、理解の効率を飛躍的に高めますが、個別具体的な状況や背景は棄却され、気を配るべき大切な要素を見落とすことになります。人間を理解することは、テイスティングとは違います。

しかしながら、記事の後半では、近年は自動的に多種多様大量のデータを収集・蓄積するシステムや高度な解析システムの登場により、いわゆる「ビックデータ」の時代となり、以前のように母集団からサンプルを抽出しての分析ではなく、全データを対象に分析をかけることが容易となった為、より正確な、精緻な分析結果を導出し、判断に用いることができるようになってきた、という話が出ていました。背景もプロセスも個別の事情も、すべてデータ化できる時代が近づいているのかもしれません。

最後に載っていた統計学の権威のインタビューでは、「数字がなければ世界は理解できないが、数字だけでも世界は理解できない」といった、警鐘の言葉がありました。僕自身、以前アルバイトで統計解析(マーケットリサーチ)をやっていましたが、個人的に大切だと思うのは、分析/解析によって導き出された結果をどのように解釈し、それをもとにどのような判断をするか、ということです。

例えば上述の「これとこれは一緒に買われやすい」という結果からは、「ということは、こういうものもセットで買ってもらえるのではないか?」という想像ができると思いますし、「売り場を近づける」という判断以外にも、「どうせセットで買ってもらえるから、わざと売り場を離して、間の道のりに関連する商品を並べておこう」という判断も可能なのではないでしょうか。データの収集や解析はコンピュータがやってくれますが、こうした想像と判断は、人間の能力が試される部分でしょう。

話は少しずれますが、記事を読んでいて、「サンプリングされたデータは、ドット絵に似てるかも」という発想が浮かびました。きめ細やかで実物そっくりのCGよりも、画素が荒くて色の少ない絵のほうが実は本質を描いている場合もありそうだな、と思う次第です。

以上。





0 件のコメント:

コメントを投稿