大量のデータをただ眺めたって専門家は超えられないよね。そこには専門家の知見が必ず必要になる。 #datamaining #statics
グーグル、世界中 のショッピングデータから独自の景気動向指数を算出。カルビーは降雨量や気温からジャガイモの品質を算出。「これがデータの威力」 - Publickey![]()
講演のはじめに中田氏は1つの数式を示しました。
12.145+0.00117×冬の降雨量+0.0614×育成期平均気温+0.00386×収穫期降雨量
この数式は、ワインの品質を表す「アッシェンフェルターのワイン方程式」と呼ばれる数式なのだそうです。
アッシェンフェルターというのは統計学者の名前で、ワインの品質を冬の降雨量、育成期平均気温、収穫期降雨量という3つのファクターで 表すこの方程式にたどり着くまで、さまざまなデータを分析したとのこと。
「この数式を用いることで、ワインの専門家ではなくともデータさえあればだれでもワインの品質を示すことができるようになる」と中田氏 は説明。「しかもワインの専門家は品質を調べるのにワインを仕込んでから3カ月くらい時間かかるが、この数式なら収穫時に品質が分か る」。
そして、カルビーでもポテトチップスなどの原料となるジャガイモの品質を、同じように数式で導いているのだそうです。
「これがデータの威力。データを適切に使うと専門家を超えられる」(中田氏)
「データを適切に使うと専門家を超えられる」ってのは端的に言えばウソだと思う。もう少し穏当に言えば「データを適切に使う」って言葉の意 味を隠していると思う。
データを使いこなせるのは「専門家」あるいは公式や定理と して再利用可能な状態にした「専門家の知見」を利用できる人のいずれかだよね。どちらもないのにデータを「使いこなす」コトなんてできやしな い。
中田氏が話の枕に引いた「ワインの出来栄えの予測」に関しては、 ある分野の専門家の知見を、異分野の専門家がリバースエンジニアリングして公式にしたものだと思う。
とはいえ、それを自動化し、機械化することで能率も効率も飛躍的に向上する。質的な変化を伴うほどの量的変化が起きる。その意味で読み直せ ばやっぱり「専門家を超え」ることが可能で「データの威力」を思い知るんだ。