ビッグデータと A I

A I ( Artificial Intelligence ) =人工知能に関するシリーズエントリの 5回目です。

第一回: A I (人工知能) <冬の時代を超えて>
第二回: A I 開発 <新しい主役の登場>
第三回: A I のある生活 <イメージ編>
第四回: A I は怖い?

昨年あたりから大ブームの「ビッグデータ」 

ちょっと前までデータマイニングと呼ばれてたものと同じなのか、違うとしたら何が違うのかもわかってない私ですが、今回の本を読んで、ビッグデータと A I の関係がうっすら理解できました。


企業がいろんなデータを集め始めたのは、もうずいぶん前のことです。Suicaなど交通系電子マネーは誰がいつどこからどこに移動したかすべて記録してるし、コンビニの POSデータは誰が(性別とだいたいの年齢)いつどこで何を買ったかをすべて記録してる。

特にコンビニ POSのデータは Suicaとは異なり、最初から分析することを前提に収集されてます。( Suicaの場合はきっぷレス化に伴うコスト削減や効率化が目的で導入され、副産物としてデータが蓄積されました)

実際にコンビニ各社はずっと前から POSデータを分析することで、商品開発から棚割り、ひいては(ナチュラルローソンなど)新たな業態開発にも活用してきたはず。こういうのと、今のビッグデータ(ブーム)は何が違うのでしょう?


ひとつは、情報が構造化されたものだけではなくなってきた、ってことです。


最初から分析目的があって収集されたデータは、性別、年齢、買った商品、時刻・・・といったふうに、あらかじめ決められた特定項目について整然と情報が集められます。なので収集された後、そのままデータベースソフトに格納できます。

しかし、あらたに蓄積(注目)されるようになったデータは構造化されていません。たとえばツイッターの書き込み。世界全体で膨大な数に上る「人々が今、関心をもっているらしいこと」の情報には特定の型式はなく、みーんな好き勝手なことを好き勝手なスタイルで呟いています。

グーグルは世界中のウェブサイトを回覧してなんだかんだ分析してるんだと思いますが、回覧先のサイトにも種々多様なものが混在していて、掲載コンテンツを丸ごと収集しても、POSデータをデータベースに格納するときのようなやり方で情報整理するのは不可能です。

町中に設置されている監視カメラも同じです。24時間、定点で録画された映像データは、なんでもかんでも(そのカメラの撮影範囲のものを)含んでおり、人から動物から犯罪行為から災害から気象異常まで、あらゆるものを記録しています。


データが最初から構造化されて収集されていたら、その分析は人間が担当できます。項目ごとに平均や分布をとったり、項目間の相関を見たり、時系列の変化を調べたり・・・データの分析方法はそれなりに確立しています。

でも、ツイッターの呟きデータをぜーんぶ渡されて「はい、分析して!」って言われたら、大半の人はお手上げになります。ひとつにはデータが膨大すぎること。もうひとつは、データが構造化されていないので、何をどう分析すればいいのか、そこを考えるのにものすごく時間がかかるからです。


人間がデータを分析するには、仮説を立てるという行為が必要になります。仮説をたてて、それを検証するためにデータを加工するのが、分析の王道です。構造化されたデータは、この仮説に基づいて収集されています。

たとえば、コンビニ各社は「性別と年齢によって、好きな弁当が違うだろう」という仮説のもとに、性別や年齢データをレジに入力してるわけです。

しかし、最初に仮説を立てるためには、その分野に関するなんらかの知識が必要です。「きっとこういうことが起こっているはず」「それがわかれば利益率改善に役に立つはず」という土地勘があって初めて、(まともな)仮説を思いつくわけで、何も知らずに仮説を立てろとか言われても困ります。

東京中の監視カメラのデータをすべて渡されて、「なんか意味のある分析をして」とか、「分析してあげるから、検証したい仮説を教えて」とか言われも、すぐにまともな=検証されたら意味のある仮説を思いつくのは至難の業です。


つまり、フリースタイルの膨大なデータでは、今までの構造化された限定的な量のデータとは異なり、分析して意味のある結論を導き出すことがとても難しいんです。

・・・人間ではね・・・


ってどういう意味?


それは・・「人間では難しいけど、 A I だったらできるかも?」ってことです。


各企業のマーケティング担当やソーシャル担当の“人”が、何も知らない社長から、「フェースブックやツイッターの情報を分析して我が社の商品の売り上げを上げろ!」と言われても手に負えませんよね。

でも、グーグル様の A I や、フェースブック様の A I なら、疲れることなく 24時間、365日 稼働しながら、膨大なデータを全方向から分析しまくり、「世の中にはこんな傾向があります!」みたいなことを(発表するかしないかは別として)あらゆる角度から抽出してくるわけです。


私たち人間は、「東京が日本の首都である」ことを、知識として学ぶしかありませんが、グーグルの A I は「東京は日本の首都らしい」と、膨大なデータを分析している過程で、自ら学びます。

きっと「きゃりーぱみゅぱみゅは、日本の歌手の名前らしい」ってことも、データ分析の結果、学んでいるはず。そうやって新たに出現した概念について、自分でその意味を獲得しながら分析を続けているわけです。


人間は「自分の専門分野をいくつか決め、その分野に関する知識や経験を学び」、「それに基づいて仮説をたて、それを検証するためにデータを分析」しますが、A I はデータの分析を通してあらゆる分野の(=特定の分野に限定せず)新知識をどんどん獲得し、その知識を分野横断的に使った分析をする。

たとえば(完全な例ですが)「このタイプの香水が好きな人はマルゲリータピザが好きである」みたいな仮説を人間がたてることはほとんどないでしょうが、A I ならそういうのも見つけてくるかもってことです。


★★★


ここにきてグーグルもアップルもフェースブックもそしてマイクロソフトも、みんなしてネットユーザーの情報を獲得しようと必死になっている背景には、構造化されてない膨大なデータを単なる宝の山に終わらせず、それらを分析して役立たせるための A I が一定レベルまで発達してきたから、なんです。

もしくは、それらのごちゃごちゃデータを「宝の山」に変えるために、A I 開発にものすごい注力を始めた、と言うべきかもしれません。


アマゾンはよく「この本を読んでる人は、こういう本も読んでます」と言ってきます。あれが自分に合っているという人もいれば、「いつもお門違いの本ばかり勧められる。まったく機能していない」と思っている人もいるでしょう。

昔、アマゾンはあの機能を人間にやらせていました。分野ごとに本のキュレーターみたいな人を雇い、それらの人に「ビジネス書のお勧め本をピックアップさせ、ユーザーに画面上で勧める」という部隊を社内に抱えていたわけです。

でもある時点で、ジェフ・ベゾスはそれらの部隊を解散してしまいます。


データ分析の結果に基づいてコンピュータに( A I に)お勧め本を決めさせ、表示させたほうが関連本の売上が高いと証明されたからです。

一人一人のユーザーは今でも「 A I は俺の好みの本を推薦できていない」と感じているかもしれないけど、全体としては「人間は完全に不要」と判断できる程度にまで、コンピュータの分析は実績を上げているのです。

グーグルの広告も、今は余りにストレート過ぎ、あざとく見えますが、あれだって人間がいちいち「どこのサイトにどんな広告を出すべきか」と、情報を分析して判断するより、全体としてはよほど効果が上がっているんじゃないでしょうか。


★★★


先に書いたように今の A I は、人間が何かを教えているのではなく、膨大なデータから自分で学びを得ているため(機械学習とかディープラーニングと呼ばれるもの)、高性能な A I 開発のためには、できるだけ多様なデータを(しかも日々新たに)収集することが何より重要になっています。

だから、グーグルは PCポータルの地位を死守しようとするし、フェースブックは全力でその地位を奪いに行こうとするし、アップルはモバイル分野のゲートウェイを確保するため、メッチャ強引なことまでする。

「ユーザーが最初に見るページ」がすべての情報を獲得できるだけでなく、その情報がないと自社の A I が賢くならない。それが情報を制せないことの問題なのです。


「構造化されたデータを、特定分野の知識や経験をもつ人が仮説をたてて分析する」という、人間のやり方では不可能だったことが可能になり、これからは、人間の思考では思いもつかないようなあっと驚く法則性やトレンドが明らかにされるのかも。

まさに「機械が人間を超える日」が、そこまで来ていると思わされます。


そんじゃーね



このシリーズエントリは、下記の本から情報と着想を得て書いている感想文エントリです。

<キンドルなら500円未満、新書も千円未満です>

クラウドからAIへ
クラウドからAIへ
posted with amazlet at 14.04.11
朝日新聞出版 (2013-07-18)
売り上げランキング: 2,463
→ 新書版(紙の本)はこちら (朝日新書)
→ ★楽天ブックスはこちら★