閉じる


 





悲しいことに、最近では無意味な情報というものがすっかり影をひそめてしまった。
――オスカー・ワイルド


1
最終更新日 : 2011-11-11 23:02:12

はじめに

 2009年7月。ミニブログという新たな世界を拓いたツイッター(Twitter)社から社内文書が流出し、複数のメディアに送られるという事件が発生した。その際に公開された文書の中には、次のようなビジョンが掲げられていた。

 10億人のユーザーがいれば、ツイッターは地球の鼓動になる。

 この言葉を聞いて、「何を大それたことを」と感じた人は少なくないだろう。
 確かにユーザー数が10億人にまで達すれば、ビジネス的には無視出来ない存在になる。しかしツイッター上で交わされているメッセージといえば、今日のお昼や晩ご飯の話、今から観ようとしている映画や、買ったばかりの服の話など、他愛もないものばかりだ。それが地球の鼓動を目指すなど、馬鹿げた話にも程がある――
 それから2年。残念ながらツイッターのアクティブユーザー数は1億人にとどまっているが、ユーザー数8億人を誇るフェイスブック(Facebook)など、ソーシャルメディア全体で見れば「10億」という数字も荒唐無稽なものではなくなった。その結果、何が起きているだろうか?
 2010年10月、米国で驚くべき研究論文が発表された。インディアナ大学のヨハン・ボーレン准教授らによると、ツイッター上の書き込み(ツイート)を分析して予測システムに組み込むことで、将来の株価を86.7パーセントの精度で予想することができるというのである。
 彼らは2008年2月から12月までの期間、270万人のユーザーによって投稿された980万件のツイートを収集し、さらにその中から感情を吐露しているものを抽出して分析を行った。その結果、「平穏」の感情を示す尺度が3~4日後のダウ・ジョーンズ工業株価平均の動きと近いことを発見し、株価データから株式市場予測を行う機械学習アルゴリズムに組み込んだところ、先に述べた精度を達成することに成功した。
 研究の発表後、ボーレン准教授のもとに問い合わせが殺到。実際にツイッター等のソーシャルメディアの動きを株価予測に役立てるヘッジファンドまで登場している。
 いまや予測されようとしているのは株価に留まらない。映画の興行成績や選挙での投票行動、さらに国民の健康状況に至るまで、様々な分野でツイート分析を行おうという動きが出ている。確かにソーシャルメディア上には、今夜食べたラーメンの話など、一見すると無意味なデータが少なくない。しかし無数のデータを集め、その全体像を捉えることによって、まさしく「地球の鼓動」が見出されようとしているのである。

 これまでには取り扱うのが困難だった、非常に大容量のデータを分析し、その中に隠されている「情報」を見出す――それが「ビッグデータ(Big Data)」の発想だ。IT関係者の間では数年前から使われるようになっていた言葉だが、2011年10月に米ガートナーが発表した「2012年の戦略的テクノロジー(これから企業に大きな影響を与える可能性を持つ技術)トップ10」にも含められるなど、ビジネス界からも急速に注目される存在になってきている。
 また2011年8月には、HP社がエンタープライズ検索技術などを提供するオートノミー社を103億ドルで買収。同じく10月には、オラクル社がビジネス・インテリジェンス用ソフトを提供するエンデカ社を7.5億ドル(推定)で買収するなど、ビッグデータに関連する企業買収の動きも活発になってきているところだ。
 確かに今までにない情報を手に出来るのであれば、企業がこぞって取り組もうとしているのも当然だろう。しかし隠されていた事実が明らかになるということは、個人にとって好ましい事態だけを生むとは限らない。また新しい仕組みに対応することを通じて、個人の生活から社会全体に至るまで、様々な側面が姿を変えて行くことも考えられる。
 ビッグデータを扱うことで、どのような情報が手に入るようになり、そこからどのような行動が取れるようになるのだろうか。またどのようなリスクが生まれ、私たちはどう対処して行くべきなのだろうか。いま到来しつつある「ビッグデータ社会」の可能性を概観してみることにしよう。


2
最終更新日 : 2011-11-08 20:11:08

ビッグデータの3要素

 データを集め、分析し、隠されていた情報を得る。それは何も、最近になって始められた手法ではない。例えばストーンヘンジやピラミッドなど、世界各地に残る紀元前数千年前の遺跡から、古代人が天体の運行に関する正確な情報を有していたことが分かっている。彼らは何十年も辛抱強く天体観測を行い、わずかなデータを蓄積して分析することで、こうした知識を手に入れていたのだろう。
 さらにギリシャ・アンティキティラ島の沖からは、紀元前150から100年前に制作されたと考えられる「天体運行を計算するための機械」まで発見されている。データを集め、利用可能にするという行為には人類と同じくらいの歴史があるのだ。
 ではなぜ今、「ビッグデータ」という新しい言葉が登場してきたのか。そこには3つの要素が存在している。
 最初の要素は、「ビッグ」という単語が示す通り「データ量の増加」である。米調査会社のIDCは、2010年から15年にかけてのわずか5年間で、世界全体のデジタルデータ総量が約1.2ゼタバイトから約7.9ゼタバイトへと6倍以上に増加すると予測している*1 。1ゼタバイトは地球上にある砂浜の砂粒の数と言われていることを考えれば、これがいかに膨大な量か分かるだろう。
 こうした状況を背景に、企業によって扱われるデータ量も飛躍的に増加している。例えばグーグルが処理するデータ量は毎時約1ペタバイト(100万ギガバイト)と言われており、またデータウェアハウスの提供を行っている米テラデータ社によれば、同社の顧客であるイーベイ社のデータウェアハウスは84ペタバイトにまで達している。
 2つめの要素は、データ形式の変化だ。同じくIDCの予測によれば、デジタルデータの中で非構造化データが占める割合は、将来的に9割以上になるとされている。非構造化データとは、ブログ等への書き込みや画像・映像など、従来型のデータベースには格納できないデータのこと。単にデータの容量が増えるだけでなく、その種類も多様化するわけだ。
 そして3つめの要素が、処理速度の圧倒的な向上である。
 大容量データの処理はこれまでも取り組まれてきたのだが、通常はバッチ処理で、長い時間をかけて処理されてきた。しかし技術革新により、従来は考えられなかったほどの短時間で処理を完了することが可能になってきている。さらにリアルタイムで分析結果を返す、という事例も珍しくない。
 こうした3つの要素が含まれていること――つまり非構造化データを含む大容量のデータを、高速で処理することが、従来のデータ分析と「ビッグデータ」の違いと言えるだろう。
 ただし現状を見ると、非構造化データが含まれていない、単なる大容量データの高速処理が「ビッグデータ」として紹介されている例も少なくない。またどの程度のデータ量が処理されれば「ビッグ」データなのかは、今後の技術革新によって変化して行くことが予想される。定義があいまいになるのは新しい技術の常であり、ユーザーには個々の事例を注視する姿勢が求められるだろう。

3
最終更新日 : 2011-11-11 23:08:46

データ爆発を支える技術

 ビッグデータを最も身近に感じる瞬間。多くの人にとって、それはiPodなどのデジタルオーディオ端末で音楽を持ち歩くことかもしれない。「今日はどのテープ(あるいはCDやMD)を持って行こうか」などと悩んだのは遙か昔の話で、いまや数百曲、数千曲という単位で好きな音楽を持ち歩くことができる。しかも端末を購入するのに必要なお金も、数千円程度で十分だ。
 米マッキンゼー社の計算によれば、いま世界中にある音楽をデジタルデータで保存しようとした場合、必要な記憶媒体にかかるコストはたったの600ドルである。また1ギガバイトを保存するのに必要なコストは、2005年の時点では約19ドルだったのに対し、2015年には約0.7ドルと30分の1近くに下落すると予測されている 。*2こうした技術革新を背景に、一般の個人や企業でも膨大なデジタルデータを保有することが可能になっており、ビッグデータというコンセプトを促す一因となっている。
 ただ大量のデータを持っていても、分析できなければ意味が無い。そしていくらハードウェアの性能が上がっているからといって、単体のマシンだけで処理できるデータ量には限界がある。そこで近年、複数のマシンに分けて処理を実行する「分散並列コンピューティング」が追求されるようになってきており、関連技術が次々に実用化されている。
 その代表例が、マップリデュース(MapReduce)やハドゥープ(Hadoop)と呼ばれる大規模分散処理のフレームワークだ。ハドゥープはオープンソースとして公開されており、アマゾンやフェイスブック、楽天などの大手企業で採用され、既に多くのユーザーが恩恵を受けている。また分散データベースのHBase、分散ファイルシステムのGFS(Google File System)、オープンソースの統計解析向けプログラミング言語「R」など、関連技術が続々と登場している状況である。
 また間接的にビッグデータを支えている技術として、クラウドコンピューティングの登場も無視できない。
 いくらデータの保存、処理に革新的な技術が生まれているといっても、ある程度のハードウェアが必要な状況には変わりがない。今後ビッグデータに継続的に力を入れて行くという覚悟を決めた大企業ならば話は別だが、一般企業でいきなりサーバやストレージを買うと決断するのは難しいだろう。またビッグデータ関連技術はまだ登場して間もなく、十分なスキルを持った技術者が確保できない恐れもある。
 しかしクラウドを利用すれば、誰でも必要な処理能力を必要な時に、必要な分だけ手に入れることができる。例えば米ニューヨークタイムズ紙は、1851年から1922年までの同紙のアーカイブ、40万ファイル以上のイメージ画像をPDFファイル化するために、米アマゾン社のクラウドサービス「Amazon EC2」を利用。仮想マシン100台分の処理能力をレンタルし、わずか24時間でタスクを完了させることができたそうである 。*3
 クラウドコンピューティングを提供する企業の側でも、ビッグデータ関連サービスを需要喚起の施策として捉えるようになってきている。クラウドとビッグデータが同じ文脈で語られることも多くなって行くだろう。

4
最終更新日 : 2011-11-11 23:08:59

ソーシャルメディアとスマートフォンの定着

 浴槽を用意すれば自然に湯でいっぱいになるわけではないように、サーバとストレージを用意すればどこからか膨大なデータがやってくるわけではない。そこにはデータの源泉が必要になるが、ビッグデータにおいて期待されている源の1つがソーシャルメディアである。
 冒頭で紹介したように、いまや主要なソーシャルメディアの利用者数は数億人という単位に達している。そして「誰かとコミュニケーションしたい」という人間の根本的な欲求が刺激されることで、ソーシャルメディア上では加速度的にデータが増えている状況だ。
 かつてフェイスブックでデータ分析チームを指揮し、現在は米クラウデラ社の主任研究員を務めるジェフ・ハマーバッカーは、フェイスブックの「ウォール」(個人ページ上の掲示板的機能)に対する書き込み量が、ブログ全体の10倍にも達すると推定されると語っている*4 。またユーチューブ上には、1分間に約24時間分の長さの映像がアップロードされているそうだ。前述したIDCの予測でも、将来的に全デジタルデータの75パーセントが個人によって生成されると考えられており、「個人」がデータの源泉として最も重要な存在になってゆくことだろう。
 さらにソーシャルメディア上に寄せられているのは、テキストデータばかりではない。スマートフォンの普及により、従来は難しかった種類のデータまで手軽に扱われるようになってきている。
 日本では「携帯電話で写真を撮影・共有する」という発想は以前からお馴染みのものだったが、海外でもスマートフォンの登場によって定着しつつある。写真共有サイトのフリッカーでは、アップロードされた写真の撮影に使われた機種を集計、グラフで公開しているのだが、2008年にはアップルのアイフォーンが1位の座を獲得した。またグーグルが開設したソーシャルメディア「Google+」のアンドロイド携帯電話向けアプリには、撮影した画像・映像を自動的にピカサ(グーグルの写真共有サービス)に送信する「インスタントアップロード」機能が設けられているが、今後はこうした「撮影して即ウェブ公開」という行動もスマートフォンによって加速されて行くことだろう。
 またGPSを通じて得られる位置情報も、スマートフォンによって取り扱いが容易になったデータの1つだ。位置情報系サービス(あるいは既存ウェブサービス内の位置情報系機能)の利用は急速に一般化しつつあり、ソーシャルメディア上に新たなデータをもたらす要因となっている。そのほか音声や振動、端末の向きなど、様々なデータがスマートフォンを通じて取得・集約されるようになってきている。

5
最終更新日 : 2011-11-11 23:10:00


読者登録

akihitokさんの更新情報・新作情報をメールで受取りますか?(読者登録について