検索
ニュース

絶えず改善し続けるeBay、十数ペタバイトの「Big Data」も分析Teradata PARTNERS 2010 Report(2/2 ページ)

「Teradata PARTNERS 2010」で現地時間の10月26日午前、ユーザー事例講演の目玉ともいえるeBayが登場した。地球規模のインターネットオークションサイトでは「分析がDNA」であり、TeradataやHadoopを組み合わせ、十数ペタバイトの「Big Data」も活用している。

PC用表示 関連情報
Share
Tweet
LINE
Hatena
前のページへ |       

Hadoopも連携、「データは1バイトも捨ててはいけない」


3種類のデータベース技術を目的に応じて組み合わせ、WebログのようなBig Dataも活用している(クリックで拡大)

 「特異点」を意味するSingularityは、利用者の行動履歴をWebサーバが生成するログデータから把握し、購買履歴と掛け合わせながら、より高度な分析を行うeBayのプロジェクトコードネームだ。TeradataとeBayが共同開発したもので、2008年のPARTNERSでは「Extreme Data Appliance」として製品化もされている。少ないユーザーが大量のデータを分析する目的に適した比較的ローコストなTeradataデータウェアハウスであり、大容量のディスクを採用することで経済的に187ペタまでスケールさせることができる。

 Webログデータの分析には、先進的な企業がHadoopを使い始めているが、テーブルの複雑なジョインが難しい、負荷の管理ができない、データマートと同じでガバナンスが難しい、などの欠点がある。

 「Singularityは、ちょうどエンタープライズデータウェアハウスとHadoopの良いところを合わせたシステムを目指して開発した。もちろん、Hadoopは優れた技術であり、われわれもイメージの分類やパターン認識などに活用している。今後はTeradataとの双方向の連携も進み、利用は拡大していくだろう」とラッツェスバーガー氏は期待する。

 一般には、Webログは「非構造化データ」とされているが、ラッツェスバーガー氏はその呼び方を好まない。

 「わたしは“非構造化”という言葉は好きではない。どんなデータも何らかの構造を見つけ出し、情報として分析することができるからだ。財務的に許されるなら1バイト足りともデータは捨ててはいけない」(ラッツェスバーガー氏)

 ラッツェスバーガー氏はこうしたデータを「セミ・ストラクチャード」(半構造化)と呼び、磨けば輝くダイヤモンドの原石のように大切にする。Singularityに蓄積し、利用者の昨年の行動履歴と今年のそれを比較したり、購買履歴と掛け合わせて生かしている。

 「特効薬はない。どの技術にも一長一短があり、複数の技術を相互補完的に連携させることが重要だ。それにより行動履歴と購買履歴を組み合わせて分析でき、そこから素晴らしいインサイト(洞察)が得られるはずだ」とラッツェスバーガー氏は話す。

分析のための社内コミュニティーも

 「分析がDNA」というeBayにあっては、分析のための社内コミュニティーづくりも大切な取り組みだ。eBayの分析基盤ではテーブル総数が6万に上る。メタデータを幾ら整備しても、利用者は求めているものをなかなか見つけられない。

 ラッツェスバーガー氏は「harmony」と呼ぶ社内SNSを立ち上げ、利用者同士が互いに教え合ったり、優れた分析データをレコメンドできるようにした。マイページに自分の分析データを貼り付けることで、ディスカッションを通じて貴重なフィードバックを受けることもできる。

 「フォローしている社員が新しいアナリティクスを作成した、あるいは改良した、ということがすぐに分かる。レイティングしたり、レコメンドしたり、共有することで互いの知見を分かち合うことができる」とラッツェスバーガー氏は話す。

関連キーワード

eBay | Teradata | Apache Hadoop | Teradata PARTNERS


Copyright © ITmedia, Inc. All Rights Reserved.

前のページへ |       
ページトップに戻る