2011年3月11日金曜日

Google Facebook

「Googleは情報を追跡し、Facebookは情報を共有している」。フェイスブックのCEO、マーク・ザッカーバーグは、『フェイスブック若き天才の野望』の著者デビット・カークパトリックに対してこう説明している(同書 pp.472-473)。Googleは検索エンジン、Facebookはソーシャルネットワークという異なるビジネスモデルによって、インターネット上での情報流通を担っている。Googleは全世界数十億人、Facebookは6億人の巨大ユーザーを相手にしており、これら2サービスはよく比較される。しかし、両者の違いや共通点はいまひとつ明確ではない。これらの本当の違いは何なのか、技術的な観点から探ってみよう。

情報をクロールするGoogleとボトムアップのFacebook

 ザッカーバーグが語っているように、両者の違いのひとつは「情報の集め方」である。Googleはクローラと呼ばれるプログラムがウェブ上のすべてのサイトをくまなく這い回って(クロールして)ページを集めてくる。これに対してFacebookはユーザーがFacebookのサイトに情報を入力する。サービス側が自分から集めに行くか、登録してもらうか、サービス側が能動的に動くか、受動的であるかの単純な違いにも思えるが、技術的には大きな違いがある。

 Facebookの場合、入力者の国籍はわかり、何語を使っているのかも正確にわかる。ユーザーが自分の意思で情報を登録し、情報の公開・非公開も自分で決めるので、Facebook側はその指示に合わせて情報を扱える。

 一方のGoogleは見に行ったページがはたして何語で書かれているのかさえ、クローラは完璧に識別できるとは限らない。またWeb上には、ページのコピーがあふれているので、同じ内容のページを集めても情報が増えるわけでない。できるだけ違うページの情報を集める必要がある。さらにはサーバーの負担も見極めないと、何度もページの収集に行って他の利用者の迷惑になることもある。

 そして何よりも扱いが難しいのは、サイトの制作者が一般への情報公開を望んでいないページもあるということである。仲間内だけに公開しているつもりのサイトも多い。これらのページまでも集めてよいのか。収集に対して判断に迷うことがクローラには多い。正解が決めづらいなかで、法則性を見出して対処しているのがクローリング技術であり、長年の運用を通して得た知識の蓄積によってWebページのパターンを見出している。
 集めた情報を蓄積していくだけでなく、取り出すときのことも考えて情報を整理しておかなくてはならない。情報は取り出すことができてはじめて価値を持つ。Googleであれば、検索窓に入力されたキーワードに対して、該当するWebページを選び出すことになるし、Facebookであれば、たとえば趣味の欄に自由に書き込まれた言葉に対して、関連する情報を見つけ出して提供することになる。

 「キーワード」や「言葉」というと、何やら単語レベルで引き出せる形に情報を整理している印象があるが、Googleをはじめ検索エンジンは、言葉の意味を解釈しているのではない。Webページのすべての文字の羅列を1文字も漏らさず蓄積し、その中から求める言葉と合致する部分を探し出している。蓄積した文字情報は索引としてまとめるが、それはいわゆる本の巻末についているキーワードだけを抜き出した索引とは異なり、それこそWebページの文字情報を1 文字も漏らさず収集してまとめた「特別な索引」である。

 この「特別な索引」は、数百億のWebページの文字情報をすべて収めて、そこから瞬時に入力されたキーワードと合致する部分を探し出すのである。これが「全文検索」と呼ばれる技術である。全文検索であれば、今まで存在しなかったような新しい製品が発売されても、造語が生まれても、システムに手を加えることなくそのまま対応できる。我々は、日常生活の中で言葉を縮めてしゃべったり、言葉と言葉をくっつけて話したり、といったことをごく普通にしている。そうした辞書にもない言葉も見つけ出せるのは、全文検索によるところが大きい。

 全文検索は言葉の意味には踏み込まない範囲で文書を処理する。これに対して個々の言葉や利用者のつながりを利用して潜在的な意味を探り当てようとする技術も活発に使われている。GoogleもFacebookも同じように両方の技術を取り入れている。

 もうひとつ重要なのはどこまで情報をすばやく返せるかである。数百億のWebページなり、6億人のユーザー情報なりは、それこそ膨大なデータ量になる。映画『ソーシャル・ネットワーク』の中でザッカーバーグが、資金供給が受けられないとサーバーがダウンし、信頼が地に落ちて利用者に見限られる、と激高してどなりたてるシーンある。単位時間に処理できる件数を増やしつつ、一方でサーバー効率化のためにコンパクトな索引にする。サービス運営者にとって重要な課題であり、コンピュータの発展とともに技術革新が進んで来た分野であり、この点もGoogle、Facebookの両者で共通しているといえる。

ITproからの引用
Google Facebook すっかり、キーワードになってるな。素通り出来ない!!

0 件のコメント:

コメントを投稿