2007年のネット界(1)Wikiasariについて語っておきたい(2/12追記)

2007年のネット界について1ヶ月考えたことを書いていきたい。初回は、wikipedia創始者であるJimmy Walesのwikiaがアマゾンからの資金提供を受けて、現在作成中と思われるwikiasariについて。

絶対王者としてのGoogle

wikiasariについて語る前に、検索エンジンとして最大のライバルであるGoogleについて軽く触れねばならない。Googleは10年単位で考えても絶対王者であることは間違いないだろう。短絡的すぎるかもしれないが、「時価総額10兆円の壁」というのはやはり大きい。10兆円を超える企業というのは恐らく、一つの産業では10年に1回しかない生まれないだろう。

何が言いたかったと言うと、梅田さんの受け売りをするつもりはないが、今後10年もGoogleがネット界、検索業界の中心であることは疑いようが無い。それを前提に考えれば、いかに「Googleがやらないこと/苦手なこと」をやるか、というのが競争戦略の基本であるということを前提として書いておきたい。

"high recall"なGoogleと"high precision"なwikiasari

さて、前置きが長くなったが、現在私の知る限り、wikiasariに関する情報はここなどかなり限定的ではっきり言ってどんなものなのかよく分からない。従って、ここから先は大分推測。

情報検索の研究をしている人ならよくご存じだと思うが、情報検索システムの評価をする場合の尺度として良く使われるのが、

  • 再現率:recall
  • 適合率(精度):precision

の2つである。詳細は、この辺(PDF)を見て頂きたい。

理想的な検索エンジンとしては、recallもprecisionも高い方が良い。ただ、現実はそう甘くは無いので、「recallもprecisionもそこそこに高い」検索エンジンしか作れない。特に、ウェブ空間を検索する場合、対象ページ数が数十億〜数百億もあるので、recallを上げるのが果てしなく困難だ。GoogleYSTは見事にこれを達成しているが、これは実は相当すごいこと。誤解を恐れずに言うと、GoogleYSTは世界中の全てのウェブページを集めているとすれば、彼らのアルゴリズムによって決定される検索結果は、recallが(1とは言えないまでも)とても大きいと言える。

他方、「GoogleYSTもprecisionは高くないじゃないか?」というのがWikiasariの最大の仮説であると私は予想している。検索におけるprecisionを「ユーザーが欲しい情報が見つかるか否か」で考えれば、確かにGoogleでもYSTでも上位数件に欲しい情報が無い場合もある。ここまでくると完全に推測の域を出ないが、Wikiasariは、

ユーザーによって生成された(他のウェブページに比べて)圧倒的に質の高い情報をベースにした、precisionの高い検索エンジン

になるはずだ、というのが私の予想。wikipedia内には膨大なキーワードリストがあり、それらがリンクによって構造化されている。これらのキーワードとそのグラフ構造を、ユーザーが入力するクエリに上手く合わせることで、「ユーザーが欲する情報にかなり近い質の高い回答」が自動生成されるのでないか、ということだ。

GoogleYSTは、誰も想像しなかったくらい大規模な量のウェブページを収集することで、高いrecallを実現する検索エンジンを作った。確かに、それらはスケーラブルでユーザーにとってもとても魅力的だったが、情報が膨大になりすぎるにあたって、ユーザーはより自分のニーズに合致するものだけを欲しがるようになってきている。だから、wikipediaという新しい奇跡的な集合知を用いて、GoogleYSTのように万能薬では無いかもしれないが、ピリっとエッジの効いた回答をするエンジンを作ろう、という心意気があるはずだ、と勝手に予想している。