第103回「検索サイトの常識に変動あり」

 インターネット検索の問題点について2年前に書いた第65回「ネット検索に迫っている破綻」とその続編は、今でも参照されることが多いコラムである。ネット上に存在する情報の急増で、ロボットによる自動収集に行き詰まりが見えることを捉えたのだが、検索サイト間の競争が激化した結果、見えていた当面の壁は乗り越えられ、最近になって使い勝手も大きく改善されたようである。昨年末に独自ドメイン取得後、サイト登録のための時間を待ち、検索サイト経由のアクセスがどのようになっているのか調べているうちに、常識と思ってきた事柄にかなりな修正が必要と気付いた。

◆利用動向を検索される側から見る

 私のウェブでは1日平均で1000編以上のコラムが読まれている。これは日本語のレギュラー版だけの数字で、分野別目次や「声」掲示板、リンク、iモード版や英訳版などのページを含まない。ご存じのように扱っている話題の幅が広いので、インターネット検索が一般にどう使われているのか、検索を受ける側から見たサンプルになると思われる。

 検索サイト経由のアクセスは最近では1日平均350件である。3月、4月、5月の15日に、それぞれ過去45日間の状況を集計したレポートがあるので、並べてみた。なお、Yahoo!のサーチエンジンは4月にgooからGoogleに切り替えられた。  NetscapeとBIGLOBEのサーチもGoogleを利用しているから、Yahoo!のサーチエンジンに採用されたことと併せてGoogleが強いことが分かる。「続・ネット検索に迫っている破綻」の時期は、ウェブのページ数は8億とされ、それすら処理しきれないと指摘した。しかし、現在、Google英語版は「Search 1,346,966,000 webpages」と掲示している。膨大な数のパソコンを連結して処理しているGoogleシステムの自信が見える。

 Googleはどれくらい他のウェブからリンクされているかまで勘案して、優先度が高いと判断されるウェブを上位にリストし回答してくれる機能性も評価されている。とは言え、gooやLycosなども十分、戦いになっている。意外だったのは、ふだんから愛用しているInfoseekの不振である。ホスティングサービスのアクセス解析でこうした全体像を知るまでは、予想もしていなかった。昨年までのウェブではトップページだけの有料解析を依頼していて、そこではInfoseekはYahoo!に次ぐ断然の2位だった。

 次は、さらに各サイトの事情を探りたい。

◆リストアップ競争の勝者と敗者

 折良く、検索デスクの浅井勇夫さんが先日、「検索結果をもとにした日本語サーチエンジンの評価」を発表している。Googleに対抗して、各サーチエンジンが質の良い検索結果リストを競うようになった点を捉えて、20種類のデータを用意、どこが優れているか分析している。例えば「総理大臣」と入力すれば大本命の「首相官邸トップページ」が出てくるのが何番目であるか調べるのだ。

 総合順位は1位goo、2位Google、そして3位にあまり馴染みがないがNexearchが入った。Infoseekは、調べた8サイト中で7位という有様だった。興味を持たれた方は20種類のデータ別にじっくり検討されるといいだろう。ここでもInfoseekは、惨敗に近い。

 調べてくれているウェブはほかにもあり、「検索エンジンのしくみ教えます」は、各サイトについていろいろデータを蓄積している。「索引更新周期編第1章 調査結果・解説編」は、データ更新頻度をまとめている。これによると1位はODiN、2位Infoseek、さらにGoogle、gooと続く。総合的な速さはInfoseekがトップとする。

 Infoseekの良い点は新規データの導入が素早いことだ。データ全体の更新ではなく、新作コラムがいつ検索可能になるか、という点で私の経験上、大きな差がある。私は新作のコラムが出来るとLycos、gooと合わせ3カ所に登録する習慣になっている。InfoseekとLycosでは数日後には検索可能になるのに対して、gooは1カ月は覚悟しなければならなかった。ところが、4/26の第102回「大リーグとの『垣根』は消滅した」では、何とこの3サイトともに4/26にファイルを作成し、いずれも数日で検索可能になった。Googleはやはり1カ月は待たねばならないようである。

 こうみてくると、一時は低迷気味だったgooが全部の項目で有利に見える。GoogleにYahoo!を奪われ奮起した観がある。しかし、新規データの導入について言えば、InfoseekとLycosはデータを逐次更新していくタイプなのに、gooは一括して更新するから、今回だけ、たまたま良いタイミングだった可能性が高い。

 浅井さんにならって、個々のデータで検索結果のリストがどう出るか、調べてみることにした。このところ私のウェブには「学力低下」のキーワードで毎日20件以上、検索サイト経由のアクセスがある。第95回「学力低下問題の最深層をえぐる」再論続編があちこちで評判にしていただき、半年を経て毎日100回以上読まれている。「学力低下」をキーワードにして第95回が検索結果の何番目になるか、各サイトで調べた。

 検索デスクならキーワードを窓に入れて、各サイトのボタンを押すだけで調べられる。gooで3番目、Googleは4番目、FAST Searchで10番目、Excite4番目、Nexearch3番目、ODiN1番目、AltaVista現れず、Infoseek101番目、kensaku10番目、Lycos9番目、InfoNavigator300番までに現れず――という結果になった。もちろんページ検索で比較している。

 ただし、Infoseekは6番目に私のウェブのトップページをリストしている。それなのに学力低下を集中的に論じている第95回が「101番目」まで現れないのは不思議だ。浅井さんの結果とも照らし合わせると、リストアップ競争で最も後れをとっているのがInfoseekかもしれない。トップページが出ていれば良いのかも知れないが、ウェブの構造が複雑になると、なかなか思う場所に行けないので、私が検索で選ぶ際にも個々のページが直接出ている方を採る。

 InfoNavigatorは更新が極端に遅いサイトなので、昨年11月末のコラムを未収録なのかも知れない。個人的にはコラム作成上、社会学的な考察などを拾うときには最も便利なサイトとしているので、これも不可解。

 逆にこれまでExciteは変わったエンジンとの印象だったのに、「使える」との感じを持った。新しいNexearchやODiNも、もっと試してみなければと感じている。