第65回「ネット検索に迫っている破綻」
◆URL膨張が招いた「規模の危機」
gooが現在収集しているページは日本語1700万URL、海外1億2000万URLになるのだという。全世界のURLは1億を超えて2億くらいまでという議論もあるから、相当な網羅性が期待できるはずだ。しかし、そうではないらしい。98年7月に電子メール新聞からこの連載を独立させ、自前のホームページを開いて、gooに登録を申請したが、トップページと1、2のページだけが検索できる状態が半年以上続いた。電子メールで問い合わせると「ここ数カ月、予想以上のHP数の増加のために設備容量が満杯であり、一部の登録依頼に応える事が出来ない状況になっております」との回答だった。設備にはお金がかかる。「アクセス数などの拡大競争はもういいから、広告が欲しい」と言いたくなる気持ちがよく分かる。
この2月初め、設備の増強が出来たのか、私のページからの登録が増えた。詳しく調べてみると、過去64回の内ちょうど半数のページが登録されている。1サイトから、まだら模様に収集される状況は昨年春にも見たことがある。gooは大型のコンピュータではなく、小型マシンを多数並列で使うシステム構成になっている。「ちょっと知りたいページの裏側 第3回:goo」に詳しい。ページの収集も検索リクエストへの応答も並列で処理する。単一の巨大データベースを作っているのではないから、収集ページに相当な重複が避けられず、収集量が容量を上回り始めた昨年春ごろから、重複分の削除と思われる大規模なページ削除を繰り返すようになった。この「大なた」はかなり乱暴なもので、有用なページも多数吹き飛ばす。「昨日、引けたページが今日はない」という経験を繰り返すうちに、マシンの内部で起きていることに気付いた。今回のgooの設備増強は歓迎するが、決して十分なものでないことがうかがえる。
gooのような、日本語のどのようなキーワードによる検索でも受け付けるシステムには日本語全文検索システムが必要である。その一例、「Webix」を見ると、「検索対象ファイルサイズの約50−120%のディスク容量が必要になります」との説明が付いている。キーワードの数を制限せずに自由に検索できるためには、方式の違いはあれ、どのキーワードがどのファイルにあるのか示す、膨大なキーワード一覧表を用意しなければならない。収集ページが増えれば増えるほど、その一覧表は急速に膨張する。「120%」が示す意味は、検索対象以上のディスク容量が必要になるということだ。世界中のサーバーにあるファイルの量を考えると、空恐ろしい。
ロボット検索の売り物である、定期的なページの収集、データベースの更新が滞っているのはgooだけではなかった。セミナーで話すために、私のホームページが各ロボット検索でいつの時点でデータ更新されたか、半月の間を置いて調べてみた。次の比較で遅れが目立つ、新参入のLycosにも更新遅れを問い合わせてみたが、昨年のgoo同様にギブアップの返事だった。
InfoNavigatorはページの重複が特に多く、同じものを3つ4つ続けて出力してくる。ここでも重複分の「削除処理」行動がよく見られる。2/12現在の「消失」はそのためかもしれない。infoseekは重複が一番少なく、何らかの防衛策を持っているのだろう。gooがもたついている間も一貫して速いペースで情報更新を続けてきた。しかし、先日、若者と音楽を取材テーマにし、「音楽」をキーワードにして愕然とさせられた。以下にヒット数を一覧する。
この取材では結局、InfoNavigatorが断然、有用であり、infoseekには琴線に触れるようなデータは無かった。もともとinfoseekは堅い、きっちりした研究や学術ものに強く、gooは個人的なもの、エピソードものに強いと思っていたが、これほど違うとは驚いた。infoseekのデータベースにはかなり欠けている部分があり、そのために他のサービスのようなパンクを避けられている可能性もある。
◆全文検索システムを生かしたミニパワー
日本語の全文検索システムにはフリーソフトまで登場し、ちょっと規模が大きいウェブのページ案内にも使われ始めている。このあたりの事情は「日本語全文検索エンジンソフトウェアのリスト」に詳しく述べられている。そこでも、高い検索性能とキーワード一覧表の大きさとのジレンマが説明されている。その件は置くとして、注目したいのは全文検索システムを利用して、専門分野別の検索システムが構築され始めている点である。汎用の検索サービスでは、あまりにもゴミが多すぎるから、検索の対象範囲を限ってしまえというのだ。
「社会学系研究者個人のページおよびそれを含んでいる研究機関のホームページと、報告書や調査データなどを掲載している民間研究機関や官公庁のホームページ」を対象にしている「社会学系ウェブサイト全文検索サーチエンジン」や、「日本中の健康関連のサイト約30万ページを対象としてい」るという「ヘルススクランブル」を、最近になって知った。それなりに使いでがあると申し上げておこう。「国立健康・栄養研究所の研究者グループが、健康と栄養に関連した情報」を集めた「健康栄養科学知識基盤倉庫」という存在も専門的ながら面白い。
こうしたミニパワーが、気付かないところで増えているのかも知れない。各分野ごとに整備されれば、巨大な商業検索サービスを補完してくれるだろう。しかし、インターネット初心者が、容易に行き着けるところでないことも確かだ。だからインターネットを利用している人の実態として、代表的な検索サイトを利用しても多すぎるヒット数に音を上げてしまい、思ったような情報が取れない人が非常に多いのではないか。
首都圏でインターネット利用について定点観測している「ビデオリサーチ調査結果」が、そのあたりの事情をうかがわせる。「インターネットの利用経験者は34%と着実に増加。前回までの調査では頭打ちの傾向がみられたが、今回7ポイント増加しており、今後インターネットが本格的に普及する兆しとも受け取れる」とする一方で、「リタイア(利用したが現在は利用していない人)も11%と増加しており、利用経験者の3人に1人がリタイアしていることになる」という。この「3人に1人」との数字はショックである。そんなにもインターネットに利用価値を見つけられない人がいたとは。リタイアは若い女性に目立つ。
◆賢い行き方はあるのだろうか
冒頭で触れたセミナーで、Yahoo!からの講師はサイトのジャンル分けと登録作業について「コンピュータが出来ない、人間にしか出来ないこと」を強調していた。毎日1000件の登録申請があって、10人ほどのチームが全てのサイトを目で見て、200から300件程度を登録する。優先されるべきは検索する側の利便であり、よく出来たホームページでも、当該のジャンルに登録済みのサイトで足りると判断されれば採用しない。拙くても新しいデータがあるものは入れる。確かに定評があるサイト検索だけにポリシーは一貫している。
他のディレクトリ型サービスに比べて登録数を抑えるYahoo!の行き方は当面、賢いと思われるが、毎日の申請件数が2000になり、5000にもなったら成立しなくなるのも現実だ。そのようなことが起きぬとも言えまい。また、現在でもディレクトリの重層構造は十分に複雑で、初心者には分かりにくい。
最近の私は、ほんの入門程度のデータ集めにしか、サイト検索サービスを使わなくなっている。個人のホームページでも数百ページ規模のものが珍しくなくなり、ここに確かにあのデータがあるのだが、と思いつつもなかなか見つけられない経験が増えた。ゆっくり見て回る時間もないため、最初からピンポイントで狙ったファイルに行き着けるページ検索を多用している。それだけにページ検索に対する情報の網羅性への期待は高い。
現在のところ、infoseekにgoo、InfoNavigator、AltaVistaの4検索サービスを、自分がノウハウとして持っている各サービスの特長を考慮しながら使い回し、時にFreshEyeを加えることで、何とか目的を達している。検索をうまく使うには「何が欲しいのか」という目的意識を明確にすることが一番重要である。インターネットの膨張はまだまだ続くから、強い目的意識を持っていても、狙う目的地に行き着けなくなる日が、やがて来るのではないか。FreshEyeが過去1ヶ月間に更新されたページだけのデータベースに特化しているように、日本語ページだけに特化するサービスが出来れば、2000万URLくらいの規模で網羅性が高いデータベースが可能だ。そういうページ検索が現れないかと、時に夢想している。
※追記(2/26)
infoseekでの「音楽」キーワードのヒット数が際だって少ない点について、「検索デスク」を主宰されている浅井勇夫さんから「昨年12月20日頃から、Infoseekの検索数は40,000前後に上限が設定されました」と、有意義な指摘をいただきました。これは公式にアナウンスされていない制限で、知りませんでした。早速、「政治」とか「環境」とかの一般的な言葉を試すと、いずれも4万前後しかヒット数が出てきません。
この打ち切りはAND検索に限っているようで、「いずれかを含む」OR検索の場合は大きな数字が出てきます。問題の「音楽」のあるファイルはいったいどれくらいか、こんな試みをしてみました。「音楽 OR 音 OR 楽」を調べると「758,210」のヒット数が現れ、一方、「音 OR 楽」の結果は「626,829」でした。この結果から推定できることは「音楽」の本当のヒット数は、
758,210 - 626,829 + アルファ
だということです。他のサービスに比べて、例えばgooではこの二つの数字が「590,340」「349,361」で差が24万もあることを考えると、少な目であることは変わらないと思います。
それにしても、打ち切りがあるとすると、それはキーワード出現数など機械的な仕掛けで選別されるはずですから、大きなヒット数が出るキーワードから始めて、AND検索でだんだんに絞っていく方法を採ると、結果が思惑と違ってしまう可能性があります。つまり、欲しいものが最初からはじき飛ばされている可能性があるのです。キーワードの入れ方、組み合わせ方を変えねばならないかもしれません。こういうことは、きちんとアナウンスしてもらう必要があると思います。
なお、メール版の編集後記に次のようなデータを収録しています。この機会にウェブにも加えます。
「環境ホルモン」をキーワードに比較すると、gooの設備増強の前後で
のようなヒット数の変動が見られました。これから見ても、不十分であることや、各サービスがカバーしている範囲にぶれがあることが、読みとっていただけると思います。