第25回「インターネット検索とこのコラム」

(1997/10/30)

　このコラムの連載を始めて、今回でちょうど半年になる。10月初めの分だけ、コラム専用に使っているノートパソコンのハードディスクが壊れてしまい、集めたデータが失なわれて休載になったが、思惑はずれといえばこれくらい。先端技術から生活科学、医学、環境、資源、教育、文化……と当初の目論見通りに広い範囲のテーマを、順調にこなしてきた。夏の初めに、あるパソコン雑誌から「どうしてこんな記事が書けるのか。データ検索の方法は？」と取材を受け、そのときは思いつくまま答えたのだが、折に触れて考えているうちに、私がインターネット上でこのコラムを書いている「仕事の意味」が見えてきた気がする。半年の節目になる今回、このコラムがどうして出来たのか種明かしも兼ねて、取り上げてみる。それは電子ネットワークと私の付き合いの始まりに遡るストーリーであり、検索手法そのものについて知りたい方は、INTERNET WATCH'97年9月8日号の「特集　情報の海に溺れるな! 検索サービス使いこなしテクニック集」をご覧になるほうが早いだろう。

◆このコラムの成り立ち

　昨年末から年始にかけて、3年来の懸案、新選挙制度下での総選挙比例区当落判定の仕事が済んだ直後だったので、例年よりゆったりと過ごせ、仕事以外でインターネットを集中的に使うことが出来た。それまでもメニュー検索の「Yahoo!JAPAN」などを入り口にして取材の素材やヒントを集めるのには使っていたが、内外のロボット検索サイトを使うのは初めてだった。念のために説明を加えると、メニュー検索サイトではホームページ製作者が「自分のページはこれこれのキーワードに該当する内容です」と登録し、検索する側はそのキーワードからページを選択する。ロボット検索サイトではサイト側が選んだページに加えてホームページ制作者が登録したページを、コンピューターが1週間置きか1カ月置きか、定期的に巡回して書かれている全文章からキーワードを自動的に切り出し、データベース化する。各ホームページの内容が深化すれば、キーワードもどんどん増えてデータベースに自動的に反映する。

　当時、日本語ドメインのホームページ全文検索で頼りにしたのは「千里眼」だった。後に登場する最先端ロボット検索の収集量とは比べものにならないが、10万ページ単位であっても、インターネットのホームページ群が単に趣味人たちの提供するデータの集積ではなく、社会全体を視野に置いた情報検索の場になりうると確認できた。リンクを乗り継いでいくネットサーフィンではなく、ロボット検索を活用すれば、新聞にそのまま載せることは無理でも、別のタイプの記事が書ける。この感触が強く残った。

　私は新聞社に入社以来、外回りの記者を続けてきたが、この春の異動で内勤の職場に移ることが決まった。外勤の職場は週休2日制ながら公休消化も十分にできないし、勤務時間外も制約が多く、深夜に帰宅して早朝、出張に出たりと、24時間勤務に近い。内勤職場は勤務時間が確定しているから、勤務時間外は自分の自由になる。しばらく外回りの取材が出来なくなる分をインターネットで補ってみることを思いついた。先の感触をもとにコラムの企画を立て、「インターネットで何かができたという話をなかなか聞けないが、こんな形で実証できる」とインターネットウオッチ編集部に持ち込んでみた。3月末に「試作オーケー」になり、本格的に検索を始めようとした時期に「千里眼」の一桁上の収集力を持つ「goo」が登場、主な検索サイトは「goo」にしてコラム作りはスタートした。

　正直なところ5月、6月段階では、インターネットで提供されているコンテンツにあちこち弱い部分が目立った。たとえば「コメ」問題は、そのために9月の連載21回目まで取り置いた。しかし、世間のインターネット熱を反映して、急速に改善されていく。コラムのストーリーの半分近くは取材スタート時点で私の頭の中に出来ている状態で始まったのだが、回を重ねているうちに過去の経験をもとにした出来合いのストーリー部分を捨てて、取材したホットなもの中心で構築していけるようになった。「Infoseek Japan」が新装、収集力を増強して「goo」に肉迫するようになる真夏には、その状態が完全に定着した。

　このコラムが私の取材蓄積を生かして始まったのは事実だが、もはや時間さえかければ、どんなテーマでも同じような水準のものを書けると言ってよい。素材を提供してくれるのはインターネット社会の皆さんで、私は読んで理解して再構成しているだけだ。気づいてみれば、このありさまは、私が以前から持っているメディアの現状認識についての「仮説」を見事に体現していた。

◆サイエンスネットの実験

　'88年初め、私の属していた大阪科学部と東京科学部が共同で、新聞読者向けのパソコン通信「サイエンスネット」を立ち上げた。複数ユーザーの共同利用が前提になっているUNIXコンピュータに簡単な外装を施しただけながら、NHKその他のマスメディアに先駆ける、送り手と受けての双方向交流だった。ずっと以前に解散したので、インターネット上には影も形も残っていないと思っていたが、「パソコン通信における科学技術ネットワークの現状」に'91年の姿が触れられている。

　東西の科学部記者がネットに設けた会議室に出て、議論の司会をしたり、科学面などの記事について討論に応じたのだが、多くの記者が脱落していき、残ったのは大阪科学部の数人だけになる。その脱落過程に私は関心を持った。端的なケースを挙げると、記事について読者側から批判やクレームがつく。それに対して「自分は新聞記者だから、その道の権威に取材してまとめている。何も知らないのに文句を付けるな」式の対応をすると、議論が次第に進展する過程で、クレームを付けている側が問題の記事のテーマになっている研究室に近い場所にいる研究者と判明したりする。手持ちのデータは十分でなくても、驚くほど冴えた問題提起をする素人もいる。その意味を汲み取れないで、中央官庁などから採ってきた情報でやりこめようとする記者も司会役は務まらない。

　サイエンスネットの実験をもとに、「双方向交流ができる記者を育てるようなネットワーク政策を進めるよう」私は進言したが、そうは進まず、系列の商業ネットを作ることが優先され、サイエンスネットは終わった。一方、編集局内では「パソコン通信は危ない。投書窓口くらいの位置づけにしておきたい」との雰囲気になった。

　新聞メディアと読者の現状を、当時の私はこんなふうに整理した。高度成長期に入るまでは、新聞がカバーしていた知のレベルは社会全体をほぼ覆っていた。技術革新の進展と裏腹の矛盾、歪みの集積は社会のあちこちに先鋭な問題意識を植え付け、新聞がふんわりと覆っていた知の膜を随所で突き破ってピークが林立するようになった。特定のことについて非常に詳しい読者が多数現れ、新聞報道は物足りない、間違っているとの批判がされている。新聞の側はそれに対して真正面から応えるよりも、防御することに熱心になった。読者とのギャップはますます広がっている。なぜなら、知のピークはどんどん高くなり、ピークの数も増すばかりだから。

　このコラムがインターネット検索を駆使して書き続けられるということは、そうした知のピークを渡り歩いて先鋭な問題意識を拾い集めていることではないか。自分が立てた仮説を記憶の底から呼び起こすのに時間がかかったが、その間に日々、知のピークが林立している時代を自ら検索によってトレースしていたことになる。とすれば、インターネットでの検索とは何か。賞金100万円をかけて10月から始まったコンテスト「検索の鉄人」で求められている、どこかのポイントを探し当てる技術だけではなく、文明論的な理解が出来るに違いない。

◆インターネットでの検索の意味と実際

　太陽エネルギーについて知りたいとする。「goo」でも「Infoseek」でもこうした一般的な言葉なら、直ちに数千、あるいは数万のページがリストアップされる。私の理解が正しければ、この瞬間に我々の時代を「太陽エネルギー」というキーで切断した断面が、我々の目前に広がったことになる。最初は、膨大なリストがあるだけだが、そこから始めて、断面のどこに秀峰がそびえ、どこに深い谷があるか、探っていくことで断面の形が明らかになる。知のピーク群が作っている三次元地形はまだ誰も見渡したことはないが、こうして断面を100か200か描いてみれば、やがて浮かび上がって来よう。

　断面観察の第1ステップには、「比べなければ分からない」という認識の基本原理を応用しよう。比べる軸は時間、つまり歴史もあるし、空間的、地理的、民族的な対比も有効だ。「太陽エネルギー」に加えて「歴史」「過去」「構造」「将来」「未来」「戦略」「日米」「米国」「欧州」「世界」といったキーワードを追加して、両方を含むものをリストアップする「AND」検索だけで、リストは様変わりするはずだ。「AND」検索をする場合、「goo」では語の間にスペースを挟むだけでよいが、「Infoseek」では最初の語に半角の「+」、次の語からは半角のスペースと「+」を挟まねばならないので注意してほしい。

　もしも最先端の領域に突っ込みたいなら、それを担っている人物の固有名詞か、業界で使われるテクニカルタームを「AND」検索に追加するのが一番の早道だ。最初から知っていれば問題はないが、一般的なキーワードからスタートして、狙いに近いホームページを見つけたら、そこにある言葉をよく探せば見つけられることが多い。インターネット以外の場所から引っ張ってくることもできる。新聞記事データベースも使えるが、人物ならばニフティサーブ経由で日外アソシエーツの「WHO［人物・人材情報］」があるし、私がよく使うものにニフティサーブ経由で「JOIS」がある。年間に内外60万件の文献を集積している「科学技術文献情報」など。論文全文は読めないが、原著者の要約は読め、これは翻訳されている。料金が高くなるので、題名、筆者、キーワードだけでもよい。学術的なものと見らて敬遠されるかもしれないが、実に広い範囲の情報がある。インターネット上でも「情報事業本部のコンテンツ」で同じサービスが受けられる。

　最新のロボット検索といえども万能ではなく、落としているページは多い。研究機関で公開されているデータベース類は検索対象外と心得て、追いかけているテーマと関係しそうな研究機関を見つけたら、公開データベースを持っていないか探してみることも勧める。そこから検索のキーワードを見つけたことが一度ならずあった。

　検索そのものについて論じているホームページは、今のところ少ない。連載6回目「文書の電子化から電子図書館へ」で全文検索の技術的なことはかなり書いたつもりだ。

　ここでは「検索デスク」の浅井勇夫氏がウォッチされているロボット検索の最新動向を、私の半年の経験と照らし合わせてみたい。「検索調査最新版10月19日現在」によると、収集件数は「Infoseek」が660万件に達して、「goo」は520万件。「収集数コメント」にある通り、両者はこの夏、猛烈に熱い戦いを展開して、私のコラムに使う素材でもほぼ半々の状態。浅井氏考案の「検索力」で比較すると、まだ「goo」が優位にある。総収集力と、重複収集や独自度などの要素を勘案した総合力とは違うという分析は面白い。

　両者の使い分けについて、私の場合は骨のあるデータを求める場合に「Infoseek」を多用し、エピソード的なデータなら「goo」に頼る。個人のホームページの登録は「goo」が圧倒的に多い半面で、団体や機関のページで「Infoseek」にしかないものが散見されるからだ。「goo」はデータの更新が遅かったが、改善されてきた。問題なのは、ロボット検索で避けられない重複収集したページを省く処理が行き過ぎた結果、「goo」で相当多数のページが失なわれたこと。この連載のバックナンバーも登録しているが、10月下旬の時点で半数以上がデータベースから消えている。壊れたハードディスクから読み出すより、検索した方が早いと、あるページを探してどうしても見つからなかチたために気づいた。「Infoseek」ではこうした経験はない。

　インターネットでの検索とは、映画「スターウォーズ」の騎士ジェダイが手繰るフォース（理力）のようなものだ。気付かない人には何の価値も効力もないが、使い手にとっては昨日の不可能を、可能に変えてくれる。このコラムひとつ分のデータを集めるのに、平均したら12時間程度、インターネットに接続しているだけ。分析の時間は別に必要だが、本業をこなしながら毎週執筆して、いろいろな方からメールをもらい、やり取りが出来る。私の生活空間も大きく変えてしまった。