ニュース

塩谷 勇 教授 : 「ちょっとした思い付き」

「ちょっとした思い付き」
Googleの検索エンジンで検索語「Google メディアの特性」を入力すると検索結果のトップに、MicrosoftのBINGでも3位にランクされる研究ノートがある(2011年8月31日現在)。タイトルは「Googleニュースにおけるニュース・メディアの特性」(国立情報学研究所へのリンク)。

この研究ノートは情報学研究所の論文情報ナビゲータに収集され、先の検索語を入力すると当初からGoogleの検索エンジンでトップ、その後30位またはそれ以上ランクを下げたが、2008年頃から再びGoogle検索エンジンでトップの座を占めている。この研究ノートが注目されているというよりも、情報学研究所の論文情報ナビゲータが注目されていることが大きな理由と思われる。

プログラムの苦手な学生の卒業研究のテーマに考えた。当時、報道各社はそれまでの新聞や雑誌に加えて、ウエブを新たなニュースの発信チャネルにしていた。報道各社はウエブのニュースを有料にするか、または無料にするか否か揺れていた。さらに、検索エンジンとの関係がどうあるべきか暗中模索の中にあった。すでにGoogleは自ら何も取材をすることなく、報道各社のウエブページからニュースを自動収集して新たなニュースページ、Googleニュースを作り上げていた。

Googleニュースはニュースの収集、分類、編集まで自動で行い、つまり収集から編集まで記事に応じた意図的な編集が加えられていない。公平と言われていた。調べてみようかという軽い気持ちで始めた。

収集はソフトウエアを使えば簡単に可能である。しかし、2つの理由から手作業による収集を選択した。(1)収集がいとも簡単なら学生のすることがなくなるかもしれない。(2)Googleは他人のサイトのウエブページの収集を堂々と行う一方で、Googleのページをウエブブラウザで表示することは歓迎するがロボットによる収集は表向き拒否している。無理に収集すると公表できなくなると考え、ミスがあってもブラウザに表示させて手作業による収集を行った。実際後で検証すると予定よりも1回多く収集していた。期間は18日間、一日2回、記事総数884。記事の文も集めた。

クラスタリングなどの簡単な統計処理を行った。卒業研究だから、新しい知見が一つでも含まれていればよいということで、ニュース記事の文の分析をすることなく、それなりの知見が得られたのでまとめた。私が原稿に手を加えて、最終稿の印刷物を手に学生は就職の要件で郷里の長野に帰った。再び大学に戻った時に彼の手に確か原稿がなかった。聞くと、父に見せたところ原稿を持って行かれて大学に戻るまでに返してくれなかったという。父は新聞記者でまとめた結果が報道各社の特徴をよく表しているということを言っていたという。「あそう」という感じであった。その後、マスコミのことはわからないが、興味ある結果ならどこかに公表しようということで発表することにした。

当時、毎日新聞社はMicrosoftにニュース記事を提供する一方でGoogleからのニュース記事の収集を拒否していた。だから、Googleニュースの研究ノートの中で毎日新聞のニュースだけが0件という目立つ存在であった。一方、閲覧した場所が神奈川のという理由もあってか東京新聞の件数が多い。Googleに好まれるSEO対策をしていたのだろうか。
2007年5月、知り合いのY氏を通じて毎日新聞に分析結果を渡した。その後学生の卒業研究の内容が2007年9月に情報学研究所で公表されて前に述べたように検索エンジンのトップになった。

ニュースチャート

マッピング

それから半年後の2008年4月、毎日新聞はMicrosoftとのニュース記事の独占提供契約を破棄してGoogleからの検索を受け入れてGoogleニュースに毎日新聞の記事が現れるようになった。ちょっとした思い付きが大きな力になったのかは定かでないが。