そろそろページランクみたいな方法で情報の信頼性を点数化できないのかねぇ

もう既にとっくに多くの人が考えてそうだけど。うん、絶対研究されてると思うな、間違いない。

ページランクというのはウェブページの重要度を決定するためのアルゴリズムだよね。その重要度とは何かというのが問題なんだけど、これは信頼度とは全く無関係なわけだ。直交する概念。

つまり、デマサイトでも色んなところからリンクされていればページランクは上がっちゃう仕組みだと理解してる。

はてなブックマークのホッテントリもそう。たくさんブクマを集めたページが上に来る。否定的なコメントしか並んでいなくてもブクマ数が多ければ上に来る。

結果として、なんと残念な状況。炎上マーケティングが横行し、ホッテントリは釣りタイトルで溢れ、デマがリツイートされまくり、既存メディアは信用ならんなどと言われたところでじゃあ一体何を信じたらいいのさって状況。Wisdom of Crowds ってなんだっけ。

ページランクに立ち戻ってみよう。

ページランクの発想は学術論文の引用に基づいているとのこと。多くの論文から引用されている論文は重要な論文だと考えられる。また重要な論文から引用されている論文もまた重要な論文だと考えられる。この考え方をウェブに応用して各ページに点数をつけたらどうか。これがページランクの発想のようだ。

同じ発想で信頼度も評価できないのかな。多くのページから信頼されているページは信頼性が高いと評価できる。また信頼性が高いページが信頼しているページもまた、信頼性が高いと考えられる。この考え方でウェブ上の情報を信頼性の観点で点数化できないのだろうか、と思う。

この方式だと、信頼性が低いページ（または人）が何を書いたところで、相手先の信頼性に与える影響は小さい。逆に信頼性が高いページが相手に与える影響は大きい。信頼性が高いページによって不信感を表明されたページは、その信頼性が著しく下がる仕組みになる。

もちろん問題はある。

まず技術的な問題。この方法で評価するには、とあるリンクが相手先を信頼したポジティブな評価に基づくリンクなのか、それとも相手先を糾弾するようなネガティブな評価に基づくリンクなのかを峻別する必要がある。その峻別のためにはどんな文脈でリンクされたものなのかを自動判別しなくてはならず、高度な自然言語処理が必要とされてしまう。

もっと重大なのは政治的、社会的な問題だろう。今でこそ Google の検索システムは当然のものとして受け入れられるようになってしまったが、当初は私企業によるアルゴリズムでページの重要度がランク付けされてしまうということに多くの人が抵抗感を抱いた。Google八分という問題も発生した。ましてやページの信頼性をアルゴリズムで評価するとなると、重要度の評価以上に社会的な反発があるかもしれない。

こう考えてはどうかな。

信頼性の評価は、一種のキュレーションなのだ。Google の検索エンジンに信頼性評価が載るべきだとは思わない。むしろ Google とは別であるべきで、ウェブページの信頼性を評価するサービスが複数存在してユーザーが自由に選べるのが望ましい。格付け会社と似ているかもしれない。これなら社会的な反発は避けられるかも。

こういったサービスを利用して、例えばYahoo!ニュースから信頼性の低いニュースはフィルタリングして受け取る、とか出来るようになったらいいなあと思う。これが実現すれば、ウェブの広告主は出来るだけ信頼性の高いサイトに自社の広告を載せたいと思うようになるだろう。そうなれば PV アップだけを狙った釣りタイトルの浅い記事は減少するかもしれない。きちんと足を使って取材したニュースが高く評価されるようになるかもしれない。

ウェブサービスのことは素人でよく分からないが、こういった信頼性の評価サービスが今後のウェブにおけるエコシステムの動向を握っているような気がする。