本ブログの更新は停止しています。更新は新しいサイトの Travellers Tales で行なっています。

Gmail のスパムフィルタはなぜ精度が良い?


巷では Gmail のスパムフィルタはなかなか精度がよいと評判です。ふと、その理由について考えてみました。(結論は単純です)

Mac OS X の Mail.app の迷惑メールフィルタなんかも、Jaguar の頃から比べるとずいぶん精度が良くなって、学習させるとさらによくなります。Thunderbird なんかもベイジアンフィルタを備えて、学習させるとどんどん賢くなるようです。

最近、Web 2.0 的な話題として、folksonomy や集合知といったことが盛んに言われています。はてなブックマークの最近の人気エントリーなんかをぼーっと眺めながら、Gmail のスパムフィルタのことを考えていたら、あ、これって、Mail.app や Thunderbird で個々のユーザが学習させているような内容を、Gmail ユーザからうまく抽出して、全体にフィードバックさせてるからなんだろうな、ということに思い当たりました。(考えてみれば当たり前ですが。)

Yahoo! Japan のメールなんかも使っていますが、迷惑メールフィルターの精度はよくないし、いつまで経っても似たような迷惑メールが普通に受信されてくるので、迷惑メールとして報告した結果が反映されている気がしません。その点、Gmail はちゃんとユーザからのフィードバックをうまく共有化しているのではないでしょうか。

インターネットセキュリティソフトの Norton にしろ、ウイルスバスターにしろ迷惑メールのフィルタリングもやってくれていて、正しく判定されないメールについては、ソフトウェア会社に報告もできるみたいですが、個々のユーザが学習した内容はまだ個々のユーザのものにとどまっている感があります。(ウイルスバスターはまずい方法ですが、フィッシングサイトの URL を集めるような試みを始めたので、やり方はともかくユーザのデータを生かしたいと思っているのは間違いないんでしょう [参考サイト:高木浩光@自宅の日記 - ウイルスバスター2006はトレンドマイクロの定義で言うところのスパイウェアである ])

さて、その優秀な Gmail の迷惑メールフィルタなんですが、ローカルのメールクライアントで受信する際に使うにはひと工夫要ります。Gmail の POP受信では、今のところ迷惑メールも含め Gmail に届いたすべてのメールを受信してしまうからです。(選択できるよう改善してほしいです。皆さん、フィードバック送りましょう。)

ではどうしたらいいか。Gmail には特定の条件でフィルタをかける機能と、フィルタされたものを転送する機能があります。これを利用します。フィルタには「含めないキーワード」という項目がありますから、ここで迷惑メールフォルダのメールを指定してやればいいわけです。

迷惑メールフォルダのメールを指定するには、「検索:迷惑メール」とします。英語で書く場合、「in:spam」です。
(「含めないキーワード」ではなく「キーワード」に書くなら、頭に - を付けます。Google のマイナス検索でお馴染みですね。)

これは Gmail の高度な検索機能を利用しています。興味のある方はヘルプを参照してみて下さい。

Gmail: ヘルプ センター - 詳細検索を行うにはどうすればよいですか。

英語インタフェースでの設定方法は、

BananaBlog: Gmailをスパムフィルタとして活用してみる

が参考になります。


それでは、皆さんも Happy Gmail Life を!

Posted: 水 - 12月 14, 2005 at 12:54 AM               Hatena Bookmark



©