自己学習で分類精度を向上させるベイジアンフィルタ
Tweet
尾藤正人です。
20070201勉強会_ベイジアンフィルタ posted by (C)フォト蔵
ベイジアンフィルタを自己学習を行う事で文書を高精度にフィルタリングすることができるシステムです。 SpamassassinやPOPFileのようなspamメール振り分けソフトに使用されているのでご存知の方も多いと思います。
ベイジアンフィルタというとspamメールの処理で広く使われているイメージがありますが、 これをwebの世界でも応用してみれば面白いものができるんじゃないかと思っていろいろ開発してたのですが、 結局実現には至りませんでした。
このままではもったいないので、これまで勉強してわかってきたことを勉強会で発表しました。 勉強会の様子の動画と資料を公開します。
僕自身専門家ではないので、いろいろ間違ってる部分もあるかと思います。 その時はご指摘いただければ幸いです。

コメント
P(A|B) は P A given B と読みます.
投稿者: taku | 2007年2月 8日 22:18
情報ありがとうございます!!
投稿者: masato | 2007年2月 9日 05:19
エントリーのタイトルの「せいど」の漢字が間違っていますよ.
投稿者: とうごろう | 2007年2月19日 18:50
ありがとうございます!!
修正しました。
投稿者: masato | 2007年2月20日 10:32
最近ベイジアンフィルタ関連を調べていて、参考にさせてもらったます。
たぶん訂正です(自信なし^^;)
スライド9枚目のgraham方式において
nbadの解釈は
wが含まれるSpamメールの総数
ではなくて
学習したSpamメールの総数ではないでしょうか?(ngoodも然り)
例えば、スライドの通りの解釈だとb/nbadではbが増加するとspam確率が増えるのは理解できますが、nbadが減ってもspamが減るのは、スパムコーパス中の特定のメールにだけwが現れるほうがスパム確率が上がるという解釈になってしまいます。
投稿者: 山葵大盛 | 2008年2月19日 22:06