« 絵文字の相互変換リスト | メイン | IE6でアルファチャンネルを含むPNGを表示する »

自己学習で分類精度を向上させるベイジアンフィルタ
このエントリーをブックマークに追加 このエントリーをlivedoorクリップに追加

尾藤正人です。

20070201勉強会_ベイジアンフィルタ posted by (C)フォト蔵

ベイジアンフィルタを自己学習を行う事で文書を高精度にフィルタリングすることができるシステムです。 SpamassassinやPOPFileのようなspamメール振り分けソフトに使用されているのでご存知の方も多いと思います。

ベイジアンフィルタというとspamメールの処理で広く使われているイメージがありますが、 これをwebの世界でも応用してみれば面白いものができるんじゃないかと思っていろいろ開発してたのですが、 結局実現には至りませんでした。

このままではもったいないので、これまで勉強してわかってきたことを勉強会で発表しました。 勉強会の様子の動画と資料を公開します。

bayes.pdf

僕自身専門家ではないので、いろいろ間違ってる部分もあるかと思います。 その時はご指摘いただければ幸いです。

トラックバック

このエントリーのトラックバックURL:
http://www.unoh.net/mt32/mt-tb.cgi/765

この一覧は、次のエントリーを参照しています: 自己学習で分類精度を向上させるベイジアンフィルタ:

» 平易に説明することの難しさ大切さ from ベイエリア情報局
会社の同僚が人工知能の研究をやってたというので、人工知能のおすすめの本「マッチ... [詳しくはこちら]

コメント

P(A|B) は P A given B と読みます.

情報ありがとうございます!!

エントリーのタイトルの「せいど」の漢字が間違っていますよ.

ありがとうございます!!
修正しました。

最近ベイジアンフィルタ関連を調べていて、参考にさせてもらったます。
たぶん訂正です(自信なし^^;)
スライド9枚目のgraham方式において
nbadの解釈は
wが含まれるSpamメールの総数
ではなくて
学習したSpamメールの総数ではないでしょうか?(ngoodも然り)
例えば、スライドの通りの解釈だとb/nbadではbが増加するとspam確率が増えるのは理解できますが、nbadが減ってもspamが減るのは、スパムコーパス中の特定のメールにだけwが現れるほうがスパム確率が上がるという解釈になってしまいます。

コメントを投稿


画像の中に見える文字を入力してください。