unoh.github.com

mecabのユーザ辞書を追加した時にはまったメモ

2007-09-19 11:16:16 +0000

こんにちは satoです。mecabのユーザ辞書を追加したのですが,いろいろはまったので誰かがはまった時のためにメモっておきます。

1)品詞IDの取り方



2)ユーザ辞書の追加方法



3)禁止語句とか独自の要素を付けたい


 csvファイルの最後に追加すればOK



4)context_id.cpp(88) [it != left_.end()] cannot find LEFT-... ってエラーが出る


 left-id right-id の文字コードが csvファイルの文字コードと違うのが原因 nkf --utf8とかで文字コードをそろえる



5)CHECK_CLOSE_FALSE(sysdic->isCompatible(*d)) << "incompatible dictionary: " << _dic[i]; って出る


 sys.dic と ユーザ辞書の文字コードが違うと出るエラー utf8とUTF8は違うと判定されるのでutf-8と書く



6)追加した辞書に品詞IDが付かない or 65535になる


 pos-id.def の文字コードと ユーザ辞書の文字コードが違う。nkf --utf8とかで文字コードをそろえる