Re: 分かち書きで、半角英数字部分を分かち書きしないようにしたい (mecab-users 224) - MeCab

工藤です

> 現在、POPFile では、日本語の分かち書きに Kakasi を使用しているのですが、
> 速度や精度の向上のため、MeCab も使用できるようにしたいと考えています。

MeCab をご検討いただきありがとうございます．

> あれこれ調べてみたところ、現在、辞書を作成する際に、char.def の
> ASCII 部分の文字種をすべて「ASCII」に統一しておけばこのようなことが
> 起こらなくなることがわかったのですが、それだけのために辞書を作り直す
> のも変な話なので、オプションかなにかで指定できれば、と思っています。

char.def をいじれば，お望みのように半角英数をひとつにまとめることができます．

> もしかすると私がよく調べられていないだけでそのようなことを実現する方法が
> あるのかもしれませんが、見つけられませんでした。
> もし可能でしたら、分かち書き処理において、半角英数字の部分は処理しない、
> というようなオプションを追加していただけないでしょうか。

MeCab は辞書とシステムを極力分離し，言語依存なものはすべて辞書に書くという
スタイルをとっています．そのため，オプションで言語依存の振る舞いを
変更することはポリシーに反します．

問題が半角英数だけでしたら，単純に後処理ではだめでしょうか？

-- taku

ことはできるだけ避けたいとおもっています．

MeCab

[mecab-users 224] Re: 分かち書きで、半角英数字部分を分かち書きしないようにしたい