正しい文と、誤りを含む文を入力し、 相違点を単語単位で出力するツールです。
正しい文: こんにちは。わたしはげんきです。
誤りを含む文: こにちわ。わちしはげんきでした。
出力:
1 こにちわ こんにちは 感動詞-一般
1 わちし わたし 代名詞
1 でした です 助動詞
Python の以下のバージョンで動作確認済
- 2.7.4
- 2.7.3
- 2.6.6
MeCab の Python バインディングが動いている環境が必要です。
MeCabの辞書は、IPAdicおよび、UniDicのUTF-8版に対応しています。
git clone https://github.com/tkyf/jpair.git
main.pyに2つの文のファイルを指定して実行します。
$ python main.py -i incorrection.txt -c correction.txt
1 こにちわ こんにちは 感動詞-一般
1 わちし わたし 代名詞
1 でした です 助動詞
出力は左から、
そのペアが出現した回数、-iで指定されたファイル内での表現、
-cで指定されたファイル内での表現、-cで指定されたファイル内での品詞です。
※ 出力の文字コードはUTF-8です。
MIT