Skip to content
/ jpair Public

正しい文と誤った文を受け取り、相違点を単語単位で抽出します。

Notifications You must be signed in to change notification settings

tkyf/jpair

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

54 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

jpair

正しい文と、誤りを含む文を入力し、 相違点を単語単位で出力するツールです。

正しい文:   こんにちは。わたしはげんきです。

誤りを含む文: こにちわわちしはげんきでした

出力: 

1 こにちわ こんにちは 感動詞-一般
1 わちし  わたし   代名詞
1 でした   です    助動詞

動作環境

Python の以下のバージョンで動作確認済

  • 2.7.4
  • 2.7.3
  • 2.6.6

必要要件

MeCabPython バインディングが動いている環境が必要です。

MeCabの辞書は、IPAdicおよび、UniDicのUTF-8版に対応しています。

参考: Windowsにmecab-pythonを導入

インストール

git clone https://github.com/tkyf/jpair.git

実行例

main.pyに2つの文のファイルを指定して実行します。

$ python main.py -i incorrection.txt -c correction.txt
1       こにちわ        こんにちは 感動詞-一般
1       わちし  わたし 代名詞
1       でした  です 助動詞

出力は左から、

そのペアが出現した回数、-iで指定されたファイル内での表現、

-cで指定されたファイル内での表現、-cで指定されたファイル内での品詞です。

※ 出力の文字コードはUTF-8です。

LICENSE

MIT

About

正しい文と誤った文を受け取り、相違点を単語単位で抽出します。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages