No description, website, or topics provided.
Switch branches/tags
Nothing to show
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
.gitignore
LICENSE.txt
README.md
convert.py
filter.py
get_examples.py
symbols.py
test__symbols.py

README.md

#英辞郎プリプロセッサ

このソフトウェアについて

  • 英辞郎を計算機処理しやすい形式に変換するツール
  • 英辞郎 version.134で検証

使い方

convert.pyに,英辞郎のファイル名と,出力ファイルのプレフィックスを与えるだけです.

mkdir outfolder
python convert.py -i  ~/EIJI-134.TXT -o ./outfolder/eijiro.134.

すると次のようなファイルができます.

  • eijiro.134.word.jsons
  • eijiro.134.phrase.jsons

さらなる後処理が必要ならば, MeCabモジュールとnltkモジュールをインストールした後,

python filter.py -i  ./outfolder/eijiro.134.phrase.jsons -o ./outfolder/eijiro.134.phrase.2

とすることで,eijiro.134.phrase.2.jsonsという後処理済みファイルができます. eijiro.134.phrase.2.excluded.jsonsは除外された行が記録されています.

なお,出力される.jsonsというファイルには,1行ごとにJSONオブジェクトが書かれています.

ライセンス

  • GPL v3
  • Yuta Hayashibe