Skip to content

nknytk/jp-proofreading-memo

Repository files navigation

日本語校正付きメモ

利用方法

Dockerを使用する場合

DockerhubからDocker imageを取得して使用する。
利用制限のためにAPIKEYを設定する場合、環境変数APIKEYに値を設定する。

# 特に利用制限をしない場合
$ sudo docker run --rm -p9310:9310 nknytk/jp-proofreading-memo:v0.3.0
# APIKEYによる利用制限をする場合
$ sudo docker run --rm -p9310:9310 -e APIKEY=${your_api_key} nknytk/jp-proofreading-memo:v0.3.0

http://localhost:9310 にアクセスして利用する。

手元に環境を作る場合

Python環境の準備

$ python3 -m venv .venv
$ . .venv/bin/activate
$ pip install --upgrade pip wheel
# 公式サイトの案内に従い、環境に合ったバージョンのPyTorchをインストールしてください
$ pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
$ pip install -r requirements.txt

パラメータファイルをGoogle Driveからダウンロードし、models/以下に置く

Webアプリケーションの起動

# 特に利用制限をしない場合
$ python web.py
# APIKEYによる利用制限をする場合
$ APIKEY=${your_api_key} python web.py

http://localhost:9310 にアクセスして利用する。

Chrome拡張機能 日本語誤字チェックのAPIサーバとしてして利用する場合、API URLに http://localhost:9310/correct と指定する。

学習から行う場合

Python環境の準備の後、データをダウンロードして学習する。
こちらを参考に、機械生成データを作成して学習、学習済みモデルをさらに日本語Wikipedia入力誤りデータセット (v2)で学習させるのが最も精度が高い。

日本語Wikipedia入力誤りデータセットの学習方法

$ cd data
$ wget "https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_v2.0.tar.gz&name=JWTDv2.0.tar.gz"
$ tar xzf JWTDv2.0.tar.gz
$ cd ..
$ python preprocess.py
$ python train.py 2

学習後に表示されるファイル名をmodels/v0.3.0.ckptにリネームし、Webアプリケーションを起動する。

$ python web.py

http://localhost:9310 にアクセスして利用する。

License

CC-BY-SA 3.0