DockerhubからDocker imageを取得して使用する。
利用制限のためにAPIKEYを設定する場合、環境変数APIKEY
に値を設定する。
# 特に利用制限をしない場合
$ sudo docker run --rm -p9310:9310 nknytk/jp-proofreading-memo:v0.3.0
# APIKEYによる利用制限をする場合
$ sudo docker run --rm -p9310:9310 -e APIKEY=${your_api_key} nknytk/jp-proofreading-memo:v0.3.0
http://localhost:9310 にアクセスして利用する。
Python環境の準備
$ python3 -m venv .venv
$ . .venv/bin/activate
$ pip install --upgrade pip wheel
# 公式サイトの案内に従い、環境に合ったバージョンのPyTorchをインストールしてください
$ pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
$ pip install -r requirements.txt
パラメータファイルをGoogle Driveからダウンロードし、models/
以下に置く
Webアプリケーションの起動
# 特に利用制限をしない場合
$ python web.py
# APIKEYによる利用制限をする場合
$ APIKEY=${your_api_key} python web.py
http://localhost:9310 にアクセスして利用する。
Chrome拡張機能 日本語誤字チェックのAPIサーバとしてして利用する場合、API URLに http://localhost:9310/correct
と指定する。
Python環境の準備の後、データをダウンロードして学習する。
こちらを参考に、機械生成データを作成して学習、学習済みモデルをさらに日本語Wikipedia入力誤りデータセット (v2)で学習させるのが最も精度が高い。
日本語Wikipedia入力誤りデータセットの学習方法
$ cd data
$ wget "https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_v2.0.tar.gz&name=JWTDv2.0.tar.gz"
$ tar xzf JWTDv2.0.tar.gz
$ cd ..
$ python preprocess.py
$ python train.py 2
学習後に表示されるファイル名をmodels/v0.3.0.ckpt
にリネームし、Webアプリケーションを起動する。
$ python web.py
http://localhost:9310 にアクセスして利用する。
CC-BY-SA 3.0
- 日本語校正のベースモデルとして、東北大学乾研究室により作成された学習済みBERTモデルcl-tohoku/bert-base-japanese-v2を使用しています。
- 校正の学習データとして、京都大学黒橋・褚・村脇研究室により作成された日本語Wikipedia入力誤りデータセット (v2)を使用しています。