日本語校正付きメモ

利用方法

Dockerを使用する場合

DockerhubからDocker imageを取得して使用する。
利用制限のためにAPIKEYを設定する場合、環境変数APIKEYに値を設定する。

# 特に利用制限をしない場合
$ sudo docker run --rm -p9310:9310 nknytk/jp-proofreading-memo:v0.3.0
# APIKEYによる利用制限をする場合
$ sudo docker run --rm -p9310:9310 -e APIKEY=${your_api_key} nknytk/jp-proofreading-memo:v0.3.0

http://localhost:9310 にアクセスして利用する。

手元に環境を作る場合

Python環境の準備

$ python3 -m venv .venv
$ . .venv/bin/activate
$ pip install --upgrade pip wheel
# 公式サイトの案内に従い、環境に合ったバージョンのPyTorchをインストールしてください
$ pip install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu116
$ pip install -r requirements.txt

パラメータファイルをGoogle Driveからダウンロードし、models/以下に置く

Webアプリケーションの起動

# 特に利用制限をしない場合
$ python web.py
# APIKEYによる利用制限をする場合
$ APIKEY=${your_api_key} python web.py

http://localhost:9310 にアクセスして利用する。

Chrome拡張機能日本語誤字チェックのAPIサーバとしてして利用する場合、API URLに http://localhost:9310/correct と指定する。

学習から行う場合

Python環境の準備の後、データをダウンロードして学習する。
こちらを参考に、機械生成データを作成して学習、学習済みモデルをさらに日本語Wikipedia入力誤りデータセット (v2)で学習させるのが最も精度が高い。

日本語Wikipedia入力誤りデータセットの学習方法

$ cd data
$ wget "https://nlp.ist.i.kyoto-u.ac.jp/DLcounter/lime.cgi?down=https://nlp.ist.i.kyoto-u.ac.jp/nl-resource/JWTD/jwtd_v2.0.tar.gz&name=JWTDv2.0.tar.gz"
$ tar xzf JWTDv2.0.tar.gz
$ cd ..
$ python preprocess.py
$ python train.py 2

学習後に表示されるファイル名をmodels/v0.3.0.ckptにリネームし、Webアプリケーションを起動する。

$ python web.py

http://localhost:9310 にアクセスして利用する。

License

CC-BY-SA 3.0

日本語校正のベースモデルとして、東北大学乾研究室により作成された学習済みBERTモデルcl-tohoku/bert-base-japanese-v2を使用しています。
校正の学習データとして、京都大学黒橋・褚・村脇研究室により作成された日本語Wikipedia入力誤りデータセット (v2)を使用しています。

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
edge		edge
models		models
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
demo.gif		demo.gif
index.html		index.html
model.py		model.py
predict.py		predict.py
preprocess.py		preprocess.py
requirements.txt		requirements.txt
test.py		test.py
train.py		train.py
web.py		web.py

nknytk/jp-proofreading-memo

Folders and files

Latest commit

History

Repository files navigation

日本語校正付きメモ

利用方法

Dockerを使用する場合

手元に環境を作る場合

学習から行う場合

License

About

Resources

Stars

Watchers

Forks

Languages