Skip to content

shunk031/allennlp-NER-ja

Repository files navigation

AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出

実行環境の準備

pip install -U pip wheel setuptools poetry
poetry install
poetry run poe force-cuda11 # CUDA 11 を使いたい場合

データセットの準備

  • KWDLC (京都大学ウェブ文書リードコーパス)
git clone https://github.com/ku-nlp/KWDLC.git datasets/kwdlc/repo
allennlp make-dataset kwdlc --output-dir datasets/kwdlc --source datasets/kwdlc/repo/
  • Stockmark NER Wikipedia データセット
git clone https://github.com/stockmarkteam/ner-wikipedia-dataset.git datasets/stockmark-ner-wiki/repo
allennlp make-dataset stockmark_ner_wiki --output-dir datasets/stockmark-ner-wiki --source datasets/stockmark-ner-wiki/repo/ner.json

モデルの学習

  • KWDLC (京都大学ウェブ文書リードコーパス)
CUDA_VISIBLE_DEVICES=0 GPU=0 allennlp train configs/kwdlc/bert.jsonnet -s outputs/kwdlc/bert
  • Stockmark NER Wikipedia データセット
CUDA_VISIBLE_DEVICES=0 GPU=0 allennlp train configs/stockmark-ner-wiki/bert.jsonnet -s outputs/stockmark-ner-wiki/bert

モデルの予測

  • KWDLC (京都大学ウェブ文書リードコーパス)
CUDA_VISIBLE_DEVICES=0 allennlp predict \
  outputs/kwdlc/bert/model.tar.gz \
  datasets/kwdlc/tst_ner.txt \
  --output-file outputs/kwdlc/bert/tst_ner.jsonl \
  --cuda-device 0 --predictor sentence_tagger --use-dataset-reader
  • Stockmark NER Wikipedia データセット
CUDA_VISIBLE_DEVICES=0 allennlp predict \
  outputs/stockmark-ner-wiki/bert/model.tar.gz \
  datasets/stockmark-ner-wiki/tst_ner.txt \
  --output-file outputs/kwdlc/stockmark-ner-wiki/tst_ner.jsonl \
  --cuda-device 0 --predictor sentence_tagger --use-dataset-reader

Acknowledgements

About

AllenNLP-NER-ja: AllenNLP による日本語を対象とした固有表現抽出

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published