<a href="https://colab.research.google.com/github/miyauchi-kousuke/bert/blob/main/bert_sample1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# サンプル

- 形態素解析用のjuman++をDLしてMAKEする
- 日本語に最適化されたBertモデルを取得

In [None]:
# 形態素解析用のjuman++をDLしてMAKEする
!wget https://github.com/ku-nlp/jumanpp/releases/download/v2.0.0-rc2/jumanpp-2.0.0-rc2.tar.xz
!tar xfv jumanpp-2.0.0-rc2.tar.xz  
%cd jumanpp-2.0.0-rc2
!mkdir bld
%cd bld
!cmake .. -DCMAKE_BUILD_TYPE=Release -DCMAKE_INSTALL_PREFIX=/usr/local
!make install -j2
!mkdir juman_bu
!mkdir juman_bu/bin
!mkdir juman_bu/libexec
!cp -rf /usr/local/bin/jumanpp ./juman_bu/bin/
!cp -rf /usr/local/libexec/jumanpp ./juman_bu/libexec/ 

# 日本語に最適化されたBertモデルを取得
%cd
%cd .././content
!wget https://miyauchi-bert.s3-ap-northeast-1.amazonaws.com/Japanese_L-12_H-768_A-12_E-30_BPE_WWM_transformers.zip
!unzip Japanese_L-12_H-768_A-12_E-30_BPE_WWM_transformers.zip

- 必要なライブラリをインストールする


In [None]:
%cd
%cd .././content
!pip install pytorch-transformers
!pip install transformers pyknp

- 形態素解析を実行する。
- ここではテキストに入れた文言をjuman++を使って形態素解析する

In [None]:
import os
import torch
from transformers import BertForMaskedLM, BertConfig, BertTokenizer
from pyknp import Juman

BASE_PATH = './Japanese_L-12_H-768_A-12_E-30_BPE_WWM_transformers'
BERT_CONFIG = 'config.json'
BERT_MODEL = 'pytorch_model.bin'
VOCAVULARY_LIST = 'vocab.txt'

jumanpp = Juman()

# 形態素解析
text = 'どんなに勉強しても全然頭が良くならない'
result = jumanpp.analysis(text)
tokenized_text =[mrph.midasi for mrph in result.mrph_list()]
print(tokenized_text)

- 上の処理で単語化されたものを、BERTに入れるために文頭と行間に指定されたsymbolを埋め込む


In [None]:
# Mask 
tokenized_text.insert(0, '[CLS]')
tokenized_text.append('[SEP]')

masked_index = 5 # Maskしたいtextのindex 
tokenized_text[masked_index] = '[MASK]'
print(tokenized_text)

- 予め学習モデルで使用した言語辞書を元に、単語をid化する。
- そのidを元にTensor型(行列表現)を作る

In [None]:
%cd
%cd .././content
# Bert model
config = BertConfig.from_json_file(os.path.join(BASE_PATH, BERT_CONFIG))
model = BertForMaskedLM.from_pretrained(os.path.join(BASE_PATH, BERT_MODEL), config=config)
tokenizer = BertTokenizer(os.path.join(BASE_PATH, VOCAVULARY_LIST), do_lower_case=False, do_basic_tokenize=False)

# token化
indexed_tokens = tokenizer.convert_tokens_to_ids(tokenized_text)
tokens_tensor = torch.tensor([indexed_tokens])
print(tokens_tensor)

- モデルを使ってマスク化された単語の予想をする


In [None]:
# 予測
model.eval()

tokens_tensor = tokens_tensor.to('cpu')
model.to('cpu')

with torch.no_grad():
    outputs = model(tokens_tensor)
    predictions = outputs[0]

_, predicted_indexes = torch.topk(predictions[0, masked_index], k=5)
predicted_tokens = tokenizer.convert_ids_to_tokens(predicted_indexes.tolist())
print(predicted_tokens)

以上