## BERT を用いた自動文章生成

自然気語処理のBERTモデル（　https://arxiv.org/abs/1810.04805　）を用いた文章の穴埋めを自動予測するコードを生成。

### 手順
### 1. ライブラリのインストール
### 2. モデルの準備
### 3. マスク単語予測(MLM)

今回は、例文【アルベルト・アインシュタインはそれまでの物理学の認識を根本から変え、「20世紀最高の物理学者」とも評される】を用いて検証する。
入力テキストを変更して自由に文章を設定可能。
- input_ids の f' 'の中に書き込む
- {tokenizer.mask_token}を含めるのを忘れずに

### 1. ライブラリのインストール

In [None]:
# 日本語用パッケージをインストール
!pip install "fugashi[unidic]"
!pip install ipadic

In [None]:
pip install transformers

In [None]:
pip install fugashi

In [None]:
pip install ipadic

### 2. モデルの準備

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM

# トークナイザの準備
tokenizer = AutoTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
# モデルの準備
model = AutoModelForMaskedLM.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')


### 3. マスク単語予測(MLM)

In [None]:
# 入力テキストのエンコード
input_ids = tokenizer.encode(f'アルベルト・アインシュタインはそれまでの物理学の認識を根本から変え、「20世紀最高の{tokenizer.mask_token}」とも評される。', return_tensors='pt')
print('input_ids:', tokenizer.convert_ids_to_tokens(input_ids[0].tolist()))

# マスクインデックスの取得
masked_index = torch.where(input_ids == tokenizer.mask_token_id)[1].tolist()[0]
print('masked_index:', masked_index)

# マスクトークンの予測
result = model(input_ids)

pred_ids = result[0][:, masked_index].topk(5).indices.tolist()[0]

# 5回繰り返す
for pred_id in pred_ids
    output_ids = input_ids.tolist()[0]
    output_ids[masked_index] = pred_id
    print(tokenizer.decode(output_ids))