<a href="https://colab.research.google.com/github/mayutakizawa-78/bert-MLM/blob/main/BERT_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## BERT を用いた自動文章生成

自然気語処理のBERTモデル（　https://arxiv.org/abs/1810.04805　）を用いた文章の穴埋めを自動予測するコードを生成。

### 手順
### 1. ライブラリのインストール
### 2. モデルの準備
### 3. マスク単語予測(MLM)

今回は、例文【アルベルト・アインシュタインはそれまでの物理学の認識を根本から変え、「20世紀最高の物理学者」とも評される】を用いて検証する。
入力テキストを変更して自由に文章を設定可能。
- input_ids の f' 'の中に書き込む
- {tokenizer.mask_token}を含めるのを忘れずに

### 1. ライブラリのインストール

In [1]:
# 日本語用パッケージをインストール
!pip install "fugashi[unidic]"
!pip install ipadic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting fugashi[unidic]
  Downloading fugashi-1.2.1-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (615 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m615.9/615.9 KB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting unidic
  Downloading unidic-1.1.0.tar.gz (7.7 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting plac<2.0.0,>=1.1.3
  Downloading plac-1.3.5-py2.py3-none-any.whl (22 kB)
Building wheels for collected packages: unidic
  Building wheel for unidic (setup.py) ... [?25l[?25hdone
  Created wheel for unidic: filename=unidic-1.1.0-py3-none-any.whl size=7425 sha256=93ce23231ac24d498fb8802b3f82f47bd41b3b88062ab3b32c5f62c2d5a5b944
  Stored in directory: /root/.cache/pip/wheels/22/bc/bb/46aba36d0388f67dfe44bb0edc20a2c964560d4d19ec394e05
Successfully built unidic
Installing collected packages: plac, fugashi, unidic
Successfully 

In [2]:
pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting transformers
  Downloading transformers-4.26.0-py3-none-any.whl (6.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m6.3/6.3 MB[0m [31m28.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting huggingface-hub<1.0,>=0.11.0
  Downloading huggingface_hub-0.12.0-py3-none-any.whl (190 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m190.3/190.3 KB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
Collecting tokenizers!=0.11.3,<0.14,>=0.11.1
  Downloading tokenizers-0.13.2-cp38-cp38-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (7.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.6/7.6 MB[0m [31m87.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tokenizers, huggingface-hub, transformers
Successfully installed huggingface-hub-0.12.0 tokenizers-0.13.2 transformers-4.26.0


In [3]:
pip install fugashi

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [4]:
pip install ipadic

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### 2. モデルの準備

In [5]:
import torch
from transformers import AutoTokenizer, AutoModelForMaskedLM

# トークナイザの準備
tokenizer = AutoTokenizer.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')
# モデルの準備
model = AutoModelForMaskedLM.from_pretrained('cl-tohoku/bert-base-japanese-whole-word-masking')


Downloading (…)okenizer_config.json:   0%|          | 0.00/110 [00:00<?, ?B/s]

Downloading (…)lve/main/config.json:   0%|          | 0.00/479 [00:00<?, ?B/s]

Downloading (…)solve/main/vocab.txt:   0%|          | 0.00/258k [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/445M [00:00<?, ?B/s]

Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertForMaskedLM: ['cls.seq_relationship.weight', 'cls.seq_relationship.bias']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


### 3. マスク単語予測(MLM)

In [10]:
# 入力テキストのエンコード
input_ids = tokenizer.encode(f'アルベルト・アインシュタインはそれまでの物理学の認識を根本から変え、「20世紀最高の{tokenizer.mask_token}」とも評される。', return_tensors='pt')
print('input_ids:', tokenizer.convert_ids_to_tokens(input_ids[0].tolist()))

# マスクインデックスの取得
masked_index = torch.where(input_ids == tokenizer.mask_token_id)[1].tolist()[0]
print('masked_index:', masked_index)

# マスクトークンの予測
result = model(input_ids)

pred_ids = result[0][:, masked_index].topk(5).indices.tolist()[0]

# 5回繰り返す
for pred_id in pred_ids:
    output_ids = input_ids.tolist()[0]
    output_ids[masked_index] = pred_id
    print(tokenizer.decode(output_ids))

input_ids: ['[CLS]', 'アルベルト', '・', 'アインシュタイン', 'は', 'それ', 'まで', 'の', '物理', '学', 'の', '認識', 'を', '根本', 'から', '変え', '、', '「', '20', '世紀', '最高', 'の', '[MASK]', '」', 'と', 'も', '評さ', 'れる', '。', '[SEP]']
masked_index: 22
[CLS] アルベルト ・ アインシュタイン は それ まで の 物理 学 の 認識 を 根本 から 変え 、 「 20 世紀 最高 の アインシュタイン 」 と も 評さ れる 。 [SEP]
[CLS] アルベルト ・ アインシュタイン は それ まで の 物理 学 の 認識 を 根本 から 変え 、 「 20 世紀 最高 の 天才 」 と も 評さ れる 。 [SEP]
[CLS] アルベルト ・ アインシュタイン は それ まで の 物理 学 の 認識 を 根本 から 変え 、 「 20 世紀 最高 の 学者 」 と も 評さ れる 。 [SEP]
[CLS] アルベルト ・ アインシュタイン は それ まで の 物理 学 の 認識 を 根本 から 変え 、 「 20 世紀 最高 の 科学 」 と も 評さ れる 。 [SEP]
[CLS] アルベルト ・ アインシュタイン は それ まで の 物理 学 の 認識 を 根本 から 変え 、 「 20 世紀 最高 の 哲学 」 と も 評さ れる 。 [SEP]
