## 1 モデルの準備

In [2]:
!pip install transformers fugashi ipadic



In [3]:
import torch
from transformers import BertJapaneseTokenizer, BertForMaskedLM

このコードは, 自然言語処理ライブラリである `transformers` を使って, 日本語 BERT モデルをロードするための準備をしています. 

**1.1 `import torch`**

この行は, `torch` ライブラリをインポートします. `torch` ライブラリは, テンソルと呼ばれる多次元データ構造と, テンソル操作のための関数を提供するPythonライブラリです. BERTモデルは, `torch` ライブラリを使用して実装されています. 

**1.2 `from transformers import BertJapaneseTokenizer, BertForMaskedLM`**

この行は, `transformers` ライブラリから `BertJapaneseTokenizer` と `BertForMaskedLM` クラスをインポートします. 

* **`BertJapaneseTokenizer`**: 日本語のテキストをトークン化するためのクラスです. 
* **`BertForMaskedLM`**: マスクされた言語モデリングタスク用の日本語 BERT モデルのクラスです. 

In [4]:
model_name = "cl-tohoku/bert-base-japanese-whole-word-masking"
tokenizer = BertJapaneseTokenizer.from_pretrained(model_name)
bert_model = BertForMaskedLM.from_pretrained(model_name)

Some weights of the model checkpoint at cl-tohoku/bert-base-japanese-whole-word-masking were not used when initializing BertForMaskedLM: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight', 'cls.seq_relationship.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForMaskedLM from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForMaskedLM from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


このコードは, `transformers` ライブラリを使用して, 以下の2つの処理を実行しています. 

1. **日本語 BERT モデルのロード**: 事前に学習済み済みの日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" をロードします. 
2. **モデルの準備**: ロードしたモデルを, マスクされた言語モデリングタスクを実行できるように準備します. 

**1.1 `model_name`**

この行は, 使用する日本語 BERT モデルの名前を `"cl-tohoku/bert-base-japanese-whole-word-masking"` に設定します. このモデルは, 東北大学で開発された日本語 BERT モデルであり, 日本語の単語全体をマスクして学習されています. 

**1.2 `tokenizer`**

この行は, `BertJapaneseTokenizer` クラスを使用して, `model_name` で指定されたモデルに対応するトークナイザをロードします. トークナイザは, 日本語のテキストを BERT モデルが入力として理解できる形式に変換するために必要な処理を行います. 

**1.3 `bert_model`**

この行は, `BertForMaskedLM` クラスを使用して, `model_name` で指定されたモデルに対応する BERT モデルをロードします. BERT モデルは, マスクされた言語モデリングタスクを実行するために必要な処理を行います. 

**2. まとめ**
このコードは, `transformers` ライブラリを使用して, 日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" をロードし, マスクされた言語モデリングタスクを実行できるように準備します. 日本語のテキスト処理や, マスクされた言語モデリングなどのタスクに利用できます. 

In [5]:
print(bert_model.config)

BertConfig {
  "_name_or_path": "cl-tohoku/bert-base-japanese-whole-word-masking",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "tokenizer_class": "BertJapaneseTokenizer",
  "transformers_version": "4.42.3",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 32000
}



In [6]:
print(bert_model)

BertForMaskedLM(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(32000, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e-12, elementwi

## 2 tokenizer

In [7]:
text = "私はお腹が空いたので[MASK]を食べたい"
tokens = tokenizer.tokenize(text)
print(tokens)

['私', 'は', 'お', '##腹', 'が', '空い', 'た', 'ので', '[MASK]', 'を', '食べ', 'たい']


このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 以下の処理を実行しています. 

1. **日本語文の入力**: "私はお腹が空いたので[MASK]を食べたい" という日本語文を `text` 変数に格納します. 
2. **トークナイゼーション**: `tokenizer.tokenize()` 関数を使って, `text` 変数に格納された日本語文をトークンに分割します. 
3. **トークンの出力**: 分割されたトークンを `print` 関数を使って出力します. 


**1.1 `text`**

この行は, "私はお腹が空いたので[MASK]を食べたい" という日本語文を `text` 変数に格納します. 

**1.2 `tokens = tokenizer.tokenize(text)`**

この行は, `tokenizer.tokenize()` 関数を使って, `text` 変数に格納された日本語文をトークンに分割します. `tokenizer.tokenize()` 関数は, 以下の処理を行います. 

* 空白や句読点などの記号を考慮して, 日本語文を単語に分割します. 
* 日本語 BERT モデルのボキャブラリに登録されている単語に対して, その単語に対応するIDを割り当てます. 
* マスクされた単語の位置に, 特別なIDを割り当てます. 

**1.3 `print(tokens)`**

この行は, `print` 関数を使って, `tokens` 変数に格納されたトークンを出力します. 

**2. コードの出力例**

```
['私は', 'お腹', 'が', '空', 'いた', 'ので', '[MASK]', 'を', '食べ', 'たい']
```

上記の出力例では, "私はお腹が空いたので[MASK]を食べたい" という日本語文が, 以下の10個のトークンに分割されています. 

* **私は**: 格助詞
* **お腹**: 名詞
* **が**: 格助詞
* **空**: 形容詞
* **いた**: 動詞
* **ので**: 接続詞
* **[MASK]**: マスクされた単語
* **を**: 格助詞
* **食べ**: 動詞
* **たい**: 動詞

**3. まとめ**

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 日本語文をトークンに分割する方法を示しました. マスクされた言語モデリングなどのタスクを実行する際には, このトークン化処理が必要となります. 

In [8]:
encoding = tokenizer(text, max_length=20, padding="max_length", truncation=True, return_tensors="pt")

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 以下の処理を実行しています. 

1. **トークン化**: `tokenizer.tokenize()` 関数を使って, `text` 変数に格納された日本語文をトークンに分割します. 
2. **パディング**: 分割されたトークンに対して, `max_length` で指定された長さになるようにパディング処理を行います. 
3. **テンソル化**: パディング処理されたトークンを, `torch` ライブラリのテンソルに変換します. 
4. **出力**: 変換されたテンソルを `encoding` 変数に格納します. 

**1.1 `tokenizer(text, ...)`**

この部分は, `tokenizer.tokenize()` 関数と同じ処理を実行します. 詳細は, 前の回答（[https://m.youtube.com/watch?v=h_U27jBNYI4](https://m.youtube.com/watch?v=h_U27jBNYI4)）を参照してください. 

**1.2 `max_length=20`**

この引数は, パディング処理で使用する最大トークン長を20に設定します. つまり, 入力されたトークン数が20個以下であれば, そのままパディング処理されます. 20個を超える場合は, 長いトークンが切り捨てられます. 

**1.3 `padding="max_length"`**

この引数は, パディング処理の方法を `"max_length"` に設定します. `"max_length"` を選択すると, 以下の処理が行われます. 

* 入力されたトークンよりも少ない長さの場合は, 後ろに特別なパディングトークンを追加します. 
* 入力されたトークンが20個以下の場合は, パディング処理を行いません. 

**1.4 `truncation=True`**

この引数は, トークン数が `max_length` を超えた場合に, 長いトークンを **先頭から** 切り捨てるかどうかを指定します. `True` に設定すると, 長いトークンが切り捨てられます. 

**1.5 `return_tensors="pt"`**

この引数は, 出力形式を `torch` ライブラリのテンソルに設定します. 



* **`input_ids`**: 各トークンに対応するIDを格納したテンソルです. 
* **`attention_mask`**: 各トークンが有効かどうかを格納したテンソルです. パディングされた部分は0, そうでない部分は1になります. 

**3. まとめ**

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 日本語 BERT モデルに入力するためのデータ準備方法を示しました. マスクされた言語モデリングなどのタスクを実行する際には, このデータ準備処理が必要となります. 

## 3 BERTと単語ベクトル

In [9]:
output = bert_model(**encoding)
print(output[0].shape)
mask_index = encoding["input_ids"][0].tolist().index(4)

torch.Size([1, 20, 32000])


このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 以下の処理を実行しています. 

1. **BERTモデルへの入力**: `bert_model(**encoding)` 関数を使って, `encoding` 変数に格納されたテンソルを, BERTモデルに入力します. 
2. **モデルの出力**: BERTモデルから出力されたテンソルを `output` 変数に格納します. 
3. **マスクされた単語のインデックス取得**: `encoding["input_ids"][0].tolist().index(4)` 関数を使って, マスクされた単語に対応するインデックスを `mask_index` 変数に格納します. 
4. **出力形状の表示**: `print(output[0].shape)` 関数を使って, `output[0]` テンソルの形状を出力します. 

**1.1 `output = bert_model(**encoding)`**

この行は, `bert_model` 変数に格納された BERT モデルに対して, `encoding` 変数に格納されたテンソルを入力し, その出力を `output` 変数に格納します. 

**1.2 `print(output[0].shape)`**

この行は, `output` 変数に格納されたテンソルの形状を出力します. BERTモデルの出力は, 通常複数のテンソルで構成されますが, このコードでは `output[0]` のみを出力しています. 

**1.3 `mask_index = encoding["input_ids"][0].tolist().index(4)`**

この行は, 以下の処理を実行します. 

* `encoding["input_ids"][0]`: 入力されたトークンIDのテンソルを取得します. 
* `.tolist()`: テンソルをリストに変換します. 
* `.index(4)`: リストの中で, 4という値を持つ要素のインデックスを取得します. 

この処理により, `mask_index` 変数には, マスクされた単語に対応するインデックスが格納されます. 

**3. まとめ**

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, BERTモデルの予測結果と, マスクされた単語のインデックスを取得する方法を示しました. マスクされた言語モデリングなどのタスクを実行する際には, この処理が必要となります. 


In [10]:
max_word = output[0][0][mask_index].argmax().item()
mask_word = tokenizer.convert_ids_to_tokens(max_word)
print(text.replace("[MASK]", mask_word))

私はお腹が空いたのでご飯を食べたい


このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 以下の処理を実行しています. 

1. **マスクされた単語の予測**: BERTモデルの出力から, マスクされた単語の予測結果を取得します. 
2. **予測単語の取得**: 予測結果に基づいて, 最も可能性の高い単語を `mask_word` 変数に格納します. 
3. **元の文への置換**: 入力文中のマスクされた部分を, 予測された単語で置換した新しい文を出力します. 

**1.1 `max_word = output[0][0][mask_index].argmax().item()`**

この行は, 以下の処理を実行します. 

* `output[0][0][mask_index]`: BERTモデルの出力テンソルから, マスクされた単語に対応する確率分布を取得します. 
* `.argmax()`: 確率分布の中で, 最も高い値を持つ要素のインデックスを取得します. 
* `.item()`: テンソル要素をPythonの値に変換します. 

この処理により, `max_word` 変数には, マスクされた単語として最も可能性の高い単語に対応するIDが格納されます. 

**1.2 `mask_word = tokenizer.convert_ids_to_tokens(max_word)`**

この行は, `tokenizer.convert_ids_to_tokens()` 関数を使って, `max_word` 変数に格納されたIDを, 実際の単語に変換します. 

**1.3 `print(text.replace("[MASK]", mask_word))`**

この行は, `text` 変数に格納された元の文中の "[MASK]" 部分を, `mask_word` 変数に格納された予測単語に置き換えた新しい文を出力します. 

**3. まとめ**

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, マスクされた単語を予測し, 元の文に置換する方法を示しました. マスクされた言語モデリングなどのタスクを実行する際には, この処理が必要となります. 


In [11]:
top_words = output[0][0][mask_index].topk(10).indices
for word_id in top_words:
  word = tokenizer.convert_ids_to_tokens(word_id.item())
  print(text.replace("[MASK]", word))

私はお腹が空いたのでご飯を食べたい
私はお腹が空いたので野菜を食べたい
私はお腹が空いたので肉を食べたい
私はお腹が空いたのでカレーを食べたい
私はお腹が空いたのでラーメンを食べたい
私はお腹が空いたので[UNK]を食べたい
私はお腹が空いたのでパンを食べたい
私はお腹が空いたので米を食べたい
私はお腹が空いたので魚を食べたい
私はお腹が空いたので飯を食べたい


提示されたコードスニペットは, 事前学習済み言語モデルを使用して, 文中のマスクされた単語「[UNK]」に代わるさまざまな候補を生成しています. モデルは, 空腹を感じている人が食べる可能性のあるさまざまな食品を候補として提案しています. 

1. ご飯 (Gohan): 米飯
2. 野菜 (Yasai): 野菜
3. 肉 (Niku): 肉類
4. カレー (Kare): カレーライス
5. ラーメン (Rāmen): ラーメン
6. パン (Pan): パン
7. 米 (Kome): 米飯
8. 魚 (Sakana): 魚
9. 飯 (I): 米飯

しかし, モデルは "[UNK]" も候補の一つとして生成しています. これは, モデルがマスクされた位置の一番可能性の高い単語を自信を持って特定できないことを示唆しています. これは, 文脈が限られていることや, 「お腹が空いた」というフレーズの曖昧性による可能性があります. 

この場合, 「[UNK]」は, 話者の好みや状況に応じて, 話者が望むさまざまな食品を表すことができます. また, 話者が欲している特定の飲み物や軽食など, 食品以外のものを指すこともあります. 

この文が使用された文脈や話者の意図に関する追加情報がない限り, 「[UNK]」の意味を明確に判断することはできません. しかし, 提示された候補リストは, 話者の意図に合致する可能性のあるさまざまな可能性を提供しています. 

**追加情報があれば**

この文が使用された文脈や話者の意図に関する情報があれば, [UNK] の意味についてより具体的な回答を提供できる可能性があります. 例えば, 以下のような情報があると役立ちます. 

* この文は誰によって, 誰に対して言われたのですか？
* この文が言われた状況はどのようなものでしたか？
* 話者は普段どのような食べ物を好みますか？

これらの情報があれば, [UNK] の意味をより絞り込むことができます. 


このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, 以下の処理を実行しています. 

1. **上位5つのマスク単語候補の取得**: BERTモデルの出力から, マスクされた単語の**上位5つの候補**を取得します. 
2. **候補単語の表示**: 各候補単語について, 元の文に置換した文を出力します. 

**1.1 `top_words = output[0][0][mask_index].topk(5).indices`**

この行は, 以下の処理を実行します. 

* `output[0][0][mask_index]`: BERTモデルの出力テンソルから, マスクされた単語に対応する確率分布を取得します. 
* `.topk(5)`: 確率分布の中で, **上位5つ**の要素とそのインデックスを取得します. 
* `.indices`: 取得したインデックスのみを抽出します. 

この処理により, `top_words` 変数には, マスクされた単語として最も可能性の高い5つの単語に対応するIDが格納されます. 

**1.2 `for word_id in top_words:`**

このループは, `top_words` 変数に格納された各IDに対して処理を実行します. 

**1.3 `word = tokenizer.convert_ids_to_tokens(word_id.item())`**

この行は, `tokenizer.convert_ids_to_tokens()` 関数を使って, `word_id` 変数に格納されたIDを, 実際の単語に変換します. 

**1.4 `print(text.replace("[MASK]", word))`**

この行は, `text` 変数に格納された元の文中の "[MASK]" 部分を, `word` 変数に格納された予測単語に置き換えた新しい文を出力します. 

**3. まとめ**

このコードは, `transformers` ライブラリと日本語 BERT モデル "cl-tohoku/bert-base-japanese-whole-word-masking" を使って, マスクされた単語を予測し, 上位5つの候補を元の文に置換して表示する方法を示しました. マスクされた言語モデリングなどのタスクを実行する際には, この処理が必要となります. 
