## 1 モデルの準備

In [2]:
!pip install transformers



In [3]:
import torch
import torch.nn.functional as F
from transformers import BertTokenizer, BertModel

このコードでは, 以下の3つのライブラリをインポートしています. 

* **`torch`**: 機械学習フレームワークであるPyTorchのライブラリです. ニューラルネットワークの構築や学習, 推論などに必要な機能を提供します. 
* **`torch.nn.functional`**: PyTorchの機能的なAPIを提供するモジュールです. 活性化関数や損失関数など, ニューラルネットワークの構築に役立つ関数を定義しています. 
* **`transformers`**: 自然言語処理タスクに特化したライブラリです. BERTやGPT-2などの事前学習済みモデルを簡単に利用することができます. 


In [4]:
model_name = "bert-base-uncased"
tokenizer = BertTokenizer.from_pretrained(model_name)
bert_model = BertModel.from_pretrained(model_name)

このコードは, `transformers` ライブラリを使用して, 事前学習済みのBERTモデルを読み込みます. 

**2.1 `model_name = "bert-base-uncased"`**

この行は, 使用するBERTモデルの名前を `"bert-base-uncased"` に設定しています. 

* `"bert-base-uncased"` は, Google AIが公開しているBERTモデルの1つです. 
* "uncased" は, 大文字と小文字を区別しないモデルであることを意味します. 

**2.2 `tokenizer = BertTokenizer.from_pretrained(model_name)`**

この行は, `BertTokenizer` クラスを使用して, `model_name` で指定されたモデルに対応するトークナイザを作成し, `tokenizer` 変数に代入しています. 

* トークナイザは, テキストをモデルが入力できる形式に変換する役割を担います. 
* BERTモデルでは, 単語をサブワードと呼ばれる小さな単位に分割し, それぞれにIDを割り当てる必要があります. 

**2.3 `bert_model = BertModel.from_pretrained(model_name)`**

この行は, `BertModel` クラスを使用して, `model_name` で指定されたモデルを読み込み, `bert_model` 変数に代入しています. 

* BERTモデルは, Transformerと呼ばれるニューラルネットワークアーキテクチャに基づいて構築されています. 
* このモデルは, 大量のテキストデータで事前学習されており, 様々な自然言語処理タスクに利用することができます. 



In [5]:
print(bert_model.config)

BertConfig {
  "_name_or_path": "bert-base-uncased",
  "architectures": [
    "BertForMaskedLM"
  ],
  "attention_probs_dropout_prob": 0.1,
  "classifier_dropout": null,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "layer_norm_eps": 1e-12,
  "max_position_embeddings": 512,
  "model_type": "bert",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "pad_token_id": 0,
  "position_embedding_type": "absolute",
  "transformers_version": "4.42.3",
  "type_vocab_size": 2,
  "use_cache": true,
  "vocab_size": 30522
}



このコードは、`bert_model` 変数に格納されているBERTモデルの**構成情報**を出力します。

**1. 構成情報とは？**

BERTモデルは、様々なハイパーパラメータによって構成されています。これらのハイパーパラメータは、モデルの性能や動作に影響を与えます。

**2. 出力される情報**

`print(bert_model.config)` を実行すると、以下の情報が出力されます。

* **モデル名**: 使用されているBERTモデルの名前
* **アーキテクチャ**: モデルのアーキテクチャ (例: `base`, `large`)
* **層数**: モデルの層数
* **隠れ層ユニット数**: 各層の隠れ層ユニット数
* **中間層サイズ**: モデルの中間層サイズ
* **Attention ヘッド数**: Attention ヘッドの数
* **Attention キーサイズ**: Attention キーサイズ
* **Attention 値サイズ**: Attention 値サイズ
* **単語埋め込み次元数**: 単語埋め込み次元数
* **最大入力トークン数**: 最大入力トークン数
* **プーリング方法**: プーリング方法 (例: `last-avg`, `first-avg`)
* **その他**: モデル固有のハイパーパラメータ


In [15]:
print(bert_model)

BertModel(
  (embeddings): BertEmbeddings(
    (word_embeddings): Embedding(30522, 768, padding_idx=0)
    (position_embeddings): Embedding(512, 768)
    (token_type_embeddings): Embedding(2, 768)
    (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (encoder): BertEncoder(
    (layer): ModuleList(
      (0-11): 12 x BertLayer(
        (attention): BertAttention(
          (self): BertSdpaSelfAttention(
            (query): Linear(in_features=768, out_features=768, bias=True)
            (key): Linear(in_features=768, out_features=768, bias=True)
            (value): Linear(in_features=768, out_features=768, bias=True)
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (output): BertSelfOutput(
            (dense): Linear(in_features=768, out_features=768, bias=True)
            (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
            (dropout): Dropout(p=0.1, inplace=False

このコードは, `bert_model` 変数に格納されているBERTモデルの**オブジェクトそのもの**を出力します. 

**1. オブジェクトとは？**

Pythonでは, 様々なデータ型が存在します. その中でも, **オブジェクト** は, 属性とメソッドを持つデータ型です. 

* **属性**: オブジェクトが持つデータ
* **メソッド**: オブジェクトが実行できる処理

**2. BERTモデルオブジェクト**

`bert_model` 変数に格納されているBERTモデルオブジェクトは, 以下の属性とメソッドを持っています. 

**属性**

* `config`: モデルの構成情報
* `state_dict`: モデルのパラメータ情報
* `embeddings`: 単語埋め込み層
* `encoder`: エンコーダー層
* `pooler`: プーリング層
* `dropout`: ドロップアウト層
* `classifier`: 分類層
* `loss`: 損失関数
* `optimizer`: 最適化アルゴリズム

**メソッド**

* `forward(input_ids, attention_mask=None, token_type_ids=None)`: 入力テキストを処理し, 出力ベクトルを返す
* `save_pretrained(save_directory)`: モデルを保存する
* `load_state_dict(state_dict)`: モデルのパラメータを読み込む
* `train()`: モデルを訓練モードに設定する
* `eval()`: モデルを評価モードに設定する


## 2 tokenizer

In [7]:
text_list = ["I'm reading a book",
             "I'd like to book a room",
             "I'd like to reserve a room",
             "Please reserve this table for us"]

In [8]:
encoding = tokenizer(text_list, max_length=10, padding="max_length", truncation=True, return_tensors="pt")
encoding

{'input_ids': tensor([[ 101, 1045, 1005, 1049, 3752, 1037, 2338,  102,    0,    0],
        [ 101, 1045, 1005, 1040, 2066, 2000, 2338, 1037, 2282,  102],
        [ 101, 1045, 1005, 1040, 2066, 2000, 3914, 1037, 2282,  102],
        [ 101, 3531, 3914, 2023, 2795, 2005, 2149,  102,    0,    0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        [0, 0, 0, 0, 0, 0, 0, 0, 0, 0]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 0, 0],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
        [1, 1, 1, 1, 1, 1, 1, 1, 0, 0]])}

このコードは, `transformers` ライブラリの `tokenizer` を使って, `text_list` に含まれる英文をBERTモデルに入力できる形式に変換し, `encoding` 変数に代入しています. 

**1.1 `tokenizer(text_list)`**

* `tokenizer`: `BertTokenizer` オブジェクト
* `text_list`: 変換対象の英文リスト

この部分は, `tokenizer` オブジェクトを使って, `text_list` に含まれる英文をトークン化します. 

**トークン化** とは, 英文を単語や記号などの小さな単位（トークン）に分割し, それぞれにIDを割り当てる処理です. BERTモデルは, トークン単位で処理を行うため, この工程が必要となります. 

**1.2 `max_length=10`**

* `max_length`: 入力シーケンスの最大長

このオプションは, 入力シーケンスの最大長を10トークンに設定します. BERTモデルは, 最大128トークンまでの入力シーケンスを処理できますが, 長い文章を処理すると計算量が多くなるため, このオプションで長さを制限することがあります. 

**1.3 `padding="max_length"`**

* `padding`: パディング方法

このオプションは, 入力シーケンスの長さを `max_length` までパディング（ゼロ埋め）する方法を指定します. `padding="max_length"` を指定すると, 短い文章は `max_length` までゼロで埋め込まれ, 長い文章は `max_length` で切り捨てられます. 

**1.4 `truncation=True`**

* `truncation`: 文章を切断するかどうか

このオプションは, 長い文章を `max_length` で切断するかどうかを指定します. `truncation=True` を指定すると, 長い文章は先頭から `max_length` トークン分だけ抽出され, それ以降の部分は切り捨てられます. 

**1.5 `return_tensors="pt"`**

* `return_tensors`: 出力データの形式

このオプションは, 出力データの形式をPyTorchのテンソル形式に設定します. `return_tensors="pt"` を指定すると, 出力データはPyTorchのテンソル形式で返されます. 

**2. `encoding` 変数の内容**

`encoding` 変数には, 以下の情報が格納されたテンソルが入ります. 

* **input_ids**: 各トークンのIDを表すテンソル
* **attention_mask**: パディング部分を除いたマスクを表すテンソル
* **token_type_ids**: 文章の種類を表すテンソル (複数文章の場合は使用されない)


## 3 BERTと単語ベクトル

In [9]:
output = bert_model(**encoding, output_hidden_states=True)

このコードは, BERTモデルに `encoding` で表される入力データを入力し, モデルの出力を `output` 変数に代入しています. 

**1.1 `bert_model`**

* `bert_model`: `BertModel` オブジェクト

この部分は, `bert_model` オブジェクトを使って, BERTモデルに処理を実行させます. 

**1.2 `**encoding`**`

* `encoding`: 変換済みの入力データ

この部分は, `encoding` 変数に格納されている, `tokenizer` で変換済みの入力データを渡します. 

**1.3 `output_hidden_states=True`**

* `output_hidden_states`: 隠れ層の出力を出力するかどうか

このオプションは, BERTモデルの各層の隠れ層の出力を出力するかどうかを指定します. `output_hidden_states=True` を指定すると, 各層の隠れ層の出力が `output` 変数に格納されます. 

**2. `output` 変数の内容**

`output` 変数には, 以下の情報が格納されたテンソルが入ります. 

* **last_hidden_state**: 最終層の隠れ層の出力を表すテンソル
* **hidden_states**: 各層の隠れ層の出力を表すリスト
* **pooler_output**: プーリング層の出力を表すテンソル


In [10]:
len(output[2])
# output[2][層][文][単語]

13

このコードは, BERTモデルの出力を分析するためのものです. 

**1.1 `len(output[2])`**

この行は, `output[2]` の長さを出力します. 

* `output`: BERTモデルの出力を表す変数
* `2`: `output` の3番目の要素

`output[2]` は, 各層の隠れ層の出力を表すリストです. よって, この行は, BERTモデルが持つ隠れ層の数を出力することになります. 

**1.2 `output[2][層][文][単語]`**

この行は, `output[2]` の要素にアクセスし, さらにその要素にアクセスして, 特定の隠れ層, 文, 単語に対応する値を取得します. 

* `output[2]`: 各層の隠れ層の出力を表すリスト
* `層`: アクセスしたい隠れ層の番号
* `文`: アクセスしたい文の番号
* `単語`: アクセスしたい単語の番号

例えば, `output[2][1][0][0]` は, 2番目の隠れ層, 1番目の文, 0番目の単語に対応する値を取得します. 


In [11]:
text_list

["I'm reading a book",
 "I'd like to book a room",
 "I'd like to reserve a room",
 'Please reserve this table for us']

In [12]:
# 多義語
print(text_list[0], ",", text_list[1])
layer0_similarity = F.cosine_similarity(output[2][0][0][6].reshape(1, -1), output[2][0][1][6].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][0][6].reshape(1, -1), output[2][-1][1][6].reshape(1, -1))
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")

I'm reading a book , I'd like to book a room
0層目: 1.0
最終層目: 0.359


このコードは, `text_list` の最初の2つの英文 "I'm reading a book" と "I'd like to book a room" に対し, BERTモデルを用いて多義語表現の層間類似度を分析しています. 


**1.1 対象英文の表示**

```python
print(text_list[0], ",", text_list[1])
```

この行は, `text_list` の最初の2つの英文 "I'm reading a book" と "I'd like to book a room" を出力します. これらの英文は, "book" という単語を含むものの, その意味は異なります. 

* **1番目の英文**: "I'm reading a book" - 本を読んでいます. 
* **2番目の英文**: "I'd like to book a room" - 部屋を予約したいです. 

**1.2 層間類似度の計算**

```python
layer0_similarity = F.cosine_similarity(output[2][0][0][6].reshape(1, -1), output[2][0][1][6].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][0][6].reshape(1, -1), output[2][-1][1][6].reshape(1, -1))
```

この部分は, 以下の2つのステップでBERTモデルの層間類似度を計算しています. 

**ステップ1: 特定単語の隠れ層ベクトルの取得**

* `output[2]`: 各層の隠れ層の出力を表すリスト
* `0`, `-1`: アクセスする隠れ層の番号 (0層目と最終層目)
* `0`, `1`: アクセスする文の番号 (最初の2つの文)
* `6`: アクセスする単語の番号 ("book" に対応する単語)

上記のインデックスを使って, "book" という単語に対応する各層の隠れ層ベクトルを取得します. 

**ステップ2: コサイン類似度の計算**

取得した隠れ層ベクトル同士の**コサイン類似度** を計算します. コサイン類似度とは, 2つのベクトルの間の角度を cosθ で表し, 0に近いほどベクトルが似ていることを示す指標です. 

このコードでは, `torch.nn.functional.cosine_similarity` 関数を使ってコサイン類似度を計算しています. 

**1.3 類似度の出力**

```python
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")
```

この部分は, 計算されたコサイン類似度を出力します. 

* **0層目**: 0番目の隠れ層における類似度
* **最終層目**: 最終層目 (12番目の隠れ層) における類似度

**2. コードの解釈**

このコードは, BERTモデルの異なる層における"book" という単語の表現を比較し, 多義語表現の変化を分析しています. 

* **0層目**: 入力に近い情報を保持する層です. この層での類似度が高い場合, "book" という単語の基本的な意味が類似していることを示唆します. 
* **最終層目**: 文脈の影響を強く受けた情報を保持する層です. この層での類似度が高い場合, "book" という単語が文脈によってどのように解釈されているかが似ていることを示唆します. 

**3. 実行結果の解釈**

出力された類似度の値を解釈するには, 以下の点に注意する必要があります. 

* **コサイン類似度の値の範囲**: 0に近いほどベクトルが似ており, 1に近いほどベクトルが異なっています. 


In [13]:
# 類義語(同じ文脈)
print(text_list[1], ",", text_list[2])
layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][2][6].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][2][6].reshape(1, -1))
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")

I'd like to book a room , I'd like to reserve a room
0層目: 0.096
最終層目: 0.717


このコードは, `text_list` の2番目の2つの英文 "I'd like to book a room" と "I'd like to reserve a room" に対し, BERTモデルを用いて**同じ文脈における類義語表現**の層間類似度を分析しています. 

**1. コードの詳細**

```python
# 類義語(同じ文脈)
print(text_list[1], ",", text_list[2])

layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][2][6].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][2][6].reshape(1, -1))

print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")
```

**1.1 対象英文の表示**

```python
print(text_list[1], ",", text_list[2])
```

この行は, `text_list` の2番目の2つの英文 "I'd like to book a room" と "I'd like to reserve a room" を出力します. これらの英文は, "book" と "reserve" という類義語を含むものの, 文脈は同じです. 

* **1番目の英文**: "I'd like to book a room" - 部屋を予約したいです. 
* **2番目の英文**: "I'd like to reserve a room" - 部屋を予約したいです. 

**1.2 層間類似度の計算**

```python
layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][2][6].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][2][6].reshape(1, -1))
```

この部分は, 以下の2つのステップでBERTモデルの層間類似度を計算しています. 

**ステップ1: 特定単語の隠れ層ベクトルの取得**

* `output[2]`: 各層の隠れ層の出力を表すリスト
* `0`, `-1`: アクセスする隠れ層の番号 (0層目と最終層目)
* `1`, `2`: アクセスする文の番号 (2番目の2つの文)
* `6`: アクセスする単語の番号 ("book" または "reserve" に対応する単語)

上記のインデックスを使って, "book" と "reserve" という単語に対応する各層の隠れ層ベクトルを取得します. 

**ステップ2: コサイン類似度の計算**

取得した隠れ層ベクトル同士の**コサイン類似度** を計算します. 

**1.3 類似度の出力**

```python
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")
```

この部分は, 計算されたコサイン類似度を出力します. 

* **0層目**: 0番目の隠れ層における類似度
* **最終層目**: 最終層目 (12番目の隠れ層) における類似度

**2. コードの解釈**

このコードは, BERTモデルの異なる層における"book" と "reserve" という類義語の表現を比較し, **同じ文脈における類義語表現の変化**を分析しています. 

* **0層目**: 入力に近い情報を保持する層です. この層での類似度が高い場合, "book" と "reserve" という単語の基本的な意味が類似していることを示唆します. 
* **最終層目**: 文脈の影響を強く受けた情報を保持する層です. この層での類似度が高い場合, "book" と "reserve" という単語が文脈によってどのように解釈されているかが似ていることを示唆します. 

**3. 実行結果の解釈**

出力された類似度の値を解釈するには, 以下の点に注意する必要があります. 

* **コサイン類似度の値の範囲**: 0に近いほどベクトルが似ており, 1に近いほどベ

In [14]:
# 類義語(違う文脈)
print(text_list[1], ",", text_list[3])
layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][3][2].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][3][2].reshape(1, -1))
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")

I'd like to book a room , Please reserve this table for us
0層目: 0.026
最終層目: 0.415


このコードは, `text_list` の2番目の2つの英文 "I'd like to book a room" と "Please reserve this table for us" に対し, BERTモデルを用いて**異なる文脈における類義語表現**の層間類似度を分析しています. 

**1. コードの詳細**

```python
# 類義語(違う文脈)
print(text_list[1], ",", text_list[3])

layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][3][2].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][3][2].reshape(1, -1))

print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")
```

**1.1 対象英文の表示**

```python
print(text_list[1], ",", text_list[3])
```

この行は, `text_list` の2番目の2つの英文 "I'd like to book a room" と "Please reserve this table for us" を出力します. これらの英文は, "book" と "reserve" という類義語を含むものの, 文脈は異なります. 

* **1番目の英文**: "I'd like to book a room" - 部屋を予約したいです. 
* **2番目の英文**: "Please reserve this table for us" - このテーブルを私たちのために予約してください. 

**1.2 層間類似度の計算**

```python
layer0_similarity = F.cosine_similarity(output[2][0][1][6].reshape(1, -1), output[2][0][3][2].reshape(1, -1))
layer12_similarity = F.cosine_similarity(output[2][-1][1][6].reshape(1, -1), output[2][-1][3][2].reshape(1, -1))
```

この部分は, 以下の2つのステップでBERTモデルの層間類似度を計算しています. 

**ステップ1: 特定単語の隠れ層ベクトルの取得**

* `output[2]`: 各層の隠れ層の出力を表すリスト
* `0`, `-1`: アクセスする隠れ層の番号 (0層目と最終層目)
* `1`, `3`: アクセスする文の番号 (2番目の2つの文)
* `6`, `2`: アクセスする単語の番号 ("book" または "reserve" に対応する単語)

上記のインデックスを使って, "book" と "reserve" という単語に対応する各層の隠れ層ベクトルを取得します. 

**ステップ2: コサイン類似度の計算**

取得した隠れ層ベクトル同士の**コサイン類似度** を計算します. 

**1.3 類似度の出力**

```python
print(f"0層目: {round(layer0_similarity.item(), 3)}")
print(f"最終層目: {round(layer12_similarity.item(), 3)}")
```

この部分は, 計算されたコサイン類似度を出力します. 

* **0層目**: 0番目の隠れ層における類似度
* **最終層目**: 最終層目 (12番目の隠れ層) における類似度

**2. コードの解釈**

このコードは, BERTモデルの異なる層における"book" と "reserve" という類義語の表現を比較し, **異なる文脈における類義語表現の変化**を分析しています. 

* **0層目**: 入力に近い情報を保持する層です. この層での類似度が高い場合, "book" と "reserve" という単語の基本的な意味が類似していることを示唆します. 
* **最終層目**: 文脈の影響を強く受けた情報を保持する層です. この層での類似度が高い場合, "book" と "reserve" という単語が文脈によってどのように解釈されているかが似ていることを示唆します. 