<a href="https://colab.research.google.com/github/Taiga10969/Lecture-Transformer/blob/main/copy_code_Transformer_01_Embedder.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 写経して理解するTransformer_01：Embedder

Transformerでは最初にInput Embeddingという処理を行い，トークンの数値データをトークン毎に任意の次元のベクトルとして埋め込む．<br>
これにより，1つのトークンを表している数値データが任意次元のベクトルに変換され，単語同士の関係性を捉えることができるようになる．<br>
モデルは，埋め込みによって獲得した各トークンのベクトルを用いて処理を行う．

## 必要ライブラリのインポート

In [1]:
import torch
import torch.nn as nn
from transformers import GPT2Tokenizer

## 【Embedderクラスの定義】

In [2]:
class Embedder(nn.Module):
    def __init__(self, vocab_size, d_model):
        super().__init__()
        self.embedding = nn.Embedding(vocab_size, d_model) # torch.nn の nn.Embedding を利用
        self.d_model = d_model

    def forward(self, x):
        # x：torch.Size([1, 7]) << [batch_size, src_len]
        embedded = self.embedding(x)
        # embedded : torch.Size([1, 7, 128]) << [batch_size, src_len, d_model]
        return embedded

## Embedderの挙動確認

In [3]:
# トークナイザーの定義
# 文字列をトークンのID列に変換するトークナイザーはGPT-2のものを使用します
tokenizer = GPT2Tokenizer.from_pretrained('gpt2',
                                          #add_bos_token = True
                                          )
# トークナイザーのボキャブラリーサイズ
print('tokenizer.vocab_size : ', tokenizer.vocab_size)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

tokenizer.vocab_size :  50257


In [4]:
# 疑似データ（TokenizerでID化されたデータの入力を想定）
# 入力するtextを定義
text = "Artificial intelligence (AI) is"

# 入力するtextをトークナイザーを用いて数値(id)化する
inputs = tokenizer(text, return_tensors='pt',)

# モデルに入力するID列を表示・形状を確認
print("inputs['input_ids']　: ", inputs['input_ids'])
print("inputs['input_ids'].shape　: ", inputs['input_ids'].shape)

inputs['input_ids']　:  tensor([[ 8001,  9542,  4430,   357, 20185,     8,   318]])
inputs['input_ids'].shape　:  torch.Size([1, 7])


In [5]:
# ボキャブラリーサイズはGPT-2のトークナイザに依存
# 埋め込み次元数は128に設定
vocab_size = tokenizer.vocab_size
d_model = 128

# Embedderクラスのインスタンス化
embedder = Embedder(vocab_size, d_model)

# ID列をembedderに入力して各トークンIDを埋め込みベクトルに変換
embedded_data = embedder(inputs['input_ids'])

# 埋め込み後のデータのサイズを確認
print("embedded_data.shape", embedded_data.shape)

embedded_data.shape torch.Size([1, 7, 128])
