LLMを訓練すための入力テキストを準備
=======================
テキストをここのワードトークンやサブワードトークンに分割すると、LLM用のベクトル表現にエンコードできる。
## トークン化とは？
トークン化は、テキストを単語、サブワード、文字などの小さな単位（トークン）に分割するプロセスです。これにより、モデルがテキストを理解し、処理しやすくなります。
## トークン化の方法
1. **単語トークン化**: テキストをスペースや句読点で区切り、単語ごとに分割します。
2. **サブワードトークン化**: 単語をさらに小さな単位に分割します。これにより、未知の単語にも対応しやすくなります。
3. **文字トークン化**: テキストを1文字ずつ分割します。これにより、非常に細かいレベルでの解析が可能になります。
## トークン化のツール
- **NLTK**: Pythonの自然言語処理ライブラリで、トークン化機能を提供しています。
- **SpaCy**: 高速で効率的なトークン化をサポートするライブラリです。
- **Hugging Face Tokenizers**: 高性能なトークン化ライブラリで、BERTやGPTなどのモデルで使用されます。
## トークン化の注意点
- トークン化の方法は、使用するモデルやタスクに応じて選択する必要があります。
- トークン化の結果は、モデルの性能に大きな影響を与えるため、適切な方法を選ぶことが重要です。
## まとめ
トークン化は、LLMの訓練において重要なステップです。適切なトークン化方法を選び、テキストを効果的に処理することで、モデルの性能を向上させることができます。

バイトペアエンコーディング（BPE）
----------------------
バイトペアエンコーディング（BPE）は、テキストをトークンに分割するための手法の一つです。BPEは、頻繁に出現する文字のペアを繰り返し結合して、新しいトークンを作成します。これにより、語彙のサイズを制御しつつ、未知の単語にも対応できるようになります。
GPT型のLLMで利用されている。

LLMをはじめとするディープニューラルネットワークモデルは、Rawなテキストを直接処理できないため、テキストをトークンに分割する必要があります。テキストはカテゴリ刈るデータなので、ニューラルネットワークの実装や訓練に使われる数値計算とは相性が良くない.

データをベクトルフォーマットに変換する概念=> 埋め込み（Embedding）
特定のニューラルネットワーク層や事前学習済みの別のニューラルネットワークモデルを使って、オーディオ、画像モデルなどの他のデータタイプをベクトルに変換することもできる。
埋め込みとは、単語、画像、さらには文章全体といった、離散地のオブジェクトから、連続値のベクトル空間への写像


word2vecとは、ニューラルネットワークアーキテクチャを訓練し、目的の単語からその周辺のコンテキストを予測するか、コンテキストの単語群から目的の単語を予測することで、単語の埋め込みを学習する手法です。これにより、単語間の意味的な関係を捉えたベクトル表現が得られます。
可視化目的で２次元の単語埋め込みを射影すると、意味的に類似した単語が近くに配置されることがわかります。例えば、「king」と「queen」は「man」と「woman」に対して同じ関係を持つため、これらの単語はベクトル空間でも類似した位置に配置されます。

テキストを単語に分割して、単語をトークンに変換し、トークンを埋め込みベクトルに変換する。

LLMの訓練のためにトークン化するテキストは、Edith Whartonの小説「The Age of Innocence」の一部です。このテキストは、文学的な内容を含んでおり、LLMが自然言語を理解し生成する能力を向上させるために使用されます。

```plaintextThe Age of Innocence by Edith Wharton
Copyright 1920 by Edith Wharton
Copyright renewed 1948 by Edith Wharton
All rights reserved including the right of reproduction in whole or in part in any form.
This book is a work of fiction. Names, characters, places and incidents are either the product of the author's imagination or are used fictitiously. Any resemblance to actual persons, living or dead, events, or locales is entirely coincidental.
First published in 1920 by D. Appleton and Company, Inc., New York
This edition published in 2020 by Public Domain Books
www.publicdomainbooks.net
```     


In [57]:
import os
import urllib.request

if not os.path.exists("the-verdict.txt"):
    url = ("https://raw.githubusercontent.com/rasbt/"
           "LLMs-from-scratch/main/ch02/01_main-chapter-code/"
           "the-verdict.txt")
    file_path = "the-verdict.txt"
    urllib.request.urlretrieve(url, file_path)


In [58]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

print("Total number of characters:", len(raw_text))
print(raw_text[:500])  # first 500 characters

Total number of characters: 20479
I HAD always thought Jack Gisburn rather a cheap genius--though a good fellow enough--so it was no great surprise to me to hear that, in the height of his glory, he had dropped his painting, married a rich widow, and established himself in a villa on the Riviera. (Though I rather thought it would have been Rome or Florence.)

"The height of his glory"--that was what the women called it. I can hear Mrs. Gideon Thwing--his last Chicago sitter--deploring his unaccountable abdication. "Of course it'


In [59]:
import re

text = "Hello World! This is a test-text with punctuation."
result = re.split(r'(\s)', text)
print(result)

['Hello', ' ', 'World!', ' ', 'This', ' ', 'is', ' ', 'a', ' ', 'test-text', ' ', 'with', ' ', 'punctuation.']


In [60]:
result = re.split(r'[,.] | \s' , text)
print(result)

['Hello World! This is a test-text with punctuation.']


In [61]:
result = [item for item in result if item.strip()]
print(result)

['Hello World! This is a test-text with punctuation.']


In [62]:
text = "Hello World! Is this-- a test?"
result = re.split(r'([,.:;?_!"()\'] |--|\s)', text)
result = [item.strip() for item in result if item.strip()]
print(result)


['Hello', 'World', '!', 'Is', 'this', '--', 'a', 'test?']


ここまで実装トークン化スキームは、テキストを個々の単語と句読点文字に分割する。この具体例では、サンプルテキストが10個のトークンに分解される。

In [63]:
preprocessed = re.split(r'([,.:;?_!"()\'] |--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]
print("Total number of tokens:", len(preprocessed))
print(preprocessed[:30])  # first 20 tokens

Total number of tokens: 4286
['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was', 'no', 'great', 'surprise', 'to', 'me', 'to', 'hear', 'that', ',', 'in']


トークンをトークンIDに変換する
----------------------
Pythonの文字列つから整数表現に変換して、トークンIDを生成する.
一意な単語と特殊文字を一意な整数にマッピングする。

In [64]:
all_words = sorted(set(preprocessed))
vocab_size = len(all_words)
print("Vocabulary size:", vocab_size)


Vocabulary size: 1258


In [65]:
vocab = {token:integer for integer, token in enumerate(all_words)}
for i,item in enumerate(vocab.items()):
    print(item)
    if i >= 50:
        break

('!', 0)
('"', 1)
('"Ah', 2)
('"Be', 3)
('"Begin', 4)
('"By', 5)
('"Come', 6)
('"Destroyed', 7)
('"Don\'t', 8)
('"Gisburns', 9)
('"Grindles."', 10)
('"Hang', 11)
('"Has', 12)
('"How', 13)
('"I', 14)
('"I\'d', 15)
('"If', 16)
('"It', 17)
('"It\'s', 18)
('"Jack', 19)
('"Money\'s', 20)
('"Moon-dancers', 21)
('"Mr', 22)
('"Mrs', 23)
('"My', 24)
('"Never', 25)
('"Never,', 26)
('"Of', 27)
('"Oh', 28)
('"Once', 29)
('"Only', 30)
('"Or', 31)
('"That', 32)
('"The', 33)
('"Then', 34)
('"There', 35)
('"This', 36)
('"We', 37)
('"Well', 38)
('"What', 39)
('"When', 40)
('"Why', 41)
('"Yes', 42)
('"You', 43)
('"but', 44)
('"deadening', 45)
('"dragged', 46)
('"effects"', 47)
('"interesting"', 48)
('"lift', 49)
('"obituary', 50)


語彙を使って、新しいテキストをトークンIDに変換すること。
LLMの出力を数値からテキストに戻したい場合は、トークンIDを対応するトークンにマッピングする逆の語彙を使う。

```plaintext
Sample text: "The Age of Innocence by Edith Wharton"
Tokenized: ['The', 'Age', 'of', 'Innocence', 'by', 'Edith', 'Wharton']
Token IDs: [1, 2, 3, 4, 5, 6, 7]
``` 
以下でトークナイザーの実装を行う。


In [66]:
class Tokenizer:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i: s for s, i in vocab.items()}
        if "UNK" not in self.str_to_int:
            unk_id = len(self.str_to_int)
            self.str_to_int["UNK"] = unk_id
            self.int_to_str[unk_id] = "UNK"
    
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\'] |--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        ids = [self.str_to_int.get(s, self.str_to_int["UNK"]) for s in preprocessed]
        return ids
    
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s([,.?!"()\'])', r'\1', text)
        return text


In [67]:
tokenizer = Tokenizer(vocab)  # ←インスタンスは小文字で
sample_text = """"It's the last he painted, you know," said Mr. Poole, "and a great picture it is. I wish you could see it."""
encoded = tokenizer.encode(sample_text)
print("Encoded:", encoded)
decoded = tokenizer.decode(encoded)
print("Decoded:", decoded)


Encoded: [18, 1103, 699, 614, 853, 65, 1251, 692, 1, 962, 123, 67, 1258, 65, 1258, 188, 589, 879, 675, 674, 67, 107, 1230, 1251, 370, 975, 1258]
Decoded: "It's the last he painted, you know," said Mr. UNK, UNK a great picture it is. I wish you could see UNK


特定のコンテキストに対処するために、特別なトークンを追加する。例えば、訓練データセットには含まれず、従って既存の語彙にも含まれていない新しい未知の単語を表すために、<|unk|>トークンを追加することができる。
さらに、<|endoftext|> トークンを追加して、無関係な2つのテキストソースを分離できる。
無関係なテキストの間にトークンを追加する。例えば、GPT型のLLMに続く各文書や書籍の前にトークンを挿入するのが一般的。このようにすると、「これらのテキストソースは訓練のために連結されているが、実際は無関係である」ことをLLMが理解しやすくなる。


複数の独立したテキストソースを扱う時には、それらのテキストの間に<|endoftext|>トークンを挿入する。

In [68]:
all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|unk|>", "<|endoftext|>"])
vocab = {token: integer for integer, token in enumerate(all_tokens)}

print(len(vocab.items()))


1260


In [69]:
for i, item in enumerate(list(vocab.items())[-5:]):
    print(item)

('younger', 1255)
('your', 1256)
('yourself', 1257)
('<|unk|>', 1258)
('<|endoftext|>', 1259)


In [70]:
class Tokenizer2:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i: s for s, i in vocab.items()}
    
    def encode(self, text):
        preprocessed = re.split(r'([,.:;?_!"()\'] |--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        preprocessed = [
            item if item in self.str_to_int
            else "<|unk|>" for item in preprocessed
        ]
        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
    
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s([,.:;?!"()\'])', r'\1', text)
        return text

In [71]:
text1 = "Hello, do you like tea?"
text2 = "In the sunlit terraces of the palace."
text = "<|endoftext|>".join([text1, text2])
print("Combined text:", text)

Combined text: Hello, do you like tea?<|endoftext|>In the sunlit terraces of the palace.


In [72]:
tokenizer = Tokenizer2(vocab)
print(tokenizer.encode(text))

[1258, 65, 434, 1251, 727, 1258, 1103, 1071, 1098, 825, 1103, 1258]


In [73]:
print(tokenizer.decode(tokenizer.encode(text)))

<|unk|>, do you like <|unk|> the sunlit terraces of the <|unk|>


BPE(バイトペアエンコーディング)の実装　<-GPT-2, GPT-3で利用されている。
 tiktokenというライブラリを使う。tiktokenは、Rustのソースコードに基づいてBPEアルゴリズムを非常効率的に実装したもの。

In [74]:
!pip install tiktoken



tiktokenのBPEトークナイザーをインスタンス化

In [75]:
import tiktoken
tokennizer = tiktoken.get_encoding("gpt2")
text = (
    "Hello, do you like tea?<|endoftext|>"
    "In the sunlit terraces of someunknownPlace."
)

integers = tokennizer.encode(text,allowed_special={"<|endoftext|>"})# allowed_special=()で特殊トークンを無効化
print(integers)

[15496, 11, 466, 345, 588, 8887, 30, 50256, 818, 262, 4252, 18250, 8812, 2114, 286, 617, 34680, 27271, 13]


In [76]:
strings = tokennizer.decode(integers)
print(strings)

Hello, do you like tea?<|endoftext|>In the sunlit terraces of someunknownPlace.


BPEトークナイザは未知の単語がどのようなものであろうと対処できる。
BPEベースとなるアルゴリズムは、事前に定義された5位に含ていない単語を、より小さなサブワードトークンに分割することができる。このようにすると、語彙に存在しない単語でも

In [77]:
import tiktoken
tokennizer = tiktoken.get_encoding("gpt2")
text = (
    "Akwirw ier"
)
integers = tokennizer.encode(text)
print(integers)

[33901, 86, 343, 86, 220, 959]


In [78]:
strings = tokennizer.decode(integers)
print(strings)

Akwirw ier


BPEは頻出する文字をサブワードにマージし、頻出ささサブワードを単語にマージする。、トークン化できるようになります。例えば、「Akwirw ier」という未知の単語は、「Akw」「ir」「w」「ier」というサブワードに分割され、これらのサブワードは語彙に存在するため、トークン化が可能です。

スライディングウィンドウアプロ使って、入力変数と目的変数のペアをかか訓練デーかrからタからセットから取り出すををデータローダーを実装する。
```python
import tiktoken
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

enc_text = tokennizer.encode(raw_text)
print(f"Length of text in characters: {len(raw_text)}")
print(f"Length of text in tokens: {len(enc_text)}")

In [79]:
import tiktoken
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

enc_text = tokennizer.encode(raw_text)
print(f"Length of text in characters: {len(raw_text)}")
print(f"Length of text in tokens: {len(enc_text)}")

Length of text in characters: 20479
Length of text in tokens: 5145


In [80]:
enc_sample = enc_text[50:]

次単語予測タスクのための入力変数目的変数のペアを作成する最も簡単な方法は、x,yという二つの変数を。。作成することです。
xには入力トークンが含まれ、yには(xをシフトさせたもの)次のトークンが含まれます。

In [93]:
context_size =4
x = enc_sample[:context_size]
y = enc_sample[1:context_size + 1]
print("x:", x)
print("y:", y)

x: [290, 4920, 2241, 287]
y: [4920, 2241, 287, 257]


In [94]:
for i in range(1,context_size+1):
    context = enc_sample[:i]
    desired = enc_sample[i]
    print(f"when input is {context} the desired output is {desired}")

when input is [290] the desired output is 4920
when input is [290, 4920] the desired output is 2241
when input is [290, 4920, 2241] the desired output is 287
when input is [290, 4920, 2241, 287] the desired output is 257


In [95]:
for i in range(1,context_size+1):
    context = enc_sample[:i]
    desired = enc_sample[i]
    print(tokennizer.decode(context), "->", tokennizer.decode([desired]) )

 and ->  established
 and established ->  himself
 and established himself ->  in
 and established himself in ->  a


トークンを埋め込みに変換する前に必要な残り作業は、効率的なデータローダを実装することだけ。このデータローダは入力変数と目的変数をPyTorchテンソルのペアとして返す。
ここで取得したいのは、入力テンソルとターゲットテンソルという2つのテンソルです。
入力テンソルには、LLMがみるテキストが含まれており、ターゲットテンソルには、次に来るトークンが含まれています。
```python


In [96]:
import torch
from torch.utils.data import Dataset, DataLoader

class GPTDatasetV1(Dataset):
    def __init__(self,txt,tokenizer,max_length,stride):
        self.input_ids = []
        self.target_ids = []
        token_ids = tokenizer.encode(txt)
        for i in range(0, len(token_ids) - max_length, stride):
            input_chunk = token_ids[i:i + max_length]
            target_chunk = token_ids[i + 1:i + max_length + 1]
            self.input_ids.append(torch.tensor(input_chunk))
            self.target_ids.append(torch.tensor(target_chunk))
    
    def __len__(self):
        return len(self.input_ids)
    
    def __getitem__(self, idx):
        return self.input_ids[idx], self.target_ids[idx]
            

GPTDatasetV1クラスでは、PytorchのDasetsetクラスを継承し、テキストデータをトークン化して、指定されたコンテキストサイズに基づいて入力とターゲットのペアを生成します。これにより、LLMの訓練に適した形式でデータを提供できます。
```python

In [97]:
#入力変数と目的変数のペアでバッ生成するデータローダー

def create_dataloader_v1(txt, batch_size=4, max_length=256, stride=128,shuffle = True, drop_last = True, num_workers = 0):
    tokenizer = tiktoken.get_encoding("gpt2")
    dataset = GPTDatasetV1(txt, tokenizer, max_length, stride)
    dataloader = DataLoader(dataset, batch_size=batch_size, shuffle=shuffle, drop_last=drop_last, num_workers=num_workers)
    return dataloader
    

In [98]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
dataloader = create_dataloader_v1(
    raw_text,
    batch_size=1,
    max_length=256,
    stride=1,
    shuffle=False
)
data_iter = iter(dataloader)
first_batch = next(data_iter)
print(first_batch)


[tensor([[   40,   367,  2885,  1464,  1807,  3619,   402,   271, 10899,  2138,
           257,  7026, 15632,   438,  2016,   257,   922,  5891,  1576,   438,
           568,   340,   373,   645,  1049,  5975,   284,   502,   284,  3285,
           326,    11,   287,   262,  6001,   286,   465, 13476,    11,   339,
           550,  5710,   465, 12036,    11,  6405,   257,  5527, 27075,    11,
           290,  4920,  2241,   287,   257,  4489,    64,   319,   262, 34686,
         41976,    13,   357, 10915,   314,  2138,  1807,   340,   561,   423,
           587, 10598,   393, 28537,  2014,   198,   198,     1,   464,  6001,
           286,   465, 13476,     1,   438,  5562,   373,   644,   262,  1466,
          1444,   340,    13,   314,   460,  3285,  9074,    13, 46606,   536,
          5469,   438, 14363,   938,  4842,  1650,   353,   438,  2934,   489,
          3255,   465, 48422,   540,   450,    67,  3299,    13,   366,  5189,
          1781,   340,   338,  1016,   284,  3758, 

In [99]:
second_batch = next(data_iter)
print(second_batch)

[tensor([[  367,  2885,  1464,  1807,  3619,   402,   271, 10899,  2138,   257,
          7026, 15632,   438,  2016,   257,   922,  5891,  1576,   438,   568,
           340,   373,   645,  1049,  5975,   284,   502,   284,  3285,   326,
            11,   287,   262,  6001,   286,   465, 13476,    11,   339,   550,
          5710,   465, 12036,    11,  6405,   257,  5527, 27075,    11,   290,
          4920,  2241,   287,   257,  4489,    64,   319,   262, 34686, 41976,
            13,   357, 10915,   314,  2138,  1807,   340,   561,   423,   587,
         10598,   393, 28537,  2014,   198,   198,     1,   464,  6001,   286,
           465, 13476,     1,   438,  5562,   373,   644,   262,  1466,  1444,
           340,    13,   314,   460,  3285,  9074,    13, 46606,   536,  5469,
           438, 14363,   938,  4842,  1650,   353,   438,  2934,   489,  3255,
           465, 48422,   540,   450,    67,  3299,    13,   366,  5189,  1781,
           340,   338,  1016,   284,  3758,   262, 

データセット全ての単語を利用するために、ストライドを４に増やしている。これはバッチ間のオーバーラップを防ぐための措置。オーバーラップが多いと過剰適リスクが高まる。

In [100]:
dataloader = create_dataloader_v1(
    raw_text,
    batch_size=8,
    max_length=4,
    stride=4,
    shuffle=False
)
data_iter = iter(dataloader)
inputs,targets = next(data_iter)
print("Inputs:", inputs)
print("Targets:", targets)


Inputs: tensor([[   40,   367,  2885,  1464],
        [ 1807,  3619,   402,   271],
        [10899,  2138,   257,  7026],
        [15632,   438,  2016,   257],
        [  922,  5891,  1576,   438],
        [  568,   340,   373,   645],
        [ 1049,  5975,   284,   502],
        [  284,  3285,   326,    11]])
Targets: tensor([[  367,  2885,  1464,  1807],
        [ 3619,   402,   271, 10899],
        [ 2138,   257,  7026, 15632],
        [  438,  2016,   257,   922],
        [ 5891,  1576,   438,   568],
        [  340,   373,   645,  1049],
        [ 5975,   284,   502,   284],
        [ 3285,   326,    11,   287]])


トークン埋め込みを作成する。
トークンIDを埋め込みベクトルに変換する。下準備として、埋め込み層の重みをランダム値で初期化する。


In [101]:
input_ids = torch.tensor([2,3,5,1])
vocab_size = 6
output_dim = 3

torch.manual_seed(123)
embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
print(embedding_layer(input_ids))
                          

tensor([[ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-2.8400, -0.7849, -1.4096],
        [ 0.9178,  1.5810,  1.3010]], grad_fn=<EmbeddingBackward0>)


In [102]:
print(embedding_layer(torch.tensor([3])))

tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)


単語の位置をエンコードする。
トークン埋め込みは、基本的にはLLMの入力に適している。Self-Attentionメカニズムにシーケンス内のトークンの位置や順序という情報が欠けているため、トークンの位置情報を追加する必要がある。トークンIDがシーケンス内のどの位置にあろうと、同じトークンIDを常に同じベクトル表現にマッピングする。
相対位置埋め込みと絶対位置埋め込みの2種類がある。絶対位置埋め込み：トークンの位置を固定されたベクトルにマッピングする。例えば、最初のトークンは常に同じベクトル、2番目のトークンは常に別のベクトルにマッピングされる。
相対位置埋め込み： トークンの位置を他のトークンとの相対的な位置に基づいてエンコードする。例えば、あるトークンがシーケンス内で3つ目に出現する場合、そのトークンは「3」という位置情報を持つ。トークンの絶絶対位に着目する、ではなく、トークン間の相対的な位置(距離)に着目する。つまり「正確な位置」ではなく、「どれくらい離れているか」という観点からモデルがトークン間の関係を学習する。
OpenAIのGPT-2やGPT-3では、絶対位置埋め込みが採用されている。オリジナルのTransformerモデルの位置エンコーディングのように固定値を使うのではなく、訓練プロセスの過程で埋め込みの値を最適化する。


In [None]:

vacab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
#データローダからデータをサンプリングすると、各バッチの各トークンが256次元のベクトルに埋め込まれる。バッチサイズが8、バッチ内の各シーケンスのトークン数が4の場合、結果として8x4x256のテンソルが得られる。
max_length = 4
dataloader = create_dataloader_v1(
     raw_text, batch_size=8, max_length=max_length, stride=max_length,shuffle=False
 )
data_iter = iter(dataloader)
inputs, targets = next(data_iter)
print("Token IDs: ",inputs)
print("inputs shape: " ,inputs.shape)

Token IDs:  tensor([[   40,   367,  2885,  1464],
        [ 1807,  3619,   402,   271],
        [10899,  2138,   257,  7026],
        [15632,   438,  2016,   257],
        [  922,  5891,  1576,   438],
        [  568,   340,   373,   645],
        [ 1049,  5975,   284,   502],
        [  284,  3285,   326,    11]])
inputs shape:  torch.Size([8, 4])


トークンIDテンソルは8x4次元であり、データバッチがそれぞれ4つのトークンを持つ8つのテキストサンプルで構成されている。

In [109]:
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)

IndexError: index out of range in self

In [108]:
import torch
print(inputs.dtype)  # long 以外なら NG
print(inputs.min().item(), inputs.max().item())

num_emb = token_embedding_layer.num_embeddings
emb_dim = token_embedding_layer.embedding_dim
print("Embedding:", num_emb, emb_dim)
assert inputs.dtype == torch.long, "inputs must be torch.long"
assert inputs.min().item() >= 0, "negative token id found"
assert inputs.max().item() < num_emb, f"max id {inputs.max().item()} >= num_embeddings {num_emb}"


torch.int64
11 15632
Embedding: 6 256


AssertionError: max id 15632 >= num_embeddings 6

In [110]:
import torch
vocab_size = 50257           # ← 綴り修正
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)


In [111]:
# 例: transformers の GPT-2 トークナイザを使っている場合
# tokenizer = AutoTokenizer.from_pretrained("gpt2")
# GPT-2 は pad_token が無いので以下のように合わせることが多い
# tokenizer.pad_token = tokenizer.eos_token

vocab_size = tokenizer.vocab_size  # 例: 50257（ID範囲は 0..50256）
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)


AttributeError: 'Tokenizer2' object has no attribute 'vocab_size'

In [114]:
bad = (inputs < 0) | (inputs >= token_embedding_layer.num_embeddings)
if bad.any():
    ids, counts = inputs[bad].unique(return_counts=True)
    print("Out-of-range ids:", list(zip(ids.tolist(), counts.tolist())))
import torch

vocab_size = 50257
output_dim = 256
max_length = 4

# ダミー入力（バッチ8、長さ4）: 0..50256 の範囲で作る
inputs = torch.randint(0, vocab_size, (8, max_length), dtype=torch.long)

emb = torch.nn.Embedding(vocab_size, output_dim)
token_embeddings = emb(inputs)
print(token_embeddings.shape)  # -> torch.Size([8, 4, 256])



torch.Size([8, 4, 256])


8x4x256次元のテンソル出力は、各トークンIDが256次元のベクトルとして埋め込まれていたことを示す。
GPTモデルが使っている絶対位置埋め込みの場合は、token_embedding_layerと同じ埋め込み次元を持つ別の埋め込み層を作成すれば良い。


In [115]:
context_length = max_length
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim)
pos_embeddings = pos_embedding_layer(torch.arange(context_length))
print(pos_embeddings.shape)

torch.Size([4, 256])


In [116]:
input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings)

tensor([[[-0.7631,  0.4319,  0.6108,  ...,  0.3566, -0.7010, -1.9475],
         [ 0.6965, -0.1571,  0.0788,  ...,  1.0171,  1.7671, -1.3661],
         [-0.5620, -1.9964,  0.0635,  ..., -1.0211,  0.0451, -0.2414],
         [ 1.1894, -0.5114,  0.0705,  ...,  2.5368,  0.1625, -3.1906]],

        [[ 3.1604,  0.3198,  0.2387,  ..., -0.2770, -0.4700, -2.0030],
         [ 2.0893,  0.1209, -0.9477,  ...,  0.3106,  0.1899, -1.4455],
         [ 1.0608, -0.8959, -0.2569,  ..., -1.4255, -0.0438,  1.2416],
         [ 1.2738, -1.1006,  0.8085,  ...,  1.4476,  2.2197, -2.2340]],

        [[ 0.6233,  1.0373,  0.5444,  ...,  1.0107, -0.2704, -0.2196],
         [ 2.5480,  1.2801, -1.9756,  ..., -0.8843,  2.3870, -1.8155],
         [-0.9067,  0.4186,  0.3427,  ..., -0.3430, -1.5909,  2.0557],
         [-0.8647, -2.2094,  0.3977,  ...,  1.7670,  2.1549, -3.0443]],

        ...,

        [[ 1.0214, -1.1366, -0.2724,  ...,  1.8278, -0.1046,  0.4288],
         [ 0.0891, -0.5787, -1.9916,  ...,  0.3603, -0.42

入力処理パイプラインの一部として、まず入力テキストがここのトぶぶーク分割される。次に、これらのトークンが5位を使ってトークンIDに変換される。　さらに、トークンIDが埋め込みベクトルに変換され、同じサイズの位置埋め込みが加算される。結果として、メイン層の入力として利用できる入力埋め込みが得られる。


・LLMはテキストデータを埋め込みと呼ばれる数値ベクトルに変換する必要がある。埋め込みとは(単語や画像のような)離散値のデータを連続値のベクトル空間にマッピングすることで、ニューラルネットワークの演算に適合させる。

・Rawテキストがトークンに分割される。トークンは単語の場合と文字の場合がある。次に、トークンがトークンIDと呼ばれる整数表現に変換される。

・Pytorchの埋め込み層は、トークンIDに対応するベクトルを取り出すルックアップ演算として機能する。結果として得られる埋め込みベクトルは、トークンの連続値表現を提供する。

・トークン埋め込みは、各トークに対して一貫性のあるベクトル表現を提供するが、シーケンス内でのトークンの位置に関する情報を持たない。
