LLMを訓練すための入力テキストを準備
=======================
テキストをここのワードトークンやサブワードトークンに分割すると、LLM用のベクトル表現にエンコードできる。
## トークン化とは？
トークン化は、テキストを単語、サブワード、文字などの小さな単位（トークン）に分割するプロセスです。これにより、モデルがテキストを理解し、処理しやすくなります。
## トークン化の方法
1. **単語トークン化**: テキストをスペースや句読点で区切り、単語ごとに分割します。
2. **サブワードトークン化**: 単語をさらに小さな単位に分割します。これにより、未知の単語にも対応しやすくなります。
3. **文字トークン化**: テキストを1文字ずつ分割します。これにより、非常に細かいレベルでの解析が可能になります。
## トークン化のツール
- **NLTK**: Pythonの自然言語処理ライブラリで、トークン化機能を提供しています。
- **SpaCy**: 高速で効率的なトークン化をサポートするライブラリです。
- **Hugging Face Tokenizers**: 高性能なトークン化ライブラリで、BERTやGPTなどのモデルで使用されます。
## トークン化の注意点
- トークン化の方法は、使用するモデルやタスクに応じて選択する必要があります。
- トークン化の結果は、モデルの性能に大きな影響を与えるため、適切な方法を選ぶことが重要です。
## まとめ
トークン化は、LLMの訓練において重要なステップです。適切なトークン化方法を選び、テキストを効果的に処理することで、モデルの性能を向上させることができます。

バイトペアエンコーディング（BPE）
----------------------
バイトペアエンコーディング（BPE）は、テキストをトークンに分割するための手法の一つです。BPEは、頻繁に出現する文字のペアを繰り返し結合して、新しいトークンを作成します。これにより、語彙のサイズを制御しつつ、未知の単語にも対応できるようになります。
GPT型のLLMで利用されている。

LLMをはじめとするディープニューラルネットワークモデルは、Rawなテキストを直接処理できないため、テキストをトークンに分割する必要があります。テキストはカテゴリ刈るデータなので、ニューラルネットワークの実装や訓練に使われる数値計算とは相性が良くない.

データをベクトルフォーマットに変換する概念=> 埋め込み（Embedding）
特定のニューラルネットワーク層や事前学習済みの別のニューラルネットワークモデルを使って、オーディオ、画像モデルなどの他のデータタイプをベクトルに変換することもできる。
埋め込みとは、単語、画像、さらには文章全体といった、離散地のオブジェクトから、連続値のベクトル空間への写像


word2vecとは、ニューラルネットワークアーキテクチャを訓練し、目的の単語からその周辺のコンテキストを予測するか、コンテキストの単語群から目的の単語を予測することで、単語の埋め込みを学習する手法です。これにより、単語間の意味的な関係を捉えたベクトル表現が得られます。
可視化目的で２次元の単語埋め込みを射影すると、意味的に類似した単語が近くに配置されることがわかります。例えば、「king」と「queen」は「man」と「woman」に対して同じ関係を持つため、これらの単語はベクトル空間でも類似した位置に配置されます。

テキストを単語に分割して、単語をトークンに変換し、トークンを埋め込みベクトルに変換する。

LLMの訓練のためにトークン化するテキストは、Edith Whartonの小説「The Age of Innocence」の一部です。このテキストは、文学的な内容を含んでおり、LLMが自然言語を理解し生成する能力を向上させるために使用されます。

```plaintextThe Age of Innocence by Edith Wharton
Copyright 1920 by Edith Wharton
Copyright renewed 1948 by Edith Wharton
All rights reserved including the right of reproduction in whole or in part in any form.
This book is a work of fiction. Names, characters, places and incidents are either the product of the author's imagination or are used fictitiously. Any resemblance to actual persons, living or dead, events, or locales is entirely coincidental.
First published in 1920 by D. Appleton and Company, Inc., New York
This edition published in 2020 by Public Domain Books
www.publicdomainbooks.net
```     


In [34]:
import os
import urllib.request

if not os.path.exists("the-verdict.txt"):
    url = ("https://raw.githubusercontent.com/rasbt/"
           "LLMs-from-scratch/main/ch02/01_main-chapter-code/"
           "the-verdict.txt")
    file_path = "the-verdict.txt"
    urllib.request.urlretrieve(url, file_path)


In [35]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()

print("Total number of characters:", len(raw_text))
print(raw_text[:500])  # first 500 characters

Total number of characters: 20479
I HAD always thought Jack Gisburn rather a cheap genius--though a good fellow enough--so it was no great surprise to me to hear that, in the height of his glory, he had dropped his painting, married a rich widow, and established himself in a villa on the Riviera. (Though I rather thought it would have been Rome or Florence.)

"The height of his glory"--that was what the women called it. I can hear Mrs. Gideon Thwing--his last Chicago sitter--deploring his unaccountable abdication. "Of course it'


In [36]:
import re

text = "Hello World! This is a test-text with punctuation."
result = re.split(r'(\s)', text)
print(result)

['Hello', ' ', 'World!', ' ', 'This', ' ', 'is', ' ', 'a', ' ', 'test-text', ' ', 'with', ' ', 'punctuation.']


In [37]:
result = re.split(r'[,.] | \s' , text)
print(result)

['Hello World! This is a test-text with punctuation.']


In [38]:
result = [item for item in result if item.strip()]
print(result)

['Hello World! This is a test-text with punctuation.']


In [39]:
text = "Hello World! Is this-- a test?"
result = re.split(r'([,.:;?_!"()\'] |--|\s)', text)
result = [item.strip() for item in result if item.strip()]
print(result)


['Hello', 'World', '!', 'Is', 'this', '--', 'a', 'test?']


ここまで実装トークン化スキームは、テキストを個々の単語と句読点文字に分割する。この具体例では、サンプルテキストが10個のトークンに分解される。

In [40]:
preprocessed = re.split(r'([,.:;?_!"()\'] |--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]
print("Total number of tokens:", len(preprocessed))
print(preprocessed[:30])  # first 20 tokens

Total number of tokens: 4286
['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was', 'no', 'great', 'surprise', 'to', 'me', 'to', 'hear', 'that', ',', 'in']


トークンをトークンIDに変換する
----------------------
Pythonの文字列つから整数表現に変換して、トークンIDを生成する.
一意な単語と特殊文字を一意な整数にマッピングする。

In [41]:
all_words = sorted(set(preprocessed))
vocab_size = len(all_words)
print("Vocabulary size:", vocab_size)


Vocabulary size: 1258


In [42]:
vocab = {token:integer for integer, token in enumerate(all_words)}
for i,item in enumerate(vocab.items()):
    print(item)
    if i >= 50:
        break

('!', 0)
('"', 1)
('"Ah', 2)
('"Be', 3)
('"Begin', 4)
('"By', 5)
('"Come', 6)
('"Destroyed', 7)
('"Don\'t', 8)
('"Gisburns', 9)
('"Grindles."', 10)
('"Hang', 11)
('"Has', 12)
('"How', 13)
('"I', 14)
('"I\'d', 15)
('"If', 16)
('"It', 17)
('"It\'s', 18)
('"Jack', 19)
('"Money\'s', 20)
('"Moon-dancers', 21)
('"Mr', 22)
('"Mrs', 23)
('"My', 24)
('"Never', 25)
('"Never,', 26)
('"Of', 27)
('"Oh', 28)
('"Once', 29)
('"Only', 30)
('"Or', 31)
('"That', 32)
('"The', 33)
('"Then', 34)
('"There', 35)
('"This', 36)
('"We', 37)
('"Well', 38)
('"What', 39)
('"When', 40)
('"Why', 41)
('"Yes', 42)
('"You', 43)
('"but', 44)
('"deadening', 45)
('"dragged', 46)
('"effects"', 47)
('"interesting"', 48)
('"lift', 49)
('"obituary', 50)


語彙を使って、新しいテキストをトークンIDに変換すること。
LLMの出力を数値からテキストに戻したい場合は、トークンIDを対応するトークンにマッピングする逆の語彙を使う。

```plaintext
Sample text: "The Age of Innocence by Edith Wharton"
Tokenized: ['The', 'Age', 'of', 'Innocence', 'by', 'Edith', 'Wharton']
Token IDs: [1, 2, 3, 4, 5, 6, 7]
``` 
以下でトークナイザーの実装を行う。


In [47]:
class Tokenizer:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i: s for s, i in vocab.items()}
        if "UNK" not in self.str_to_int:
            unk_id = len(self.str_to_int)
            self.str_to_int["UNK"] = unk_id
            self.int_to_str[unk_id] = "UNK"
    
    def encode(self, text):
        preprocessed = re.split(r'([,.?_!"()\'] |--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        ids = [self.str_to_int.get(s, self.str_to_int["UNK"]) for s in preprocessed]
        return ids
    
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s([,.?!"()\'])', r'\1', text)
        return text


In [48]:
tokenizer = Tokenizer(vocab)  # ←インスタンスは小文字で
sample_text = """"It's the last he painted, you know," said Mr. Poole, "and a great picture it is. I wish you could see it."""
encoded = tokenizer.encode(sample_text)
print("Encoded:", encoded)
decoded = tokenizer.decode(encoded)
print("Decoded:", decoded)


Encoded: [18, 1103, 699, 614, 853, 65, 1251, 692, 1, 962, 123, 67, 1258, 65, 1258, 188, 589, 879, 675, 674, 67, 107, 1230, 1251, 370, 975, 1258]
Decoded: "It's the last he painted, you know," said Mr. UNK, UNK a great picture it is. I wish you could see UNK


特定のコンテキストに対処するために、特別なトークンを追加する。例えば、訓練データセットには含まれず、従って既存の語彙にも含まれていない新しい未知の単語を表すために、<|unk|>トークンを追加することができる。
さらに、<|endoftext|> トークンを追加して、無関係な2つのテキストソースを分離できる。
無関係なテキストの間にトークンを追加する。例えば、GPT型のLLMに続く各文書や書籍の前にトークンを挿入するのが一般的。このようにすると、「これらのテキストソースは訓練のために連結されているが、実際は無関係である」ことをLLMが理解しやすくなる。


複数の独立したテキストソースを扱う時には、それらのテキストの間に<|endoftext|>トークンを挿入する。

In [50]:
all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|unk|>", "<|endoftext|>"])
vocab = {token: integer for integer, token in enumerate(all_tokens)}

print(len(vocab.items()))


1260


In [51]:
for i, item in enumerate(list(vocab.items())[-5:]):
    print(item)

('younger', 1255)
('your', 1256)
('yourself', 1257)
('<|unk|>', 1258)
('<|endoftext|>', 1259)


In [None]:
class Tokenizer2:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = {i: s for s, i in vocab.items()}
    
    def encode(self, text):
        preprocessed = re.split(r'([,.:;?_!"()\'] |--|\s)', text)
        preprocessed = [item.strip() for item in preprocessed if item.strip()]
        preprocessed = [
            item if item in self.str_to_int
            else "<|unk|>" for item in preprocessed
        ]
        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
    
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s([,.:;?!"()\'])', r'\1', text)
        return text