## 2.2 文本分词样例
### 使用 Edith Wharton的短篇小说 The Verdict作为分词文本

### 下载该文件

In [5]:
# import urllib.request
# # url = ("https://raw.githubusercontent.com/rasbt/"
# # "LLMs-from-scratch/main/ch02/01_main-chapter-code/"
# # "the-verdict.txt")
# url = ("https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt")
# file_path = "the-verdict.txt"
# urllib.request.urlretrieve(url, file_path)
import requests

url = "https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/main/ch02/01_main-chapter-code/the-verdict.txt"
file_path = "the-verdict.txt"

# 定义请求头信息
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

try:
    # 现在可以正确使用headers变量了
    response = requests.get(url, headers=headers, timeout=10)
    response.raise_for_status()  # 检查HTTP错误状态码（如404、403）
    with open(file_path, 'wb') as f:
        f.write(response.content)
    print(f"文件已成功下载到 {file_path}")
except requests.exceptions.RequestException as e:
    print(f"请求失败：{e}")

文件已成功下载到 the-verdict.txt


### 通过 Python读取短篇小说 The Verdict作为文本样本，并打印出文件的字符总数以及文件的前一百个字符

In [8]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
    print("Total number of character:", len(raw_text))
    print(raw_text[:99])

Total number of character: 20479
I HAD always thought Jack Gisburn rather a cheap genius--though a good fellow enough--so it was no 


### 进行文本分割的小练习 以简单文本为例，使用re.split按照空白字符分割文本

In [6]:
import re
text = "Hello, world. This, is a test."
result = re.split(r'(\s)', text)
print(result)

['Hello,', ' ', 'world.', ' ', 'This,', ' ', 'is', ' ', 'a', ' ', 'test.']


### 得到的结果是一个包含单个单词、空白字符和标点符号的列表
##### ['Hello,', ' ', 'world.', ' ', 'This,', ' ', 'is', ' ', 'a', ' ', 'test.']

### 接下来修改正则表达式，使其在空白字符（\s）、逗号和句号（[,.]）处进行分割：

In [14]:
result = re.split(r'([,.]|\s)', text)
print(result)

['Hello', ',', '', ' ', 'world', '.', '', ' ', 'This', ',', '', ' ', 'is', ' ', 'a', ' ', 'test', '.', '']


### 可以看到，我们如愿地将单词和标点符号分割成了独立的列表项：
###### ['Hello', ',', '', ' ', 'world', '.', '', ' ', 'This', ',', '', ' ', 'is',' ', 'a', ' ', 'test', '.', '']

### 一个小问题是列表中仍然包含空白字符。可以通过以下方法安全地删除这些冗余字符：
### item.strip() 的作用：该方法会移除字符串前后的所有空白字符（包括空格、换行符 \n、制表符 \t 等）。
### 如果 item 是纯空白字符串（如 ""、" "、"\n\t"），strip() 会返回空字符串 ""。
### 如果 item 包含非空白内容（如 " hello "），strip() 会返回去除首尾空白后的非空字符串（如 "hello"）。
### [item for item in result if item.strip()] 中，if item.strip() 是过滤条件。
### 在 Python 中，空字符串 "" 被视为 False，非空字符串被视为 True。因此：
### 当 item 是纯空白字符串时，item.strip() 返回 ""，条件为 False，该元素会被过滤掉。
### 当 item 包含有效内容时，item.strip() 返回非空字符串，条件为 True，该元素会被保留。

In [19]:
result = [item for item in result if item.strip()]
print(result)

['Hello', ',', 'world', '.', 'This', ',', 'is', 'a', 'test', '.']


### 去除空白字符后的输出如下所示。
###### ['Hello', ',', 'world', '.', 'This', ',', 'is', 'a', 'test', '.']
### 移除空白字符可以减轻内存和计算的负担。然而，如果训练的模型需要对文本的精确结构保持敏感，那么保留空白字符就显得尤为重要
### 再修改一下，使其能够处理其他类型的标点符号，比如问号、引号，以及短篇小说 The Verdict的前 100个字符中出现的双破折号等特殊字符：

In [23]:
text = "Hello, world. Is this-- a test?"
result = re.split(r'([,.:;?_!"()\']|--|\s)', text)
result = [item.strip() for item in result if item.strip()]
print(result)

['Hello', ',', 'world', '.', 'Is', 'this', '--', 'a', 'test', '?']


### 修改后的输出如下所示。
###### ['Hello', ',', 'world', '.', 'Is', 'this', '--', 'a', 'test', '?']
![图2-5 分词效果](pic/2-5pic.png)
### 现在，我们已经构建了一个简易分词器，让我们将其应用于短篇小说 The Verdict的全文：

In [9]:
preprocessed = re.split(r'([,.:;?_!"()\']|--|\s)', raw_text)
preprocessed = [item.strip() for item in preprocessed if item.strip()]
print(len(preprocessed))

4690


### 上述打印语句的输出是 4690，这是该文本的词元数量（不包括空白字符）。为了快速查看分词效果，可以打印前 30个词元：

In [29]:
print(preprocessed[:30])

['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was', 'no', 'great', 'surprise', 'to', 'me', 'to', 'hear', 'that', ',', 'in']


### 结果显示，分词器似乎很好地处理了文本，因为所有单词和特殊字符都被整齐地分开了。
###### ['I', 'HAD', 'always', 'thought', 'Jack', 'Gisburn', 'rather', 'a', 'cheap', 'genius', '--', 'though', 'a', 'good', 'fellow', 'enough', '--', 'so', 'it', 'was', 'no', 'great', 'surprise', 'to', 'me', 'to', 'hear', 'that', ',', 'in']
### 现在我们已经完成了短篇小说 The Verdict的分词，并将结果存储在名为 preprocessed 的Python变量中。接下来，我们将创建一个包含所有唯一词元的列表，并将它们按照字母顺序排列，以确定词汇表的大小：
### 词汇表大小 vocab_size 本质上是文本中不重复的单词总数，通过「去重→排序→计数」三个步骤计算得出。
### set(preprocessed)：将 preprocessed 列表（通常是预处理后的文本单词列表）转换为集合（set）。集合的特性是自动去重，因此这一步会保留所有唯一的单词（去除重复出现的单词）。
### sorted(...)：对去重后的单词集合进行排序（按字母顺序），最终得到一个包含所有不重复单词的有序列表 all_words，这就是构建的「词汇表」。
### len(all_words)：计算词汇表列表的长度，即不重复单词的总数量，这就是 vocab_size（词汇表大小）。

In [35]:
all_words = sorted(set(preprocessed))
vocab_size = len(all_words)
print(vocab_size)

1130


### 通过运行上述代码可以确定词汇表的大小为 1130。随后，我们创建词汇表，并打印该词汇表的前 51个条目作为示例

## 2.3 将词元转换为词元ID
### 创建词汇表

In [39]:
vocab = {token:integer for integer,token in enumerate(all_words)} # all_words是之前处理得到的有序唯一单词列表，创建词汇表：将每个单词映射到一个整数索引
for i, item in enumerate(vocab.items()):
    print(item)
    if i >= 50:
        break

('!', 0)
('"', 1)
("'", 2)
('(', 3)
(')', 4)
(',', 5)
('--', 6)
('.', 7)
(':', 8)
(';', 9)
('?', 10)
('A', 11)
('Ah', 12)
('Among', 13)
('And', 14)
('Are', 15)
('Arrt', 16)
('As', 17)
('At', 18)
('Be', 19)
('Begin', 20)
('Burlington', 21)
('But', 22)
('By', 23)
('Carlo', 24)
('Chicago', 25)
('Claude', 26)
('Come', 27)
('Croft', 28)
('Destroyed', 29)
('Devonshire', 30)
('Don', 31)
('Dubarry', 32)
('Emperors', 33)
('Florence', 34)
('For', 35)
('Gallery', 36)
('Gideon', 37)
('Gisburn', 38)
('Gisburns', 39)
('Grafton', 40)
('Greek', 41)
('Grindle', 42)
('Grindles', 43)
('HAD', 44)
('Had', 45)
('Hang', 46)
('Has', 47)
('He', 48)
('Her', 49)
('Hermia', 50)


### 下一个目标是使用这张词汇表将新文本转换为词元 ID
![图2-7 词元ID转换](pic/2-7pic.png)
### 为了将大语言模型的输出从数值形式转换回文本，还需要一种将词元 ID转换为文本的方法。为此，可以创建逆向词汇表，将词元 ID映射回它们对应的文本词元。
## 在Python中实现一个完整的分词器类
### 此类包含一个用于将文本分词的encode方法，并通过词汇表将字符串映射到整数，以生成词元 ID。此外，我们还将实现一个 decode 方法，执行从整数到字符串的反向映射，将词元 ID还原回文本。

In [43]:
class SimpleTokenizerV1:
    def __init__(self, vocab):
        self.str_to_int = vocab # 将词汇表作为类属性存储，以便在 encode 方法和 decode 方法中访问
        self.int_to_str = {
            i:s for s,i in vocab.items() # 遍历这些键值对时，将「键和值互换」，生成新的键值对 (索引, 单词)
        } # 创建逆向词汇表将词元 ID 映射回原始文本词元
        
    def encode(self, text): # 处理输入文本，将其转换为词元ID
        preprocessed = re.split(r'([,.?_!"()\']|--|\s)', text)
        preprocessed = [
            item.strip() for item in preprocessed if item.strip()
        ]
        ids = [
            self.str_to_int[s] for s in preprocessed # 将单词转化为整数 ID
        ]
        return ids
    
    def decode(self, ids): # 将词元ID转换为文本
        text = " ".join([self.int_to_str[i] for i in ids]) # 将整数 ID 转换为单词/标点 并进行拼接
        
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text) # 移除特定标点符号前的空格
        return text

### 使用 SimpleTokenizerV1 类的编码过程以及解码过程示例
![图2-8 分词器对象编码解码过程](pic/2-8pic.png)
### 们创建一个 SimpleTokenizerV1 类的分词器实例对象，并将其应用于短篇小说 The Verdict中的一段文本，试试看分词器的实际效果：

In [47]:
tokenizer = SimpleTokenizerV1(vocab) # 初始化分词器，传入预先定义的词汇表 分词器会自动构建两个映射
text = """"It's the last he painted, you know,"
        Mrs. Gisburn said with pardonable pride."""
ids = tokenizer.encode(text) # 编码过程
print(ids)

[1, 56, 2, 850, 988, 602, 533, 746, 5, 1126, 596, 5, 1, 67, 7, 38, 851, 1108, 754, 793, 7]


### 接下来，试试 decode 方法能否将这些词元 ID转换回文本：

In [49]:
print(tokenizer.decode(ids))

" It' s the last he painted, you know," Mrs. Gisburn said with pardonable pride.


### 成功实现了一个能够基于训练集对文本进行分词和反分词的分词器。现在，将这个分词器应用于训练集之外的新样本：

In [51]:
text = "Hello, do you like tea?"
print(tokenizer.encode(text))

KeyError: 'Hello'

### 执行上述代码将导致以下错误： KeyError: 'Hello'
### 问题在于，“Hello”这一单词并未在短篇小说 The Verdict中出现，因此没有被收录到词汇表中。这一现象凸显了在处理大语言模型时，使用规模更大且更多样化的训练集来扩展词汇表的必要性。

In [62]:
text1 = "Hello, do you like tea?"
pre = re.split(r'([,.:;?_!"()\']|--|\s)', text1)
pre = [item.strip() for item in pre if item.strip()]
all = sorted(set(pre))
size = len(all)
list = {token:integer for integer, token in enumerate(all)}
for i,item in enumerate(list.items()):
    print(item)
class ST:
    def __init__(self, list):
        self.str_to_int = list
        self.int_to_str = {i:s for s,i in list.items()}
    def encode(self, text):
        pre = re.split(r'([,.:;?_!"()\']|--|\s)', text)
        pre = [item.strip() for item in pre if item.strip()]
        ids = [self.str_to_int[s] for s in pre]
        return ids
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s+([,.?!"()\'])', r'\1', text)
        return text
tokenizer = ST(list)
text = """Hello , ?"""
ids = tokenizer.encode(text)
print(ids)
print(tokenizer.decode(ids))

(',', 0)
('?', 1)
('Hello', 2)
('do', 3)
('like', 4)
('tea', 5)
('you', 6)
[2, 0, 1]
Hello,?


### 测试文本 ("Hello , ?") 由于只包含「单词 + 标点」，没有多个单词形成的自然空格，导致解码后看起来没有间隔。这是测试用例的特殊性造成的，正常文本（包含多个单词）解码后会保留单词间的空格。
## 2.4引入特殊上下文词元
### 修改分词器使其在遇到词汇表中不存在的单词时，使用特殊词元<|unk|>代替。
![图2-9 特殊词元引入](pic/2-9pic.png)
### 还会在不相关的文本之间插入特殊词元，通常会在每个文档或图书的开头插入一个词元，以区分前一个文本源
![图2-10 <|endoftext|>词元使用示意](pic/2-10pic.png)
## 将特殊词元< unk >和<|endoftext|>添加到词汇表中

In [10]:
all_tokens = sorted(list(set(preprocessed)))
all_tokens.extend(["<|endoftext|>", "<|unk|>"])
vocab = {token:integer for integer,token in enumerate(all_tokens)}
print(len(vocab.items()))

1132


### 根据上述打印语句的输出，更新后的词汇表的大小为 1132（更新前的词汇表的大小为 1130）。
### 进行快速验证，打印新的词汇表的最后 5个条目：

In [13]:
for i, item in enumerate(list(vocab.items())[-5:]):
    print(item)

('younger', 1127)
('your', 1128)
('yourself', 1129)
('<|endoftext|>', 1130)
('<|unk|>', 1131)


### 根据代码的输出，可以确认这两个新的特殊词元已经被成功地添加到词汇表中。

## 实现处理未知单词的文本分词器

In [21]:
class SimpleTokenizerV2:
    def __init__(self, vocab):
        self.str_to_int = vocab
        self.int_to_str = { i:s for s,i in vocab.items()}
    def encode(self, text):
        preprocessed = re.split(r'([,.:;?_!"()\']|--|\s)', text)
        preprocessed = [
            item.strip() for item in preprocessed if item.strip()
        ]
        preprocessed = [item if item in self.str_to_int
                        else "<|unk|>" for item in preprocessed] # 用<unk>词元替换未知单词
        ids = [self.str_to_int[s] for s in preprocessed]
        return ids
    def decode(self, ids):
        text = " ".join([self.int_to_str[i] for i in ids])
        text = re.sub(r'\s+([,.:;?!"()\'])', r'\1', text) # 移除特定标点符号前的空格
        return text

### 使用一个由两个独立且无关的句子拼接承德简单的文本样本进行测试

In [17]:
text1 = "Hello, do you like tea?"
text2 = "In the sunlit terraces of the palace."
text = " <|endoftext|> ".join((text1, text2)) #标记文本边界
print(text)

Hello, do you like tea? <|endoftext|> In the sunlit terraces of the palace.


### 使用SimpleTokenizerV2 对文本样本进行分词：

In [22]:
tokenizer = SimpleTokenizerV2(vocab)
print(tokenizer.encode(text))

[1131, 5, 355, 1126, 628, 975, 10, 1130, 55, 988, 956, 984, 722, 988, 1131, 7]


### 词元 ID列表包含了一个表示<|endoftext|>分隔符的 1130 词元，以及两个表示未知单词的 1131 词元。
### 进行反词元化处理，来快速检查分词器的有效性：

In [25]:
print(tokenizer.decode(tokenizer.encode(text)))

<|unk|>, do you like tea? <|endoftext|> In the sunlit terraces of the <|unk|>.


### 通过对比反词元化后的文本与原始输入文本，可以确认训练数据集，即短篇小说 The Verdict，不包含“Hello”和“palace”这两个词。

## 2.5 一种基于 BPE 概念的更复杂的分词方案
### 由于 BPE 的实现相对复杂，该方法使用现有的 Python开源库 tiktoken，它基于 Rust的源代码非常高效地实现了 BPE 算法。
### 检查当前安装的 tiktoken 库版本：

In [30]:
from importlib.metadata import version
import tiktoken
print("tiktoken version:", version("tiktoken"))

tiktoken version: 0.11.0


In [29]:
pip install tiktoken

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting tiktoken
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/f5/6e/5b71578799b72e5bdcef206a214c3ce860d999d579a3b56e74a6c8989ee2/tiktoken-0.11.0-cp312-cp312-win_amd64.whl (884 kB)
     ---------------------------------------- 0.0/884.3 kB ? eta -:--:--
     ---------------------------------------- 0.0/884.3 kB ? eta -:--:--
     ----------- ---------------------------- 262.1/884.3 kB ? eta -:--:--
     --------------------- -------------- 524.3/884.3 kB 840.2 kB/s eta 0:00:01
     --------------------------------- ---- 786.4/884.3 kB 1.0 MB/s eta 0:00:01
     ------------------------------------ 884.3/884.3 kB 995.4 kB/s eta 0:00:00
Installing collected packages: tiktoken
Successfully installed tiktoken-0.11.0
Note: you may need to restart the kernel to use updated packages.


### 按照以下方式实例化 tiktoken 中的 BPE分词器：

In [32]:
tokenizer = tiktoken.get_encoding("gpt2")

### 这个分词器与前面通过 encode 方法实现的 SimpleTokenizerV2 用法相似：

In [34]:
text = (
    "Hello, do you like tea? <|endoftext|> In the sunlit terraces"
    "of someunknownPlace."
    )
integers = tokenizer.encode(text, allowed_special={"<|endoftext|>"})
print(integers)

[15496, 11, 466, 345, 588, 8887, 30, 220, 50256, 554, 262, 4252, 18250, 8812, 2114, 1659, 617, 34680, 27271, 13]


### 运行上述代码，将打印词元 ID，可以使用 decode 方法将词元 ID转换回文本，同样类似于 SimpleTokenizerV2：

In [36]:
strings = tokenizer.decode(integers)
print(strings)

Hello, do you like tea? <|endoftext|> In the sunlit terracesof someunknownPlace.


### <|endoftext|>词元被分配了一个较大的词元 ID，即 50256。事实上，用于训练GPT-2、GPT-3 和 ChatGPT 中使用的原始模型的 BPE 分词器的词汇总量为 50 257，这意味着<|endoftext|>被分配了最大的词元 ID。
### BPE分词器可以正确地编码和解码未知单词，比如“someunknownPlace”。BPE分词器是如何做到在不使用<|unk|>词元的前提下处理任何未知词汇的呢？
### BPE 通过将频繁出现的字符合并为子词，再将频繁出现的子词合并为单词，来迭代地构建词汇表。具体来说，BPE首先将所有单个字符（如“a”“b”等）添加到词汇表中。然后，它会将频繁同时出现的字符组合合并为子词。由于初始词汇表包含所有字符（或字节），任何未知词都能被拆分为已有子词（最坏情况拆分为单个字符），不存在 “无法编码” 的情况。
## 练习 未知单词的 BPE 使用tiktoken库中的BPE分词器对未知单词“Akwirw ier”进行分词

In [38]:
text = ("Akwirw ier")
tokenizer1 = tiktoken.get_encoding("gpt2")
integers = tokenizer1.encode(text, allowed_special={"<|endoftext|>"})
print(integers)
strings = tokenizer1.decode(integers)
print(strings)

[33901, 86, 343, 86, 220, 959]
Akwirw ier


## 2.6 使用滑动窗口进行数据采样
### 实现一个数据加载器，使用滑动窗口（sliding window）方法从训练数据集中提取输入-目标对。
### 首先，使用 BPE分词器对短篇小说 The Verdict的全文进行分词：

In [43]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
enc_text = tokenizer.encode(raw_text)
print(len(enc_text))

5145


### 从数据集中移除前 50 个词元以便演示，这样做会使得在后续步骤中产生一个更有趣一些的文本段落：

In [44]:
enc_sample = enc_text[50:]

### 创建下一单词预测任务的输入-目标对的一种简单且直观的方法是定义两个变量：x 和 y。变量 x用于存储输入的词元，变量 y 则用于存储由 x 的每个输入词元右移一个位置所得的目标词元：

In [47]:
context_size = 4 #上下文大小决定了输入中包含多少个词元
x = enc_sample[:context_size]
y = enc_sample[1:context_size+1]
print(f"x: {x}")
print(f"y:      {y}")

x: [290, 4920, 2241, 287]
y:      [4920, 2241, 287, 257]


### 通过处理输入及其相应的目标（将输入右移一个位置），可以创建图 2-12中的下一单词预测任务，如下所示：
![图2-12 文本序列预测](pic/2-12pic.png)

In [49]:
for i in range(1, context_size+1):
    context = enc_sample[:i] #取 enc_sample 的前 i 个元素作为 “上下文”。当 i=1 时：context = enc_sample[:1] → 取第 1 个元素（索引 0）作为上下文
    desired = enc_sample[i] #取 enc_sample 的第 i 个元素（索引 i）作为 “目标词”。当 i=1 时：desired = enc_sample[1] → 取第 2 个元素作为目标
    print(context, "---->", desired)

[290] ----> 4920
[290, 4920] ----> 2241
[290, 4920, 2241] ----> 287
[290, 4920, 2241, 287] ----> 257


### 箭头（---->）左侧的内容表示大语言模型接收的输入，箭头右侧的词元 ID 则代表大语言模型应该预测的目标词元 ID。为了更直观地展示这一过程，让我们重用前面的代码，但这一次将词元 ID转换回文本形式：

In [52]:
for i in range(1, context_size+1):
    context = enc_sample[:i]
    desired = enc_sample[i]
    print(tokenizer.decode(context), "---->", tokenizer.decode([desired]))

 and ---->  established
 and established ---->  himself
 and established himself ---->  in
 and established himself in ---->  a


### 在将词元转化为嵌入向量前，还需要完成最后一项任务：实现一个高效的数据加载器
### 这个数据加载器会遍历输入数据集，并将输入和目标以 PyTorch张量的形式返回
### 具体来说，我们的目标是返回两个张量：一个是包含大语言模型所见的文本输入的输入张量，另一个是包含大语言模型需要预测的目标词元的目标张量
![图2-13 数据加载器目标张量](pic/2-13pic.png)
### 为了方便说明，图 2-13中以字符串格式展示了词元，但在实际的代码实现中，我们会直接操作词元 ID，因为 BPE分词器的 encode 方法在一个步骤中同时完成了分词和词元 ID的转换。
### 为了实现高效的数据加载器，使用 PyTorch 内置的 Dataset 类和 DataLoader类。
## 一个用于批处理输入和目标的数据集

In [54]:
import torch
from torch.utils.data import Dataset, DataLoader
class GPTDatasetV1(Dataset):
    def __init__(self, txt, tokenizer, max_length, stride):
        self.input_ids = [] # 存储输入序列
        self.target_ids = [] # 存储预测序列
        
        token_ids = tokenizer.encode(txt) # 对全部文本进行分词 将文本编码为整数 ID序列
        # 使用滑动窗口将文本划分为长度为 max_length 的重叠序列
        for i in range(0, len(token_ids) - max_length, stride): # 循环范围：从0开始，每次移动stride步，直到剩余长度不足max_length
            input_chunk = token_ids[i:i + max_length] # 输入序列：从i开始，取max_length个元素（上下文）
            target_chunk = token_ids[i + 1: i + max_length + 1] # 目标序列：从i+1开始，取max_length个元素（输入序列的下一个词）
            self.input_ids.append(torch.tensor(input_chunk)) # 分别转换为PyTorch张量并存储
            self.target_ids.append(torch.tensor(target_chunk))
            
    def __len__(self): # 返回数据集的总行数
        return len(self.input_ids)
        
    def __getitem__(self, idx): # 返回数据集的指定行
        return self.input_ids[idx], self.target_ids[idx]

### 使用 GPTDatasetV1 通过 PyTorch的 DataLoader 批量加载输入
## 用于批量生成输入-目标对的数据加载器

In [56]:
def create_dataloader_v1(
    txt,                  # 原始文本（字符串）
    batch_size=4,         # 每个批次的样本数（默认4）
    max_length=256,       # 每个样本的序列长度（默认256）
    stride=128,           # 滑动窗口的步长（默认128）
    shuffle=True,         # 是否打乱样本顺序（默认True）
    drop_last=True,       # 是否丢弃最后一个不完整的批次（默认True）
    num_workers=0         # 预处理的CPU进程数（默认0，即主进程处理）
):
    tokenizer = tiktoken.get_encoding("gpt2") # 初始化分词器
    dataset = GPTDatasetV1(txt, tokenizer, max_length, stride) #创建数据集
    dataloader = DataLoader(
        dataset,                # 传入自定义数据集
        batch_size=batch_size,  # 每个批次包含的样本数
        shuffle=shuffle,        # 训练前是否打乱样本顺序（避免模型学习顺序偏见）
        drop_last=drop_last,    # 如果 drop_last 为 True 且批次大小小于指定的 batch_size，则会删除最后一批，以防止在训练期间出现损失剧增
        num_workers=num_workers #用于预处理的 CPU进程数
    )
    return dataloader

### 用批次大小为 1 的 DataLoader 对上下文长度为 4 的大语言模型进行测试

In [58]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
dataloader = create_dataloader_v1(
    raw_text, 
    batch_size=1, 
    max_length=4,
    stride=1,     # stride=1：滑动窗口每次移动 1 步（样本间重叠度高，用于生成更多样本）
    shuffle=False # 不打乱样本顺序（保持原始文本的先后关系，方便调试）
)
data_iter = iter(dataloader)  # 将dataloader转换为 Python迭代器，以通过 Python 内置的 next()函数获取下一个条目
first_batch = next(data_iter) # 通过 next() 函数从迭代器中获取第一个批次的数据
print(first_batch)

[tensor([[  40,  367, 2885, 1464]]), tensor([[ 367, 2885, 1464, 1807]])]


### 变量 first_batch 包含两个张量：第一个张量存储输入词元 ID，第二个张量存储目标词元 ID。由于 max_length 被设置为 4，因此这两个张量各自包含 4个词元 ID。
## 注意！实际训练大语言模型时，输入大小通常不小于 256。
### 为了说明 stride=1 的含义，需要从该数据集中获取另一批数据：

In [60]:
second_batch = next(data_iter)
print(second_batch)

[tensor([[ 367, 2885, 1464, 1807]]), tensor([[2885, 1464, 1807, 3619]])]


### 可以发现第二批数据的词元 ID相对于第一批整体左移了一个位置。步幅（stride）决定了批次之间输入的位移量，模拟了滑动窗口方法
## 练习 具有不同步幅和上下文长度的数据加载器 max_length=2, stride=2 和 max_length=8, stride=2

In [62]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
dataloader = create_dataloader_v1(
    raw_text, 
    batch_size=1, 
    max_length=2,
    stride=2,     # stride=1：滑动窗口每次移动 1 步（样本间重叠度高，用于生成更多样本）
    shuffle=False # 不打乱样本顺序（保持原始文本的先后关系，方便调试）
)
data_iter = iter(dataloader)  # 将dataloader转换为 Python迭代器，以通过 Python 内置的 next()函数获取下一个条目
first_batch = next(data_iter) # 通过 next() 函数从迭代器中获取第一个批次的数据
print(first_batch)
second_batch = next(data_iter)
print(second_batch)

[tensor([[ 40, 367]]), tensor([[ 367, 2885]])]
[tensor([[2885, 1464]]), tensor([[1464, 1807]])]


In [65]:
with open("the-verdict.txt", "r", encoding="utf-8") as f:
    raw_text = f.read()
dataloader = create_dataloader_v1(
    raw_text, 
    batch_size=1, 
    max_length=8,
    stride=2,     # stride=1：滑动窗口每次移动 1 步（样本间重叠度高，用于生成更多样本）
    shuffle=False # 不打乱样本顺序（保持原始文本的先后关系，方便调试）
)
data_iter = iter(dataloader)  # 将dataloader转换为 Python迭代器，以通过 Python 内置的 next()函数获取下一个条目
first_batch = next(data_iter) # 通过 next() 函数从迭代器中获取第一个批次的数据
print(first_batch)
second_batch = next(data_iter)
print(second_batch)

[tensor([[  40,  367, 2885, 1464, 1807, 3619,  402,  271]]), tensor([[  367,  2885,  1464,  1807,  3619,   402,   271, 10899]])]
[tensor([[ 2885,  1464,  1807,  3619,   402,   271, 10899,  2138]]), tensor([[ 1464,  1807,  3619,   402,   271, 10899,  2138,   257]])]


### 较小的批次大小会减少训练过程中的内存占用，但同时会导致在模型更新时产生更多的噪声
### 如果步幅与输入窗口大小相等，则可以避免批次之间的重叠
### 如何以大于 1的批次大小使用数据加载器进行采样：
### 此处选择将步幅增加到 4 来充分利用数据集（不会跳过任何一个单词），同时避免不同批次之间的数据重叠，因为过多的重叠可能会增加模型过拟合的风险。

In [67]:
dataloader = create_dataloader_v1(
    raw_text, batch_size=8, max_length=4, stride=4,
    shuffle=False
)
data_iter = iter(dataloader)
# 从迭代器中取出第一个批次，拆分为 inputs（输入序列）和 targets（目标序列）
inputs, targets = next(data_iter) # 由于 batch_size=8，inputs 和 targets 的形状都是 (8, 4)（8 个样本，每个样本长度 4）
print("Inputs:\n", inputs)
print("\nTargets:\n", targets)

Inputs:
 tensor([[   40,   367,  2885,  1464],
        [ 1807,  3619,   402,   271],
        [10899,  2138,   257,  7026],
        [15632,   438,  2016,   257],
        [  922,  5891,  1576,   438],
        [  568,   340,   373,   645],
        [ 1049,  5975,   284,   502],
        [  284,  3285,   326,    11]])

Targets:
 tensor([[  367,  2885,  1464,  1807],
        [ 3619,   402,   271, 10899],
        [ 2138,   257,  7026, 15632],
        [  438,  2016,   257,   922],
        [ 5891,  1576,   438,   568],
        [  340,   373,   645,  1049],
        [ 5975,   284,   502,   284],
        [ 3285,   326,    11,   287]])


## 2.7 词元 ID转换为嵌入向量的工作原理
### 假设有 4个 ID分别为 2、3、5和 1的输入词元

In [69]:
input_ids = torch.tensor([2, 3, 5, 1])

### 假设我们有一张仅包含 6个单词的小型词汇表（而非 BPE分词器中包含 50 257个单词的词汇表），并且想要创建维度为 3的嵌入（GPT-3的嵌入维度是 12 288）

In [71]:
vocab_size = 6
output_dim = 3

### 利用 vocab_size 和 output_dim 在 PyTorch中实例化一个嵌入层。此外，为了确保结果的可重复性，将随机种子设置为 123

In [75]:
torch.manual_seed(123)
embedding_layer = torch.nn.Embedding(vocab_size, output_dim)
print(embedding_layer.weight)

Parameter containing:
tensor([[ 0.3374, -0.1778, -0.1690],
        [ 0.9178,  1.5810,  1.3010],
        [ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-1.1589,  0.3255, -0.6315],
        [-2.8400, -0.7849, -1.4096]], requires_grad=True)


### 权重矩阵具有 6行 3列的结构，其中每一行对应词汇表中的一个词元，每一列则对应一个嵌入维度。现在将其应用到一个词元 ID上，以获取嵌入向量：

In [77]:
print(embedding_layer(torch.tensor([3])))

tensor([[-0.4015,  0.9666, -1.1481]], grad_fn=<EmbeddingBackward0>)


### 词元 ID为 3的嵌入向量与嵌入矩阵中的第 4行完全相同（由于 Python的索引从 0 开始，因此它对应索引为 3 的行）。换言之，嵌入层实质上执行的是一种查找操作，它根据词元 ID从嵌入层的权重矩阵中检索出相应的行。

### 将这个方法应用到所有 4个输入 ID（torch.tensor([2, 3, 5, 1])）上：

In [80]:
print(embedding_layer(input_ids))

tensor([[ 1.2753, -0.2010, -0.1606],
        [-0.4015,  0.9666, -1.1481],
        [-2.8400, -0.7849, -1.4096],
        [ 0.9178,  1.5810,  1.3010]], grad_fn=<EmbeddingBackward0>)


### 这个矩阵中的每一行都是从嵌入权重矩阵中查找获得的，如图 2-16所示。
![2-16 ](pic/2-16pic.png)

### 将对这些嵌入向量进行细微的调整，以编码词元在文本中的位置信息。
## 2.8 编码单词位置信息
## 创建初始的位置嵌入
### 考虑更实际、更实用的嵌入维度，将输入的词元编码为 256 维的向量表示。
### 虽然这个维度仍比原始 GPT-3 模型的维度（GPT-3模型的嵌入维度为 12 288）要小，但对实验来说是合理的。
### 此外，假设这些词元 ID是由我们之前实现的词汇量为 50 257的 BPE分词器创建的：

In [83]:
vocab_size = 50257
output_dim = 256
token_embedding_layer = torch.nn.Embedding(vocab_size, output_dim)

### 使用上述的 token_embedding_layer，当我们从数据加载器中采样数据时，每个批次中的每个词元都将被嵌入为一个 256维的向量。如果设定批次大小为 8，且每个批次包含 4个词元，则结果将是一个 8×4×256的张量。
## 实例化 2.6节中的数据加载器：

In [85]:
max_length = 4
dataloader = create_dataloader_v1(
    raw_text, batch_size=8, max_length=max_length,
    stride=max_length, shuffle=False
)
data_iter = iter(dataloader)
inputs, targets = next(data_iter)
print("Token IDs:\n", inputs)
print("\nInputs shape:\n", inputs.shape)

Token IDs:
 tensor([[   40,   367,  2885,  1464],
        [ 1807,  3619,   402,   271],
        [10899,  2138,   257,  7026],
        [15632,   438,  2016,   257],
        [  922,  5891,  1576,   438],
        [  568,   340,   373,   645],
        [ 1049,  5975,   284,   502],
        [  284,  3285,   326,    11]])

Inputs shape:
 torch.Size([8, 4])


### 现在，使用嵌入层将这些词元 ID嵌入 256维的向量中：

In [87]:
token_embeddings = token_embedding_layer(inputs)
print(token_embeddings.shape)

torch.Size([8, 4, 256])


### 该张量的维度为 8×4×256，这意味着每个词元 ID都已被嵌入一个 256维的向量中 
### （8：8 个样本（批次大小）。
###   4：每个样本的序列长度（4 个词元）。
###   256：每个词元的嵌入向量维度。）
### 为了获取GPT模型所采用的绝对位置嵌入，只需创建一个维度与 token_embedding_layer相同的嵌入层即可：
### pos_embeddings 的输入通常是一个占位符向量 torch.arange(context_length)，它包含一个从 0开始递增，直至最大输入长度减 1的数值序列。context_length 是一个变量，表示模型支持的输入块的最大长度。我们将其设置为与输入文本的最大长度一致。在实际情况中，输入文本的长度可能会超出模型支持的块大小，这时需要截断文本。

In [89]:
context_length = max_length # 将位置嵌入的长度与输入序列的最大长度（max_length）绑定，确保每个位置（如序列中的第 0 个、第 1 个元素）都有对应的位置嵌入。
pos_embedding_layer = torch.nn.Embedding(context_length, output_dim) # 同样使用嵌入层类，但此处不是映射 “词元 ID”，而是映射 “位置索引”。
pos_embeddings = pos_embedding_layer(torch.arange(context_length)) # 生成一个从 0 到context_length-1的整数序列，表示所有位置的索引
print(pos_embeddings.shape) # pos_embeddings 是一个形状为 (context_length, output_dim) 的张量，包含所有位置的嵌入向量。

torch.Size([4, 256])


### 位置嵌入是序列级别的特征，与批次无关。无论批次大小是多少（8、16 等），同一位置（如位置 0）的嵌入向量是固定的，不需要为每个样本单独创建位置嵌入。
### 在实际使用时，会通过「广播机制」将 pos_embeddings（形状 [4, 256]）与词元嵌入（形状 [8, 4, 256]）相加，自动适配批次维度，得到 [8, 4, 256] 的最终输入。
### 将这些向量直接添加到词元嵌入中，即将词元嵌入（token_embeddings）与位置嵌入（pos_embeddings）相加，得到同时同时包含词元语义信息和位置信息的最终输入嵌入

In [92]:
input_embeddings = token_embeddings + pos_embeddings
print(input_embeddings.shape)

torch.Size([8, 4, 256])
