<table style="width:100%">
<tr>
<td style="vertical-align:middle; text-align:left;">
<font size="2">
Supplementary code for the <a href="http://mng.bz/orYv">Build a Large Language Model From Scratch</a> book by <a href="https://sebastianraschka.com">Sebastian Raschka</a><br>
<br>Code repository: <a href="https://github.com/rasbt/LLMs-from-scratch">https://github.com/rasbt/LLMs-from-scratch</a>
</font>
</td>
<td style="vertical-align:middle; text-align:left;">
<a href="http://mng.bz/orYv"><img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/cover-small.webp" width="100px"></a>
</td>
</tr>
</table>


# Appendix A: Introduction to PyTorch (Part 1)
# 附录 A: PyTorch 入门（第一部分）

## A.1 What is PyTorch
## A.1 什么是PyTorch

In [1]:
# 导入PyTorch库
import torch

# 打印PyTorch版本号
print(torch.__version__)

2.4.0


In [2]:
# 检查是否有可用的CUDA设备(GPU)
print(torch.cuda.is_available())

False


<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/1.webp" width="400px">

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/2.webp" width="300px">

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/3.webp" width="300px">

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/4.webp" width="500px">

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/5.webp" width="500px">

## A.2 Understanding tensors
## A.2 理解张量

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/6.webp" width="400px">

### A.2.1 Scalars, vectors, matrices, and tensors
### A.2.1 标量、向量、矩阵和张量

In [3]:
# 导入PyTorch库
import torch
# 导入NumPy库用于数组操作
import numpy as np

# create a 0D tensor (scalar) from a Python integer
# 从Python整数创建0维张量(标量)
tensor0d = torch.tensor(1)

# create a 1D tensor (vector) from a Python list
# 从Python列表创建1维张量(向量)
tensor1d = torch.tensor([1, 2, 3])

# create a 2D tensor from a nested Python list
# 从嵌套Python列表创建2维张量(矩阵)
tensor2d = torch.tensor([[1, 2], 
                         [3, 4]])

# create a 3D tensor from a nested Python list
# 从嵌套Python列表创建3维张量
tensor3d_1 = torch.tensor([[[1, 2], [3, 4]], 
                           [[5, 6], [7, 8]]])

# create a 3D tensor from NumPy array
# 从NumPy数组创建3维张量
ary3d = np.array([[[1, 2], [3, 4]], 
                  [[5, 6], [7, 8]]])
tensor3d_2 = torch.tensor(ary3d)  # Copies NumPy array  # 复制NumPy数组
tensor3d_3 = torch.from_numpy(ary3d)  # Shares memory with NumPy array  # 与NumPy数组共享内存

In [4]:
# 修改NumPy数组的一个元素
ary3d[0, 0, 0] = 999
# 打印tensor3d_2,因为是复制而不是共享内存,所以保持不变
print(tensor3d_2) 

tensor([[[1, 2],
         [3, 4]],

        [[5, 6],
         [7, 8]]])


In [5]:
# 打印tensor3d_3,由于与NumPy数组共享内存,所以会随之改变
print(tensor3d_3)

tensor([[[999,   2],
         [  3,   4]],

        [[  5,   6],
         [  7,   8]]])


### A.2.2 Tensor data types
### A.2.2 张量数据类型

In [6]:
# 创建一个整数类型的1维张量
tensor1d = torch.tensor([1, 2, 3])
# 打印张量的数据类型
print(tensor1d.dtype)

torch.int64


In [7]:
# 创建一个浮点数类型的1维张量
floatvec = torch.tensor([1.0, 2.0, 3.0])
# 打印张量的数据类型
print(floatvec.dtype)

torch.float32


In [8]:
# 将整数张量转换为32位浮点数类型
floatvec = tensor1d.to(torch.float32)
# 打印转换后张量的数据类型
print(floatvec.dtype)

torch.float32


### A.2.3 Common PyTorch tensor operations
### A.2.3 常见的PyTorch张量操作

In [9]:
# 创建一个2x3的二维张量
tensor2d = torch.tensor([[1, 2, 3], 
                         [4, 5, 6]])
# 打印张量
tensor2d

tensor([[1, 2, 3],
        [4, 5, 6]])

In [10]:
# 打印张量的形状
tensor2d.shape

torch.Size([2, 3])

In [11]:
# 将2x3的张量重新调整形状为3x2
tensor2d.reshape(3, 2)

tensor([[1, 2],
        [3, 4],
        [5, 6]])

In [12]:
# 将2x3的张量重新调整形状为3x2，使用view()方法
tensor2d.view(3, 2)

tensor([[1, 2],
        [3, 4],
        [5, 6]])

In [13]:
# 转置张量，将2x3的张量变为3x2
tensor2d.T

tensor([[1, 4],
        [2, 5],
        [3, 6]])

In [14]:
# 计算张量与其转置的矩阵乘法
tensor2d.matmul(tensor2d.T)

tensor([[14, 32],
        [32, 77]])

In [15]:
# 使用@运算符计算张量与其转置的矩阵乘法
# 这是matmul()的简写形式
tensor2d @ tensor2d.T

tensor([[14, 32],
        [32, 77]])

## A.3 Seeing models as computation graphs
## A.3 将模型视为计算图

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/7.webp" width="600px">

In [16]:
# 导入PyTorch函数式接口
import torch.nn.functional as F

# 创建真实标签张量
y = torch.tensor([1.0])  # true label
# 创建输入特征张量 
x1 = torch.tensor([1.1]) # input feature
# 创建权重参数张量
w1 = torch.tensor([2.2]) # weight parameter
# 创建偏置单元张量
b = torch.tensor([0.0])  # bias unit

# 计算网络的净输入:输入与权重相乘加上偏置
z = x1 * w1 + b          # net input
# 使用sigmoid激活函数计算输出
a = torch.sigmoid(z)     # activation & output

# 计算二元交叉熵损失
loss = F.binary_cross_entropy(a, y)
# 打印损失值
print(loss)

tensor(0.0852)


## A.4 Automatic differentiation made easy
## A.4 自动微分变得简单

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/8.webp" width="600px">

In [17]:
# 导入PyTorch函数式接口
import torch.nn.functional as F
# 导入PyTorch自动求导功能
from torch.autograd import grad

# 创建真实标签张量
y = torch.tensor([1.0])
# 创建输入特征张量
x1 = torch.tensor([1.1])
# 创建权重参数张量,设置requires_grad=True以启用梯度计算
w1 = torch.tensor([2.2], requires_grad=True)
# 创建偏置单元张量,设置requires_grad=True以启用梯度计算
b = torch.tensor([0.0], requires_grad=True)

# 计算网络的净输入:输入与权重相乘加上偏置
z = x1 * w1 + b 
# 使用sigmoid激活函数计算输出
a = torch.sigmoid(z)

# 计算二元交叉熵损失
loss = F.binary_cross_entropy(a, y)

# 计算损失对w1的梯度,retain_graph=True保留计算图以便后续计算
grad_L_w1 = grad(loss, w1, retain_graph=True)
# 计算损失对b的梯度,retain_graph=True保留计算图以便后续计算
grad_L_b = grad(loss, b, retain_graph=True)

# 打印w1的梯度
print(grad_L_w1)
# 打印b的梯度
print(grad_L_b)

(tensor([-0.0898]),)
(tensor([-0.0817]),)


In [18]:
# 反向传播计算梯度
loss.backward()

# 打印权重w1的梯度
print(w1.grad)
# 打印偏置b的梯度 
print(b.grad)

tensor([-0.0898])
tensor([-0.0817])


## A.5 Implementing multilayer neural networks
## A.5 实现多层神经网络

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/9.webp" width="500px">

In [19]:
# 定义神经网络类,继承自torch.nn.Module
class NeuralNetwork(torch.nn.Module):
    # 初始化函数,接收输入维度和输出维度作为参数
    def __init__(self, num_inputs, num_outputs):
        # 调用父类的初始化函数
        super().__init__()

        # 定义神经网络的层结构,使用Sequential按顺序组合各层
        self.layers = torch.nn.Sequential(
                
            # 第一个隐藏层:线性层,输入维度为num_inputs,输出维度为30
            torch.nn.Linear(num_inputs, 30),
            # 第一个隐藏层的激活函数:ReLU
            torch.nn.ReLU(),

            # 第二个隐藏层:线性层,输入维度为30,输出维度为20 
            torch.nn.Linear(30, 20),
            # 第二个隐藏层的激活函数:ReLU
            torch.nn.ReLU(),

            # 输出层:线性层,输入维度为20,输出维度为num_outputs
            torch.nn.Linear(20, num_outputs),
        )

    # 前向传播函数,接收输入张量x
    def forward(self, x):
        # 通过网络层计算logits输出
        logits = self.layers(x)
        # 返回logits
        return logits

In [20]:
# 创建神经网络模型实例
# 输入维度为50,输出维度为3
model = NeuralNetwork(50, 3)

In [21]:
# 打印神经网络模型的结构
print(model)

NeuralNetwork(
  (layers): Sequential(
    (0): Linear(in_features=50, out_features=30, bias=True)
    (1): ReLU()
    (2): Linear(in_features=30, out_features=20, bias=True)
    (3): ReLU()
    (4): Linear(in_features=20, out_features=3, bias=True)
  )
)


In [22]:
# 计算模型中可训练参数的总数
# 使用sum()对所有requires_grad=True的参数进行统计
# p.numel()返回参数张量中元素的总数
num_params = sum(p.numel() for p in model.parameters() if p.requires_grad)
# 打印可训练参数总数
print("Total number of trainable model parameters:", num_params)

Total number of trainable model parameters: 2213


In [23]:
# 打印模型第一层(layers[0])的权重参数
print(model.layers[0].weight)

Parameter containing:
tensor([[ 0.1182,  0.0606, -0.1292,  ..., -0.1126,  0.0735, -0.0597],
        [-0.0249,  0.0154, -0.0476,  ..., -0.1001, -0.1288,  0.1295],
        [ 0.0641,  0.0018, -0.0367,  ..., -0.0990, -0.0424, -0.0043],
        ...,
        [ 0.0618,  0.0867,  0.1361,  ..., -0.0254,  0.0399,  0.1006],
        [ 0.0842, -0.0512, -0.0960,  ..., -0.1091,  0.1242, -0.0428],
        [ 0.0518, -0.1390, -0.0923,  ..., -0.0954, -0.0668, -0.0037]],
       requires_grad=True)


In [24]:
# 设置随机种子以确保结果可重现
torch.manual_seed(123)

# 创建神经网络模型实例,输入维度为50,输出维度为3
model = NeuralNetwork(50, 3)
# 打印模型第一层的权重参数
print(model.layers[0].weight)

Parameter containing:
tensor([[-0.0577,  0.0047, -0.0702,  ...,  0.0222,  0.1260,  0.0865],
        [ 0.0502,  0.0307,  0.0333,  ...,  0.0951,  0.1134, -0.0297],
        [ 0.1077, -0.1108,  0.0122,  ...,  0.0108, -0.1049, -0.1063],
        ...,
        [-0.0787,  0.1259,  0.0803,  ...,  0.1218,  0.1303, -0.1351],
        [ 0.1359,  0.0175, -0.0673,  ...,  0.0674,  0.0676,  0.1058],
        [ 0.0790,  0.1343, -0.0293,  ...,  0.0344, -0.0971, -0.0509]],
       requires_grad=True)


In [25]:
# 打印模型第一层权重参数的形状
print(model.layers[0].weight.shape)

torch.Size([30, 50])


In [26]:
# 设置随机种子以确保结果可重现
torch.manual_seed(123)

# 创建一个形状为(1,50)的随机输入张量
X = torch.rand((1, 50))
# 将输入传入模型得到输出
out = model(X)
# 打印模型输出结果
print(out)

tensor([[-0.1262,  0.1080, -0.1792]], grad_fn=<AddmmBackward0>)


In [27]:
# 使用torch.no_grad()上下文管理器禁用梯度计算
# 这可以减少内存使用并加快前向传播速度
with torch.no_grad():
    # 将输入X传入模型得到输出
    out = model(X)
# 打印模型输出结果
print(out)

tensor([[-0.1262,  0.1080, -0.1792]])


In [28]:
# 使用torch.no_grad()上下文管理器禁用梯度计算
with torch.no_grad():
    # 对模型输出应用softmax函数,沿维度1(列)进行归一化,得到概率分布
    out = torch.softmax(model(X), dim=1)
# 打印输出结果
print(out)

tensor([[0.3113, 0.3934, 0.2952]])


## A.6 Setting up efficient data loaders
## A.6 设置高效的数据加载器

<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/10.webp" width="600px">

In [29]:
# 创建训练数据特征张量X_train
# 包含5个样本,每个样本有2个特征
X_train = torch.tensor([
    [-1.2, 3.1],  # 第1个样本
    [-0.9, 2.9],  # 第2个样本 
    [-0.5, 2.6],  # 第3个样本
    [2.3, -1.1],  # 第4个样本
    [2.7, -1.5]   # 第5个样本
])

# 创建训练数据标签张量y_train
# 0表示第一类,1表示第二类
y_train = torch.tensor([0, 0, 0, 1, 1])  # 前3个样本属于类别0,后2个样本属于类别1

In [30]:
# 创建测试数据特征张量X_test
# 包含2个样本,每个样本有2个特征
X_test = torch.tensor([
    [-0.8, 2.8],  # 第1个样本
    [2.6, -1.6],  # 第2个样本
])

# 创建测试数据标签张量y_test
# 0表示第一类,1表示第二类
y_test = torch.tensor([0, 1])

In [31]:
# 从PyTorch导入Dataset基类
from torch.utils.data import Dataset


# 定义一个玩具数据集类,继承自Dataset
class ToyDataset(Dataset):
    def __init__(self, X, y):
        # 初始化函数,保存特征和标签
        self.features = X  # 保存特征数据
        self.labels = y    # 保存标签数据

    def __getitem__(self, index):
        # 获取单个样本的特征和标签
        one_x = self.features[index]  # 获取index位置的特征
        one_y = self.labels[index]    # 获取index位置的标签        
        return one_x, one_y  # 返回特征和标签元组

    def __len__(self):
        # 返回数据集的样本数量
        return self.labels.shape[0]  # 返回标签张量的第一维大小

# 创建训练集实例
train_ds = ToyDataset(X_train, y_train)
# 创建测试集实例 
test_ds = ToyDataset(X_test, y_test)

In [32]:
# 获取训练数据集的样本数量
len(train_ds)

5

In [33]:
# 导入数据加载器类
from torch.utils.data import DataLoader

# 设置随机种子以确保可重复性
torch.manual_seed(123)

# 创建训练数据加载器
train_loader = DataLoader(
    dataset=train_ds,     # 指定数据集
    batch_size=2,         # 每批次2个样本
    shuffle=True,         # 随机打乱数据
    num_workers=0         # 不使用多进程加载数据
)

In [34]:
# 创建测试数据集实例
test_ds = ToyDataset(X_test, y_test)

# 创建测试数据加载器
test_loader = DataLoader(
    dataset=test_ds,      # 指定测试数据集
    batch_size=2,         # 每批次2个样本
    shuffle=False,        # 不打乱数据顺序
    num_workers=0         # 不使用多进程加载
)

In [35]:
# 遍历训练数据加载器,获取每个批次的数据
for idx, (x, y) in enumerate(train_loader):
    # 打印批次索引和对应的特征(x)与标签(y)
    print(f"Batch {idx+1}:", x, y)

Batch 1: tensor([[ 2.3000, -1.1000],
        [-0.9000,  2.9000]]) tensor([1, 0])
Batch 2: tensor([[-1.2000,  3.1000],
        [-0.5000,  2.6000]]) tensor([0, 0])
Batch 3: tensor([[ 2.7000, -1.5000]]) tensor([1])


In [36]:
# 创建训练数据加载器
train_loader = DataLoader(
    dataset=train_ds,     # 指定训练数据集
    batch_size=2,         # 每批次2个样本
    shuffle=True,         # 随机打乱数据
    num_workers=0,        # 不使用多进程加载数据
    drop_last=True        # 丢弃最后一个不完整的批次
)

In [37]:
# 遍历训练数据加载器中的每个批次
# idx为批次索引,x为特征数据,y为标签数据
for idx, (x, y) in enumerate(train_loader):
    # 打印当前批次的索引号、特征数据和标签数据
    print(f"Batch {idx+1}:", x, y)

Batch 1: tensor([[-1.2000,  3.1000],
        [-0.5000,  2.6000]]) tensor([0, 0])
Batch 2: tensor([[ 2.3000, -1.1000],
        [-0.9000,  2.9000]]) tensor([1, 0])


<img src="https://sebastianraschka.com/images/LLMs-from-scratch-images/appendix-a_compressed/11.webp" width="600px">

## A.7 A typical training loop
## A.7 典型的训练循环

In [38]:
# 导入PyTorch的函数式模块F,包含了常用的损失函数等
import torch.nn.functional as F


# 设置随机种子以确保结果可复现
torch.manual_seed(123)
# 创建神经网络模型实例,输入维度为2,输出维度为2
model = NeuralNetwork(num_inputs=2, num_outputs=2)
# 创建SGD优化器,学习率为0.5
optimizer = torch.optim.SGD(model.parameters(), lr=0.5)

# 设置训练轮数为3
num_epochs = 3

# 开始训练循环,遍历每个epoch
for epoch in range(num_epochs):
    
    # 将模型设置为训练模式
    model.train()
    # 遍历训练数据加载器中的每个批次
    for batch_idx, (features, labels) in enumerate(train_loader):

        # 前向传播,获得模型输出
        logits = model(features)
        
        # 计算交叉熵损失
        loss = F.cross_entropy(logits, labels) # Loss function
        
        # 清零梯度
        optimizer.zero_grad()
        # 反向传播计算梯度
        loss.backward()
        # 更新模型参数
        optimizer.step()
    
        ### LOGGING
        # 打印训练信息:当前epoch、batch序号和损失值
        print(f"Epoch: {epoch+1:03d}/{num_epochs:03d}"
              f" | Batch {batch_idx:03d}/{len(train_loader):03d}"
              f" | Train/Val Loss: {loss:.2f}")

    # 每个epoch结束后将模型设为评估模式
    model.eval()
    # 可选的模型评估步骤

Epoch: 001/003 | Batch 000/002 | Train/Val Loss: 0.75
Epoch: 001/003 | Batch 001/002 | Train/Val Loss: 0.65
Epoch: 002/003 | Batch 000/002 | Train/Val Loss: 0.44
Epoch: 002/003 | Batch 001/002 | Train/Val Loss: 0.13
Epoch: 003/003 | Batch 000/002 | Train/Val Loss: 0.03
Epoch: 003/003 | Batch 001/002 | Train/Val Loss: 0.00


In [39]:
# 将模型设置为评估模式
model.eval()

# 使用torch.no_grad()上下文管理器来避免计算梯度
with torch.no_grad():
    # 使用训练数据进行前向传播得到输出
    outputs = model(X_train)

# 打印模型输出结果
print(outputs)

tensor([[ 2.8569, -4.1618],
        [ 2.5382, -3.7548],
        [ 2.0944, -3.1820],
        [-1.4814,  1.4816],
        [-1.7176,  1.7342]])


In [40]:
# 设置PyTorch不使用科学计数法显示
torch.set_printoptions(sci_mode=False)

# 使用softmax函数将模型输出转换为概率分布
probas = torch.softmax(outputs, dim=1)
print(probas)

# 获取每个样本最大概率对应的类别作为预测结果
predictions = torch.argmax(probas, dim=1)
print(predictions)

tensor([[    0.9991,     0.0009],
        [    0.9982,     0.0018],
        [    0.9949,     0.0051],
        [    0.0491,     0.9509],
        [    0.0307,     0.9693]])
tensor([0, 0, 0, 1, 1])


In [41]:
# 直接使用argmax函数获取每个样本最大值的索引作为预测类别
predictions = torch.argmax(outputs, dim=1)
# 打印预测结果
print(predictions)

tensor([0, 0, 0, 1, 1])


In [42]:
# 比较预测结果和真实标签是否相等
predictions == y_train

tensor([True, True, True, True, True])

In [43]:
# 计算预测正确的样本数量
torch.sum(predictions == y_train)

tensor(5)

In [44]:
# 定义一个计算模型准确率的函数，接收模型和数据加载器作为参数
def compute_accuracy(model, dataloader):

    # 将模型设置为评估模式
    model = model.eval()
    # 初始化正确预测的样本数
    correct = 0.0
    # 初始化总样本数
    total_examples = 0
    
    # 遍历数据加载器中的每一批数据
    for idx, (features, labels) in enumerate(dataloader):
        
        # 使用torch.no_grad()避免计算梯度
        with torch.no_grad():
            # 对特征数据进行前向传播得到输出
            logits = model(features)
        
        # 获取每个样本最大概率对应的类别作为预测结果
        predictions = torch.argmax(logits, dim=1)
        # 比较预测结果和真实标签是否相等
        compare = labels == predictions
        # 累加正确预测的样本数
        correct += torch.sum(compare)
        # 累加总样本数
        total_examples += len(compare)

    # 返回准确率(正确预测的样本数/总样本数)
    return (correct / total_examples).item()

In [45]:
# 计算模型在训练集上的准确率
compute_accuracy(model, train_loader)

1.0

In [46]:
# 计算模型在测试集上的准确率
compute_accuracy(model, test_loader)

1.0

## A.8 Saving and loading models
## A.8 保存和加载模型

In [47]:
# 将模型的状态字典保存到"model.pth"文件中
torch.save(model.state_dict(), "model.pth")


In [48]:
# 创建一个新的神经网络模型实例，参数需要与原始模型完全匹配
model = NeuralNetwork(2, 2)
# 从保存的文件中加载模型参数
# weights_only=True 表示只加载权重参数，不加载优化器等其他状态
model.load_state_dict(torch.load("model.pth", weights_only=True))

<All keys matched successfully>

## A.9 Optimizing training performance with GPUs
## A.9 使用GPU优化训练性能

### A.9.1 PyTorch computations on GPU devices
### A.9.1 在GPU设备上进行PyTorch计算

See [code-part2.ipynb](code-part2.ipynb)

### A.9.2 Single-GPU training
### A.9.2 单GPU训练

See [code-part2.ipynb](code-part2.ipynb)

### A.9.3 Training with multiple GPUs
### A.9.3 使用多个GPU进行训练

See [DDP-script.py](DDP-script.py)