# 第一节 PyTorch 基础

本节将会非常简短地介绍 PyTorch 的基础。教程主要节选自：

 - PyTorch 官方的 60 分钟教程 https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html
 - UvA 教学材料：https://uvadlc-notebooks.readthedocs.io/en/latest/tutorial_notebooks/tutorial2/Introduction_to_PyTorch.html

PyTorch 是一个开源机器学习框架，可以让用户非常自由地编写自己的神经网络并高效地优化网络。然而，PyTorch 并非唯一的深度学习框架。其他框架还包括 TensorFlow、JAX 和 Caffe。

目前，PyTorch 的生态已经非常完善地建立起来，拥有庞大的开发者社区（最初由 Facebook 开发），非常灵活，尤其是在研究方面得到广泛应用。许多当前论文都在 PyTorch 中发布代码。
下图是在 research paper 中 PyTorch 和其它框架所占得份额，可以看到 PyTorch 已经占领超过半壁江山。

<img src="https://github.com/xiaohh0048/WinterSchool2025/blob/main/figures/percentage_repo_2023.png?raw=1" alt="image" width=700/>


#

## Tensor 基础

### 初始化和基本运算

Tensor “张量” 是 PyTorch 中的核心数据结构，相当于 Numpy 数组的升级版本，它不仅具备与 Numpy 数组类似的操作功能，还支持 GPU 加速。  
“张量”这一名称是一种概念的推广。

例如，向量可以看作是一维张量，而矩阵则是二维张量。在构建神经网络时，我们会使用各种形状和不同维度的张量。

大部分操作 Numpy array 的函数，也可以直接用于张量上。由于 Numpy 数组和张量的相似性，可以轻松地在它们之间进行转换（将张量转换为 Numpy 数组，或者反之）.

创建张量的方法有很多，其中最简单的一种是调用 `torch.Tensor`，并将所需的形状作为参数传入：

In [1]:
import torch
import torch.nn as nn

x = torch.Tensor(2, 3, 4)
print(x)

tensor([[[-1.8915e+31,  4.5667e-41, -1.8915e+31,  4.5667e-41],
         [-1.8915e+31,  4.5667e-41, -1.8915e+31,  4.5667e-41],
         [-1.8915e+31,  4.5667e-41, -1.8915e+31,  4.5667e-41]],

        [[-1.8916e+31,  4.5667e-41, -1.8916e+31,  4.5667e-41],
         [-1.8916e+31,  4.5667e-41, -1.8915e+31,  4.5667e-41],
         [-1.8915e+31,  4.5667e-41, -1.6598e+31,  4.5667e-41]]])


函数 `torch.Tensor` 会为所需的张量分配内存，但它用的是内存中已有的值，因此非常随机，平时不会这么使用。

最常使用的初始化方法，是为张量直接分配特定的值，包括：

- **`torch.zeros`**：创建一个所有元素为 0 的张量  
- **`torch.ones`**：创建一个所有元素为 1 的张量  
- **`torch.rand`**：创建一个张量，其中的值是 0 到 1 之间均匀分布的随机数  
- **`torch.randn`**：创建一个张量，其中的值是服从均值为 0、方差为 1 的正态分布的随机数  
- **`torch.arange`**：创建一个张量，其中包含从 $N$ 开始、按步长为 1 递增，直到 $M$（不包括 $M$）  
- **`torch.Tensor`**（输入列表）：从你提供的列表元素中创建一个张量  

In [2]:
# Create a tensor from a (nested) list
x = torch.Tensor([[1, 2], [3, 4]])
print(x)

tensor([[1., 2.],
        [3., 4.]])


In [3]:
# Create a tensor with random values between 0 and 1 with the shape [2, 3, 4]
x = torch.rand(2, 3, 4)
print(x)

tensor([[[0.8657, 0.0879, 0.1889, 0.6046],
         [0.8970, 0.2710, 0.0709, 0.2873],
         [0.3397, 0.6929, 0.4163, 0.9748]],

        [[0.0684, 0.2467, 0.7958, 0.9573],
         [0.7206, 0.3851, 0.6928, 0.8426],
         [0.8646, 0.5577, 0.3575, 0.7680]]])


常用 `.shape` 和 `.size()` 获取 tensor 的维度信息

In [4]:
shape = x.shape
print("Shape:", x.shape)

size = x.size()
print("Size:", size)

dim1, dim2, dim3 = x.size()
print("Size:", dim1, dim2, dim3)

Shape: torch.Size([2, 3, 4])
Size: torch.Size([2, 3, 4])
Size: 2 3 4


用 Numpy array 初始化 tensor

In [5]:
import numpy as np

np_arr = np.array([[1, 2], [3, 4]])
tensor = torch.from_numpy(np_arr)

print("Numpy array:", np_arr)
print("PyTorch tensor:", tensor)

Numpy array: [[1 2]
 [3 4]]
PyTorch tensor: tensor([[1, 2],
        [3, 4]])


大多数 Numpy 中存在的操作，在 PyTorch 中也有相应的实现。完整的操作列表可以在 [PyTorch 文档](https://pytorch.org/docs/stable/tensors.html#) 中找到，这里我们将重点介绍一些最常用的操作。

最简单的操作之一就是两个张量的加法：

In [6]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 3)
y = x1 + x2

print("X1", x1)
print("X2", x2)
print("Y", y)

X1 tensor([[0.5616, 0.8430, 0.8401],
        [0.3494, 0.0519, 0.8931]])
X2 tensor([[0.1638, 0.7241, 0.2262],
        [0.6199, 0.5824, 0.8194]])
Y tensor([[0.7254, 1.5671, 1.0663],
        [0.9693, 0.6343, 1.7126]])


调用 `x1 + x2` 会创建一个新的张量，包含两个输入张量的和。然而，我们也可以**in-place**地操作，直接在张量的内存中修改其值。这种操作会直接更改 `x2` 的值，之后无法重新访问 `x2` 的原始值。以下是一个示例：

In-place 操作都在最后带有一个 `_` ，比如 `add_`, `mul_`

In [7]:
x1 = torch.rand(2, 3)
x2 = torch.rand(2, 3)
print("X1 (before)", x1)
print("X2 (before)", x2)

x2.add_(x1)
print("X1 (after)", x1)
print("X2 (after)", x2)

X1 (before) tensor([[0.8068, 0.1186, 0.0807],
        [0.1556, 0.3359, 0.8396]])
X2 (before) tensor([[0.0825, 0.8085, 0.1526],
        [0.9157, 0.8673, 0.2409]])
X1 (after) tensor([[0.8068, 0.1186, 0.0807],
        [0.1556, 0.3359, 0.8396]])
X2 (after) tensor([[0.8893, 0.9270, 0.2333],
        [1.0713, 1.2032, 1.0805]])


另一个常见操作是改变张量的形状。一个大小为 (2,3) 的张量可以重新组织为任何其他包含相同元素数量的形状（例如大小为 (6)、(3,2) 等）。在 PyTorch 中，这种操作被称为 `view`：

In [8]:
x = torch.arange(6)
print("X", x)

x = x.view(2, 3)
print("X", x)

X tensor([0, 1, 2, 3, 4, 5])
X tensor([[0, 1, 2],
        [3, 4, 5]])


另一个常用的操作是矩阵乘法，它在神经网络的运算中及其重要。通常情况下，我们会有一个输入向量 $\mathbf{x}$，通过一个可学习的权重矩阵 $\mathbf{W}$ 进行变换。PyTorch 提供了多种进行矩阵乘法的方法和函数，以下是一些常用的选项：

- **`torch.matmul`**：在两个张量之间执行矩阵乘积，其具体行为取决于张量的维度。如果两个输入都是矩阵（即 2 维张量），它会执行标准的矩阵乘积。对于更高维的输入，该函数支持 broadcast 机制（详细信息参见 [文档](https://pytorch.org/docs/stable/generated/torch.matmul.html?highlight=matmul#torch.matmul)）。也可以使用 `a @ b` 的形式，类似于 Numpy。  
- **`torch.mm`**：在两个矩阵之间执行矩阵乘积，但不支持 broadcast（参见 [文档](https://pytorch.org/docs/stable/generated/torch.mm.html?highlight=torch%20mm#torch.mm)）。  
- **`torch.bmm`**：支持批量维度的矩阵乘法（非常常用！）。如果第一个张量 $T$ 的形状为 ($b \times n \times m$)，第二个张量 $R$ 的形状为 ($b \times m \times p$)，则输出 $O$ 的形状为 ($b \times n \times p$)。这是通过对 $T$ 和 $R$ 的子矩阵执行 $b$ 次矩阵乘法计算得出的：$O_i = T_i @ R_i$。  
- **`torch.einsum`**：使用爱因斯坦求和约定执行矩阵乘法及更复杂的运算

通常，我们会使用 `torch.matmul` 或 `torch.bmm`。下面我们可以尝试用 `torch.matmul` 进行一次矩阵乘法：

In [9]:
x = torch.arange(6)
x = x.view(2, 3)
print("X", x)

W = torch.arange(9).view(3, 3) # We can also stack multiple operations in a single line
print("W", W)

h = torch.matmul(x, W) # Verify the result by calculating it by hand too!
print("h", h)

X tensor([[0, 1, 2],
        [3, 4, 5]])
W tensor([[0, 1, 2],
        [3, 4, 5],
        [6, 7, 8]])
h tensor([[15, 18, 21],
        [42, 54, 66]])


最后是张量的索引，这也和 Numpy array 类似

In [10]:
x = torch.arange(12).view(3, 4)
print("X", x)

print(x[:, 1])   # Second column

print(x[0])      # First row

print(x[:2, -1]) # First two rows, last column

print(x[1:3, :]) # Middle two rows

X tensor([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])
tensor([1, 5, 9])
tensor([0, 1, 2, 3])
tensor([3, 7])
tensor([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]])


### 自动梯度计算

使用 PyTorch 在深度学习项目中的主要原因之一是可以**自动计算函数的梯度/导数**。我们主要会用 PyTorch 来实现神经网络，而神经网络本质上就是一些复杂的函数。如果我们在函数中使用需要学习的权重矩阵，那么这些矩阵就被称为**参数**，或简单地称为**权重**。

如果我们的神经网络输出的是单一的标量值，我们会讨论**导数**；但实际上，很多时候网络会有**多个输出变量**，在这种情况下我们称之为**梯度**，它是一个更广泛的概念。

给定输入 $\mathbf{x}$，我们通过对输入进行**操作**来定义函数，这通常包括权重矩阵的矩阵乘法以及与所谓的偏置向量（bias vector）的加法。当我们操作输入时，会自动创建一个**计算图**（computational graph），该图展示了如何从输入到达输出的路径。  
PyTorch 是一个**动态计算图（define-by-run）**框架，这意味着我们只需执行所需的操作，PyTorch 会自动跟踪计算图。因此，我们在操作的过程中动态创建了计算图。

> **为什么我们需要梯度？**  
> 假设我们定义了一个函数（即神经网络），用于从输入向量 $\mathbf{x}$ 计算出期望的输出 $y$。我们会定义一个**误差度量**，用于衡量网络的错误程度，即它在从 $\mathbf{x}$ 预测输出 $y$ 时的表现有多差。基于这个误差度量，我们可以利用梯度来**更新**与输出相关的权重 $\mathbf{W}$，从而使网络在下次输入 $\mathbf{x}$ 时，其输出更接近我们的期望结果。

这里不对梯度的计算进行展示了——我们实际在编写代码时也不需要观察这些梯度的计算和传播，但是我们需要知道，当我们像搭乐高积木一样组建了一个网络时，我们实际写的是正向计算的一切流程，而这时反向梯度应该如何计算已经自动被 PyTorch 实现了。总结一下：我们只需要计算出函数的**输出**，然后就可以请求 PyTorch 自动为我们计算出**梯度**。


### GPU支持

PyTorch的基本运算都有在GPU上实现的方式，而且是经过优化的。这依赖于 PyTorch 底层的CUDA接口。尤其是，在大的矩阵运算和梯度传播时，放到GPU上计算比CPU快的多，于是我们才能实现在GPU上快速训练一个网络，创造人工智能。

## `nn.Module`

像搭乐高积木一样搭建一个 Module。

在 `__init__` 里面，初始化自己要的积木块，包括注册各种可以学习的参数。这些参数一般会定义在内建的 Module 里，比如 `nn.Linear`，也可以利用 `nn.Parameters` 自己定义。
整个网络的运行逻辑写在 forward 里。当给定输入 `x`时（也可以多个 Tensor 输入），它将如何参与积木块的计算，得到输出。

当我们定义好积木块，并定义好如何进行 forward 计算时，PyTorch Module 已经知道如何进行 backward 计算了（如，对于输出值的任何一个元素，它对所有模型参数空间求梯度是多少）。

In [11]:
import torch

class TinyModel(torch.nn.Module):

    def __init__(self):
        super(TinyModel, self).__init__()

        self.linear1 = torch.nn.Linear(100, 200)
        self.activation = torch.nn.ReLU()
        self.linear2 = torch.nn.Linear(200, 10)
        self.softmax = torch.nn.Softmax()

    def forward(self, x):
        x = self.linear1(x)
        x = self.activation(x)
        x = self.linear2(x)
        x = self.softmax(x)
        return x

tinymodel = TinyModel()

print('The model:')
print(tinymodel)

print('\n\nJust one layer:')
print(tinymodel.linear2)

print('\n\nModel params:')
for param in tinymodel.parameters():
    print(param)

print('\n\nLayer params:')
for param in tinymodel.linear2.parameters():
    print(param)

The model:
TinyModel(
  (linear1): Linear(in_features=100, out_features=200, bias=True)
  (activation): ReLU()
  (linear2): Linear(in_features=200, out_features=10, bias=True)
  (softmax): Softmax(dim=None)
)


Just one layer:
Linear(in_features=200, out_features=10, bias=True)


Model params:
Parameter containing:
tensor([[ 0.0260,  0.0175, -0.0839,  ...,  0.0408,  0.0996,  0.0992],
        [-0.0973,  0.0591,  0.0876,  ..., -0.0554,  0.0586,  0.0279],
        [-0.0360, -0.0724, -0.0851,  ...,  0.0445, -0.0164, -0.0601],
        ...,
        [-0.0220, -0.0243, -0.0517,  ..., -0.0059, -0.0466,  0.0361],
        [ 0.0709, -0.0093,  0.0357,  ...,  0.0012,  0.0207,  0.0680],
        [-0.0552, -0.0471,  0.0512,  ...,  0.0797,  0.0119,  0.0337]],
       requires_grad=True)
Parameter containing:
tensor([-7.7415e-02,  8.6237e-02,  6.9028e-02, -9.9805e-03,  5.3269e-02,
        -9.2023e-02,  3.3391e-03, -8.5040e-02,  4.8249e-02,  9.6813e-02,
         8.2575e-02, -3.3805e-02, -7.6046e-02, -2.9552

以上基本涵盖了后面的讲义中用到的 PyTorch 最基本的知识。关于利用 PyTorch Dataset 搭建数据流等，将放在后文介绍。

就实用角度来说，PyTorch 支持的function和Module浩如烟海。对于很多等价的实现，其实有一些内置的函数可以更快地完成，这能让模型的运行更加高效。
不过，在ChatGPT时代，平时写PyTorch代码基本上可以由智能助手帮我们完成了...