## Imports

你可以通过[PyTorch安装页面](https://pytorch.org/get-started/locally/)在各种平台上安装PyTorch。

In [None]:
import torch

# 检查版本
print(f"PyTorch version: {torch.__version__}")

PyTorch version: 1.13.1


In [None]:
# 也可以导入常见的缩写 "nn" 代表 "神经网络"
from torch import nn

# PyTorch中几乎所有东西都被称为 "模块"（您通过将模块堆叠在一起来构建神经网络）
this_is_a_module = nn.Linear(in_features=1,
                             out_features=1)
print(type(this_is_a_module))

<class 'torch.nn.modules.linear.Linear'>


### 数据导入

由于大多数机器学习都是在数据中寻找模式，因此了解如何在PyTorch中处理数据集是很重要的。

In [None]:
# 导入PyTorch数据集（您可以在这里存储您的数据）和数据加载器（您可以在这里加载您的数据）
from torch.utils.data import Dataset, DataLoader

## 创建张量

PyTorch的主要用途之一是加速深度学习计算。

而深度学习通常涉及对大型张量（大型、多维度的数字集合）进行操作。

PyTorch有许多方法来创建张量。

In [None]:
# 创建一维张量
scalar = torch.tensor(7)

In [None]:
# 创建随机张量
random_tensor = torch.rand(size=(3, 4)) # 这将创建一个大小为3x4的张量，但您可以根据需要调整形状。

In [None]:
# 张量相乘
random_tensor_1 = torch.rand(size=(3, 4))
random_tensor_2 = torch.rand(size=(3, 4))
random_tensor_3 = random_tensor_1 * random_tensor_2 # PyTorch支持大多数Python中的数学运算符（+、*、-、/）

## 领域库

根据您正在处理的具体问题，PyTorch具有几个领域库。

- **[TorchVision](https://pytorch.org/vision/stable/index.html)** — PyTorch的计算机视觉库。
- **[TorchText](https://pytorch.org/text/stable/index.html)** — PyTorch的内置文本领域库。
- [**TorchAudio**](https://pytorch.org/audio/stable/index.html) — PyTorch的音频领域库。
- **[TorchRec](https://pytorch.org/torchrec/)** — PyTorch的最新内置领域库，用于通过深度学习驱动推荐引擎。

In [None]:
# 基础计算机视觉库
import torchvision

# TorchVision的其他组件（预定义数据集、预训练模型和图像转换）
from torchvision import datasets, models, transforms

### 文本和 NLP

In [None]:
# 基础文本和自然语言处理库
import torchtext

# TorchText的其他组件（预定义数据集、预训练模型和文本转换）
from torchtext import datasets, models, transforms

### 视频和语言

In [None]:
# 基础音频和语音处理库
import torchaudio

# TorchAudio的其他组件（预定义数据集、预训练模型和音频转换）
from torchaudio import datasets, models, transforms

### 推荐系统

> **注意：** 此库目前处于 beta 版本，查看[GitHub页面以获取安装信息](https://github.com/pytorch/torchrec#installation)。

In [None]:
# # 基础推荐系统库
# import torchrec

# # TorchRec的其他组件
# from torchrec import datasets, models

## 设备相关的代码（在CPU、GPU或MPS上使用PyTorch）

深度学习的大部分工作涉及对张量进行计算。

在GPU（通常来自NVIDIA的图形处理单元）上进行张量计算通常比在CPU（计算机处理单元）上快得多。

MPS代表“Metal Performance Shader”，这是苹果的GPU（M1、M1 Pro、M2等）。

建议在您可用的最快硬件上进行训练，通常为：NVIDIA GPU（`"cuda"`）> MPS设备（`"mps"`）> CPU（`"cpu"`）。

* 若要了解有关如何在NVIDIA GPU（使用CUDA）上运行PyTorch的更多信息，请参阅[PyTorch文档部分2：在GPU上运行PyTorch](https://pytorch.org/docs/stable/cuda.html)。
* 若要了解如何使用MPS后端（在Mac GPU上运行PyTorch）运行PyTorch，请参阅[PyTorch文档](https://pytorch.org/docs/stable/notes/mps.html)。

> **注意：** 建议在工作流程开始时设置设备无关的代码。

In [None]:
# 设置设备相关代码
if torch.cuda.is_available():
    device = "cuda" # NVIDIA GPU
elif torch.backends.mps.is_available():
    device = "mps" # Apple GPU
else:
    device = "cpu" # 无GPU

print(f"Using device: {device}")

Using device: mps


### 将张量发送到目标设备

您可以通过`.to("device_name")`方法将对象（模型和张量）在PyTorch中移动到不同的设备上。

In [None]:
# 创建张量
x = torch.tensor([1, 2, 3])
print(x.device) # 初始化 CPU

# 将张量输送到目标设备
x = x.to(device)
print(x.device)

cpu
mps:0


## 设置随机数种子

许多机器学习和深度学习涉及将张量中的随机数进行形状调整，以发现/表示真实数据中的模式。

然而，有时您可能需要“可重现”的随机性。

为此，您可以设置随机种子，请参阅[可重现性（试图消除随机性）](https://www.learnpytorch.io/00_pytorch_fundamentals/#reproducibility-trying-to-take-the-random-out-of-random)了解更多信息。

In [None]:
import torch

# 设置随机种子（您可以将其设置为任何喜欢的数字，它将使随机性带有该数字的“风味”）。
torch.manual_seed(42)

# 创建两个随机张量
random_tensor_A = torch.rand(3, 4)

torch.manual_seed(42) # 再次设置随机数种子
random_tensor_B = torch.rand(3, 4)

print(f"Tensor A:\n{random_tensor_A}\n")
print(f"Tensor B:\n{random_tensor_B}\n")
print(f"Does Tensor A equal Tensor B? (anywhere)")
random_tensor_A == random_tensor_B

Tensor A:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Tensor B:
tensor([[0.8823, 0.9150, 0.3829, 0.9593],
        [0.3904, 0.6009, 0.2566, 0.7936],
        [0.9408, 0.1332, 0.9346, 0.5936]])

Does Tensor A equal Tensor B? (anywhere)


tensor([[True, True, True, True],
        [True, True, True, True],
        [True, True, True, True]])

也能在 GPU 上设置随机数种子

In [None]:
# 在 GPU 上设置随机数种子
torch.cuda.manual_seed(42)

## 神经网络

PyTorch拥有非常全面的预构建神经网络组件库（在PyTorch生态系统中，其中许多被称为“模块”）。

在基本层面上，神经网络是层的堆叠。每个这些层对输入执行某种操作，并产生输出。

这些层如何堆叠在一起将取决于您正在处理的问题。

机器学习中最活跃的研究领域之一是如何将神经网络层堆叠在一起（对此的最佳答案不断变化）。

PyTorch中绝大多数神经网络组件都包含在[`torch.nn`包](https://pytorch.org/docs/stable/nn.html)中（`nn`是神经网络的缩写）。

In [None]:
from torch import nn

### 线性层

PyTorch内置了几种[线性层](https://pytorch.org/docs/stable/nn.html#linear-layers)。

In [None]:
# 创建一个输入特征为10，输出特征为10的线性层
linear_layer = nn.Linear(in_features=10,
                         out_features=10)

In [None]:
# 创建Identity
identity_layer = nn.Identity()

### CNN

PyTorch拥有[几种内置的卷积层](https://pytorch.org/docs/stable/nn.html#convolution-layers)。

卷积层的命名通常遵循`torch.nn.ConvXd`的格式，其中`X`可以是`1`、`2`或`3`。

`X`值代表卷积操作的维度数量，例如，对于单维度文本，`1`表示，对于二维图像（高度x宽度）为`2`，对于视频等三维对象（视频被视为具有时间维度的一系列图像，高度x宽度x时间）为`3`。

> **注意：** 您可以在[03. PyTorch计算机视觉部分7.2：构建卷积神经网络（CNN）](https://www.learnpytorch.io/03_pytorch_computer_vision/#7-model-2-building-a-convolutional-neural-network-cnn)中了解如何使用PyTorch构建用于计算机视觉的卷积神经网络。

In [None]:
# 创建1维卷积层
conv1d = nn.Conv1d(in_channels=1,
                   out_channels=10,
                   kernel_size=3)

In [None]:
# 创建2维卷积层
conv2d = nn.Conv2d(in_channels=3, # 图片的3通道
                   out_channels=10,
                   kernel_size=3)

In [None]:
# 创建3维卷积层
conv3d = nn.Conv3d(in_channels=3,
                   out_channels=10,
                   kernel_size=3)

### Transformer 

PyTorch内置了Transformer层，正如在论文[Attention Is All You Need](https://arxiv.org/abs/1706.03762)中描述的那样。

使用内置的PyTorch Transformer层具有潜在的加速优势，这要归功于[PyTorch的BetterTransformer](https://pytorch.org/blog/a-better-transformer-for-fast-transformer-encoder-inference/)。


In [None]:
# 创建一个Transformer模型（基于论文“Attention Is All You Need” - https://arxiv.org/abs/1706.03762）
transformer_model = nn.Transformer()

In [None]:
# 创建Transformer 编码器单元
transformer_encoder = nn.TransformerEncoderLayer(d_model=768, # embedding dimension
                                                 nhead=12) # number of attention heads

In [None]:
# 堆叠Transformer编码器单元
transformer_encoder_stack = nn.TransformerEncoder(encoder_layer=transformer_encoder, # from above
                                                  num_layers=6) # 6 Transformer encoders stacked on top of each other

In [None]:
# 创建Transformer解码器单元
transformer_decoder = nn.TransformerDecoderLayer(d_model=768,
                                                 nhead=12)

In [None]:
# 堆叠Transformer解码器单元
transformer_decoder_stack = nn.TransformerDecoder(decoder_layer=transformer_decoder, # from above
                                                  num_layers=6) # 6 Transformer decoders stacked on top of each other

### RNN

PyTorch内置支持[循环神经网络层](https://pytorch.org/docs/stable/nn.html#recurrent-layers)，如[长短期记忆（LSTM）](https://en.wikipedia.org/wiki/Long_short-term_memory)和[门控循环单元（GRU）](https://en.wikipedia.org/wiki/Gated_recurrent_unit)。

In [None]:
# 创建LSTM单元
lstm_cell = nn.LSTMCell(input_size=10, # can adjust as necessary
                        hidden_size=10) # can adjust as necessary

In [None]:
# 堆叠LSTM单元
lstm_stack = nn.LSTM(input_size=10,
                     hidden_size=10,
                     num_layers=3) # 3 single LSTM cells stacked on top of each other

In [None]:
# 创建GRU单元
gru_cell = nn.GRUCell(input_size=10, # can adjust as necessary
                      hidden_size=10) # can adjust as necessary

In [None]:
# 堆叠GRU单元
gru_stack = nn.GRU(input_size=10,
                   hidden_size=10,
                   num_layers=3) # 3 single GRU cells stacked on top of each other

### 激活函数

[激活函数](https://en.wikipedia.org/wiki/Activation_function)经常在神经网络的层之间使用，以为线性（直线）函数添加非线性（非直线）能力。

实质上，神经网络通常由大量的线性和非线性函数组成。

PyTorch内置了[多种非线性激活函数](https://pytorch.org/docs/stable/nn.html#non-linear-activations-weighted-sum-nonlinearity)，存放在`torch.nn`中。

其中一些最常见的是：
* `nn.ReLU` - 也被称为[修正线性单元](https://en.wikipedia.org/wiki/Rectifier_(neural_networks))。
* `nn.Sigmoid` - 也被称为[sigmoid函数](https://en.wikipedia.org/wiki/Sigmoid_function)。
* `nn.Softmax` - 也被称为[softmax函数](https://en.wikipedia.org/wiki/Softmax_function)。


In [None]:
# ReLU
relu = nn.ReLU()

# Sigmoid
sigmoid = nn.Sigmoid()

# Softmax
softmax = nn.Softmax()

### 损失函数

损失函数衡量了模型的“错误程度”。也就是说，它的预测偏离了它们应该的位置有多远。

理想情况下，通过训练、数据和优化函数，这个损失值应尽可能地降低。

在PyTorch中（以及深度学习中），损失函数通常也被称为：标准、成本函数。

PyTorch内置了[多种损失函数](https://pytorch.org/docs/stable/nn.html#loss-functions)，存放在`torch.nn`中。

其中一些最常见的是：
* [`nn.L1Loss`](https://pytorch.org/docs/stable/generated/torch.nn.L1Loss.html#torch.nn.L1Loss) - 也称为MAE或[平均绝对误差](https://en.wikipedia.org/wiki/Mean_absolute_error)（这种损失通常用于回归问题或预测数值，例如房价）。
* [`nn.MSELoss`](https://pytorch.org/docs/stable/generated/torch.nn.MSELoss.html#torch.nn.MSELoss) - 也称为L2Loss或[均方误差](https://en.wikipedia.org/wiki/Mean_squared_error)（这种损失通常用于回归问题或预测数值，例如房价）。
* [`nn.BCEWithLogitsLoss`](https://pytorch.org/docs/stable/generated/torch.nn.BCEWithLogitsLoss.html#torch.nn.BCEWithLogitsLoss) - 也称为[二元交叉熵](https://en.wikipedia.org/wiki/Cross_entropy)，这种损失函数通常用于二分类问题（将某样东西分类为一种或另一种）。
* [`nn.CrossEntropyLoss`](https://pytorch.org/docs/stable/generated/torch.nn.CrossEntropyLoss.html#torch.nn.CrossEntropyLoss) - 这种损失函数通常用于多类别分类问题（将某样东西分类为一种或另一种）。

In [None]:
# L1Loss
loss_fn = nn.L1Loss() # also known as MAE or mean absolute error

# MSELoss
loss_fn = nn.MSELoss() # also known as MSE or mean squared error

# Binary cross entropy (for binary classification problems)
loss_fn = nn.BCEWithLogitsLoss()

# Cross entropy (for multi-class classification problems)
loss_fn = nn.CrossEntropyLoss()

### 优化器

优化器的任务是以减少损失函数值为目标，调整神经网络的权重。

PyTorch内置了[多种优化函数](https://pytorch.org/docs/stable/optim.html)，存放在`torch.optim`模块中。

其中两个主要的优化器函数包括：
* [`torch.optim.SGD(lr=0.1, params=model.parameters())`](https://pytorch.org/docs/stable/generated/torch.optim.SGD.html#torch.optim.SGD) - SGD也称为[随机梯度下降](https://en.wikipedia.org/wiki/Stochastic_gradient_descent)（`lr`代表“学习率”，即在每一步中调整神经网络权重的乘数，小值=小调整，大值=大调整）。
* [`torch.optim.Adam(lr=0.001, params=model.parameters())`](https://pytorch.org/docs/stable/generated/torch.optim.Adam.html#torch.optim.Adam) - Adam优化器（`params`代表“模型参数”，换句话说，是您希望优化函数在训练期间优化的模型参数/权重）。

In [None]:
# 创建baseline
model = nn.Transformer()

# SGD (stochastic gradient descent)
optimizer = torch.optim.SGD(lr=0.1, # set the learning rate (required)
                            params=model.parameters()) # tell the optimizer what parameters to optimize

In [None]:
# 创建baseline
model = nn.Transformer()

# Adam optimizer
optimizer = torch.optim.Adam(lr=0.001, # set the learning rate (required)
                             params=model.parameters()) # tell the optimizer what parameters to optimize

## 端到端模型
让我们在一个快速的端到端工作流中将所有内容整合在一起。

<img src="https://raw.githubusercontent.com/mrdbourke/pytorch-deep-learning/main/images/01_a_pytorch_workflow.png" width=950 alt="从数据到构建模型到拟合模型到评估模型的PyTorch工作流"/>


### 创建数据

In [None]:
# Create *known* parameters
weight = 0.7
bias = 0.3

# Create data
start = 0
end = 1
step = 0.02
X = torch.arange(start, end, step).unsqueeze(dim=1) # data
y = weight * X + bias # labels (want model to learn from data to predict these)

X[:10], y[:10]

(tensor([[0.0000],
         [0.0200],
         [0.0400],
         [0.0600],
         [0.0800],
         [0.1000],
         [0.1200],
         [0.1400],
         [0.1600],
         [0.1800]]),
 tensor([[0.3000],
         [0.3140],
         [0.3280],
         [0.3420],
         [0.3560],
         [0.3700],
         [0.3840],
         [0.3980],
         [0.4120],
         [0.4260]]))

In [None]:
# Create train/test split
train_split = int(0.8 * len(X)) # 80% of data used for training set, 20% for testing
X_train, y_train = X[:train_split], y[:train_split]
X_test, y_test = X[train_split:], y[train_split:]

len(X_train), len(y_train), len(X_test), len(y_test)

(40, 40, 10, 10)

### 创建模型

在PyTorch中创建模型有两种主要方式：
1. 子类化`torch.nn.Module` - 代码量较多，但非常灵活，模型必须实现一个`forward()`方法。
2. 使用`torch.nn.Sequential` - 代码量较少，但灵活性较低。

In [None]:
from torch import nn

# Option 1 - subclass torch.nn.Module
class LinearRegressionModel(nn.Module):
    def __init__(self):
        super().__init__()
        # Use nn.Linear() for creating the model parameters
        self.linear_layer = nn.Linear(in_features=1,
                                      out_features=1)

    # Define the forward computation (input data x flows through nn.Linear())
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        return self.linear_layer(x)

model_0 = LinearRegressionModel()
model_0, model_0.state_dict()

(LinearRegressionModel(
   (linear_layer): Linear(in_features=1, out_features=1, bias=True)
 ),
 OrderedDict([('linear_layer.weight', tensor([[0.5025]])),
              ('linear_layer.bias', tensor([-0.0722]))]))

现在让我们使用`torch.nn.Sequential`来创建与上面相同的模型。

In [None]:
from torch import nn

# Option 2 - use torch.nn.Sequential
model_1 = torch.nn.Sequential(
    nn.Linear(in_features=1,
              out_features=1))

model_1, model_1.state_dict()

(Sequential(
   (0): Linear(in_features=1, out_features=1, bias=True)
 ),
 OrderedDict([('0.weight', tensor([[0.9905]])), ('0.bias', tensor([0.9053]))]))

### 设置损失函数和优化器

In [None]:
# Create loss function
loss_fn = nn.L1Loss()

# Create optimizer
optimizer = torch.optim.SGD(params=model_1.parameters(), # optimize newly created model's parameters
                            lr=0.01)

### 创建训练和测试循环

我们的目标是降低模型的损失（模型的预测与实际数据的差异程度）。

如果我们的训练/测试循环实现正确，并且模型能够学习数据中的模式，那么训练和测试损失应该会降低。


In [None]:
import torch

# 设置随机种子
torch.manual_seed(42)

# 设置epochs的数量
epochs = 1000

# 将数据放置在可用设备上
# 如果不进行此操作，会出现错误（不是所有数据都在目标设备上）
X_train = X_train.to(device)
X_test = X_test.to(device)
y_train = y_train.to(device)
y_test = y_test.to(device)

# 将模型放置在可用设备上
# 如果不进行此操作，会出现错误（模型不在目标设备上）
model_1 = model_1.to(device)

for epoch in range(epochs):
    ### 训练
    model_1.train() # 默认情况下，构造后会进入训练模式

    # 1. 前向传播
    y_pred = model_1(X_train)

    # 2. 计算损失
    loss = loss_fn(y_pred, y_train)

    # 3. 梯度清零
    optimizer.zero_grad()

    # 4. 反向传播
    loss.backward()

    # 5. 更新优化器
    optimizer.step()

    ### 测试
    model_1.eval() # 将模型放置在评估模式以进行测试（推断）
    # 1. 前向传播
    with torch.inference_mode():
        test_pred = model_1(X_test)

        # 2. 计算损失
        test_loss = loss_fn(test_pred, y_test)

    if epoch % 100 == 0:
        print(f"Epoch: {epoch} | Train loss: {loss} | Test loss: {test_loss}")


Epoch: 0 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 100 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 200 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 300 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 400 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 500 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 600 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 700 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 800 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263
Epoch: 900 | Train loss: 0.008362661115825176 | Test loss: 0.005596190690994263


## 额外资源

上述列表并不详尽。

以下是了解更多信息的一些好地方：

* [PyTorch官方速查表](https://pytorch.org/tutorials/beginner/ptcheat.html)。
* [从零到精通学习PyTorch课程](https://dbourke.link/ZTMPyTorch) - 一门全面但适合初学者的深入学习PyTorch的课程，从基础知识到将模型部署到实际环境中以供他人使用。
* [PyTorch性能调优指南](https://pytorch.org/tutorials/recipes/recipes/tuning_guide.html) - PyTorch团队提供的一个关于如何调优PyTorch模型性能的资源。
* [PyTorch额外资源](https://www.learnpytorch.io/pytorch_extra_resources/) - 一个由精选资源组成的清单，用于扩展PyTorch并了解更多有关深度学习工程方面的知识。
* [vahidk的Effective PyTorch](https://github.com/vahidk/EffectivePyTorch) - 一个GitHub存储库，以简单明了的方式提供了PyTorch的一些主要功能概述。