PyTorch 深度学习模型的建立范式
建立模型有一个范式，这个非常简单的知识为数据建模和理解 PyTorch API 提供了支撑。

模型建立范式中的五个步骤如下：

准备数据。
定义模型。
训练模型。
评估模型。
做出预测。

1. 准备数据
第一步是加载和准备数据。

神经网络模型需要输入数据和输出数据。

你可以使用标准 Python 库来加载和准备多维数据，例如 CSV 文件。

Pandas 可用于加载你的 CSV 文件，Scikit-Learn 中的工具可用于编码分类数据，例如对标签分类。

PyTorch 提供了 Dataset 类，你可以扩展和自定义该类以加载你的数据集。

例如，数据集对象的构造函数可以加载你的数据文件（例如 CSV 文件）。然后，你可以覆盖可用于获取数据集长度（行数或样本数）的 __len__() 函数，以及用于按索引获取特定样本的 __getitem__() 函数。

加载数据集时，你还可以执行任何所需的转换，例如缩放或编码。

下面提供了自定义数据集类的框架。

In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from torch.utils.data import Dataset
from torch.utils.data import random_split

# 定义数据集
class CSVDataset(Dataset):
    # 导入数据集
    def __init__(self, path):
        # 导入传入路径的数据集为 Pandas DataFrame 格式
        dataset = pd.read_csv(path, header=None)
        # 设置神经网络的输入与输出
        self.X = dataset.values[:, :-1]  # 根据你的数据集定义输入属性
        self.y = dataset.values[:, -1]  # 根据你的数据集定义输出属性
        # 确保输入的数据是浮点型
        self.X = self.X.astype('float32')
        # 使用浮点型标签编码原输出
        self.y = LabelEncoder().fit_transform(self.y)
 
    # 定义获得数据集长度的方法
    def __len__(self):
        return len(self.X)
 
    # 定义获得某一行数据的方法
    def __getitem__(self, idx):
        return [self.X[idx], self.y[idx]]
    
    # 在类内部定义划分训练集和测试集的方法，在本例中，训练集比例为 0.67，测试集比例为 0.33
    def get_splits(self, n_test=0.33):
        # 确定训练集和测试集的尺寸
        test_size = round(n_test * len(self.X))
        train_size = len(self.X) - test_size
        # 根据尺寸划分训练集和测试集并返回
        return random_split(self, [train_size, test_size])

让我们运行一下定义的 CSVDataset() 类中的各方法以加深理解

In [4]:
# 定义数据集路径（在本例中，数据集需为 csv 文件）
data_path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/iris.csv'
# 实例化数据集
dataset = CSVDataset(data_path)
print(f'输入矩阵的形状是：{dataset.X.shape}')
dataset.X  # 查看输入矩阵 dataset.X

输入矩阵的形状是：(150, 4)


array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [5]:
print(f'输出矩阵的形状是：{dataset.y.shape}')
dataset.y  # 查看输出矩阵

输出矩阵的形状是：(150,)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [6]:
# len() 方法本质上是调用类内部的 __len__() 方法，所以以下方法是等效的。
print(len(dataset))
print(dataset.__len__())

150
150


In [7]:
# dataset[] 方法本质上是调用类内部的 __getitem__ 方法，所以以下方法是等效的。
print(dataset[149])
print(dataset.__getitem__(149))

[array([5.9, 3. , 5.1, 1.8], dtype=float32), np.int64(2)]
[array([5.9, 3. , 5.1, 1.8], dtype=float32), np.int64(2)]


加载后，PyTorch 提供 DataLoader 类，用于在模型训练和评估期间导航数据集实例。

可以为训练数据集、测试数据集甚至验证数据集创建 DataLoader 实例。

random_split() 函数可用于将数据集拆分为训练集和测试集。

拆分后，将数据集中 batch 及其 size 提供给 DataLoader，并可选择是否应在每个 epoch 对数据进行随机排序。

In [8]:
from torch.utils.data import DataLoader
from torch.utils.data import random_split

...
# 确定训练集和测试集的尺寸
n_test = 0.33  # 在本例中，训练集比例为 0.67，测试集比例为 0.33
test_size = round(n_test * len(dataset.X))
train_size = len(dataset.X) - test_size

# 根据尺寸划分训练集和测试集并返回
train, test = random_split(dataset, [train_size, test_size])

# 让我们查看一下创建的训练集的类型和长度
print(f'划分的训练集的数据类型是：{type(train)}')
print(f'划分的训练集长度是：{len(train)}')

划分的训练集的数据类型是：<class 'torch.utils.data.dataset.Subset'>
划分的训练集长度是：100


In [9]:
list(train)  # 查看一下划分的训练集

# 你可以用同样的方法查看一下划分得到的测试集

[[array([5.8, 2.7, 4.1, 1. ], dtype=float32), np.int64(1)],
 [array([5.1, 3.5, 1.4, 0.2], dtype=float32), np.int64(0)],
 [array([4.8, 3.4, 1.6, 0.2], dtype=float32), np.int64(0)],
 [array([6.1, 2.8, 4. , 1.3], dtype=float32), np.int64(1)],
 [array([6.3, 2.5, 4.9, 1.5], dtype=float32), np.int64(1)],
 [array([5.6, 2.8, 4.9, 2. ], dtype=float32), np.int64(2)],
 [array([5.1, 3.3, 1.7, 0.5], dtype=float32), np.int64(0)],
 [array([5.4, 3.4, 1.7, 0.2], dtype=float32), np.int64(0)],
 [array([5.7, 2.5, 5. , 2. ], dtype=float32), np.int64(2)],
 [array([4.4, 3.2, 1.3, 0.2], dtype=float32), np.int64(0)],
 [array([6.8, 3.2, 5.9, 2.3], dtype=float32), np.int64(2)],
 [array([6. , 3.4, 4.5, 1.6], dtype=float32), np.int64(1)],
 [array([5.6, 2.5, 3.9, 1.1], dtype=float32), np.int64(1)],
 [array([6.9, 3.2, 5.7, 2.3], dtype=float32), np.int64(2)],
 [array([6.1, 3. , 4.9, 1.8], dtype=float32), np.int64(2)],
 [array([6.3, 2.7, 4.9, 1.8], dtype=float32), np.int64(2)],
 [array([5.6, 2.9, 3.6, 1.3], dtype=floa

例如，我们可以通过传入数据集中的选定行来定义 DataLoader。

In [None]:
# 为训练集和测试集创建 DataLoader
train_dl = DataLoader(train, batch_size=32, shuffle=True)# 训练集数据加载器，批量大小为32，随机打乱
test_dl = DataLoader(test, batch_size=1024, shuffle=False)# 测试集数据加载器，批量大小为1024，不随机打乱
print(len(train_dl.dataset), len(test_dl.dataset))

100 50


定义后，可以循环 DataLoader，每次迭代生成一批样本。

In [16]:
# 在本例中，train_dl 的 batch_size 为 32，数据将随机排序。让我们来查看一下 train_dl
n_inputs = len(train_dl)
for i, (inputs, targets) in enumerate(train_dl):  
    print(f'第 {i} 个 batch 有 {len(inputs)} 个数据，其中输入矩阵的形状是 {inputs.shape}，输出矩阵的形状是 {targets.shape}')
print(f'共有 {n_inputs} 个 batches')


第 0 个 batch 有 32 个数据，其中输入矩阵的形状是 torch.Size([32, 4])，输出矩阵的形状是 torch.Size([32])
第 1 个 batch 有 32 个数据，其中输入矩阵的形状是 torch.Size([32, 4])，输出矩阵的形状是 torch.Size([32])
第 2 个 batch 有 32 个数据，其中输入矩阵的形状是 torch.Size([32, 4])，输出矩阵的形状是 torch.Size([32])
第 3 个 batch 有 4 个数据，其中输入矩阵的形状是 torch.Size([4, 4])，输出矩阵的形状是 torch.Size([4])
共有 4 个 batches


enumerate() 函数是 Python 内置函数，用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个有索引的序列，同时列出数据和数据下标。多用在 for 循环中。

尝试在本 Notebook 中运行以下示例并理解 enumerate() 函数。

In [1]:
seasons = [('Spring', 'Green'), 
           ('Summer', 'Red'), 
           ('Fall', 'Yellow'), 
           ('Winter', 'White')
           ]
print(list(enumerate(seasons, start=0)))  # start 参数设置序列从 1 开始，不填则默认从 0 开始
print('--------')

# 再在 for 循环中看看 enumerate 函数的效果
for i, (season, color) in enumerate(seasons, start=1):
    print(f'My impression {i} about {season} is {color}.')

[(0, ('Spring', 'Green')), (1, ('Summer', 'Red')), (2, ('Fall', 'Yellow')), (3, ('Winter', 'White'))]
--------
My impression 1 about Spring is Green.
My impression 2 about Summer is Red.
My impression 3 about Fall is Yellow.
My impression 4 about Winter is White.


2. 定义模型
在 PyTorch 中定义模型的习惯用法是定义一个继承 Module 类的 Python class 。

你构造的类定义了模型的层，forward() 函数需要覆写以定义在模型层中的输入参数的前向传播。

许多层都可用，例如用于全连接层的 Linear，用于卷积层的 Conv2d，用于池化层的 MaxPool2d。

激活函数也可以定义为层，例如 ReLU, Softmax, 和 Sigmoid.

在构造函数中定义给定层后，也可以初始化给定层的权重。

常见的例子包括 Xavier 和 He weight 权重初始化方案。例如：xavier_uniform_(self.layer.weight)

下面是一个简单的单层 MLP 模型的示例。

In [17]:
from torch.nn import Linear
from torch.nn import ReLU
from torch.nn import Softmax
from torch.nn import Module
from torch.nn.init import kaiming_uniform_
from torch.nn.init import xavier_uniform_

# 定义模型
class MLP(Module):
    # 定义模型属性
    def __init__(self, n_inputs):
        super().__init__()
        # 第一个隐藏层
        self.hidden1 = Linear(n_inputs, 10)
        kaiming_uniform_(self.hidden1.weight, nonlinearity='relu')
        self.act1 = ReLU()
        # 第二个隐藏层
        self.hidden2 = Linear(10, 8)
        kaiming_uniform_(self.hidden2.weight, nonlinearity='relu')
        self.act2 = ReLU()
        # 第三层
        self.hidden3 = Linear(8, 3)
        xavier_uniform_(self.hidden3.weight)
        self.act3 = Softmax(dim=1)
 
    # 前向传播方法
    def forward(self, X):
        # 输入到第一个隐藏层
        X = self.hidden1(X)
        X = self.act1(X)
        # 第二个隐藏层
        X = self.hidden2(X)
        X = self.act2(X)
        # 输出层
        X = self.hidden3(X)
        X = self.act3(X)
        return X

3. 训练模型
训练过程要求你定义 损失函数 和 优化算法 。

常见的损失函数包括：

BCELoss: 用于二元分类的 二元交叉熵损失 (Binary Cross-Entropy Loss)
CrossEntropyLoss: 用于多元分类的 多元交叉熵损失 (Categorical Cross-Entropy Loss)
MSELoss: 用于回归的 均方损失 (Mean squared loss)

使用 随机梯度下降 进行优化。

In [18]:
from torch.optim import SGD
from torch.nn import CrossEntropyLoss

...
model = MLP(n_inputs=n_inputs)
# 定义优化器
criterion = CrossEntropyLoss()
optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)

训练模型涉及枚举训练数据集的 DataLoader。

首先，需要为大量的 training epochs 建立一个循环。然后，需要为每个 mini-batch 建立一个内部循环，用于随机梯度下降。

模型的每次更新都涉及相同的常规模式，包括：

清除最后一个误差梯度。
前向传播并计算模型输出。
计算模型输出的损失。
通过模型反向传播误差。
更新模型以减少损失。
例如：
# 梯度清除
optimizer.zero_grad()
# 计算模型输出
yhat = model(inputs)
# 计算损失
loss = criterion(yhat, targets)
# 贡献度分配
loss.backward()
# 升级模型权重
optimizer.step()

In [None]:
# 枚举 epochs
for epoch in range(500):
    # 枚举 mini-batches
    for i, (inputs, targets) in enumerate(train_dl):
        # 梯度清除
        optimizer.zero_grad()
        # 计算模型输出
        yhat = model(inputs)
        # 计算损失
        loss = criterion(yhat, targets)
        # 贡献度分配
        loss.backward()
        # 升级模型权重
        optimizer.step()

4. 评估模型
模型拟合后，可以在测试数据集上对其进行评估。

可以通过使用测试集的 DataLoader 收集测试集的预测值，然后比较模型预测值与测试集的预期值并计算评价指标。

In [None]:
from numpy import vstack
from numpy import argmax
from sklearn.metrics import accuracy_score    

predictions, actuals = list(), list()  # 实例化预测值列表和预期值列表
        
for i, (inputs, targets) in enumerate(test_dl):
    # 在测试集上评估模型
    yhat = model(inputs)
    # 转化为 numpy 数据类型
    yhat = yhat.detach().numpy()
    actual = targets.numpy()
    # 转换为类标签
    yhat = argmax(yhat, axis=1)
    # 为 stack reshape 矩阵
    actual = actual.reshape((len(actual), 1))
    yhat = yhat.reshape((len(yhat), 1))
    # 保存数据
    predictions.append(yhat)
    actuals.append(actual)

predictions, actuals = vstack(predictions), vstack(actuals)
# 计算准确度
acc = accuracy_score(actuals, predictions)
print(acc)

5. 做出预测
拟合模型可用于对新数据进行预测。

例如，您可能有单个图像或一行数据，并且想要进行预测。

这需要您将数据包装在 PyTorch Tensor 数据结构中。

Tensor 只是用于保存 NumPy 数组类型的数据的 PyTorch 版本。它还允许您在模型图中执行自动微分任务，例如在训练模型时调用 backward()。

预测也将是一个 Tensor，尽管您可以通过在自动微分图中分离张量并调用 NumPy 函数来检索 NumPy 数组。

In [None]:
from torch import Tensor

...
row = [5.1,3.5,1.4,0.2]
# 将数据转化为 Tensor
row = Tensor([row])
# 做出预测
yhat = model(row)
# 重写为 Numpy Array 格式
yhat = yhat.detach().numpy()

print(f'各标签可能的概率： {yhat} (最可能的种类：class={argmax(yhat)})')