# 快速开始 PyTorch｜使用 Python 建立深度学习模型

> 作者: Haohui Que [quehaohui@dp.tech](mailto:quehaohui@dp.tech)
>
> 创建日期: 2023-03-11 19:13
>
> 最后一次修改: Haohui Que [quehaohui@dp.tech](mailto:quehaohui@dp.tech), Yuzhi Zhang [zhangyz@dp.tech](mailto:zhangyz@dp.tech)
>
> 最后一次修改时间: 2023-03-12 18:36
>
> 目录: /Proem/PyTorch_Deep_Learning_Model_Tutorial
>
> 描述: 本教程可在 Bohrium Notebook 上直接运行，您可以点击界面上方蓝色按钮 `开始连接`，选择 `notebook-pytorch:1.13.0` 镜像及任何一款计算机型，稍等片刻即可运行。
> 如您遇到任何问题，请您联系 [bohrium@dp.tech](mailto:bohrium@dp.tech) 。
>
> 共享协议: 本作品采用[知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议](https://creativecommons.org/licenses/by-nc-sa/4.0/)进行许可。

# 目标

> **掌握使用 PyTorch 建立深度学习模型的范式周期，并跟随完整案例学习如何应用于预测任务。**

在学习本教程后，您将能够：

- 了解 Torch 和 PyTorch 的区别，安装 PyTorch 并验证其运行。

- 通过五个步骤了解建立、拟合和验证 PyTorch 模型的生命周期。

- 掌握如何为回归、分类预测任务建立 PyTorch 深度学习模型。

# 目录

* 1 [背景知识](#background)
* 2 [实践](#practice)
  * 2.1 什么是 PyTorch
    * 2.1.1 Torch 与 PyTorch
    * 2.1.2 How to Install PyTorch
    * 2.1.3 How to Confirm PyTorch Is Installed
  * 2.2 PyTorch Deep Learning Model Life-Cycle
    * 2.2.1 Step 1: Prepare the Data
    * 2.2.2 Step 2: Define the Model
    * 2.2.3 Step 3: Train the Model
    * 2.2.4 Step 4: Evaluate the Model
    * 2.2.5 Step 5: Make Predictions
  * 2.3 How to Develop PyTorch Deep Learning Models
    * 2.3.1 How to Develop an MLP for Binary Classification
    * 2.3.2 How to Develop an MLP for Multiclass Classification
    * 2.3.3 How to Develop an MLP for Regression
    * 2.3.4 How to Develop a CNN for Image Classification
* 3 [总结](#summary)
* 4 [推荐阅读](#furtherreading)
* 5 [参考](references)

# 背景知识<a id ='background'></a>

**阅读该教程【最多】约需 60 分钟。**

You do not need to understand everything (at least not right now). Your goal is to run through the tutorial end-to-end and get a result. You do not need to understand everything on the first pass. List down your questions as you go. Make heavy use of the API documentation to learn about all of the functions that you’re using.

You do not need to know the math first. Math is a compact way of describing how algorithms work, specifically tools from linear algebra, probability, and calculus. These are not the only tools that you can use to learn how algorithms work. You can also use code and explore algorithm behavior with different inputs and outputs. Knowing the math will not tell you what algorithm to choose or how to best configure it. You can only discover that through carefully controlled experiments.

You do not need to know how the algorithms work. It is important to know about the limitations and how to configure deep learning algorithms. But learning about algorithms can come later. You need to build up this algorithm knowledge slowly over a long period of time. Today, start by getting comfortable with the platform.

You do not need to be a Python programmer. The syntax of the Python language can be intuitive if you are new to it. Just like other languages, focus on function calls (e.g. function()) and assignments (e.g. a = “b”). This will get you most of the way. You are a developer; you know how to pick up the basics of a language really fast. Just get started and dive into the details later.
You do not need to be a deep learning expert. You can learn about the benefits and limitations of various algorithms later, and there are plenty of tutorials that you can read to brush up on the steps of a deep learning project.

但是，你需要提前了解以下知识：
* Python 基础，例如 class 和 function 的知识。
* 深度学习的基本概念，例如关于什么是训练集和测试集，什么是神经网络。

# 实践<a id='practice'></a>

## 1. 安装 PyTorch 

### 1.3. 验证 PyTorch 安装并查看版本

安装 PyTorch 后，确认库已成功安装并且您可以开始使用它。 

不要跳过此步骤。 

如果 PyTorch 未正确安装或在此步骤中引发错误，则将无法运行之后的示例。

In [2]:
import torch
print(torch.__version__)  # torch.__version__ 返回安装的 PyTorch 的版本号

1.11.0


## 2. 建立 PyTorch 深度学习模型

在本节中，您将了解深度学习模型的生命周期以及可用于定义模型的 PyTorch API。 

模型有一个生命周期，这个非常简单的知识为数据集建模和理解 PyTorch API 提供了支柱。 

生命周期中的五个步骤如下： 

1. 准备数据。 
2. 定义模型。 
3. 训练模型。 
4. 评估模型。 
5. 做出预测。 

注意：使用 PyTorch API 有很多方法可以实现这些步骤，我的目标是向您展示最简单、最常见或最惯用的方法。 

如果您发现更好的方法，请在下面的评论中告诉我。

接下来让我们依次仔细看看每个步骤。 

### 2.1. 准备数据

第一步是加载和准备数据。 

神经网络模型需要数值输入数据和数值输出数据。 

您可以使用标准 Python 库来加载和准备表格数据，例如 CSV 文件。例如，Pandas 可用于加载您的 CSV 文件，scikit-learn 中的工具可用于编码分类数据，例如类标签。

PyTorch 提供了 Dataset 类，您可以扩展和自定义该类以加载您的数据集。 

例如，数据集对象的构造函数可以加载您的数据文件（例如 CSV 文件）。然后，您可以覆盖可用于获取数据集长度（行数或样本数）的 `__len__()` 函数，以及用于按索引获取特定样本的 `__getitem__()` 函数。 

加载数据集时，您还可以执行任何所需的转换，例如缩放或编码。 

下面提供了自定义数据集类的框架。

In [5]:
import pandas as pd
from torch.utils.data import Dataset

# dataset definition
class CSVDataset(Dataset):
    # load the dataset
    def __init__(self, path):
        # load the csv file as a dataframe
        df = pd.read_csv(path, header=None)
        # store the inputs and outputs
        self.X = df.values[:, :-1]
        self.y = df.values[:, -1]
 
    # number of rows in the dataset
    def __len__(self):
        return len(self.X)
 
    # get a row at an index
    def __getitem__(self, idx):
        return [self.X[idx], self.y[idx]]

加载后，PyTorch 提供 DataLoader 类，用于在模型训练和评估期间导航数据集实例。 

可以为训练数据集、测试数据集甚至验证数据集创建 DataLoader 实例。 

random_split（） 函数可用于将数据集拆分为训练集和测试集。拆分后，可以将数据集中的行选择提供给 DataLoader，以及批大小以及是否应在每个纪元对数据进行随机排序。 

例如，我们可以通过传入数据集中的选定行样本来定义 DataLoader。

In [None]:
from torch.nn import Linear
from torch.nn import ReLU
from torch.nn import Sigmoid
from torch.nn import Module

# model definition
class MLP(Module):
    # define model elements
    def __init__(self, n_inputs):
        super(MLP, self).__init__()
        self.layer = Linear(n_inputs, 1)
        self.activation = Sigmoid()
 
    # forward propagate input
    def forward(self, X):
        X = self.layer(X)
        X = self.activation(X)
        return X

定义后，可以循环 *DataLoader*，每次迭代生成一批样本。

In [None]:
# train the model
for i, (inputs, targets) in enumerate(train_dl):  

In [26]:
'''
enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)
组合为一个有索引的序列，同时列出数据和数据下标。多用在 for 循环中。
以下为一个简单示例。
'''

seasons = [('Spring', 'Green'), 
           ('Summer', 'Red'), 
           ('Fall', 'Yellow'), 
           ('Winter', 'White')
           ]
print(list(enumerate(seasons, start=1)))  # start 参数设置序列从 1 开始，不填则默认从 0 开始
# 再在 for 循环中看看 enumerate 函数的效果
for i, (season, color) in enumerate(seasons, start=1):
    print(f'My impression {i} about {season} is {color}.')

[(1, ('Spring', 'Green')), (2, ('Summer', 'Red')), (3, ('Fall', 'Yellow')), (4, ('Winter', 'White'))]
My impression 1 about Spring is Green.
My impression 2 about Summer is Red.
My impression 3 about Fall is Yellow.
My impression 4 about Winter is White.


## 3. 为预测任务建立 PyTorch 深度学习模型

在本节中，您将了解如何使用标准深度学习模型（包括多层感知器 （Multi Layer Perceptrons, MLP） 和卷积神经网络 （Convolutional Neural Networks, CNN））进行开发、评估和预测。

多层感知器模型（MLP）是一种标准的全连接神经网络模型。 

它由节点层组成，其中每个节点连接到前一层的所有输出，每个节点的输出连接到下一层节点的所有输入。 

MLP 是具有一个或多个完全连接层的模型。此模型适用于表格数据，即在表或电子表格中查找的数据，每个变量一列，每个变量一行。您可能想使用 MLP 探索三个预测建模问题;它们是二元分类、多类分类和回归。 

让我们在真实数据集上为每种情况拟合一个模型。 

注意：本节中的模型有效，但未优化。看看你是否可以提高他们的表现。在下面的评论中发布您的发现。

### 3.1. 建立二分类感知机

我们将使用电离层二分类数据集来演示用于二分类的 MLP。 

该数据集涉及预测大气中是否存在给定雷达回波的结构。 

数据集将使用 Pandas 自动下载，但您可以在此处了解更多信息：

- Ionosphere Dataset (csv).
- Ionosphere Dataset Description.

我们将使用 LabelEncoder 将字符串标签编码为整数值 0 和 1。该模型将适合 67% 的数据，其余 33% 将用于评估，使用 train_test_split() 函数进行拆分。 

使用带有“He Uniform”权重初始化的“relu”激活是一个很好的做法。这种组合对于克服训练深度神经网络模型时梯度消失的问题大有帮助。有关 ReLU 的更多信息，请参阅教程： 

- 简单介绍整流线性单元 (ReLU) 该模型预测类别 1 的概率并使用 sigmoid 激活函数。

该模型使用随机梯度下降进行优化，并力求最小化二元交叉熵损失。 下面列出了完整的示例。

In [29]:
# PyTorch mlp for binary classification
# 
from numpy import vstack
from pandas import read_csv
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import accuracy_score
from torch.utils.data import Dataset
from torch.utils.data import DataLoader
from torch.utils.data import random_split
from torch import Tensor
from torch.nn import Linear
from torch.nn import ReLU
from torch.nn import Sigmoid
from torch.nn import Module
from torch.optim import SGD
from torch.nn import BCELoss
from torch.nn.init import kaiming_uniform_
from torch.nn.init import xavier_uniform_
 
# dataset definition
class CSVDataset(Dataset):
    # load the dataset
    def __init__(self, path):
        # load the csv file as a dataframe
        df = read_csv(path, header=None)
        # store the inputs and outputs
        self.X = df.values[:, :-1]
        self.y = df.values[:, -1]
        # ensure input data is floats
        self.X = self.X.astype('float32')
        # label encode target and ensure the values are floats
        self.y = LabelEncoder().fit_transform(self.y)
        self.y = self.y.astype('float32')
        self.y = self.y.reshape((len(self.y), 1))
 
    # number of rows in the dataset
    def __len__(self):
        return len(self.X)
 
    # get a row at an index
    def __getitem__(self, idx):
        return [self.X[idx], self.y[idx]]
 
    # get indexes for train and test rows
    def get_splits(self, n_test=0.33):
        # determine sizes
        test_size = round(n_test * len(self.X))
        train_size = len(self.X) - test_size
        # calculate the split
        return random_split(self, [train_size, test_size])
 
# model definition
class MLP(Module):
    # define model elements
    def __init__(self, n_inputs):
        super(MLP, self).__init__()
        # input to first hidden layer
        self.hidden1 = Linear(n_inputs, 10)
        kaiming_uniform_(self.hidden1.weight, nonlinearity='relu')
        self.act1 = ReLU()
        # second hidden layer
        self.hidden2 = Linear(10, 8)
        kaiming_uniform_(self.hidden2.weight, nonlinearity='relu')
        self.act2 = ReLU()
        # third hidden layer and output
        self.hidden3 = Linear(8, 1)
        xavier_uniform_(self.hidden3.weight)
        self.act3 = Sigmoid()
 
    # forward propagate input
    def forward(self, X):
        # input to first hidden layer
        X = self.hidden1(X)
        X = self.act1(X)
         # second hidden layer
        X = self.hidden2(X)
        X = self.act2(X)
        # third hidden layer and output
        X = self.hidden3(X)
        X = self.act3(X)
        return X
 
# prepare the dataset
def prepare_data(path):
    # load the dataset
    dataset = CSVDataset(path)
    # calculate split
    train, test = dataset.get_splits()
    # prepare data loaders
    train_dl = DataLoader(train, batch_size=32, shuffle=True)
    test_dl = DataLoader(test, batch_size=1024, shuffle=False)
    return train_dl, test_dl
 
# train the model
def train_model(train_dl, model):
    # define the optimization
    criterion = BCELoss()
    optimizer = SGD(model.parameters(), lr=0.01, momentum=0.9)
    # enumerate epochs
    for epoch in range(100):
        # enumerate mini batches
        for i, (inputs, targets) in enumerate(train_dl):
            # clear the gradients
            optimizer.zero_grad()
            # compute the model output
            yhat = model(inputs)
            # calculate loss
            loss = criterion(yhat, targets)
            # credit assignment
            loss.backward()
            # update model weights
            optimizer.step()
 
# evaluate the model
def evaluate_model(test_dl, model):
    predictions, actuals = list(), list()
    for i, (inputs, targets) in enumerate(test_dl):
        # evaluate the model on the test set
        yhat = model(inputs)
        # retrieve numpy array
        yhat = yhat.detach().numpy()
        actual = targets.numpy()
        actual = actual.reshape((len(actual), 1))
        # round to class values
        yhat = yhat.round()
        # store
        predictions.append(yhat)
        actuals.append(actual)
    predictions, actuals = vstack(predictions), vstack(actuals)
    # calculate accuracy
    acc = accuracy_score(actuals, predictions)
    return acc
 
# make a class prediction for one row of data
def predict(row, model):
    # convert row to data
    row = Tensor([row])
    # make prediction
    yhat = model(row)
    # retrieve numpy array
    yhat = yhat.detach().numpy()
    return yhat
 
# prepare the data
path = 'https://raw.githubusercontent.com/jbrownlee/Datasets/master/ionosphere.csv'
train_dl, test_dl = prepare_data(path)
print(len(train_dl.dataset), len(test_dl.dataset))
# define the network
model = MLP(34)
# train the model
train_model(train_dl, model)
# evaluate the model
acc = evaluate_model(test_dl, model)
print('Accuracy: %.3f' % acc)
# make a single prediction (expect class=1)
row = [1,0,0.99539,-0.05889,0.85243,0.02306,0.83398,-0.37708,1,0.03760,0.85243,-0.17755,0.59755,-0.44945,0.60536,-0.38223,0.84356,-0.38542,0.58212,-0.32192,0.56971,-0.29674,0.36946,-0.47357,0.56811,-0.51171,0.41078,-0.46168,0.21266,-0.34090,0.42267,-0.54487,0.18641,-0.45300]
yhat = predict(row, model)
print('Predicted: %.3f (class=%d)' % (yhat, yhat.round()))

235 116
Accuracy: 0.905
Predicted: 0.999 (class=1)


运行示例首先报告训练数据集和测试数据集的形状，然后拟合模型并在测试数据集上对其进行评估。最后，对单行数据进行预测。 

注意：根据算法或评估过程的随机性质或数值精度的差异，您的结果可能会有所不同。请考虑运行几次示例并比较平均结果。 

你得到了什么结果？ 

你能改变模型做得更好吗？

你可以试着修改代码以直接输出平均结果吗？

**不要犹豫，试试直接在 Bohrium Notebook 中实现你的想法。**

# 总结