<a href="https://colab.research.google.com/github/Auzzer/QuickPytorchTutor/blob/main/QuickPytorchTutor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tensor (张量)的创建与基本操作
张量是GPU运算中常见的数据类型，类似于Numpy中的数组，但是由于深度学习中常常需要使用GPU进行并行运算，提升计算速度，因此使用Tensor

## 创建

In [None]:
import torch

In [None]:
# 创建一个张量通常需要初始化，我们一般使用：
x1 = torch.empty(5, 3) #一个5x3的张量
print(x1)

# 随机初始化张量
x2 = torch.rand(5, 3)
print(x2)

# 在初始化张量时，有时需要指定数据类型：
x3 = torch.zeros(5, 3, dtype=torch.long) #创建一个数据类型为long的"0"填充矩阵
print(x3)

# 如果已知一个矩阵，将其转化为张量加速计算
x4 = torch.tensor([[1,2,3],[6,7,8]]) 
print(x4)

tensor([[4.3773e+24, 3.0725e-41, 2.8026e-45],
        [0.0000e+00, 4.2039e-45, 0.0000e+00],
        [8.4078e-45, 0.0000e+00, 9.8091e-45],
        [0.0000e+00, 1.1210e-44, 0.0000e+00],
        [0.0000e+00, 0.0000e+00, 0.0000e+00]])
tensor([[0.6326, 0.1925, 0.2692],
        [0.3430, 0.6707, 0.9599],
        [0.9630, 0.5290, 0.7859],
        [0.8153, 0.7201, 0.8248],
        [0.7111, 0.5788, 0.2456]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])
tensor([[1, 2, 3],
        [6, 7, 8]])


In [None]:
# 获取size
print(x4.size()) # 结果表示为两行三列

torch.Size([2, 3])


## Basic Product


### 加法

In [None]:
# 对于一个最简单的加法
x = torch.rand(5, 3)
y = torch.rand(5, 3)
print (x+y)
# 或者
print (torch.add(x, y))

# 对于torch.add(),有一个option可以将结果保存下来,但是首先需要将结果初始化
result = torch.empty(5, 3)
torch.add(x, y, out = result)
print("result: \n",result)

#特别值得注意的是，torch.add()函数只能对两个张量进行运算，当数量大于二的时候：
y1 = torch.zeros(5, 3)
y2 = torch.empty(5, 3)
for i in range(0, 5):
  xi = torch.rand(5, 3)
  y1.add(xi)
  y2.add(xi)

print("y1\n",y1)
print("y2\n",y2)
# 结果显示在做加法的时候，由于empty张量会随机给一个值，所以应该使用"zeros张量"

tensor([[1.8637, 0.8841, 0.3732],
        [0.6292, 1.1238, 1.2939],
        [1.1554, 0.9996, 0.8031],
        [1.7773, 1.0039, 1.4080],
        [0.8788, 0.7864, 0.7202]])
tensor([[1.8637, 0.8841, 0.3732],
        [0.6292, 1.1238, 1.2939],
        [1.1554, 0.9996, 0.8031],
        [1.7773, 1.0039, 1.4080],
        [0.8788, 0.7864, 0.7202]])
tensor([[1.8637, 0.8841, 0.3732],
        [0.6292, 1.1238, 1.2939],
        [1.1554, 0.9996, 0.8031],
        [1.7773, 1.0039, 1.4080],
        [0.8788, 0.7864, 0.7202]])
y1
 tensor([[2.5804, 1.9542, 2.7683],
        [2.3748, 2.7451, 1.6035],
        [2.7108, 2.4057, 2.3366],
        [3.9157, 2.9352, 2.8133],
        [3.1810, 2.2222, 1.8287]])
y2
 tensor([[4.3765e+24, 1.9542e+00, 5.1006e+00],
        [5.0222e+00, 4.9549e+00, 3.1798e+00],
        [4.7230e+00, 4.3089e+00, 3.9306e+00],
        [7.3395e+00, 4.5747e+00, 4.9997e+00],
        [5.2263e+00, 4.3514e+00, 4.5425e+00]])


### 乘法
在矩阵中，乘法有点乘和叉乘两种，张量也有相对应的不同计算方法

In [None]:
# 点乘
x1 = torch.rand(5, 3)
x2 = torch.rand(5, 3)
y = torch.mul(x1, x2)# 类似与上文的add，在多个张量可以使用x1.mul(x2)
print("x1:\n", x1, "\n x2:\n", x2, "\n y:\n",y)

# 叉乘
x1 = torch.rand(2, 3)
x2 = torch.rand(3, 4)
y = torch.mm(x1, x2)# 类似与上文的add，在多个张量可以使用x1.mm(x2)
print("x1:\n", x1, "\nx2:\n", x2, "\ny:\n",y)

x1:
 tensor([[3.4130e-01, 7.1896e-01, 4.0122e-01],
        [4.4395e-01, 4.7499e-01, 9.2966e-01],
        [6.5652e-02, 4.7017e-01, 7.5633e-01],
        [7.3802e-01, 1.7166e-01, 4.6248e-01],
        [4.1113e-01, 2.7661e-01, 1.5497e-04]]) 
 x2:
 tensor([[0.0041, 0.5140, 0.0541],
        [0.7816, 0.9990, 0.2608],
        [0.2597, 0.0236, 0.2706],
        [0.7921, 0.0189, 0.5529],
        [0.7623, 0.7521, 0.1769]]) 
 y:
 tensor([[1.4121e-03, 3.6954e-01, 2.1710e-02],
        [3.4698e-01, 4.7453e-01, 2.4249e-01],
        [1.7049e-02, 1.1105e-02, 2.0468e-01],
        [5.8458e-01, 3.2442e-03, 2.5570e-01],
        [3.1339e-01, 2.0804e-01, 2.7414e-05]])
x1:
 tensor([[0.0552, 0.9164, 0.2524],
        [0.0760, 0.2871, 0.9371]]) 
x2:
 tensor([[0.5551, 0.5035, 0.2915, 0.4963],
        [0.2515, 0.5803, 0.8617, 0.6428],
        [0.6847, 0.6481, 0.6611, 0.2976]]) 
y:
 tensor([[0.4339, 0.7231, 0.9726, 0.6915],
        [0.7560, 0.8122, 0.8891, 0.5011]])


### Numpy中的对应与转化

#### 索引
torch支持使用类似于Numpy中的索引对张量进行操作


In [None]:
x = torch.tensor([[1,2,3],[3,4,5]])
print(x[:,0])
print(x[1,:])

tensor([1, 3])
tensor([3, 4, 5])


#### 在numpy中reshape对应

In [None]:
x = torch.randn(5, 3)
y = x.view(3, 5)
z = x.view(-1, 5) # 当选项中有一个-1时候，代表从另外一个维度考虑转化方式
print(x)
print(y)
print(z)

tensor([[ 0.2350, -0.7981, -1.3963],
        [-0.5878,  0.7670,  1.4030],
        [ 0.1570, -1.0562,  1.8708],
        [-0.3263,  1.8232, -0.2369],
        [ 0.1883,  1.0110, -0.3872]])
tensor([[ 0.2350, -0.7981, -1.3963, -0.5878,  0.7670],
        [ 1.4030,  0.1570, -1.0562,  1.8708, -0.3263],
        [ 1.8232, -0.2369,  0.1883,  1.0110, -0.3872]])
tensor([[ 0.2350, -0.7981, -1.3963, -0.5878,  0.7670],
        [ 1.4030,  0.1570, -1.0562,  1.8708, -0.3263],
        [ 1.8232, -0.2369,  0.1883,  1.0110, -0.3872]])


### 覆盖操作
任何以"_"结尾的函数（操作）都会替换原来的变量

In [None]:
x1 = torch.rand(5, 3)
print("覆盖以前的x1:\n", x1)
x2 = torch.rand(5, 3)
y = x1.add_(x2)
print("覆盖以后的x1:\n", x1)
print(y)

覆盖以前的x1:
 tensor([[0.4530, 0.5302, 0.8162],
        [0.1162, 0.3626, 0.5144],
        [0.5313, 0.8675, 0.4438],
        [0.4011, 0.6296, 0.2395],
        [0.4407, 0.7304, 0.2312]])
覆盖以后的x1:
 tensor([[0.5994, 0.6711, 0.9561],
        [0.5438, 0.8049, 0.7759],
        [0.7994, 1.4201, 1.2093],
        [1.3453, 0.9124, 0.2621],
        [1.1335, 0.8059, 0.5170]])
tensor([[0.5994, 0.6711, 0.9561],
        [0.5438, 0.8049, 0.7759],
        [0.7994, 1.4201, 1.2093],
        [1.3453, 0.9124, 0.2621],
        [1.1335, 0.8059, 0.5170]])


可以看到x1的值发生了变化,但是和y的值是一样的<br>
更多对于tensor的operation可以参考官方文档：https://pytorch.org/docs/stable/torch.html


## Cuda加速
在这里我们先提出一个概念：
为了计算加速，有一些数据可以被放入cuda中加速计算。<br>
在这里我们先将tensor放入cuda中，第一步需要先判定是否有cuda(GPU)可以使用

In [None]:
import torch
x = torch.rand(5, 3)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 下面分别从cuda中直接生成tensor以及将tensor生成后放进cuda中
x = x.to(device)
y = torch.ones_like(x, device=device)
z = x + y
print(z)
print(z.to("cpu", torch.double))


tensor([[1.6126, 1.0080, 1.1237],
        [1.8539, 1.9998, 1.7423],
        [1.0243, 1.2125, 1.4499],
        [1.1781, 1.6726, 1.6787],
        [1.4428, 1.1803, 1.5834]])
tensor([[1.6126, 1.0080, 1.1237],
        [1.8539, 1.9998, 1.7423],
        [1.0243, 1.2125, 1.4499],
        [1.1781, 1.6726, 1.6787],
        [1.4428, 1.1803, 1.5834]], dtype=torch.float64)


# 神经网络训练
对于一个神经网络而言，一般都会有

1.   数据处理
2.   定义网络
3.   训练策略
4.   可视化
5.   Pre-train & Fine-Tune(可选) <br>

这几个部分，接下来我们将逐一介绍



## 数据处理


### 数据加载

在进行对比实验时，经常需要公用数据集，torch内置了几个常用数据集包括：

* MNIST
* ImageNet
* COCO
* CIFAR <br>

等等....<br>
我们只需要调用torchvision中的torchvision.datasets就可以使用它，他的安装方式是：


```
pip install torchvision
```
torchvision.datasets 可以理解为PyTorch团队自定义的dataset，这些dataset帮我们提前处理好了很多的图片数据集，我们拿来就可以直接使用,具体使用方式如下：





In [None]:
import torchvision.datasets as datasets

trainset = datasets.MNIST(root="./data",
              train=True,# True为训练集，False为测试集
              download=True, #表示是否需要下载数据集
              transform=None) #是否对其进行数据增广
validset = datasets.MNIST(root="./data", train=True, download=False, transform=None)        

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./data/MNIST/raw/train-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=9912422.0), HTML(value='')))


Extracting ./data/MNIST/raw/train-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to ./data/MNIST/raw/train-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=28881.0), HTML(value='')))


Extracting ./data/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw/t10k-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=1648877.0), HTML(value='')))


Extracting ./data/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=4542.0), HTML(value='')))


Extracting ./data/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/MNIST/raw

Processing...
Done!


在很多时候，我们也需要自定义数据集去完成我们需要的任务，接下来介绍如何进行操作

在Pytorch中为了便于调用函数（因为通常在文件过大的时候会将不同部分拆分成为几个python脚本），我们通常需要声明类。对于数据加载的类编写方式如下：其主要分为两步：1. 数据集定义 2. 数据加载器 <br>
注：为了方便起见，使用kaggle上的[bluebook for bulldozers](https://www.kaggle.com/c/bluebook-for-bulldozers/data)举例

### 数据预处理
一般来说，即便是对于ImageNet这样大型数据集也需要进行数据增广(data augementation)，在torchvision中的transforms模块内置了大量的操作，这里我们只进行简单举例，更多可以访问transforms操作文件。


In [None]:
from torchvision import transforms
transform = transforms.Compose([
    transforms.RandomCrop(32, padding=4),  #先四周填充0，在把图像随机裁剪成32*32
    transforms.RandomHorizontalFlip(),  #图像一半的概率翻转，一半的概率不翻转
    transforms.RandomRotation((-45,45)), #随机旋转
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,)), #R,G,B每层的归一化用到的均值和方差
])



接下来我们只需要对数据数据加载部分进行简单修改即可

In [None]:
trainset = datasets.MNIST(root="./data", train=True, download=False, transform= transform)  

由于Pytorch中以及包含了MNIST数据集，也可以直接使用DataLoader对数据进行读取。


In [None]:

train_loader = torch.utils.data.DataLoader(
        datasets.MNIST('./data', train=True, download=True, 
                       transform=transforms.Compose([
                           transforms.ToTensor(),# 将读取的数据转化为张量方便计算
                           transforms.Normalize((0.1307,), (0.3081,))#这一部分来源于前人根据这个数据集获得的标准化参数，不同的数据集不同
                       ])),
                       
        batch_size=512, #这里的batch_size将在下文的训练策略中详细介绍
        shuffle=True)

In [None]:
test_loader = torch.utils.data.DataLoader(
        datasets.MNIST('data', train=False, transform=transforms.Compose([
                           transforms.ToTensor(), 
                           transforms.Normalize((0.1307,), (0.3081,))])), 
        batch_size=512, shuffle=True)

In [None]:
import torchvision
import torch
ds_train = torchvision.datasets.MNIST(root="./data/minist/",train=True,download=True,transform=transform)
ds_valid = torchvision.datasets.MNIST(root="./data/minist/",train=False,download=True,transform=transform)

dl_train =  torch.utils.data.DataLoader(ds_train, batch_size=128, shuffle=True, num_workers=4)
dl_valid =  torch.utils.data.DataLoader(ds_valid, batch_size=128, shuffle=False, num_workers=4)

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./data/minist/MNIST/raw/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./data/minist/MNIST/raw/train-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=9912422.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/train-images-idx3-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw/train-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=28881.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to ./data/minist/MNIST/raw/t10k-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=1648877.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw/t10k-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=4542.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw

Processing...
Done!


  return torch.from_numpy(parsed.astype(m[2], copy=False)).view(*s)
  cpuset_checked))


## 定义网络

正如上文对数据调用时声明类一样，建议使用类定义网网络：                                                          



In [4]:
import torch
import torch.nn as nn # 定义网络
import torch.nn.functional as F #网络中的操作，如卷积、padding通常在这个里面

In [5]:
class ConvNet(nn.Module):
    def __init__(self):
        super().__init__()
        # batch*1*28*28（每次会送入batch个样本，输入通道数1（黑白图像），图像分辨率是28x28）
        # 下面的卷积层Conv2d的第一个参数指输入通道数，第二个参数指输出通道数，第三个参数指卷积核的大小
        self.conv1 = nn.Conv2d(1, 10, 5) # 输入通道数1，输出通道数10，核的大小5
        self.conv2 = nn.Conv2d(10, 20, 3) # 输入通道数10，输出通道数20，核的大小3
        # 下面的全连接层Linear的第一个参数指输入通道数，第二个参数指输出通道数
        self.fc1 = nn.Linear(20*10*10, 500) # 输入通道数是2000，输出通道数是500
        self.fc2 = nn.Linear(500, 10) # 输入通道数是500，输出通道数是10，即10分类
    def forward(self,x):
        in_size = x.size(0) # 在本例中in_size=512，也就是BATCH_SIZE的值。输入的x可以看成是512*1*28*28的张量。
        x = self.conv1(x) # batch*1*28*28 -> batch*10*24*24（28x28的图像经过一次核为5x5的卷积，输出变为24x24）
        x = F.relu(x) # batch*10*24*24（激活函数ReLU不改变形状））
        x = F.max_pool2d(x, 2, 2) # batch*10*24*24 -> batch*10*12*12（2*2的池化层会减半）
        x = self.conv2(x) # batch*10*12*12 -> batch*20*10*10（再卷积一次，核的大小是3）
        x = F.relu(x) # batch*20*10*10
        x = x.view(in_size, -1) # batch*20*10*10 -> batch*2000（out的第二维是-1，说明是自动推算，本例中第二维是20*10*10）
        x = self.fc1(x) # batch*2000 -> batch*500
        x = F.relu(x) # batch*500
        x = self.fc2(x) # batch*500 -> batch*10
        x = F.log_softmax(x, dim=1) # 计算log(softmax(x))
        return x

正如上文所说的，tensor放入cuda中可以加速运算，这里也适用

In [6]:
# 依然按照上文的方法来判断是否有cuda可以使用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = ConvNet().to(device)
print(model)

ConvNet(
  (conv1): Conv2d(1, 10, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(10, 20, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=2000, out_features=500, bias=True)
  (fc2): Linear(in_features=500, out_features=10, bias=True)
)


很多情况下，我们需要分析模型的复杂度，需要通过查看模型的参数个数来看.另外需要查看学习的参数和名称<br>
注意，在部分程序中，有人会将定义好的神经网络存储到net中，这是这个net是一个类，parameters这个函数必须跟一个类，而不是一个函数名名称
比方说这里ConvNet.parametrics()就是错误的，因为ConvNet()才是一个类。
但是如果使用net = ConvNet()定义以后，就可以使用：net.parameters()。
建议用net=CovNet()定义，方便代码的阅读以及后续训练

In [None]:
for parameters in ConvNet().parameters(): 
    print(parameters)

In [None]:
for name,parameters in ConvNet().named_parameters():
    print(name,':',parameters.size())


conv1.weight : torch.Size([10, 1, 5, 5])
conv1.bias : torch.Size([10])
conv2.weight : torch.Size([20, 10, 3, 3])
conv2.bias : torch.Size([20])
fc1.weight : torch.Size([500, 2000])
fc1.bias : torch.Size([500])
fc2.weight : torch.Size([10, 500])
fc2.bias : torch.Size([10])


除此以外，也可以使用summary()去查看所有的层、参数

In [None]:
from torchsummary import summary
summary(ConvNet(), input_size=(1, 28, 28))# 注意这里的input_size必须和前文保持一致

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1           [-1, 10, 24, 24]             260
            Conv2d-2           [-1, 20, 10, 10]           1,820
            Linear-3                  [-1, 500]       1,000,500
            Linear-4                   [-1, 10]           5,010
Total params: 1,007,590
Trainable params: 1,007,590
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.06
Params size (MB): 3.84
Estimated Total Size (MB): 3.91
----------------------------------------------------------------


## 模型训练

一般而言，训练策略由batch_size, epoch, 求导机制,优化策略, 学习率等构成<br>
首先有：
* batch_size（一批次的大小）：在一个epoch中，每一次迭代使用的样本量，常常设置为：32/64/128等。

* epoch（轮次）：在每一个epoch中，所有训练集都会以每次batch_size个输入模型中

* iteration（迭代次数）：每跑完一个batch都要更新参数，这个过程叫一个iteration。

**因此显然iteration是由batch_size,epoch共同构成，比方说：
总共有10000张图片，每个batch_size有100张图片，epoch = 20，意味着，iterations = （10000/100）$\times$20 = 2000（次）**


### Batchsize设置
不考虑Batch Normalization的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。batch size只能说是影响完成每个epoch所需要的时间，决定也算不上吧。<br>
由于目前主流深度学习框架处理mini-batch的反向传播时，默认都是先将每个mini-batch中每个instance得到的loss平均化之后再反求梯度，也就是说每次反向传播的梯度是对mini-batch中每个instance的梯度平均之后的结果，所以b的大小决定了相邻迭代之间的梯度平滑程度，b太小，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛；b越大，相邻mini-batch间的差异相对越小，虽然梯度震荡情况会比较小，一定程度上利于模型收敛，但如果b极端大，相邻mini-batch间的差异过小，相邻两个mini-batch的梯度没有区别了，整个训练过程就是沿着一个方向蹭蹭蹭往下走，很容易陷入到局部最小值出不来。<br>

**总结下来：batch size过小，花费时间多，同时梯度震荡严重，不利于收敛；batch size过大，不同batch的梯度方向没有任何变化，容易陷入局部极小值。**<br>

但是对于GPU并行计算的情况下，小batch反而会需要更长时间



### 求导与微分

### 优化策略
一般优化策略由三部分构成：
* 损失函数设置
* 优化器设置
* 等间隔学习率调整

他们分别有以下选择：
#### 损失函数
1. 在多分类问题中最常用的**交叉熵损失**
nn.CrossEntropyLoss()

2. **L1损失**<br>
nn.nn.L1Loss(size_average=None, reduce=None, reduction='mean')
如果reduction不为'none'(默认设为'mean'),则：
$\ell(x, y)=\left\{\begin{array}{ll}\operatorname{mean}(L), & \text { if reduction }=\text { 'mean' } \\ \operatorname{sum}(L), & \text { if reduction }=\text { 'sum' }\end{array}\right.$

<br>

3. **L2损失**<br>
nn.MSELoss()(他的选项对应L1损失)
<br>more:https://pytorch.org/docs/stable/nn.html#loss-functions

#### 优化器
最常用的两个微分优化器：Adam、SGD，以及在稀疏情况下的SparseAdam，分别对应：
* torch.optim.Adam()
* torch.optim.SGD()
* torch.optim.SparseAdam()


使用时建议首先像定义损失函数一样先定义：
optimizer = torch.optim.SGD(net.parameters(), lr=0.1) 

更多可以参考：
https://pytorch.org/docs/stable/optim.html





#### 学习率调整
初始情况下会设置一个学习率用来迭代模型中的超参数，但是随着训练进行，初始设置的学习率可能无法适应，因此需要调整学习率。
常见的四个学习率调整：
* 等间隔调整
* 按需间隔调整
* 指数衰减调整
* 余弦退火调整
<br>

下面来依次介绍
以SGD优化算法为例，初始学习率为0.001。

##### **等间隔调整**
```
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
scheduler = torch.optim.lr_scheduler.StepLR(optimizer, step_size = 20, gamma = 0.1, last_epoch=-1)

```
其中gamma为调整倍数，20指的是调整的间隔，即0-20、21-40、41-60epoch内的学习率分别为0.001、0.0001、0.00001.
last_epoch为上一个epoch数，一般默认为-1初始值。如果需要断点续训，则将其改为续接的点的epoch。

##### **按需间隔调整**
```
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
scheduler = torch.optim.lr_scheduler.MultiStepLR(optimizer,  milestones = [50, 80], gamma = 0.1, last_epoch=-1)

```
0-50、51-80、81-100epochs的学习率分别为0.001、0.0001、0.00001.


##### **指数衰减调整**
其调整方式为学习率=上一epoch的学习率*gamma^epoch
```
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
scheduler = torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma = 0.1, last_epoch=-1)
```

##### **余弦退火调整**

以余弦函数的周期为周期，在每个周期的最大值时重新设置学习率，初始学习率为最大学习率，以2*T_max为周期，周期内先下降后上升。

```
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max = 10, eta_min=0, last_epoch=-1)
```
其中：<br>
T_max个epoch之后重新设置学习率<br>
eta_min为最小学习率，即周期内学习率最小下降的下限，默认为0

##### **如何选择？**
梯度下降算法需要我们指定一个学习率作为权重更新步幅的控制因子，常用的学习率有0.01、0.001以及0.0001等，学习率越大则权重更新。一般来说，我们希望在训练初期学习率大一些，使得网络收敛迅速，在训练后期学习率小一些，使得网络更好的收敛到最优解。下图展示了随着迭代的进行动态调整学习率的4种策略曲线：
![1.jpg](https://pic4.zhimg.com/v2-e0c69cd8f1e8af5c839f8595696c75db_r.jpg)


同时也可以使用自适应学习率调整：
```
optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9)
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode='min', factor=0.1, patience=10, verbose=False, threshold=0.0001, threshold_mode='rel', cooldown=0, min_lr=0, eps=1e-08)

```
其中：<br>
* mode:模式，min：当指标（如损失）不再降低；
* max：当指标（如精度）不再上升
* factor：学习率调整倍数，相当于gamma
* patience：当10个epoch后指标不再发生变化时，调整学习率
* verbose：是否打印学习率信息
* threshold_mode：判断指标是否达到最优的模式
* rel：当mode=max，dynami_threshold=best(1+threshold) 当mode=min,dynamic_threshold=best(1-threshold)
* abs:当mode=max,dynamic_threshold=best+threshold
* 当mode=min,dynamic_threshold=best-threshold
* threshold:与threshold_mode相关
* cooldown:调整学习率后，原来额学习率仍然保持 cooldown个epoch后再调整学习率
* min_lr:学习率降低的下限
* eps:学习率变化小于该值时，不调整学习率

要注意的是，scheduler.step(val_loss)需要定义一个参数，即需要衡量的指标，一般选择验证集上的损失。

咋一看这种学习率下降的方式似乎是最好的，但是在实际应用中我发现存在很多问题，比如当patience太小的时候，学习率很快就下降到了最小值。这是因为就算是在合适的学习率时损失函数依然会存在一定时间的不下降的情况，不会一直下降的，所以patience的大小不应该太小



以上介绍了关于训练时候的优化策略，在实际使用中，建议在在模型训练之前先定义好比如：

In [7]:
lr = 3e-5
gamma = 0.7
import torch.nn as nn
import torch.optim as optim
from torch.optim.lr_scheduler import StepLR
# loss function
criterion = nn.CrossEntropyLoss()
# optimizer
optimizer = optim.Adam(model.parameters(), lr=lr)
# scheduler
scheduler = StepLR(optimizer, step_size=1, gamma=gamma)

然后再在训练过程中调用，后面将会展示。

In [None]:
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if(batch_idx+1)%30 == 0: 
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += F.nll_loss(output, target, reduction='sum').item() # 将一批的损失相加
            pred = output.max(1, keepdim=True)[1] # 找到概率最大的下标
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))

In [None]:
for epoch in range(0, 40):
    train(model, device, train_loader, optimizer, epoch)
    test(model, device, test_loader)

## 可视化

### 本地保存

### 利用TensorBoardX

## Pre-Train & Fine-Tune
这一部分具体可以查看：https://github.com/zergtant/pytorch-handbook/blob/master/chapter4/4.1-fine-tuning.ipynb

# 参考文献：

[1] 李宏毅机器学习https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

[2]: 