<a href="https://colab.research.google.com/github/Auzzer/QuickPytorchTutor/blob/main/QuickPytorchTutor.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Tensor (张量)的创建与基本操作
张量是GPU运算中常见的数据类型，类似于Numpy中的数组，但是由于深度学习中常常需要使用GPU进行并行运算，提升计算速度，因此使用Tensor

## 创建

In [5]:
import torch

In [6]:
# 创建一个张量通常需要初始化，我们一般使用：
x1 = torch.empty(5, 3) #一个5x3的张量
print(x1)

# 随机初始化张量
x2 = torch.rand(5, 3)
print(x2)

# 在初始化张量时，有时需要指定数据类型：
x3 = torch.zeros(5, 3, dtype=torch.long) #创建一个数据类型为long的"0"填充矩阵
print(x3)

# 如果已知一个矩阵，将其转化为张量加速计算
x4 = torch.tensor([[1,2,3],[6,7,8]]) 
print(x4)

tensor([[-3.2421e-18,  3.0744e-41,  3.3631e-44],
        [ 0.0000e+00,         nan,  0.0000e+00],
        [ 1.1578e+27,  1.1362e+30,  7.1547e+22],
        [ 4.5828e+30,  1.2121e+04,  7.1846e+22],
        [ 9.2198e-39,  7.0374e+22,  0.0000e+00]])
tensor([[0.4456, 0.6402, 0.0382],
        [0.4644, 0.8428, 0.5611],
        [0.7342, 0.9761, 0.5033],
        [0.9489, 0.2707, 0.3581],
        [0.9228, 0.9151, 0.1960]])
tensor([[0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0],
        [0, 0, 0]])
tensor([[1, 2, 3],
        [6, 7, 8]])


In [7]:
# 获取size
print(x4.size()) # 结果表示为两行三列

torch.Size([2, 3])


## Basic Product


### 加法

In [8]:
# 对于一个最简单的加法
x = torch.rand(5, 3)
y = torch.rand(5, 3)
print (x+y)
# 或者
print (torch.add(x, y))

# 对于torch.add(),有一个option可以将结果保存下来,但是首先需要将结果初始化
result = torch.empty(5, 3)
torch.add(x, y, out = result)
print("result: \n",result)

#特别值得注意的是，torch.add()函数只能对两个张量进行运算，当数量大于二的时候：
y1 = torch.zeros(5, 3)
y2 = torch.empty(5, 3)
for i in range(0, 5):
  xi = torch.rand(5, 3)
  y1.add(xi)
  y2.add(xi)

print("y1\n",y1)
print("y2\n",y2)
# 结果显示在做加法的时候，由于empty张量会随机给一个值，所以应该使用"zeros张量"

tensor([[1.2369, 0.6343, 1.6699],
        [0.6543, 0.2474, 0.5704],
        [0.4581, 1.1925, 1.1761],
        [1.4182, 0.5535, 1.1697],
        [0.9455, 0.9002, 0.9133]])
tensor([[1.2369, 0.6343, 1.6699],
        [0.6543, 0.2474, 0.5704],
        [0.4581, 1.1925, 1.1761],
        [1.4182, 0.5535, 1.1697],
        [0.9455, 0.9002, 0.9133]])
result: 
 tensor([[1.2369, 0.6343, 1.6699],
        [0.6543, 0.2474, 0.5704],
        [0.4581, 1.1925, 1.1761],
        [1.4182, 0.5535, 1.1697],
        [0.9455, 0.9002, 0.9133]])
y1
 tensor([[0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.],
        [0., 0., 0.]])
y2
 tensor([[-3.2422e-18,  3.0744e-41,  1.6699e+00],
        [ 6.5426e-01,  2.4738e-01,  5.7041e-01],
        [ 4.5815e-01,  1.1925e+00,  1.1761e+00],
        [ 1.4182e+00,  5.5355e-01,  1.1697e+00],
        [ 9.4548e-01,  9.0020e-01,  9.1331e-01]])


### 乘法
在矩阵中，乘法有点乘和叉乘两种，张量也有相对应的不同计算方法

In [9]:
# 点乘
x1 = torch.rand(5, 3)
x2 = torch.rand(5, 3)
y = torch.mul(x1, x2)# 类似与上文的add，在多个张量可以使用x1.mul(x2)
print("x1:\n", x1, "\n x2:\n", x2, "\n y:\n",y)

# 叉乘
x1 = torch.rand(2, 3)
x2 = torch.rand(3, 4)
y = torch.mm(x1, x2)# 类似与上文的add，在多个张量可以使用x1.mm(x2)
print("x1:\n", x1, "\nx2:\n", x2, "\ny:\n",y)

x1:
 tensor([[0.0881, 0.7032, 0.4822],
        [0.0977, 0.2409, 0.4266],
        [0.5005, 0.0530, 0.4396],
        [0.0028, 0.6754, 0.1721],
        [0.4216, 0.2120, 0.1060]]) 
 x2:
 tensor([[0.2793, 0.0019, 0.2414],
        [0.0983, 0.4774, 0.3920],
        [0.0697, 0.9936, 0.3007],
        [0.8484, 0.2909, 0.7186],
        [0.7813, 0.2895, 0.3635]]) 
 y:
 tensor([[0.0246, 0.0013, 0.1164],
        [0.0096, 0.1150, 0.1672],
        [0.0349, 0.0526, 0.1322],
        [0.0024, 0.1965, 0.1237],
        [0.3294, 0.0614, 0.0385]])
x1:
 tensor([[0.8032, 0.4734, 0.5511],
        [0.0625, 0.2105, 0.9098]]) 
x2:
 tensor([[0.3858, 0.0129, 0.7808, 0.3517],
        [0.2613, 0.6456, 0.5114, 0.6896],
        [0.9197, 0.5174, 0.3417, 0.2045]]) 
y:
 tensor([[0.9404, 0.6011, 1.0575, 0.7217],
        [0.9159, 0.6074, 0.4673, 0.3532]])


### Numpy中的对应与转化

#### 索引
torch支持使用类似于Numpy中的索引对张量进行操作


In [10]:
x = torch.tensor([[1,2,3],[3,4,5]])
print(x[:,0])
print(x[1,:])

tensor([1, 3])
tensor([3, 4, 5])


#### 在numpy中reshape对应

In [11]:
x = torch.randn(5, 3)
y = x.view(3, 5)
z = x.view(-1, 5) # 当选项中有一个-1时候，代表从另外一个维度考虑转化方式
print(x)
print(y)
print(z)

tensor([[ 1.2650, -0.2028, -0.5862],
        [-1.4907,  0.4704,  1.8958],
        [-0.9064, -0.8529,  1.2621],
        [ 1.2626, -0.2702,  1.4999],
        [ 1.3624, -0.2365, -0.7315]])
tensor([[ 1.2650, -0.2028, -0.5862, -1.4907,  0.4704],
        [ 1.8958, -0.9064, -0.8529,  1.2621,  1.2626],
        [-0.2702,  1.4999,  1.3624, -0.2365, -0.7315]])
tensor([[ 1.2650, -0.2028, -0.5862, -1.4907,  0.4704],
        [ 1.8958, -0.9064, -0.8529,  1.2621,  1.2626],
        [-0.2702,  1.4999,  1.3624, -0.2365, -0.7315]])


### 覆盖操作
任何以"_"结尾的函数（操作）都会替换原来的变量

In [12]:
x1 = torch.rand(5, 3)
print("覆盖以前的x1:\n", x1)
x2 = torch.rand(5, 3)
y = x1.add_(x2)
print("覆盖以后的x1:\n", x1)
print(y)

覆盖以前的x1:
 tensor([[0.9106, 0.7204, 0.3183],
        [0.1822, 0.0404, 0.7722],
        [0.3542, 0.1158, 0.3097],
        [0.1543, 0.5186, 0.0266],
        [0.4276, 0.7210, 0.3803]])
覆盖以后的x1:
 tensor([[1.8458, 1.3653, 0.6243],
        [0.9819, 0.2316, 1.0245],
        [1.2317, 0.9074, 0.5705],
        [0.4341, 1.2725, 0.1031],
        [0.9146, 1.0977, 0.9487]])
tensor([[1.8458, 1.3653, 0.6243],
        [0.9819, 0.2316, 1.0245],
        [1.2317, 0.9074, 0.5705],
        [0.4341, 1.2725, 0.1031],
        [0.9146, 1.0977, 0.9487]])


可以看到x1的值发生了变化,但是和y的值是一样的<br>
更多对于tensor的operation可以参考官方文档：https://pytorch.org/docs/stable/torch.html


## Cuda加速
在这里我们先提出一个概念：
为了计算加速，有一些数据可以被放入cuda中加速计算。<br>
在这里我们先将tensor放入cuda中，第一步需要先判定是否有cuda(GPU)可以使用

In [13]:
import torch
x = torch.rand(5, 3)

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 下面分别从cuda中直接生成tensor以及将tensor生成后放进cuda中
x = x.to(device)
y = torch.ones_like(x, device=device)
z = x + y
print(z)
print(z.to("cpu", torch.double))


tensor([[1.0470, 1.9108, 1.5184],
        [1.5377, 1.9308, 1.0736],
        [1.8337, 1.5510, 1.2411],
        [1.0325, 1.0588, 1.2670],
        [1.9351, 1.7513, 1.6019]])
tensor([[1.0470, 1.9108, 1.5184],
        [1.5377, 1.9308, 1.0736],
        [1.8337, 1.5510, 1.2411],
        [1.0325, 1.0588, 1.2670],
        [1.9351, 1.7513, 1.6019]], dtype=torch.float64)


# 神经网络训练
对于一个神经网络而言，一般都会有

1.   数据处理
2.   定义网络
3.   训练策略
4.   可视化
5.   Pre-train & Fine-Tune(可选) <br>

这几个部分，接下来我们将逐一介绍



## 数据处理


### 数据加载

在进行对比实验时，经常需要公用数据集，torch内置了几个常用数据集包括：

* MNIST
* ImageNet
* COCO
* CIFAR <br>

等等....<br>
我们只需要调用torchvision中的torchvision.datasets就可以使用它，他的安装方式是：


```
pip install torchvision
```
torchvision.datasets 可以理解为PyTorch团队自定义的dataset，这些dataset帮我们提前处理好了很多的图片数据集，我们拿来就可以直接使用,具体使用方式如下：





In [14]:
import torchvision.datasets as datasets

trainset = datasets.MNIST(root="./data",
              train=True,# True为训练集，False为测试集
              download=True, #表示是否需要下载数据集
              transform=None) #是否对其进行数据增广
validset = datasets.MNIST(root="./data", train=True, download=False, transform=None)        

在很多时候，我们也需要自定义数据集去完成我们需要的任务，接下来介绍如何进行操作

在Pytorch中为了便于调用函数（因为通常在文件过大的时候会将不同部分拆分成为几个python脚本），我们通常需要声明类。对于数据加载的类编写方式如下：其主要分为两步：1. 数据集定义 2. 数据加载器 <br>
注：为了方便起见，使用kaggle上的[bluebook for bulldozers](https://www.kaggle.com/c/bluebook-for-bulldozers/data)举例

### 数据预处理
一般来说，即便是对于ImageNet这样大型数据集也需要进行数据增广(data augementation)，在torchvision中的transforms模块内置了大量的操作，这里我们只进行简单举例，更多可以访问transforms操作文件。


In [15]:
from torchvision import transforms
transform = transforms.Compose([
    transforms.RandomCrop(32, padding=4),  #先四周填充0，在把图像随机裁剪成32*32
    transforms.RandomHorizontalFlip(),  #图像一半的概率翻转，一半的概率不翻转
    transforms.RandomRotation((-45,45)), #随机旋转
    transforms.ToTensor(),
    transforms.Normalize((0.1307,), (0.3081,)), #R,G,B每层的归一化用到的均值和方差
])



接下来我们只需要对数据数据加载部分进行简单修改即可

In [16]:
trainset = datasets.MNIST(root="./data", train=True, download=False, transform= transform)  

由于Pytorch中以及包含了MNIST数据集，也可以直接使用DataLoader对数据进行读取。


In [17]:

train_loader = torch.utils.data.DataLoader(
        datasets.MNIST('./data', train=True, download=True, 
                       transform=transforms.Compose([
                           transforms.ToTensor(),# 将读取的数据转化为张量方便计算
                           transforms.Normalize((0.1307,), (0.3081,))#这一部分来源于前人根据这个数据集获得的标准化参数，不同的数据集不同
                       ])),
                       
        batch_size=512, #这里的batch_size将在下文的训练策略中详细介绍
        shuffle=True)

In [18]:
test_loader = torch.utils.data.DataLoader(
        datasets.MNIST('data', train=False, transform=transforms.Compose([
                           transforms.ToTensor(), 
                           transforms.Normalize((0.1307,), (0.3081,))])), 
        batch_size=512, shuffle=True)

In [19]:
import torchvision
import torch
ds_train = torchvision.datasets.MNIST(root="./data/minist/",train=True,download=True,transform=transform)
ds_valid = torchvision.datasets.MNIST(root="./data/minist/",train=False,download=True,transform=transform)

dl_train =  torch.utils.data.DataLoader(ds_train, batch_size=128, shuffle=True, num_workers=4)
dl_valid =  torch.utils.data.DataLoader(ds_valid, batch_size=128, shuffle=False, num_workers=4)

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-images-idx3-ubyte.gz to ./data/minist/MNIST/raw/train-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=9912422.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/train-images-idx3-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/train-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw/train-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=28881.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/train-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-images-idx3-ubyte.gz to ./data/minist/MNIST/raw/t10k-images-idx3-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=1648877.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/t10k-images-idx3-ubyte.gz to ./data/minist/MNIST/raw

Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz
Failed to download (trying next):
HTTP Error 503: Service Unavailable

Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz
Downloading https://ossci-datasets.s3.amazonaws.com/mnist/t10k-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw/t10k-labels-idx1-ubyte.gz


HBox(children=(FloatProgress(value=0.0, max=4542.0), HTML(value='')))


Extracting ./data/minist/MNIST/raw/t10k-labels-idx1-ubyte.gz to ./data/minist/MNIST/raw

Processing...
Done!


  cpuset_checked))


## 定义网络

正如上文对数据调用时声明类一样，建议使用类定义网网络：                                                          



In [20]:
import torch
import torch.nn as nn # 定义网络
import torch.nn.functional as F #网络中的操作，如卷积、padding通常在这个里面

In [21]:
class ConvNet(nn.Module):
    def __init__(self):
        super().__init__()
        # batch*1*28*28（每次会送入batch个样本，输入通道数1（黑白图像），图像分辨率是28x28）
        # 下面的卷积层Conv2d的第一个参数指输入通道数，第二个参数指输出通道数，第三个参数指卷积核的大小
        self.conv1 = nn.Conv2d(1, 10, 5) # 输入通道数1，输出通道数10，核的大小5
        self.conv2 = nn.Conv2d(10, 20, 3) # 输入通道数10，输出通道数20，核的大小3
        # 下面的全连接层Linear的第一个参数指输入通道数，第二个参数指输出通道数
        self.fc1 = nn.Linear(20*10*10, 500) # 输入通道数是2000，输出通道数是500
        self.fc2 = nn.Linear(500, 10) # 输入通道数是500，输出通道数是10，即10分类
    def forward(self,x):
        in_size = x.size(0) # 在本例中in_size=512，也就是BATCH_SIZE的值。输入的x可以看成是512*1*28*28的张量。
        x = self.conv1(x) # batch*1*28*28 -> batch*10*24*24（28x28的图像经过一次核为5x5的卷积，输出变为24x24）
        x = F.relu(x) # batch*10*24*24（激活函数ReLU不改变形状））
        x = F.max_pool2d(x, 2, 2) # batch*10*24*24 -> batch*10*12*12（2*2的池化层会减半）
        x = self.conv2(x) # batch*10*12*12 -> batch*20*10*10（再卷积一次，核的大小是3）
        x = F.relu(x) # batch*20*10*10
        x = x.view(in_size, -1) # batch*20*10*10 -> batch*2000（out的第二维是-1，说明是自动推算，本例中第二维是20*10*10）
        x = self.fc1(x) # batch*2000 -> batch*500
        x = F.relu(x) # batch*500
        x = self.fc2(x) # batch*500 -> batch*10
        x = F.log_softmax(x, dim=1) # 计算log(softmax(x))
        return x

正如上文所说的，tensor放入cuda中可以加速运算，这里也适用

In [22]:
# 依然按照上文的方法来判断是否有cuda可以使用
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model = ConvNet().to(device)
print(model)

ConvNet(
  (conv1): Conv2d(1, 10, kernel_size=(5, 5), stride=(1, 1))
  (conv2): Conv2d(10, 20, kernel_size=(3, 3), stride=(1, 1))
  (fc1): Linear(in_features=2000, out_features=500, bias=True)
  (fc2): Linear(in_features=500, out_features=10, bias=True)
)


很多情况下，我们需要分析模型的复杂度，需要通过查看模型的参数个数来看.另外需要查看学习的参数和名称

In [23]:
for parameters in ConvNet().parameters(): 
#注意，在部分程序中，有人会将定义好的神经网络存储到net中，这是这个net是一个类，parameters这个函数必须跟一个类，而不是一个函数名名称
#比方说这里ConvNet.parametrics()就是错误的，因为ConvNet()才是一个类
#但是如果使用net = ConvNet()定义以后，就可以使用：net.parameters()
    print(parameters)

Parameter containing:
tensor([[[[-0.1818,  0.1521,  0.1709, -0.0105,  0.0986],
          [ 0.0905, -0.0201,  0.1243, -0.0474,  0.0193],
          [ 0.0361, -0.0242,  0.1043,  0.1173, -0.1372],
          [-0.0861,  0.1166, -0.1772, -0.1674,  0.0901],
          [-0.1836,  0.1548,  0.1203, -0.0957,  0.1491]]],


        [[[ 0.1992, -0.1185,  0.1265, -0.1318, -0.0664],
          [ 0.0106,  0.0978,  0.0267, -0.1754, -0.1969],
          [-0.1508, -0.1260, -0.0747, -0.0109,  0.0676],
          [ 0.1089,  0.1299,  0.1348,  0.1442,  0.1135],
          [-0.1445, -0.0919, -0.1106, -0.0087, -0.0779]]],


        [[[-0.1866, -0.1837,  0.0898,  0.1062,  0.1891],
          [-0.1840,  0.1294, -0.1283,  0.1806, -0.1782],
          [-0.0395,  0.0583,  0.1332,  0.1306,  0.0625],
          [-0.0087, -0.1865,  0.1254, -0.1141,  0.0074],
          [ 0.1720,  0.0372,  0.1249, -0.0559,  0.0160]]],


        [[[ 0.1557, -0.0897, -0.1576, -0.0426, -0.0402],
          [-0.1925, -0.0528,  0.1113,  0.1731,  0.0130

In [24]:

for name,parameters in ConvNet().named_parameters():
    print(name,':',parameters.size())


conv1.weight : torch.Size([10, 1, 5, 5])
conv1.bias : torch.Size([10])
conv2.weight : torch.Size([20, 10, 3, 3])
conv2.bias : torch.Size([20])
fc1.weight : torch.Size([500, 2000])
fc1.bias : torch.Size([500])
fc2.weight : torch.Size([10, 500])
fc2.bias : torch.Size([10])


除此以外，也可以使用summary()去查看所有的层、参数

In [25]:

from torchsummary import summary
summary(ConvNet(), input_size=(1, 28, 28))

----------------------------------------------------------------
        Layer (type)               Output Shape         Param #
            Conv2d-1           [-1, 10, 24, 24]             260
            Conv2d-2           [-1, 20, 10, 10]           1,820
            Linear-3                  [-1, 500]       1,000,500
            Linear-4                   [-1, 10]           5,010
Total params: 1,007,590
Trainable params: 1,007,590
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.06
Params size (MB): 3.84
Estimated Total Size (MB): 3.91
----------------------------------------------------------------


## 模型训练

一般而言，训练策略由batch_size, epoch, 求导机制,优化策略, 学习率等构成<br>
首先有：
* batch_size（一批次的大小）：在一个epoch中，每一次迭代使用的样本量，常常设置为：32/64/128等。

* epoch（轮次）：在每一个epoch中，所有训练集都会以每次batch_size个输入模型中

* iteration（迭代次数）：每跑完一个batch都要更新参数，这个过程叫一个iteration。

**因此显然iteration是由batch_size,epoch共同构成，比方说：
总共有10000张图片，每个batch_size有100张图片，epoch = 20，意味着，iterations = （10000/100）$\times$20 = 2000（次）**


### 求导机制

### 学习率设置

一般而言，常用的学习率有Adam,SGD算法两种，它们分别代表了

### Batchsize设置
不考虑Batch Normalization的情况下，batch size的大小决定了深度学习训练过程中的完成每个epoch所需的时间和每次迭代(iteration)之间梯度的平滑程度。batch size只能说是影响完成每个epoch所需要的时间，决定也算不上吧。<br>
由于目前主流深度学习框架处理mini-batch的反向传播时，默认都是先将每个mini-batch中每个instance得到的loss平均化之后再反求梯度，也就是说每次反向传播的梯度是对mini-batch中每个instance的梯度平均之后的结果，所以b的大小决定了相邻迭代之间的梯度平滑程度，b太小，相邻mini-batch间的差异相对过大，那么相邻两次迭代的梯度震荡情况会比较严重，不利于收敛；b越大，相邻mini-batch间的差异相对越小，虽然梯度震荡情况会比较小，一定程度上利于模型收敛，但如果b极端大，相邻mini-batch间的差异过小，相邻两个mini-batch的梯度没有区别了，整个训练过程就是沿着一个方向蹭蹭蹭往下走，很容易陷入到局部最小值出不来。<br>

**总结下来：batch size过小，花费时间多，同时梯度震荡严重，不利于收敛；batch size过大，不同batch的梯度方向没有任何变化，容易陷入局部极小值。**<br>

但是对于GPU并行计算的情况下，小batch反而会需要更长时间



In [26]:
import torch.optim as optim
model = ConvNet().to(device)
optimizer = optim.Adam(model.parameters())

In [27]:
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if(batch_idx+1)%30 == 0: 
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))


def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += F.nll_loss(output, target, reduction='sum').item() # 将一批的损失相加
            pred = output.max(1, keepdim=True)[1] # 找到概率最大的下标
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))

In [29]:
for epoch in range(0, 20):
    train(model, device, train_loader, optimizer, epoch)
    test(model, device, test_loader)


Test set: Average loss: 0.0578, Accuracy: 9807/10000 (98%)


Test set: Average loss: 0.0462, Accuracy: 9857/10000 (99%)


Test set: Average loss: 0.0421, Accuracy: 9867/10000 (99%)



KeyboardInterrupt: ignored

## 可视化

### 本地保存
只需稍微修改下train，test即可

In [32]:
Loss_list = []
Loss_val_list = []

def train(model, device, train_loader, optimizer, epoch):
    model.train()
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()
        output = model(data)
        loss = F.nll_loss(output, target)
        loss.backward()
        optimizer.step()
        if(batch_idx+1)%30 == 0: 
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                epoch, batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))
            Loss_list.append(loss.item())


def test(model, device, test_loader):
    model.eval()
    test_loss = 0
    correct = 0
    with torch.no_grad():
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            test_loss += F.nll_loss(output, target, reduction='sum').item() # 将一批的损失相加
            pred = output.max(1, keepdim=True)[1] # 找到概率最大的下标
            correct += pred.eq(target.view_as(pred)).sum().item()

    test_loss /= len(test_loader.dataset)
    Loss_val_list.append(test_loss)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))

In [None]:
epoches = 2
for epoch in range(epoches):
    train(model, device, train_loader, optimizer, epoch)
    test(model, device, test_loader)

print(Loss_list)
print(Loss_val_list)

再保存到本地即可

In [35]:
## Loss
file = open('Loss.txt', 'w')
for i in range(len(Loss_list)):
    s = str(Loss_list[i]).replace('[','').replace(']','')#去除[],这两行按数据不同，可以选择
    s = s.replace("'",'').replace(',','') +'\n'  #去除单引号，逗号，每行末尾追加换行符
    file.write(s)
file.close()
print("保存文件成功")

## Loss_val
file = open('Loss_val.txt', 'w')
for i in range(len(Loss_val_list)):
    s = str(Loss_val_list[i]).replace('[','').replace(']','')#去除[],这两行按数据不同，可以选择
    s = s.replace("'",'').replace(',','') +'\n'  #去除单引号，逗号，每行末尾追加换行符
    file.write(s)
file.close()
print("保存文件成功")

保存文件成功
保存文件成功


## Pre-Train & Fine-Tune
这一部分具体可以查看：https://github.com/zergtant/pytorch-handbook/blob/master/chapter4/4.1-fine-tuning.ipynb

In [36]:

torch.save(model.state_dict(), 'example.pt')

# 参考文献：

[1] 李宏毅机器学习https://speech.ee.ntu.edu.tw/~hylee/ml/2021-spring.html

[2]: 深入浅出Pytorch