In [1]:
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
from torch.autograd import Variable

In [2]:
#hyper-parameters
lr = 0.01
momentum = 0.5
log_interval = 10  #跑10batach进行一次日志记录
epochs = 10
batch_size = 64
test_batch_size = 1000

# 定义网络
- super类的作用是继承的时候，调用含super的各个的基类__init__函数，如果不使用super，就不会调用这些类的__init__函数。

**nn.Sequential**
- 一个有序的容器，神经网络模块将按照在传入构造器的顺序依次被添加到计算图中执行，同时以神经网络模块为元素的有序字典也可以作为传入参数。
![2020031313571551.png](attachment:2020031313571551.png)

**nn.Conv2d()**
- torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True)

    - in_channels(int) – 输入信号的通道
    - out_channels(int) – 卷积产生的通道
    - kerner_size(int or tuple) - 卷积核的尺寸
    - stride(int or tuple, optional) - 卷积步长
    - padding(int or tuple, optional) - 输入的每一条边补充0的层数
    - dilation(int or tuple, optional) – 卷积核元素之间的间距
    - groups(int, optional) – 从输入通道到输出通道的阻塞连接数
    - bias(bool, optional) - 如果bias=True，添加偏置
    
- dilation: 用于控制内核点之间的距离
- groups: 控制输入和输出之间的连接： group=1，输出是所有的输入的卷积；group=2，此时相当于有并排的两个卷积层，每个卷积层计算输入通道的一半，并且产生的输出是输出通道的一半，随后将这两个输出连接起来。

- 参数kernel_size，stride,padding，dilation也可以是一个int的数据，此时卷积height和width值相同;也可以是一个tuple数组，tuple的第一维度表示height的数值，tuple的第二维度表示width的数值

**nn.ReLU()**

- 激活函数（Activation Function），就是在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算你叠加了若干层之后，无非还是个矩阵相乘罢了。

- 如果不用激活函数，每一层输出都是上层输入的线性函数，无论神经网络有多少层，输出都是输入的线性组合，这种情况就是最原始的感知机。如果使用的话，激活函数给神经元引入了非线性因素，使得神经网络可以任意逼近任何非线性函数，这样神经网络就可以应用到众多的非线性模型中。

**ReLU**函数是分段线性函数，所有的负值和0为0，所有的正值不变，这种操作被称为单侧抑制。ReLU函数图像其实也可以不是这个样子，只要能起到单侧抑制的作用，对原图翻转、镜像都可以。

当训练一个深度分类模型的时候，和目标相关的特征往往也就那么几个，因此通过ReLU实现稀疏后的模型能够更好地挖掘相关特征，拟合训练数据。正因为有了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深度神经网络模型(如CNN)中，当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。

不用simgoid和tanh作为激活函数，而用ReLU作为激活函数的原因是：加速收敛。因为sigmoid和tanh都是饱和(saturating)的。何为饱和？可理解为把这两者的函数曲线和导数曲线plot出来：他们的导数都是倒过来的碗状，也就是越接近目标，对应的导数越小。而ReLu的导数对于大于0的部分恒为1。于是ReLU确实可以在BP的时候能够将梯度很好地传到较前面的网络。

一般情况下，使用ReLU会比较好

- 使用 ReLU，就要注意设置 learning rate，不要让网络训练过程中出现很多 “dead” 神经元；
- 如果“dead”无法解决，可以尝试 Leaky ReLU、PReLU 、RReLU等Relu变体来替代ReLU；
- 不建议使用 sigmoid，如果一定要使用，也可以用 tanh来替代。

**nn.MaxPool2d()**
- torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)

对于输入信号的输入通道，提供2维最大池化（max pooling）操作。

![%E6%B1%A0%E5%8C%96.png](attachment:%E6%B1%A0%E5%8C%96.png)

![%E5%B0%BA%E5%AF%B8.png](attachment:%E5%B0%BA%E5%AF%B8.png)

    kernel_size(int or tuple) - max pooling的窗口大小
    stride(int or tuple, optional) - max pooling的窗口移动的步长。默认值是kernel_size
    padding(int or tuple, optional) - 输入的每一条边补充0的层数
    dilation(int or tuple, optional) – 一个控制窗口中元素步幅的参数
    return_indices - 如果等于True，会返回输出最大值的序号，对于上采样操作会有帮助
    ceil_mode - 如果等于True，计算输出信号大小的时候，会使用向上取整，代替默认的向下取整的操作
    
- 如果padding不是0，会在输入的每一边添加相应数目0.

- 参数kernel_size，stride, padding，dilation数据类型： 可以是一个int类型的数据，此时卷积height和width值相同; 也可以是一个tuple数组（包含来两个int类型的数据），第一个int数据表示height的数值，tuple的第二个int类型的数据表示width的数值.

**nn.Linear()**

- torch.nn.Linear(in_features, out_features, bias=True)
    - 对输入数据做线性变换：y=Ax+b

参数：

- in_features - 每个输入样本的大小
- out_features - 每个输出样本的大小
- bias - 若设置为False，这层不会学习偏置。默认值：True

形状：

- 输入: (N,in_features)(N,in_features)
- 输出： (N,out_features)(N,out_features)

变量：

- weight -形状为(out_features x in_features)的模块中可学习的权值
- bias -形状为(out_features)的模块中可学习的偏置

**nn.BatchNorm1d()**

- torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True) 

对小批量(mini-batch)的2d或3d输入进行批标准化(Batch Normalization)操作
![%E5%BD%92%E4%B8%80%E5%8C%96.png](attachment:%E5%BD%92%E4%B8%80%E5%8C%96.png)

- 在训练时，该层计算每次输入的均值与方差，并进行移动平均。移动平均默认的动量值为0.1。

- 在验证时，训练求得的均值/方差将用于标准化验证数据。

**view**
- view: 原先tensor中的数据按照行优先的顺序排成一个一维的数据（这里应该是因为要求地址是连续存储的），然后按照参数组合成其他维度的tensor。比如说是不管你原先的数据是[[[1,2,3],[4,5,6]]]还是[1,2,3,4,5,6]，因为它们排成一维向量都是6个元素，所以只要view后面的参数一致，得到的结果都是一样的。

**forward()**
- 前向传播是在构建模型的类中进行定义，用forward()函数。

In [3]:
class LeNet5(nn.Module):
    def __init__(self):
        super(LeNet5, self).__init__()
        #convolutional layer
        self.conv1 = nn.Sequential(  #input_size=(1*28*28)
                                    nn.Conv2d(1, 6, 5, 1, 2), #padding=2保证输出尺寸相同
                                    nn.ReLU(), #input_size=6*28*28
                                    nn.MaxPool2d(kernel_size = 2, stride = 2) #output_size=6*14*14
                                  ) 
        self.conv2 = nn.Sequential(  #input_size=(6*14*14)
                                    nn.Conv2d(6, 16, 5), 
                                    nn.ReLU(), #input_size=16*10*10
                                    nn.MaxPool2d(2, 2) #output_size=16*5*5
                                  )
        #full_connected layer
        self.fc1 = nn.Sequential( #input_size=(16*5*5)
                                  nn.Linear(16*5*5, 120),
                                  nn.ReLU()
                                )
        self.fc2 = nn.Sequential( #input_size=(16*5*5)
                                  nn.Linear(120, 84),
                                  nn.ReLU()
                                )
        self.fc3 = nn.Linear(84, 10)
        
    #forward propagation
    def forward(self, x):
        x = self.conv1(x)
        x = self.conv2(x)
        #nn.Linear() 的输入输出都是一维向量，需要把多维度的tensor转化成一维
        x = x.view(x.size()[0], -1)
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        return x  #F.softmax(x, dim=1)

# backward()


![%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD.png](attachment:%E5%8F%8D%E5%90%91%E4%BC%A0%E6%92%AD.png)

# Variable
- images, labels = Variable(images.cpu()), Variable(labels.cpu())

这里用variable的主要原因是variable可以用来自动求导。

用GPU跑的话改成下面这句：

- Variable(x_train.cuda()),Variable(y_train.cuda())

In [4]:
def train(epoch):   #定义每个epoch的训练步骤
    model.train()   #设置为training模式
    for batch_idx, (data, target) in enumerate(train_loader):
        data = data.to(device)
        target = target.to(device)
        data, target = Variable(data), Variable(target)   #把数据转换为variable,计算梯度
        optimizer.zero_grad()  #优化器梯度初始化为0
        output = model(data)   #把数据输入到网络并得到输出，即进行前向传播
        loss = F.cross_entropy(output, target) #交叉熵损失函数
        loss.backward()  #梯度反向传播
        optimizer.step() #结束一次前向+反向后更新参数
        if batch_idx % log_interval == 0:  #准备打印相关信息
            print('Train Epoch: {} [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                  epoch, batch_idx * len(data), len(train_loader.dataset),
                  100. * batch_idx / len(train_loader), loss.item()))
        

model.eval()：
- 不启用 BatchNormalization 和 Dropout

In [5]:
def test():
    model.eval()   # 设置为test模式
    test_loss = 0  # 初始化测试损失值为0
    correct = 0    # 初始化预测正确的数据个数为0
    for data, target in test_loader:
 
        data = data.to(device)
        target = target.to(device)
        data, target = Variable(data), Variable(target)  #计算前要把变量变成Variable形式，因为这样子才有梯度
 
        output = model(data)
        test_loss += F.cross_entropy(output, target, size_average=False).item()  # sum up batch loss 把所有loss值进行累加
        pred = output.data.max(1, keepdim=True)[1]  # get the index of the max log-probability
        correct += pred.eq(target.data.view_as(pred)).cpu().sum()  # 对预测正确的数据个数进行累加
 
    test_loss /= len(test_loader.dataset)  # 因为把所有loss值进行过累加，所以最后要除以总得数据长度才得平均loss
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),
        100. * correct / len(test_loader.dataset)))


# 原始数据处理 
把原始数据处理为模型使用的数据需要3步：transforms.Compose()，torchvision.datasets()， torch.utils.data.DataLoader()分别可以理解为数据处理格式的定义、数据处理和数据加载。

**transform.Compose()**
    
    - tansforms.Compose()意思就是将多种变换组合起来。
    - transform=transforms.Compose([transforms.ToTensor(),transforms.Normalize((0.1307,), (0.3081,))将需要被处理的数据转为Tensor类型,实现数据的正则化。
    

**torchvision.datasets()**
- 这是pytorch自带的数据集，可以通过它来下载pytorch已有的数据集：
    - MNIST
    - COCO（用于图像标注和目标检测）(Captioning and Detection)
    - LSUN Classification
    - ImageFolder
    - Imagenet-12
    - CIFAR10 and CIFAR100
    - STL10
    

- rain_data = torchvision.datasets.MNIST(root='../../data',
                           train=True,
                           transform=transform,
                           download=True)
    - root : 存放文件 的目录   
    - train : True = 训练集, False = 测试集  
    - download : True = 从互联网上下载数据集，并把数据集放在root目录下. 如果数据集之前下载过，将处理过的数据（minist.py中有相关函数）放在root的目录下则会自动调用已经下载好的数据集。

- torchvision.datasets()包含了下面3个函数

    - __init__魔法方法里面进行读取数据文件
    - __getitem__魔法方法进行支持下标访问
    - __len__魔法方法返回自定义数据集的大小，方便后期遍历

- __init__(self, root, train=Ture, transform=None, traget_transform=None, download=False):该方法用来初始化类和对数据进行加载（有时需要定义一些开关来防止重复处理）。数据的加载就是针对不同的数据，把其data和label（分为训练数据和测试数据）读入到内存中。

- __getitem__(self, index):该方法是把读入的输出传给PyTorch（迭代器的方式）。


**torch.utils.data.DataLoader()**
    
创建训练数据迭代器
train_loader = torch.utils.data.DataLoader(dataset=train_data,
                              batch_size=Config.batch_size,
                              shuffle=True)
                              
- dataloader是加载dataset,并设置其batch_size（单次训练时送入的样本数目），以及shuffle(是否打乱样本顺序，训练集一定要设置shuffle为True，测试集则无强制性规定)

- torch.utils.data.DataLoader() Data loder, Combines a dataset and and a sampler, and provides single, or multi-process iterators over the dataset. 就是把合成数据并且提供迭代访问。输入参数有：

    - dataset (Dataset) – 加载数据的数据集。
    - batch_size (int, optional) – 每个batch加载多少个样本(默认: 1)。
    - shuffle (bool, optional) – 设置为True时会在每个epoch重新打乱数据(默认: False).
    - sampler (Sampler, optional) – 定义从数据集中提取样本的策略。如果指定，则忽略shuffle参数。
    - num_workers (int, optional) – 用多少个子进程加载数据。0表示数据将在主进程中加载(默认: 0)
    - collate_fn (callable, optional) –整理数据，把每个batch数据整理为tensor。（一般使用默认调用default_collate(batch)）。
    - pin_memory (bool, optional) –针对不同类型的batch进行处理。比如为Map或者Squence等类型，需要处理为tensor类型。
    - drop_last (bool, optional) – 用于处理最后一个batch的数据。因为最后一个可能不能够被整除，如果设置为True，则舍弃最后一个，为False则保留最后一个，但是最后一个可能很小。(默认: False)
    

- torch.utils.data.DataLoader类主要使用torch.utils.data.sampler实现，sampler是所有采样器的基础类，提供了迭代器的迭代（__iter__）和长度（__len__）接口实现，同时sampler也是通过索引对数据进行洗牌(shuffle)等操作。因此，如果DataLoader不适用于你的数据，需要重新设计数据的分批次，可以充分使用所提供的smapler。



In [6]:
if __name__ == '__main__':
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu') #启用gpu
    
    train_loader = torch.utils.data.DataLoader( #加载训练集
        datasets.MNIST('./data/mnist', train=True, download=True,
                       transform=transforms.Compose([
                           transforms.ToTensor(),
                           transforms.Normalize((0.1307,), (0.3081,))  #数据集给出的均值和标准差系数
                       ])),
        batch_size=batch_size, shuffle=True)
    
    test_loader = torch.utils.data.DataLoader(  # 加载训练数据，详细用法参考我的Pytorch打怪路（一）系列-（1）
        datasets.MNIST('./data/mnist', train=False, transform=transforms.Compose([
            transforms.ToTensor(),
            transforms.Normalize((0.1307,), (0.3081,)) #数据集给出的均值和标准差系数，每个数据集都不同的，都数据集提供方给出的
        ])),
        batch_size=test_batch_size, shuffle=True)
    
    model = LeNet5()   #实例化对象
    model = model.to(device)
    optimizer = optim.SGD(model.parameters(), lr=lr, momentum=momentum) #初始化优化器
    
    for epoch in range(1, epochs+1):
        train(epoch)
        test()
        
    torch.save(model, 'model.pth')

Downloading http://yann.lecun.com/exdb/mnist/train-images-idx3-ubyte.gz to ./data/mnist\MNIST\raw\train-images-idx3-ubyte.gz


100.1%

Extracting ./data/mnist\MNIST\raw\train-images-idx3-ubyte.gz to ./data/mnist\MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/train-labels-idx1-ubyte.gz to ./data/mnist\MNIST\raw\train-labels-idx1-ubyte.gz


113.5%

Extracting ./data/mnist\MNIST\raw\train-labels-idx1-ubyte.gz to ./data/mnist\MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/t10k-images-idx3-ubyte.gz to ./data/mnist\MNIST\raw\t10k-images-idx3-ubyte.gz


100.4%

Extracting ./data/mnist\MNIST\raw\t10k-images-idx3-ubyte.gz to ./data/mnist\MNIST\raw
Downloading http://yann.lecun.com/exdb/mnist/t10k-labels-idx1-ubyte.gz to ./data/mnist\MNIST\raw\t10k-labels-idx1-ubyte.gz


  return torch.from_numpy(parsed.astype(m[2], copy=False)).view(*s)


Extracting ./data/mnist\MNIST\raw\t10k-labels-idx1-ubyte.gz to ./data/mnist\MNIST\raw
Processing...
Done!





Test set: Average loss: 0.1408, Accuracy: 9571/10000 (96%)


Test set: Average loss: 0.1185, Accuracy: 9607/10000 (96%)




Test set: Average loss: 0.0695, Accuracy: 9772/10000 (98%)


Test set: Average loss: 0.0562, Accuracy: 9807/10000 (98%)




Test set: Average loss: 0.0515, Accuracy: 9822/10000 (98%)


Test set: Average loss: 0.0526, Accuracy: 9829/10000 (98%)




Test set: Average loss: 0.0560, Accuracy: 9819/10000 (98%)




Test set: Average loss: 0.0442, Accuracy: 9851/10000 (99%)


Test set: Average loss: 0.0397, Accuracy: 9876/10000 (99%)




Test set: Average loss: 0.0347, Accuracy: 9898/10000 (99%)

