### 残差块

使用残差映射f(x)-x，在实际中往往更容易优化，同时也更易于捕捉恒等映射的细微波动。
![image.png](attachment:image.png)

残差块(residual block)沿用了VGG全3 x 3卷积层的设计，残差块里首先有2个相同输出通道的3 x 3卷积层，每个卷积层后接一个归一化层和ReLU激活函数。

另一个分支将输入跳过这两个卷积运算直接加在最后的ReLU激活函数之前。

这样的设计要求两个卷积层的输出与输入形状一样，从而可以相加。如果想改变通道数，就需要引入一个额外的1×11×1卷积层来将输入变换成需要的形状后再做相加运算。

残差块实现时，它可以设定输出通道数、是否使用额外的1×1卷积层来修改通道数以及卷积层的步幅。

### ResNet模块

ResNet的前两层跟之前的GoogLeNet中的一样：在输出通道数为64，步幅为2的7x7卷积层后接步幅为2的3x3的最大池化层。不同之处在于ResNet每个卷积层后增加的批量归一化层。

之后，ResNet使用了4个由残差块组成的模块，每个模块使用若干个同样输出通道数的残差块。第一个模块的通道数同输入通道数一致。由于之前已经使用了步幅为2的最大池化层，所以无须减小高和宽。之后的每个模块在第一个残差块里将上一个模块的通道数翻倍，并将高和宽减半。

### 简洁实现

In [1]:
import time
import torch
from torch import nn,optim
import torch.nn.functional as F
import utils

device=torch.device('cuda' if torch.cuda.is_available() else 'cpu')

In [2]:
#定义residual
class Residual(nn.Module):
    def __init__(self,in_channels,out_channels,use_1x1conv=False,stride=1):
        #use_1x1conv：若使用1x1卷积层，可以改变输出的通道数；否则输出通道数要等于输入通道数
        #stride:若为1，这不改变输入的长宽；否则会减小输入的长宽
        super(Residual,self).__init__()
        #首先定义两个3x3卷积层
        self.conv1=nn.Conv2d(in_channels,out_channels,kernel_size=3,padding=1,stride=stride)
        self.conv2=nn.Conv2d(out_channels,out_channels,kernel_size=3,padding=1)
        if use_1x1conv:
            self.conv3=nn.Conv2d(in_channels,out_channels,kernel_size=1,stride=stride)
        else:
            self.conv3=None
        #定义两个批量归一化层
        self.bn1=nn.BatchNorm2d(out_channels)
        self.bn2=nn.BatchNorm2d(out_channels)
    
    def forward(self,X):
        Y=F.relu(self.bn1(self.conv1(X)))
        Y=self.bn2(self.conv2(Y))
        if self.conv3:
            X=self.conv3(X)
        return F.relu(Y+X)

In [3]:
#输入和输出形状一致的情况
blk=Residual(3,3)
X=torch.rand(4,3,6,6)
blk(X).shape

torch.Size([4, 3, 6, 6])

In [4]:
#增加输出通道数的同时减半输出的高和宽
blk=Residual(3,6,use_1x1conv=True,stride=2)
blk(X).shape

torch.Size([4, 6, 3, 3])

In [5]:
#定义ResNet前两层
net=nn.Sequential(
    nn.Conv2d(1,64,kernel_size=7,stride=2,padding=3),
    nn.BatchNorm2d(64),
    nn.ReLU(),
    nn.MaxPool2d(kernel_size=3,stride=2,padding=1)
)

In [6]:
#定义ResNet后四层的residual模块
def resnet_block(in_channels,out_channels,num_residuals,first_block=False):
    if first_block:
        assert in_channels==out_channels #第一个模块的通道数输入输出要一致
    blk=[]
    for i in range(num_residuals):
        if i==0 and not first_block:
            blk.append(Residual(in_channels,out_channels,use_1x1conv=True,stride=2))
        else:
            blk.append(Residual(out_channels,out_channels))
    return nn.Sequential(*blk)

In [7]:
net.add_module('resnet_block1',resnet_block(64,64,2,first_block=True))
net.add_module('resnet_block2',resnet_block(64,128,2))
net.add_module('resnet_block3',resnet_block(128,256,2))
net.add_module('resnet_block4',resnet_block(256,512,2))

In [8]:
#加入全局平均池化层和全连接层
net.add_module('global_avg_pool',utils.GlobalAvgPool2d())
net.add_module('fc',nn.Sequential(utils.FlattenLayer(),nn.Linear(512,10)))

这里每个模块里有4个卷积层，加上最开始的卷积层和最后的全连接层，共计18层，这个模型通常也被称为ResNet-18.

In [9]:
#观察每个模块输出
X=torch.rand(1,1,224,224)
for name,layer in net.named_children():
    X=layer(X)
    print(name,'output shape:\t',X.shape)

0 output shape:	 torch.Size([1, 64, 112, 112])
1 output shape:	 torch.Size([1, 64, 112, 112])
2 output shape:	 torch.Size([1, 64, 112, 112])
3 output shape:	 torch.Size([1, 64, 56, 56])
resnet_block1 output shape:	 torch.Size([1, 64, 56, 56])
resnet_block2 output shape:	 torch.Size([1, 128, 28, 28])
resnet_block3 output shape:	 torch.Size([1, 256, 14, 14])
resnet_block4 output shape:	 torch.Size([1, 512, 7, 7])
global_avg_pool output shape:	 torch.Size([1, 512, 1, 1])
fc output shape:	 torch.Size([1, 10])


In [10]:
#训练
batch_size=256
train_iter,test_iter=utils.load_data_fashion_mnist(batch_size,resize=96)

lr,num_epochs=0.001,5
optimizer=torch.optim.Adam(net.parameters(),lr=lr)
utils.train_ch5(net,train_iter,test_iter,num_epochs,device,optimizer)

train on cuda
epoch 1,train loss 0.4089,train acc 0.8488,test acc 0.8716,time 22.5 sec
epoch 2,train loss 0.2504,train acc 0.9063,test acc 0.9042,time 22.7 sec
epoch 3,train loss 0.2077,train acc 0.9226,test acc 0.8745,time 23.0 sec
epoch 4,train loss 0.1822,train acc 0.9333,test acc 0.9087,time 23.2 sec
epoch 5,train loss 0.1572,train acc 0.9412,test acc 0.9240,time 23.1 sec
