# ResNet

## 残差块（ResNet Block）

In [3]:
import torch
from torch import nn
from torch.nn import functional as F
#from d2l import torch as d2l

### - 标准残差块（Identity Block）

标准残差块是 ResNet 中常用的基本构建块，适用于输入激活值（记作 $a^{[l]}$）与输出激活值（记作 $a^{[l+2]}$）具有相同维度的情况。为了更好地解释 ResNet 的标准残差块发生的不同步骤，下面是一个展示每一步的替代图表：

<img src="images/idblock2_kiank.png" style="width:650px;height:150px;">
<caption><center> <u> <font color='purple'> **图 3** </u><font color='purple'> ：**标准残差块。** 跳跃连接“跳过”了两层。</center></caption>

上方路径是“快捷路径（shortcut path）”。下方路径是“主路径（main path）”。在这个图表中，我们明确标出了每一层中的 CONV2D 和 ReLU 步骤。为了加速训练，我们还添加了 BatchNorm 步骤。



<img src="images/idblock3_kiank.png" style="width:650px;height:150px;">
<caption><center> <u> <font color='purple'> **图 4** </u><font color='purple'> ：**标准残差块。** 跳跃连接“跳过”了三层。</center></caption>

以下是具体的步骤：

主路径的第一个组件：
- 第一个 CONV2D 层有 $F_1$ 个过滤器，形状为 (1,1)，步幅为 (1,1)。其填充方式为 "valid"，名称应为 `conv_name_base + '2a'`。使用随机初始化时的种子值为 0。
- 第一个 BatchNorm 层对通道轴进行归一化，其名称应为 `bn_name_base + '2a'`。
- 然后应用 ReLU 激活函数。这一步无需名称和超参数。

主路径的第二个组件：
- 第二个 CONV2D 层有 $F_2$ 个过滤器，形状为 $(f,f)$，步幅为 (1,1)。其填充方式为 "same"，名称应为 `conv_name_base + '2b'`。使用随机初始化时的种子值为 0。
- 第二个 BatchNorm 层对通道轴进行归一化，其名称应为 `bn_name_base + '2b'`。
- 然后应用 ReLU 激活函数。这一步无需名称和超参数。

主路径的第三个组件：
- 第三个 CONV2D 层有 $F_3$ 个过滤器，形状为 (1,1)，步幅为 (1,1)。其填充方式为 "valid"，名称应为 `conv_name_base + '2c'`。使用随机初始化时的种子值为 0。
- 第三个 BatchNorm 层对通道轴进行归一化，其名称应为 `bn_name_base + '2c'`。注意，此组件没有 ReLU 激活函数。

最终步骤：
- 将快捷路径和输入相加。
- 然后应用 ReLU 激活函数。这一步无需名称和超参数。

- ResNet沿用了VGG全3x3卷积层的设计，残差块里首先有2个有相同输出通道数的3x3卷积层。每个卷积层后接一个批量归一化（Batch Norm）和ReLU激活函数。然后我们将输入跳过这2个卷积运算后直接加在最后的ReLU激活函数前。

- 这样的设计要求2个卷积层的输出与输入形状一样，从而可以相加。如果想要改变通道数，就需要引入一个额外的1x1卷积层来将输入变换成需要的形状后再做相加运算。

In [5]:
class Residual(nn.Module):
    def __init__(self, input_channels, num_channels, use_1x1conv=False, strides=1):
        ####
        #@param
        # input_channels:输入通道数
        # num_channels:  输出通道数
        # use_1x1conv:   是否使用1x1卷积层
        # strides:       步幅
        ####
        super().__init__()
        #第一个3x3卷积，输入和输出的通道数相同，也支持通过选择不同的stride（步幅）来调整通道数。如果选择了调整通道数，1x1卷积层中也会做相同变换
        self.conv1 = nn.Conv2d(
            input_channels, num_channels, kernel_size=3,
                            padding=1, stride=strides)
        
        self.conv2 = nn.Conv2d(
            num_channels, num_channels, kernel_size=3, padding=1)
        
        if use_1x1conv:
            #注意这里的“输入通道数”和“输出通道数”，输出通道数为num_channels从而和3x3卷积层的输出结果保持通道数相同 --> 从而能做相加运算
            self.conv3 = nn.Conv2d(input_channels, num_channels, kernel_size=1, stride=strides)
        else:
            self.conv3 = None
        
        self.bn1 = nn.BatchNorm2d(num_channels)
        self.bn2 = nn.BatchNorm2d(num_channels)
        self.relu = nn.ReLU(inplace=True)
    
    def forward(self, X):
        Y = F.relu(self.bn1(self.conv1(X)))
        Y = self.bn2(self.conv2(Y))
        if self.conv3:
            X = self.conv3(X)
        #Y += X
        return F.relu(Y + X)

输入和输出形状一致

增加输出通道数的同时，减半输出的高和宽

In [9]:
blk = Residual(3,3)
X = torch.rand(4,3,6,6)
Y = blk(X)
Y.shape

torch.Size([4, 3, 6, 6])

In [14]:
blk = Residual(3,6, use_1x1conv=True, strides=2)
blk(X).shape

torch.Size([4, 6, 3, 3])

## ResNet模型

![ResNet架构](images/ResNet_arch.png)

In [25]:
#进入残差块之前的操作，和GoogleNet类似
net = nn.Sequential(
    nn.Conv2d(1, 64, kernel_size=7, stride=2, padding=3),
    nn.BatchNorm2d(64),
    nn.ReLU(),
    nn.MaxPool2d(kernel_size=3, stride=2, padding=1))

### NOTE

**Q: '*'blk的含义**

blk = [Residual1, Residual2, Residual3]
nn.Sequential(*blk)

--> 等价于

nn.Sequential(Residual1, Residual2, Residual3)

**Q: 为什么第一个block不需要1x1卷积？**
1. 第一个block指的是从输入经过7x7卷积层（7x7 Conv）、批归一化(Batch Norm)和最大池化（3x3 Max Pooling）之后的第一个残差块（Residual Block）
2. 第一个block是直接作用于网络的输入数据，通常不会改变特征图的通道数或空间尺寸，因此主路径和short cut的输出天然一致，不需要额外的调整操作

In [45]:
def resnet_block(in_channels, out_channels, num_residuals, first_block=False):
    if first_block:
        assert in_channels == out_channels # 第一个模块的通道数同输入通道数一致
    blk = []
    for i in range(num_residuals):
        if i == 0 and not first_block:
            blk.append(Residual(in_channels, out_channels, use_1x1conv=True, stride=2))
        else:
            blk.append(Residual(out_channels, out_channels))
    return nn.Sequential(*blk)

In [None]:
net.add_module("resnet_block1", resnet_block(64,64,2, first_block=True))
net.add_module("resnet_block2", resnet_block(64,128,2, first_block=True))
net.add_module("resnet_block3", resnet_block(128,256,2, first_block=True))
net.add_module("resnet_block4", resnet_block(256,512,2, first_block=True))