# 0. Background
1. 一个common sense是，虽然网络变深会利于学习，但是gradient在深度比较深的情况下会接近0
2. 一个22+8层的网络我们希望比22层更好，通过添加short的方式，如果train好了那8层固然好，train不好可以直接走short cut这个路径，不影响前面22层的结果
![](https://gitee.com/wyjyoga/my-pic-go/raw/master/img/202302272145886.png)
3. ![](https://gitee.com/wyjyoga/my-pic-go/raw/master/img/202302272148345.png)

# 1. residual block
1. 一种设计是2个3×的conv+一个short。很显然，**残差块要求2个卷积层的输出与输入形状一样**，才能让x直接加到F(x)上
    - 但是这种设计参数量太大：假设input_channel/ feature map = 256 = output_channel，那么一个conv其实是需要256×256×(3×3)=600K个参数
2. 所以另一种设计是使用1×1大小的conv改变通道数，（先减小再放大）
    - 比如下面代码实现的，只是对x也要改变通道的操作

# 2. Why res？
1. 一种解释是，本身NN学习的是mapping是从x到H(x),现在有了res结构，它把H(x)拆解 = F(x)+x，因此F(x) = H(x) - x，学的是这样一个残差
2. 下图实现的是: ![](https://gitee.com/wyjyoga/my-pic-go/raw/master/img/202302272205010.png)

In [None]:
from torch import nn
import torch.nn.functional as F
class ResBlk(nn.Module):
    def __init__(self,ch_in,ch_out):
        super(ResBlk, self).__init__()
        self.conv1=nn.Conv2d(ch_in,ch_out,kernel_size=3,stride=1,padding=1)
        self.bn1=nn.BatchNorm2d(ch_out)
        self.conv2=nn.Conv2d(ch_out,ch_out,kernel_size=3,stride=1,padding=1)
        self.bn2=nn.BatchNorm2d(ch_out)

        # extra表示的就是res层，它的input是传进来的ch_in的大小，它的输出是ch_out的大小
        self.extra=nn.Sequential()
        # 当in=64 out=256，为了使大小一致可以进行element-wise的加法，它使用1×1大小的kernel来变化feature map的数量，但是大小不会变化
        if ch_out !=ch_in:  # [b,ch_in,h,w]=[b,ch_out,h,w]
            self.extra= nn.Sequential(
            nn.Conv2d(ch_in,ch_out,kernel_size=1,stride=1),
            nn.BatchNorm2d(ch_out))

    def forward(self,x):
        out = F.relu(self.bn1(self.conv1(x)))
        out = self.bn2(self.conv2(out))
        out = self.extra(x)+out

# 3. resnet与densenet
1. resnet其实是做了加法，densenet则是做了channel-wise的concat的操作
2. ![](https://gitee.com/wyjyoga/my-pic-go/raw/master/img/202302272216835.png)

# 4. 关于resnet的stride的补充: 两种shortcut路径
1. 2种shortcut路径，取决于残差路径是否需要改变feature map的**数量**和**尺寸**

In [1]:
if stride != 1 or in_channel != out_channel # 这个才是正确的写法

SyntaxError: invalid syntax (2013540888.py, line 1)

1. `in_channel != out_channel` 深度上通道不一样，很明显使用`1x1` 的卷积改变通道。
2. 代码中使用的默认 `pad = 1`， `stripe = 1`， 此时使用`1×1`时输入输出尺寸不变。当`stride ！= 1` 时，会导致res需要链接的2个feature map尺寸不同，一般这种情况**很少**，最多是通道上的不同。


In [2]:
class ResBlk(nn.Module):
    """
    resnet block
    """

    def __init__(self,ch_in,ch_out,stride=1) -> None:
        super().__init__()

        self.conv1 = nn.Conv2d(ch_in,ch_out,kernel_size=3,stride=stride,padding=1)
        self.bn1 = nn.BatchNorm2d(ch_out)
        self.conv2 = nn.Conv2d(ch_out,ch_out,kernel_size=3,stride=1,padding=1)
        self.bn2 = nn.BatchNorm2d(ch_out)

        # 用大小=1的kernel
        self.extra = nn.Sequential()
        if ch_out != ch_in:
            self.extra = nn.Sequential(
                # wyj: 注意这里stride和外面的stride保持一致，目的是让short cut上和外面达到同样的“长度减半”的效果
                nn.Conv2d(ch_in,ch_out,kernel_size=1,stride=stride),
                nn.BatchNorm2d(ch_out)
            )

    def forward(self,x):
        print(f"before res, data size: {x.shape}")

        out = F.relu(self.bn1(self.conv1(x)))
        out = F.relu(self.bn2(self.conv2(out)))
        # Short cut: element-wise add
        # x:[b,ch_in,h,w], out:[b,ch_out,h,w]

        res_value = self.extra(x)
        # print(f"after res, the res_value size: {res_value.shape}")
        out = res_value+out
        print(f"after res, out size: {out.shape}")

        return out


NameError: name 'nn' is not defined