**ResNet的思想在于引入了一个深度残差框架来解决梯度消失问题，即让卷积网络去学习残差映射，而不是期望每一个堆叠层的网络都完整地拟合潜在的映射（拟合函数）。**如图所示，对于神经网络，如果我们期望的网络最终映射为H(x)，左侧的网络需要直接拟合输出H(x)，而右侧由ResNet提出的子模块，通过引入一个shortcut（捷径）分支，将需要拟合的映射变为残差F(x):H(x)-x。ResNet给出的假设是：相较于直接优化潜在映射H(x)，优化残差映射F(x)是更为容易的。

![3.4.1%E6%99%AE%E9%80%9A%E7%BD%91%E7%BB%9C%E4%B8%8EResNet%E7%9A%84%E6%AE%8B%E5%B7%AE%E6%98%A0%E5%B0%84.jfif](attachment:3.4.1%E6%99%AE%E9%80%9A%E7%BD%91%E7%BB%9C%E4%B8%8EResNet%E7%9A%84%E6%AE%8B%E5%B7%AE%E6%98%A0%E5%B0%84.jfif)

在ResNet中，上述的一个残差模块称为**Bottleneck**。ResNet有不同网络层数的版本，如18层、34层、50层、101层和152层，这里以常用的50层来讲解。ResNet-50的网络架构如图所示，最主要的部分在于中间经历了4个大的卷积组，而这4个卷积组分别包含了3、4、6这3个Bottleneck模块。最后经过一个全局平均池化使得特征图大小变为1×1，然后进行1000维的全连接，最后经过Softmax输出分类得分。

![3.4.2ResNet-50%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84%E5%9B%BE.jfif](attachment:3.4.2ResNet-50%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84%E5%9B%BE.jfif)

由于F(x)+x是逐通道进行相加，因此根据两者是否通道数相同，存在两种Bottleneck结构。对于通道数不同的情况，比如每个卷积组的第一个Bottleneck，需要利用1×1卷积对x进行Downsample操作，将通道数变为相同，再进行加操作。对于相同的情况下，两者可以直接进行相加。

In [1]:
import torch
from resnet_bottleneck import Bottleneck

In [2]:
#实例化Bottlebeck，输入通道数为64，输出为256，对应第一个卷积组的第一个Bottleneck
bottleneck_1_1 = Bottleneck(64, 256).cuda()
bottleneck_1_1

#Bottleneck作为卷积堆叠层，包含了1×1、3×3、1×1这3个卷积层
#利用Downsample结构将恒等映射的通道数变为与卷积堆叠层相同，保证可以相加

Bottleneck(
  (bottleneck): Sequential(
    (0): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
    (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (2): ReLU(inplace=True)
    (3): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
    (4): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    (5): ReLU(inplace=True)
    (6): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
    (7): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  )
  (relu): ReLU(inplace=True)
  (downsample): Sequential(
    (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1))
    (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
  )
)

In [3]:
input = torch.randn(1, 64, 56, 56).cuda()
output = bottleneck_1_1(input)
#相比输入，输出的特征图分辨率没变，而通道数变为4倍
input.shape, output.shape

(torch.Size([1, 64, 56, 56]), torch.Size([1, 256, 56, 56]))