### 多尺度问题
为了增强语义性，传统的物体检测模型通常只在深度卷积网络的最后一个特征图上进行后续操作，而这一层对应的下采样率（图像缩小的倍数）通常又比较大，如16、32，造成小物体在特征图上的有效信息较少，小物体的检测性能会急剧下降，这个问题也被称为多尺度问题。

**解决多尺度问题的关键在于如何提取多尺度的特征。**传统的方法有图像金字塔（Image Pyramid），主要思路是将输入图片做成多个尺度，不同尺度的图像生成不同尺度的特征，这种方法简单而有效，大量使用在了COCO等竞赛上，但缺点是非常耗时，计算量也很大。

### FPN
FPN（FeaturePyramid Network）方法融合了不同层的特征，较好地改善了多尺度检测问题。

**FPN将深层的语义信息传到底层，来补充浅层的语义信息，从而获得了高分辨率、强语义的特征，在小物体检测、实例分割等领域有着非常不俗的表现。**

![3.6FPN%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84.jfif](attachment:3.6FPN%E7%BD%91%E7%BB%9C%E7%BB%93%E6%9E%84.jfif)

## FPN总体框架
FPN的总体架构如图所示，主要包含自下而上网络、自上而下网络、横向连接与卷积融合4个部分。

### 自下而上
最左侧为普通的卷积网络，默认使用**ResNet结构**，用作提取语义信息。C1代表了ResNet的前几个卷积与池化层，而C2至C5分别为不同的ResNet卷积组，这些卷积组包含了多个Bottleneck结构，组内的特征图大小相同，组间大小递减。

### 自上而下
首先对C5进行1×1卷积降低通道数得到P5，然后依次进行上采样得到P4、P3和P2，目的是得到与C4、C3与C2长宽相同的特征，以方便下一步进行逐元素相加。这里**采用2倍最邻近上采样，即直接对临近元素进行复制，而非线性插值**。

### 横向连接（Lateral Connection）
目的是为了**将上采样后的高语义特征与浅层的定位细节特征进行融合**。高语义特征经过上采样后，其长宽与对应的浅层特征相同，而通道数固定为256，因此需要对底层特征C2至C4进行1×1卷积使得其通道数变为256，然后两者进行逐元素相加得到P4、P3与P2。由于C1的特征图尺寸较大且语义信息不足，因此没有把C1放到横向连接中。

### 卷积融合
在得到相加后的特征后，利用3×3卷积对生成的P2至P4再进行融合，目的是**消除上采样过程带来的重叠效应**，以生成最终的特征图。

对于实际的物体检测算法，需要在特征图上进行RoI（Region ofInterests，感兴趣区域）提取，而FPN有4个输出的特征图，选择哪一个特征图上面的特征也是个问题。FPN给出的解决方法是，对于不同大小的RoI，使用不同的特征图，大尺度的RoI在深层的特征图上进行提取，如P5，小尺度的RoI在浅层的特征图上进行提取，如P2。

In [1]:
import torch
from fpn import FPN

In [2]:
#利用list来初始化FPN网络
net_fpn = FPN([3, 4, 6, 3]).cuda()
#查看FPN的第一个卷积层
net_fpn.conv1

Conv2d(3, 64, kernel_size=(7, 7), stride=(2, 2), padding=(3, 3), bias=False)

In [3]:
#查看FPN的第一个BN层
net_fpn.bn1

BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)

In [4]:
#查看FPN的第一个ReLU层
net_fpn.relu

ReLU(inplace=True)

In [5]:
#查看FPN的第一个池化层，使用最大值池化
net_fpn.maxpool

MaxPool2d(kernel_size=3, stride=2, padding=1, dilation=1, ceil_mode=False)

In [6]:
#查看FPN的第一个layer，即前面的C2，包含3个Bottleneck
net_fpn.layer1

Sequential(
  (0): Bottleneck(
    (bottleneck): Sequential(
      (0): Conv2d(64, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (1): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU(inplace=True)
      (3): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1), bias=False)
      (4): BatchNorm2d(64, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (5): ReLU(inplace=True)
      (6): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (7): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (relu): ReLU(inplace=True)
    (downsample): Sequential(
      (0): Conv2d(64, 256, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (1): BatchNorm2d(256, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (1): Bottleneck(
    (bottleneck): Sequential(
      (0): Conv2d(256, 64, kernel_size=(1, 1), stride=(1, 1), bias=False)
   

In [7]:
#查看FPN的layer2，即上面的C3，包含4个Bottleneck
net_fpn.layer2

Sequential(
  (0): Bottleneck(
    (bottleneck): Sequential(
      (0): Conv2d(256, 128, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (1): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (2): ReLU(inplace=True)
      (3): Conv2d(128, 128, kernel_size=(3, 3), stride=(2, 2), padding=(1, 1), bias=False)
      (4): BatchNorm2d(128, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
      (5): ReLU(inplace=True)
      (6): Conv2d(128, 512, kernel_size=(1, 1), stride=(1, 1), bias=False)
      (7): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
    (relu): ReLU(inplace=True)
    (downsample): Sequential(
      (0): Conv2d(256, 512, kernel_size=(1, 1), stride=(2, 2), bias=False)
      (1): BatchNorm2d(512, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True)
    )
  )
  (1): Bottleneck(
    (bottleneck): Sequential(
      (0): Conv2d(512, 128, kernel_size=(1, 1), stride=(1, 1), bias=F

In [8]:
#1×1的卷积，以得到P5
net_fpn.toplayer

Conv2d(2048, 256, kernel_size=(1, 1), stride=(1, 1))

In [9]:
#对P4进行平滑的卷积层
net_fpn.smooth1

Conv2d(256, 256, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))

In [10]:
#对C4进行横向处理的卷积层
net_fpn.latlayer1

Conv2d(1024, 256, kernel_size=(1, 1), stride=(1, 1))

In [11]:
input = torch.randn(1, 3, 224, 224).cuda()
output = net_fpn(input)
#返回P2、P3、P4、P5，这4个特征图通道数相同，但特征图尺寸递减
output[0].shape, output[1].shape, output[2].shape, output[3].shape



(torch.Size([1, 256, 56, 56]),
 torch.Size([1, 256, 28, 28]),
 torch.Size([1, 256, 14, 14]),
 torch.Size([1, 256, 7, 7]))