## 重新考察全连接层

对于全连接网络，输入和输出都是一个向量，每个权重和每个输入都会有累乘的关系。

如果，将输入和输出变形为矩阵(宽度，高度)，就是卷积操作。对应的，我们可以将权重变形为$4-D$的张量, 从$(h, w)$到$(h^{\prime}, w^{\prime})$。

那么我们的输出可以表示为$h_{i, j}$:

$$
h_{i, j}=\sum_{k l} w_{i, j, k, l} x_{k, l}=\sum_{a b} v_{i, j, a, b} x_{i+a, j+b}
$$

其中$x_{k, l}$是我们的输入, 然后对$k, l$求和。之后对下标做一些变换: $v_{i,j,a,b} = w_{i, j, i+a, j+b}$, 来引出卷积的做法, 其中$v$是$w$的重新索引:。

### 平移不变性

&emsp;&emsp;假设$x$的位置的变换，这将导致权重$v$值的变换。因此想要实现平移不变性，$v$不应该依赖于$(i, j)$，解决方法是$v_{i,j,a,b}=v_{a, b}$:

$$
h_{i,j} = \sum_{a,b} v_{a,b} x_{i+a, j+b}
$$

&emsp;&emsp;这就是2维卷积。

### 局部性

&emsp;&emsp;当评估$h_{i,j}$时，我们不应该用远离$x_{i,j}$的参数。解决方案是：当$|a|, |b| > \Delta$时，使得$v_{a, b}=0$:

$$
h_{i, j}=\sum_{a=-\Delta}^{\Delta} \sum_{b=-\Delta}^{\Delta} v_{a, b} x_{i+a, j+b}
$$



### 卷积计算示例



<img src="../../images/07-juanji.png" width="50%">

&emsp;&emsp;上图中$19$的计算方式如下: $0 \times 0 + 1 \times 1 + 3 \times 2 + 4 \times 3 = 19$。

&emsp;&emsp;假设我们的

1. 输入为$X$, 它的维度为$n_{h} \times n_{w}$；
2. 核为$W$, 它的纬度为$k_{h} \times k_{w}$,；
3. 偏差$b \in \mathbf{R}$。
4. 输出为$Y$, 纬度为: $(n_{h} - k_{h} + 1) \times (n_{w} - k_{w} + 1)$。

&emsp;&emsp;其中的$W$和$b$是可学习参数。

&emsp;&emsp;卷积层是将输入和核矩阵进行交叉相关计算，再加上偏移后得到输出。

$1 \times 1$卷积等价于全连接

## 矩阵运算实现二维卷积

In [1]:
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

input_feature_map = torch.randn(5, 5)
kernel = torch.randn(3, 3)

def matrix_multiplication_for_conv2d(input_feature_map, kernel, stride=1, padding=0):
    if padding > 0:
        input_feature_map = F.pad(input_feature_map, (padding, padding, padding, padding))
    
    input_h, input_w = input_feature_map.shape
    kernel_h, kernel_w = kernel.shape
    
    output_h = (math.floor((input_h - kernel_h)/stride) + 1)  # 卷积输出高度
    output_w = (math.floor((input_w - kernel_w)/stride) + 1)  # 卷积输出宽度
    output = torch.zeros(output_h, output_w)
    
    for i in range(0, input_h - kernel_h + 1, stride):  # 对高度进行遍历
        for j in range(0, input_w - kernel_w + 1, stride):  # 对宽度进行遍历
            region = input_feature_map[i:i+kernel_h, j:j+kernel_w]  # 取出被核滑动到的区域
            output[int(i/stride), int(j/stride)] = torch.sum(region * kernel)  # 点乘，并赋值给输出位置的元素
    
    return output

调用PyTorch的API来验证一下书写结果是否正确

In [2]:
mat_mul_conv_output = matrix_multiplication_for_conv2d(input_feature_map, kernel)
print(mat_mul_conv_output)

pytorch_api_conv_output = F.conv2d(input_feature_map.reshape((1, 1, input_feature_map.shape[0], 
                                                              input_feature_map.shape[1])),
                                  kernel.reshape((1, 1, kernel.shape[0], kernel.shape[1])))
print(pytorch_api_conv_output.squeeze(0).squeeze(0))

tensor([[-2.5662,  1.5358,  0.1674],
        [-1.2935, -3.0918, -0.7134],
        [-2.6432, -2.5372, -2.9910]])
tensor([[-2.5662,  1.5358,  0.1674],
        [-1.2935, -3.0918, -0.7134],
        [-2.6432, -2.5372, -2.9910]])


### 填充和步幅

&emsp;&emsp;填充和步幅是控制卷积层输出大小的两个参数。输出图片的大小为$(n_{h} - k_{h} + 1) \times (n_{w} - k_{w} + 1)$, 因此卷积之后输出图片会越变越小，而深度学习考虑的是如何用更深的网络来训练模型，所以想要更深的网络的话，我们需要做填充：**在输入周围添加额外的行和列**。

&emsp;&emsp;假设填充的为$p_{h}$行和$p_{w}$列，那么此时输出图片的大小为：$(n_{h} - k_{h} + p_{h} + 1) \times (n_{w} - k_{w} + p_{w} + 1)$。

&emsp;&emsp;通常来说取，$p_{h}=k_{h} - 1$, $p_{w} = k_{w} - 1$，此时的输入输出维度是相等的：

- 当$k_{h}$为奇数：在上下两侧填充$p_{h} / 2$。
- 当$k_{h}$为偶数：在上侧填充$「p_{h} / 2$，下侧填充$p_{h} / 2」$。

&emsp;&emsp;对于填充来说，是希望可以控制图片不要变小地太快，但是对于一张很大的图片来说，我们希望它能够快速变小的话，就可以通过步幅来进行调整。不然的话，网络可能会太深，需要大量的计算得出较小的输出。

&emsp;&emsp;给定高度$s_{h}$和宽度$s_{w}$的步幅，输出形状是：$((n_{h} - k_{h} + p_{h}) / s_{h} + 1) \times ((n_{w} - k_{w} + p_{w}) / s_{w} + 1)$。

再来验证一下padding操作之后，是否会是一样的

In [3]:
mat_mul_conv_output = matrix_multiplication_for_conv2d(input_feature_map, kernel, padding=1)
print(mat_mul_conv_output)

pytorch_api_conv_output = F.conv2d(input_feature_map.reshape((1, 1, input_feature_map.shape[0], 
                                                              input_feature_map.shape[1])),
                                  kernel.reshape((1, 1, kernel.shape[0], kernel.shape[1])),
                                  padding=1)
print(pytorch_api_conv_output.squeeze(0).squeeze(0))

tensor([[ 3.5391,  1.5011, -3.9646, -0.9686, -1.4881],
        [-4.0826, -2.5662,  1.5358,  0.1674,  1.4360],
        [-1.4680, -1.2935, -3.0918, -0.7134,  2.4125],
        [ 0.6498, -2.6432, -2.5372, -2.9910, -0.1529],
        [-1.4495, -0.1266, -0.3789,  1.6911,  2.3553]])
tensor([[ 3.5391,  1.5011, -3.9646, -0.9686, -1.4881],
        [-4.0826, -2.5662,  1.5358,  0.1674,  1.4360],
        [-1.4680, -1.2935, -3.0918, -0.7134,  2.4125],
        [ 0.6498, -2.6432, -2.5372, -2.9910, -0.1529],
        [-1.4495, -0.1266, -0.3789,  1.6911,  2.3553]])


再来验证一下stride操作之后，是否会是一样的

In [4]:
mat_mul_conv_output = matrix_multiplication_for_conv2d(input_feature_map, kernel, stride=2, padding=1)
print(mat_mul_conv_output)

pytorch_api_conv_output = F.conv2d(input_feature_map.reshape((1, 1, input_feature_map.shape[0], 
                                                              input_feature_map.shape[1])),
                                  kernel.reshape((1, 1, kernel.shape[0], kernel.shape[1])),
                                  stride=2,
                                  padding=1)
print(pytorch_api_conv_output.squeeze(0).squeeze(0))

tensor([[ 3.5391, -3.9646, -1.4881],
        [-1.4680, -3.0918,  2.4125],
        [-1.4495, -0.3789,  2.3553]])
tensor([[ 3.5391, -3.9646, -1.4881],
        [-1.4680, -3.0918,  2.4125],
        [-1.4495, -0.3789,  2.3553]])


## 滑动矩阵拉直实现二维卷积

我们可以将卷积过程中的矩阵运算拉平，然后用矩阵运算得到最终的结果。也就是将滑动到的卷积的区域拉成一个行向量，再将`kernel`拉成一个列向量，对其进行矩阵相乘得到最终的卷积结果。也就是将滑动相乘的计算过程，变成一个滑动的向量和`kernel`进行矩阵运算。


In [5]:
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

input_feature_map = torch.randn(5, 5)
kernel = torch.randn(3, 3)

def matrix_multiplication_for_conv2d_flatten(input_feature_map, kernel, stride=1, padding=0):
    if padding > 0:
        input_feature_map = F.pad(input_feature_map, (padding, padding, padding, padding))
    
    input_h, input_w = input_feature_map.shape
    kernel_h, kernel_w = kernel.shape
    
    output_h = (math.floor((input_h - kernel_h)/stride) + 1)  # 卷积输出高度
    output_w = (math.floor((input_w - kernel_w)/stride) + 1)  # 卷积输出宽度
    output = torch.zeros(output_h, output_w)
    
    # region_matrix存储所有拉平后的滑动过程中的特征区域
    region_matrix = torch.zeros(output.numel(), kernel.numel())
    kernel_matrix = kernel.reshape((kernel.numel(), 1))  # kernel的列向量形式
    row_index = 0
    for i in range(0, input_h - kernel_h + 1, stride):  # 对高度进行遍历
        for j in range(0, input_w - kernel_w + 1, stride):  # 对宽度进行遍历
            region = input_feature_map[i:i+kernel_h, j:j+kernel_w]  # 取出被核滑动到的区域
            region_vector = torch.flatten(region)
            region_matrix[row_index] = region_vector
            row_index += 1
    output_matrix = region_matrix @ kernel_matrix
    output = output_matrix.reshape((output_h, output_w))
    return output

之后我们验证一下两者运算的结果是否相同:

In [6]:
mat_mul_conv_output = matrix_multiplication_for_conv2d_flatten(input_feature_map, kernel, stride=2, padding=1)
print(mat_mul_conv_output)

pytorch_api_conv_output = F.conv2d(input_feature_map.reshape((1, 1, input_feature_map.shape[0], 
                                                              input_feature_map.shape[1])),
                                  kernel.reshape((1, 1, kernel.shape[0], kernel.shape[1])),
                                  stride=2,
                                  padding=1)
print(pytorch_api_conv_output.squeeze(0).squeeze(0))

tensor([[-2.0408,  4.8012,  0.4941],
        [-1.9264, -0.7051,  0.8267],
        [ 0.2934, -1.3267, -0.7641]])
tensor([[-2.0408,  4.8012,  0.4941],
        [-1.9264, -0.7051,  0.8267],
        [ 0.2934, -1.3267, -0.7641]])


## 添加batch size维度和channel 维度的卷积

### 卷积层里的多输入多输出通道

&emsp;&emsp;通道数通常是大家通常会仔细去设计的超参数:

- **多个输入通道**:

&emsp;&emsp;图像通常是多个输入通道的，假设我们的

1. 输入为$X$, 它的维度为: $c_{i} \times n_{h} \times n_{w}$；
2. 核为$W$, 它的纬度为: $c_{i} \times k_{h} \times k_{w}$；
3. 偏差$b \in \mathbf{R}$。
4. 输出为$Y$, 纬度为: $m_{h} \times m_{w}$。

&emsp;&emsp;也就是说，输出是一个单通道的。每一个通道的对应元素相加，得到最终的单通道的输出。

- **多个输出通道**:

&emsp;&emsp;我们可以用多个三维卷积核，每个核生成一个输出通道。

1. 输入为$X$, 它的维度为: $c_{i} \times n_{h} \times n_{w}$；
2. 核为$W$, 它的纬度为: $c_{o} \times c_{i} \times k_{h} \times k_{w}$；
3. 偏差$b \in \mathbf{R}$。
4. 输出为$Y$, 纬度为: $c_{o} \times m_{h} \times m_{w}$。

- **多个输入和输出通道**

&emsp;&emsp;每个输出通道可以识别特定模式。输入通道核识别并组合输入中的模式。

- $1 \times 1$卷积层

&emsp;&emsp;$k_{h} = k_{w} = 1$是一个受欢迎的选择，它不识别空间模式，只是融合通道。

- **二维卷积层通用情况**:

&emsp;&emsp;我们可以用多个三维卷积核，每个核生成一个输出通道。

1. 输入为$X$, 它的维度为: $c_{i} \times n_{h} \times n_{w}$；
2. 核为$W$, 它的纬度为: $c_{o} \times c_{i} \times k_{h} \times k_{w}$；
3. 偏差$c_{o} \times c_{i}$。
4. 输出为$Y$, 纬度为: $c_{o} \times m_{h} \times m_{w}$。

In [18]:
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

input_feature_map = torch.randn(5, 5)
kernel = torch.randn(3, 3)

def matrix_multiplication_for_conv2d_full(input_feature_map, kernel, bias=0, stride=1, padding=0):
    
    # input, kernel都是4维的张量。
    if padding > 0:
        # pad操作是从里到外的，前两个padding是width维度，之后是height维度，之后是channel维度，再之后是batch size维度
        input_feature_map = F.pad(input_feature_map, (padding, padding, padding, padding, 0, 0, 0, 0))
    
    batch_size, in_channel, input_h, input_w = input_feature_map.shape
    out_channel, in_channel, kernel_h, kernel_w = kernel.shape
    if bias is None:
        bias = torch.zeros(out_channel)
    
    output_h = (math.floor((input_h - kernel_h)/stride) + 1)  # 卷积输出高度
    output_w = (math.floor((input_w - kernel_w)/stride) + 1)  # 卷积输出宽度
    output = torch.zeros(batch_size, out_channel, output_h, output_w) # 初始化输出矩阵
    
    for ind in range(batch_size):
        for oc in range(out_channel):
            for ic in range(in_channel):
                for i in range(0, input_h-kernel_h + 1, stride):  # 对高度进行遍历
                    
                    for j in range(0, input_w-kernel_w + 1, stride):  # 对宽度进行遍历
                        region = input_feature_map[ind, ic, i:i+kernel_h, j:j+kernel_w]  # 取出被核滑动到的区域
                        # 点乘，并赋值给输出位置的元素
                        output[ind, oc, int(i/stride), int(j/stride)] += torch.sum(region * kernel[oc, ic])  
            output[ind, oc] += bias[oc]
    return output

input = torch.ones(2, 2, 5, 5)  # batch_size, in_channel, in_height, in_weidth

kernel = torch.ones(3, 2, 3, 3) # out_channel, in_channel, kernel_h, kernel_w
bias = torch.ones(3)
pytorch_conv2d_api_out = F.conv2d(input=input, weight=kernel, bias=bias, padding=1, stride=2)
mm_conv2d_full_output = matrix_multiplication_for_conv2d_full(input, kernel, bias=bias, padding=1, stride=2)
print(torch.allclose(pytorch_conv2d_api_out, mm_conv2d_full_output))
# print(pytorch_conv2d_api_out)
# print(mm_conv2d_full_output)


True


返回结果为True，所以实现的卷积操作和官方API实现的结果是一样的。

## kernel填充并拉直实现二维卷积

如果将kernel不拉平，而是将其填充，填充为输入特征图这么大，我们同样可以进行卷积运算，之后可以变形为转置卷积。

In [20]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 通过对kernel进行展开来实现二维卷积，并推导出转置卷积，不考虑batchsize 、channel大小, 假设stride=1
def get_kernel_matrix(kernel, input_size):
    """基于kernel和输入特征图的大小来得到填充拉直后的kernel堆叠的矩阵"""
    kernel_h, kernel_w = kernel.shape
    input_h, input_w = input_size
    num_out = (input_h - kernel_h + 1) * (input_w - kernel_w + 1)  # 输出特征图元素个数
    result = torch.zeros((num_out, input_h * input_w))  # 初始化结果矩阵
    count = 0
    for i in range(0, input_h - kernel_h + 1):
        for j in range(0, input_w - kernel_w + 1):
            # 先列，后行
            padded_kernel = F.pad(kernel, (j, input_w-kernel_w-j, i, input_h-kernel_h-i))
            result[count] = padded_kernel.flatten()
            count += 1
    return result

kernel = torch.randn(3, 3)
input = torch.randn(4, 4)
kernel_matrix = get_kernel_matrix(kernel, input.shape)  # 4 * 16

mm_conv2d_output = kernel_matrix @ input.reshape((-1, 1))  # 通过矩阵相乘来计算卷积。
pytorch_conv2d_output = F.conv2d(input.unsqueeze(0).unsqueeze(0), kernel.unsqueeze(0).unsqueeze(0))

print(mm_conv2d_output)
print(pytorch_conv2d_output)

tensor([[-0.3145],
        [ 0.8220],
        [ 2.6329],
        [ 2.0421]])
tensor([[[[-0.3145,  0.8220],
          [ 2.6329,  2.0421]]]])


## 转置卷积

In [24]:
import torch
import torch.nn as nn
import torch.nn.functional as F

# 通过对kernel进行展开来实现二维卷积，并推导出转置卷积，不考虑batchsize 、channel大小, 假设stride=1
def get_kernel_matrix(kernel, input_size):
    """基于kernel和输入特征图的大小来得到填充拉直后的kernel堆叠的矩阵"""
    kernel_h, kernel_w = kernel.shape
    input_h, input_w = input_size
    num_out = (input_h - kernel_h + 1) * (input_w - kernel_w + 1)  # 输出特征图元素个数
    result = torch.zeros((num_out, input_h * input_w))  # 初始化结果矩阵
    count = 0
    for i in range(0, input_h - kernel_h + 1):
        for j in range(0, input_w - kernel_w + 1):
            # 先列，后行
            padded_kernel = F.pad(kernel, (j, input_w-kernel_w-j, i, input_h-kernel_h-i))
            result[count] = padded_kernel.flatten()
            count += 1
    return result

kernel = torch.randn(3, 3)
input = torch.randn(4, 4)
kernel_matrix = get_kernel_matrix(kernel, input.shape)  # 4 * 16

mm_conv2d_output = kernel_matrix @ input.reshape((-1, 1))  # 通过矩阵相乘来计算卷积。
pytorch_conv2d_output = F.conv2d(input.unsqueeze(0).unsqueeze(0), kernel.unsqueeze(0).unsqueeze(0))

mm_transpose_conv2d_output = kernel_matrix.transpose(-1, -2) @ mm_conv2d_output  # 通过矩阵运算得到转置卷积
pytorch_transposed_conv2d_output = F.conv_transpose2d(pytorch_conv2d_output, kernel.unsqueeze(0).unsqueeze(0))

print(mm_transpose_conv2d_output)
print(pytorch_transposed_conv2d_output)

tensor([[ 2.6518],
        [ 2.1010],
        [ 0.5174],
        [ 0.9915],
        [ 3.2721],
        [-0.2065],
        [-4.1480],
        [-3.9849],
        [ 2.2477],
        [ 0.6916],
        [-0.5959],
        [ 0.7970],
        [ 0.4235],
        [-0.5867],
        [-0.7200],
        [ 0.5554]])
tensor([[[[ 2.6518,  2.1010,  0.5174,  0.9915],
          [ 3.2721, -0.2065, -4.1480, -3.9849],
          [ 2.2477,  0.6916, -0.5959,  0.7970],
          [ 0.4235, -0.5867, -0.7200,  0.5554]]]])


## 空洞卷积与群卷积

dilation和group默认都等于1。dilation控制输入特征图是否是紧凑的。

In [25]:
import torch
import torch.nn as nn
import torch.nn.functional as F

a = torch.randn(7, 7)

print(a)
print(a[0:3, 0:3])  # dilation=1
print(a[0:5:2, 0:5:2])  # dilation=2

tensor([[ 1.2102, -2.4184,  0.9865,  0.8620,  0.6155, -1.1641, -0.3031],
        [ 1.3455, -0.5780, -1.9160, -2.2002,  0.9185, -0.0121,  0.4882],
        [-2.2679,  0.7489,  0.1389,  0.6044, -1.8629,  1.1583, -1.4995],
        [ 0.7683,  1.0415, -0.3213,  1.3037, -1.4020,  0.2959,  0.8235],
        [ 1.7221,  0.0756, -1.6799,  1.4399,  0.1692,  1.0769,  0.4627],
        [-0.5466,  1.2555,  0.1157, -0.2629, -0.6744, -2.4479, -0.5838],
        [-1.2917, -1.4710, -1.4848,  0.2151,  0.6331,  0.7295,  1.1923]])
tensor([[ 1.2102, -2.4184,  0.9865],
        [ 1.3455, -0.5780, -1.9160],
        [-2.2679,  0.7489,  0.1389]])
tensor([[ 1.2102,  0.9865,  0.6155],
        [-2.2679,  0.1389, -1.8629],
        [ 1.7221, -1.6799,  0.1692]])


groups不等于1的话，就会将大的卷积分成小卷积。比如in_channel, out_channel = 2, 4， groups=2的话，我们就会有两组卷积: 两组卷积都是sub_in_channel, sub_out_channel = 1, 2，整体来看输入输出是没有维度上的差异的。也就是groups大于1的话，通道融合不需要完全充分，只需要在一个groups内进行融合，最后拼接。

In [55]:
import math
import torch
import torch.nn as nn
import torch.nn.functional as F

input_feature_map = torch.randn(5, 5)
kernel = torch.randn(3, 3)

def matrix_multiplication_for_conv2d_final(input_feature_map, kernel, bias=0, stride=1, padding=0, \
                                           dilation=1, groups=1):
    
    
    # input, kernel都是4维的张量。
    if padding > 0:
        # pad操作是从里到外的，前两个padding是width维度，之后是height维度，之后是channel维度，再之后是batch size维度
        input_feature_map = F.pad(input_feature_map, (padding, padding, padding, padding, 0, 0, 0, 0))
    
    batch_size, in_channel, input_h, input_w = input_feature_map.shape
    out_channel, _, kernel_h, kernel_w = kernel.shape
    
    assert out_channel % groups == 0 and in_channel % groups == 0, "groups必须要同时被输入通道数和输出通道数整除"
    
    input_feature_map = input_feature_map.reshape((batch_size, groups, in_channel// groups, input_h, input_w))
    
    kernel = kernel.reshape((groups, out_channel//groups, in_channel//groups, kernel_h, kernel_w))
    
    kernel_h = (kernel_h-1)*(dilation-1) + kernel_h  # 插入空洞之后的高宽
    kernel_w = (kernel_w-1)*(dilation-1) + kernel_w
    if bias is None:
        bias = torch.zeros(out_channel)
    
    output_h = math.floor((input_h - kernel_h)/stride) + 1  # 卷积输出高度
    output_w = math.floor((input_w - kernel_w)/stride) + 1  # 卷积输出宽度
    output = torch.zeros(batch_size, groups, out_channel//groups, output_h, output_w) # 初始化输出矩阵
    
    for ind in range(batch_size):
        for g in range(groups):
            for oc in range(out_channel//groups):
                for ic in range(in_channel//groups):
                    for i in range(0, input_h-kernel_h + 1, stride):  # 对高度进行遍历
                        for j in range(0, input_w-kernel_w + 1, stride):  # 对宽度进行遍历
                            # 取出被核滑动到的区域
                            region = input_feature_map[ind, g, ic, i:i+kernel_h:dilation, j:j+kernel_w:dilation]  
                            # 点乘，并赋值给输出位置的元素
                            output[ind, g, oc, int(i/stride), int(j/stride)] += torch.sum(region * kernel[g, oc, ic])  
                output[ind, g, oc] += bias[g * (out_channel // groups) + oc]  # 考虑偏置
    output = output.reshape((batch_size, out_channel, output_h, output_w))
    return output


## 测试

kernel_size = 3
bs, in_channel, input_h, input_w = 2, 2, 7, 7
out_channel = 4
groups, dilation, stride, padding = 2, 2, 2, 1


input = torch.randn(bs, in_channel, input_h, input_w)  # batch_size, in_channel, in_height, in_weidth

# out_channel, in_channel//groups, kernel_h, kernel_w
kernel = torch.randn(out_channel, in_channel//groups, kernel_size, kernel_size) 
bias = torch.randn(out_channel)


pytorch_conv2d_api_out = F.conv2d(input=input, weight=kernel, bias=bias, padding=padding, stride=stride,\
                                 dilation=dilation, groups=groups)
mm_conv2d_final_output = matrix_multiplication_for_conv2d_final(input, kernel, bias=bias, padding=padding, \
                                                              stride=stride, dilation=dilation, groups=groups)

print(torch.allclose(pytorch_conv2d_api_out, mm_conv2d_final_output))

True


## 池化层

&emsp;&emsp;卷积层对于位置信息是非常敏感的，而实际的图像因为照明，物体的位置，比例，外观等因图像而异，所以我们需要一定的平移不变性。

 二维最大池化

&emsp;&emsp;每次返回二维窗口中的最大值。因此最大池化层会允许输入的元素发生小小的偏移，并且会有一定的模糊效果，但是它没有可学习的参数，输出通道数会等于输入通道数。

平均池化层

&emsp;&emsp;把最大的那个操作子变成平均。最大池化层获取的是每个窗口中最强的那个信号，平均池化层的信号强化会弱很多，但是会有一个比较柔和化的效果。

小结

&emsp;&emsp;它会缓解卷积层带来的位置敏感性。同样有窗口大小、填充、和步幅作为超参数。

### 代码实现

&emsp;&emsp;实现池化层的正向传播:

In [8]:
import torch
import torch.nn as nn

def pool2d(X, pool_size, mode="max"):
    x_h, x_w = X.shape
    p_h, p_w = pool_size
    Y = torch.zeros((x_h - p_h + 1, x_w - p_w + 1))  # 创建输出
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            if mode == "max":
                Y[i, j] = X[i:i+p_h, j:j+p_w].max()
            elif mode == "avg":
                Y[i, j] = X[i:i+p_h, j:j+p_w].mean()
    return Y

In [9]:
X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])

In [10]:
# 验证最大池化
pool2d(X, (2, 2))

tensor([[4., 5.],
        [7., 8.]])

In [11]:
# 验证平均池化
pool2d(X, (2, 2), mode="avg")

tensor([[2., 3.],
        [5., 6.]])

&emsp;&emsp;`torch`中的代码实现:

In [12]:
X = torch.arange(16, dtype=torch.float32).reshape(1, 1, 4, 4)
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]]]])

&emsp;&emsp;深度学习中的步幅与池化窗口相同(torch框架是这样的)，也就是移动的时候，下一个池化区域与上一个池化区域没有重叠部分:

In [13]:
pool2d = nn.MaxPool2d(3)  # 设定一个3 X 3的窗口
pool2d(X)

tensor([[[[10.]]]])

&emsp;&emsp;填充和步幅可以手动设定

In [14]:
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]]]])

&emsp;&emsp;设定一个任意大小的矩形池化窗口，并分别设定填充和步幅的高度和宽度:

In [15]:
pool2d = nn.MaxPool2d((2, 3), padding=(1, 1), stride=(2, 3))
pool2d(X)

tensor([[[[ 1.,  3.],
          [ 9., 11.],
          [13., 15.]]]])

&emsp;&emsp;池化层在每个通道上单独运算

In [16]:
X = torch.cat((X, X+1), 1)
X

tensor([[[[ 0.,  1.,  2.,  3.],
          [ 4.,  5.,  6.,  7.],
          [ 8.,  9., 10., 11.],
          [12., 13., 14., 15.]],

         [[ 1.,  2.,  3.,  4.],
          [ 5.,  6.,  7.,  8.],
          [ 9., 10., 11., 12.],
          [13., 14., 15., 16.]]]])

In [17]:
pool2d = nn.MaxPool2d(3, padding=1, stride=2)
pool2d(X)

tensor([[[[ 5.,  7.],
          [13., 15.]],

         [[ 6.,  8.],
          [14., 16.]]]])

## 问题

- 输入和输出的通道数如果不变的话，通道数一般也不变；输入和输出的通道数减半的时候，输出的通道数通常会加一倍，也就是空间信息压缩了，把提取的信息在更多的通道里面存储下来。

1. **网络越深，padding 0越多，是否会影响性能？**

&emsp;&emsp;计算性能增加了一点点，对于模型性能是不会影响的，因为0对于卷积是没有多少影响的。

2. **每个通道的卷积核都不一样吗？同一层不同通道的卷积核大小必须一样吗？**

&emsp;&emsp;每个通道的卷积核是不一样的，同一层不同通道的卷积核大小必须一样。

3. **计算卷积时，bias的有无，对结果影响大吗？bias的作用怎么理解？**

&emsp;&emsp;bias是有一些作用的，但是它的作用会变得越来越低。比如像数据的均值不为0的时候，bias就可以去等价于均值的负数。




1. 核大小、填充、步幅这几个超参数的重要程度排序是怎样的？

- 一般来说填充就是取核的大小减去1，使得输入输出的大小一样。
- 步幅通常选择为1，通常计算量很大的话，我们不会选择步幅为1的情况。

2. 卷积核的边长为什么一般取奇数？

- 卷积核的边长取奇数的原因在于填充的时候能够使得上下填充是对称的。