# 5.2 填充和步幅

一般来说，假设输入形状是$n_h×n_w$，卷积核窗口形状是$k_h×k_w$，那么输出形状将会是$$(n_h−k_h+1)×(n_w−k_w+1)$$.

所以卷积层的输出形状由输入形状和卷积核窗口形状决定。本节我们将介绍卷积层的两个超参数，即填充(padding)和步幅(stride)。它们可以对给定形状的输入和卷积核改变输出形状。

## 5.2.1 填充

填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素）。图5.2里我们在原输入高和宽的两侧分别添加了值为0的元素，使得输入高和宽从3变成了5，并导致输出高和宽由2增加到4。

图5.2中的阴影部分为第一个输出元素及其计算所使用的输入和核数组元素：$0×0+0×1+0×2+0×3=0$。

![Snipaste_2020-09-14_16-18-58.png](attachment:Snipaste_2020-09-14_16-18-58.png)

一般来说，如果在高的两侧一共填充$p_h$行，在宽的两侧一共填充$p_w$

列，那么输出形状将会是:$$(n_h−k_h+p_h+1)×(n_w−k_w+p_w+1)$$,

也就是说，输出的高和宽会分别增加$p_h$和$p_w$。

在很多情况下，我们会设置$p_h=k_h−1$和$p_w=k_w−1$来使输入和输出具有相同的高和宽。这样会方便在构造网络时推测每个层的输出形状。假设这里$k_h$是奇数，我们会在高的两侧分别填充$p_h/2$行。如果$k_h$是偶数，一种可能是在输入的顶端一侧填充$⌈ph/2⌉$行，而在底端一侧填充$⌊ph/2⌋$行。在宽的两侧填充同理。

卷积神经网络经常使用奇数高宽的卷积核，如1、3、5和7，所以两端上的填充个数相等。对任意的二维数组X，设它的第i行第j列的元素为X[i,j]。当两端上的填充个数相等，并使输入和输出具有相同的高和宽时，我们就知道输出Y[i,j]是由输入以X[i,j]为中心的窗口同卷积核进行互相关计算得到的。

In [1]:
# 创建一个高和宽为3的二维卷积层，然后设输入高和宽两侧的填充数分别为1。
# 给定一个高和宽为8的输入。

import torch
from torch import nn

#定义函数计算卷积层，对输入和输出做相应的升维和降维
def comp_conv2d(conv2d,X):
    X=X.view((1,1)+X.shape)#(1,1)表示批量大小和通道数
    Y=conv2d(X)
    return Y.view(Y.shape[2:])#排除不关心的前两维：批量和通道

# 注意这里是两侧分别填充1行或列，所以在两侧一共填充2行或列
conv2d=nn.Conv2d(in_channels=1,out_channels=1,kernel_size=3,padding=1)
#卷积层的定义

X=torch.rand(8,8)
comp_conv2d(conv2d,X).shape

torch.Size([8, 8])

In [2]:
print(X)

tensor([[0.5064, 0.8625, 0.1212, 0.5753, 0.1944, 0.6703, 0.3651, 0.3571],
        [0.3849, 0.9794, 0.4550, 0.2023, 0.6785, 0.4394, 0.3945, 0.1669],
        [0.6667, 0.0755, 0.5320, 0.1968, 0.5593, 0.8564, 0.8230, 0.4172],
        [0.2493, 0.7575, 0.5240, 0.7139, 0.2565, 0.5590, 0.9677, 0.2485],
        [0.5545, 0.1217, 0.2696, 0.2083, 0.8467, 0.8959, 0.7225, 0.3429],
        [0.6117, 0.8600, 0.7340, 0.2091, 0.2211, 0.0412, 0.5882, 0.0638],
        [0.6505, 0.9267, 0.5769, 0.4229, 0.1778, 0.3240, 0.3049, 0.8555],
        [0.1640, 0.4446, 0.1596, 0.4597, 0.7275, 0.5308, 0.2636, 0.8149]])
