# 填充和步幅
- 填充和步幅，是卷积神经网络里除了卷积核大小之外的另外两个重要的超参数
- 填充是为了解决卷积核的边界问题，步幅是为了解决卷积核的滑动问题·

## 填充的例子
- 记原始图片的大小为 $[n_h, n_w]$ 卷积核的大小为 $[k_h, k_w]$ （一般会取奇数）
- 此时只考虑步幅最一般的情况，即 $[1, 1]$
- 那么每次经过卷积运算之后，输出的图片大小为 $[n_h - k_h + 1, n_w - k_w + 1]$
- 那么此时原始图片缩小的长度为 $[k_h-1, k_w-1]$
- 如果我们此时我们在上下左右分别填充 $[(k_h-1)/2, (k_h-1)/2, (k_w-1)/2, (k_w-1)/w]$
- 那么我们就能保证在经过卷积运算之后的图片大小仍然是 $[n_h, n_w]$
- 这就是为什么要引进填充的原因，因为卷积核的边界问题
## 步幅的例子
- 记原始图片的大小为 $[n_h, n_w]$ 卷积核的大小为 $[k_h, k_w]$ （一般会取奇数）
- 此时如果不考虑填充，只考虑步幅为 $[2, 2]$
- 直观的感受，当步幅增加后，经过卷积核运算之后，数据会缩减的更快
- 那么每次经过卷积运算之后，输出的图片大小为 $[\lfloor n_h - k_h + 2 \rfloor /2, \lfloor n_w - k_w + 2 \rfloor /2]$
## 更一般的情况
- 记原始图片的大小为 $[n_h, n_w]$ 卷积核的大小为 $[k_h, k_w]$ （一般会取奇数）,步幅为 $[s_h, s_w]$，填充为 $[p_h, p_w]$
- 经过卷积核运算之后，输出的图片大小为 $[\lfloor n_h - k_h + p_h + s_h \rfloor /s_h, \lfloor n_w - k_w + + p_w + s_w \rfloor /s_w]$

In [2]:
import torch
from torch import nn

def comp_conv2d(conv2d, X):
    # 这里转一下的原因在于nn.Conv2d的输入是(N, C, H, W)
    # 前两个参数分别代表输入通道数量、输出通道数量
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    # Y在返回的时候也保留了前两个维度，图片数量和通道数，所以返回的时候我们是不关心的，要把他去掉
    return Y.reshape(Y.shape[2:])

# 上下左右分别填充一行，卷积核的大小是3x3，所以此时缩小的是2x2，刚好抵消掉，图片大小不变
conv2d = nn.Conv2d(1, 1, 3, padding=1)
X = torch.randn(size=(8, 8))
comp_conv2d(conv2d, X).shape

[W NNPACK.cpp:79] Could not initialize NNPACK! Reason: Unsupported hardware.


torch.Size([8, 8])

In [3]:
# 填充不同的高度和宽度
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [4]:
# 扩大步幅，增大缩小的比例
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 3), padding=(1, 1), stride=(2, 2))
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])