## 填充

在做卷积计算时，往往会丢失边缘像素，解决这个问题是对输入图像的边界填充元素0。

假设添加的$P_h$行，$P_w$列，那么输出的形状为：

$$
(n_h - k_h + p_h + 1) \times (n_w - k_w + p_w + 1)
$$

通常设置$p_h = k_h - 1$和$p_w = k_w - 1$这样输出和输入将保持相同的形状。

假设$k_h$为奇数，将在高度的两侧填充$\frac{p_h}{2}$，如果$k_h$为偶数，将在一侧添加$\lceil{p_h}\rceil$另一侧添加$\lfloor{p_h}\rfloor$。

一般卷积核为奇数，例如1、3、5、7方便填充。

![](img/conv-pad.png)

In [1]:
import torch
from torch import nn

# 卷积层计算函数
def comp_conv2d(conv2d, X):
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(8, 8)
X.shape, comp_conv2d(conv2d, X).shape

(torch.Size([8, 8]), torch.Size([8, 8]))

当卷积核的高度和宽度不同时，需要填充不同的高度和宽度。

In [2]:
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

## 步幅

卷积核每次移动的元素数量称为步幅，步幅可以有效的减小输出形状的大小。

当垂直步幅为$s_h$, 水平步幅为$s_w$时，输出的形状为：

$$
\lfloor\frac{(n_h - k_h + p_h + s_h)} {s_h}\rfloor \times \lfloor\frac{(n_w - k_w + p_w + s_w)} {s_w}\rfloor.
$$

如果设置$p_h = k_h - 1$, $p_w = k_w - 1$, 那么可以简化为$\lfloor\frac{(n_h + s_h - 1)} {s_h}\rfloor \times \lfloor\frac{(n_w + s_w - 1)} {s_w}\rfloor.$，如果$n_h$和$n_w$可以被$s_h$和$s_w$整除，那么输出形状为$\frac{n_h}{s_h} \times \frac{n_w}{s_w}$.

![](img/conv-stride.png)

In [3]:
# stride = 2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

In [4]:
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

通常$p_h = p_w$, $s_h = s_w$。