# 填充和步幅

## 填充

* *填充*（padding）：在输入图像的边界填充元素（通常填充元素是$0$）
* 阅读：填充和步幅.pdf

* 卷积核的高度和宽度通常为奇数，例如1、3、5或7
* For any two-dimensional tensor `X`,
when the kernel's size is odd
and the number of padding rows and columns
on all sides are the same,
producing an output with the same height and width as the input,
we know that the output `Y[i, j]` is calculated
by cross-correlation of the input and convolution kernel
with the window centered on `X[i, j]`.

* 课堂：通过一维卷积来解释
* cross-correlation

  $$
[\mathbf{H}]_{i, j} = u + \sum_{a = -\Delta}^{\Delta} \sum_{b = -\Delta}^{\Delta} [\mathbf{V}]_{a, b}  [\mathbf{X}]_{i+a, j+b}
  $$
  
* 课堂提问：和全连接层的形式相比，进行了哪些修改

  $$
  \left[\mathbf{H}\right]_{i, j} =  [\mathbf{U}]_{i, j} + \sum_a \sum_b [\mathsf{V}]_{i, j, a, b}[\mathbf{X}]_{i+a, j+b}
  $$

* 在所有侧边填充1个像素
* 课堂提问：卷积之后的`shape`

In [1]:
import torch
from torch import nn


def comp_conv2d(conv2d, X):
    # 这里的(1, 1)表示批量大小和通道数都是1
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    # 省略前两个维度：批量大小和通道
    return Y.reshape(Y.shape[2:])


# 请注意，这里每边都填充了1行或1列，因此总共添加了2行或2列
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

填充不同的高度和宽度

In [2]:
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

## 步幅

* 在计算互相关时，卷积窗口从输入张量的左上角开始，向下、向右滑动
* 默认每次滑动一个元素
* 但是，有时候为了高效计算或是缩减采样次数，卷积窗口可以跳过中间位置，每次滑动多个元素
* 将每次滑动元素的数量称为*步幅*（stride）
* 阅读：填充和步幅.pdf

将高度和宽度的步幅设置为2

In [3]:
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

一个稍微复杂的例子

In [4]:
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

* 当输入高度和宽度两侧的填充数量分别为$p_h$和$p_w$时，称之为填充$(p_h, p_w)$
* 当$p_h = p_w = p$时，填充是$p$
* 当高度和宽度上的步幅分别为$s_h$和$s_w$时，我们称之为步幅$(s_h, s_w)$
* 默认情况下，填充为0，步幅为1
* 在实践中，很少使用不一致的步幅或填充，也就是说，通常有$p_h = p_w$和$s_h = s_w$