### 填充和步幅

填充(padding)是指在输入高和宽的两侧填充元素(通常是0元素)。

我们将卷积核每次滑动的行数和列数称为步幅(stride).

为了表达简洁，当输入的高和宽两侧的填充数分别为$p_h$和$p_w$,我们称填充为($p_h$,$p_w$)。特别地，当$p_h$=$p_w$=p时，填充为p.当在高和宽上的步幅分别为$s_h$和$s_w$时，我们称步幅为($s_h$,$s_w$)。特别地，当$s_h$=$s_w$=s时，步幅为s。默认情况下，填充为0，步幅为1。

假设输入的形状为($n_h$,$n_w$)，卷积核大小为($k_h$,$k_w$),则输出形状为:
$(n_h-k_h+p_h+s_h)/s_h * (n_w-k_w+p_w+s_w)/s_w$

torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros')

* in_channels:输入通道数
* out_channels:输入通道数
* kernel_size:卷积核大小
* stride:步幅，可以是int也可以是tuple
* padding:填充,可以是int也可以是tuple

In [2]:
#例子
import torch
from torch import nn

#定义一个函数来计算卷积层，它对输入和输出做相应的升维和降维
def comp_conv2d(conv2d,X):
    #(1,1)代表批量大小和通道数
    X=X.view((1,1)+X.shape)
    Y=conv2d(X)
    return Y.view(Y.shape[2:])#排除不关心的前两维:批量和通道

In [4]:
#注意这里是两侧分别填充1行和1列，所以在两侧一共填充2行和2列
conv2d=nn.Conv2d(in_channels=1,out_channels=1,kernel_size=3,padding=1)

X=torch.rand(8,8)
comp_conv2d(conv2d,X).shape

torch.Size([8, 8])

In [5]:
#使用高为5,宽为3的卷积核。在高和宽两侧的填充数分别为2和1
conv2d=nn.Conv2d(in_channels=1,out_channels=1,kernel_size=(5,3),padding=(2,1))

comp_conv2d(conv2d,X).shape

torch.Size([8, 8])

In [7]:
conv2d=nn.Conv2d(in_channels=1,out_channels=1,kernel_size=(3,5),padding=(0,1),stride=(3,4))

comp_conv2d(conv2d,X).shape

torch.Size([2, 2])