## 当stride=1时，卷积核大小为奇数，一般padding取(k-1)/2，这样可以保证输入和输出的形状相同（padding指填充的圈数）

## 如果在padding满足上述条件后，输入的高度和宽度还可以被stride整除，这样高度和宽度就变成了n/s

In [1]:
import torch
from torch import nn

In [2]:
def comp_conv2d(conv2d, X):
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [3]:
# (5-1)/2=2、(3-1)/2=1
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [4]:
# stride=2可以减半
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

In [6]:
# 一个稍微复杂点的例子
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5),
                   padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

In [None]:
# 一般来说：
# 核大小，通道数是最重要的超参数
# 填充一般取值比较固定，(k-1)/2
# 步幅看想要把原始图像压缩的程度
# 一般底层会用比较大的kernel，5x5，7x7，9x9，11x11
# 最上层用小的kernel，3x3