# 填充

主要用于解决因为不断的做卷积操作导致的size越来越小，导致无法叠加深度的问题

通过填充，实现output比以前更大

填充导致的input和output的size的变化：

比如填充$p_h$行，$p_w$列，输出的形状为：

$$(n_h-k_h+p_h+1) * (n_w-k_w+p_w+1)$$

通常填充的取值为$k_h-1$， $k_w-1$，使得input和output的size保持一致

当$k_h$为奇数的时候，就在上下两侧填充
$$\frac{p_h}{2}$$

这也是我们经常使用奇数核的原因


# 步幅

输出大小与层数线性相关，那么可以通过步幅来进行调整。

同样，重点是算下形状：

给定高度为$s_h$ 和 宽度为$s_w$的步幅，输出的形状：

$$\lfloor{(n_h-k_h+p_n+s_h)/s_h}\rfloor * \lfloor{(n_w-k_w+p_w+s_w)/s_w}\rfloor$$

所以如果填充取值为$k_h-1$， $k_w-1$，然后步幅取2的话
最终的size就是：

$$(n_h/s_h) * (n_w/s_w)$$

# 总结

填充和步幅都是超参

填充可以控制输出形状的减少量

步幅可以成倍的减少输出的形状

填充通常是K-1，步幅 = 1 通常最好，但是当我们觉得计算量大的时候，我们会取步幅 = 2

# coding

In [8]:
import torch 
from torch import nn

def comp_conv2d(conv2d, X):
    X = X.reshape((1,1)+X.shape)
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])

# 前两个参数含义： input channel， output_channel， padding含义是一边填充的数字
# ph 和 pw 各为2 的时候，我们就可以实现input和output的size保持一致
conv2d = nn.Conv2d(1,1,kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [9]:
conv2d = nn.Conv2d(1,1, kernel_size=(5, 3), padding=(2,1))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [10]:
conv2d = nn.Conv2d(1,1, kernel_size=(5, 3), padding=(2,1), stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])