In [19]:
#卷积神经网络CNN
#二维卷积
#互相关计算(cross-correlation)，输入二维数组和卷积核对应相乘并求和
#卷积窗口从输入数组的最左上方开始，按从左往右、从上往下的顺序，依次在输入数组上滑动。
#二维卷积层
import torch
from torch import nn
import d2l.torch as d2l
class Conv2D(nn.Module):
    def __init__(self,kernelsize):
        super(Conv2D,self).__init__()
        self.weight = nn.Parameter(torch.randn(kernelsize))
        self.bias = nn.Parameter(torch.randn(1))
    def forward(self,x):
        return d2l.corr2d(x,self.weight)+self.bias
X = torch.tensor([[0,1,2],[3,4,5],[6,7,8]])
net = Conv2D((2,2))
net


Conv2D()

In [20]:
#图像物体边缘检测
X = torch.ones(6,8)
X[:,2:6] = 0
X

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])

In [21]:
K = torch.tensor([[1,-1]]) #如果横向相邻元素相同，输出为0；否则输出为非0。
Y = d2l.corr2d(X,K)
Y

tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
        [ 0.,  1.,  0.,  0.,  0., -1.,  0.]])

In [22]:
#通过数据学习核数组，用上面的例子使用 输入数据X和输出数据Y来学习出K
conv2d = Conv2D(kernelsize=(1,2))
step = 20
lr = 0.01
for i in range(step):
    y_hat = conv2d(X)
    l = ((y_hat-Y)**2).sum()
    l.backward()
    
    #梯度下降
    conv2d.weight.data -= lr * conv2d.weight.grad
    conv2d.bias.data -= lr * conv2d.bias.grad
    
    #梯度清零
    conv2d.weight.grad.fill_(0)
    conv2d.bias.grad.fill_(0)
    
    if (i+1)%5==0:
        print('Step %d ,loss %.3f' % (i+1,l.item()))

Step 5 ,loss 8.531
Step 10 ,loss 2.260
Step 15 ,loss 0.616
Step 20 ,loss 0.170


In [26]:
#卷积运算
#为了得到卷积运算的输出，我们只需将核数组左右翻转并上下翻转，再与输入数组做互相关运算。
#二维卷积层输出的二维数组——特征图，输入在空间维度上的某种表征
#影响x的前向传播所有可能的输入区域叫x的感受野，网络越深单个元素感受野更加广阔

#填充和步幅
#如果没有填充和步幅度输出的大小是：（nh-kh+1)×(nw-kW+1)，输入大小：nh*nw，输出大小是:kh*kw
#填充——填充（padding）是指在输入高和宽的两侧填充元素（通常是0元素）。
#那么输出大小变成：（nh-kh+ph+1)×(nw-kw+pw+1),在高的两侧一共填充ph行，在宽的两侧一共填充pw列
#一般情况下会设置ph=kh−1和pw=kw−1来使输入和输出具有相同的高和宽。
import torch
from torch import nn
import d2l.torch as d2l
#定义一个函数来计算卷积层,它对输入和输出做相应的升维和降维
def comp_conv2d(conv2d,X):
    #(1,1)代表批量大小和通道数
    X = X.view((1,1)+X.shape)
    Y = conv2d(X)
    return Y.view(Y.shape[2:]) # 排除不关心的前两维：批量和通道
#创建一个高和宽为3的二维卷积层，然后设输入高和宽两侧的填充数分别为1。
conv2d = nn.Conv2d(in_channels=1,out_channels=1,kernel_size=3,padding=1)
X = torch.randn(8,8)
comp_conv2d(conv2d,X).shape
#当卷积核的高和宽不同时，我们也可以通过设置高和宽上不同的填充数使输出和输入具有相同的高和宽。
conv2d = nn.Conv2d(in_channels=1,out_channels=1,kernel_size=(5,3),padding=(2,1)) #第一个是左右都填充2列，第二个是上下都填充1行
X = torch.randn(8,8)
comp_conv2d(conv2d,X).shape

torch.Size([8, 8])

In [27]:
#步幅——每次滑动的行数和列数称为步幅（stride）。
#一般来说，当高上步幅为sh，宽上步幅为sw时，输出形状为⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋.——向上取整
#将上面的例子步幅调成2，那么输出的宽高减半

conv2d = nn.Conv2d(in_channels=1,out_channels=1,kernel_size=(5,3),padding=(2,1),stride=2) #第一个是左右都填充2列，第二个是上下都填充1行
X = torch.randn(8,8)
comp_conv2d(conv2d,X).shape


torch.Size([4, 4])

In [28]:
conv2d = nn.Conv2d(in_channels=1,out_channels=1,kernel_size=(3,5),padding=(0,1),stride=(3,4))
comp_conv2d(conv2d,X).shape

torch.Size([2, 2])

In [39]:
#多输入输出通道
#多输入通道
#由于输入和卷积核各有ci个通道，我们可以在各个通道上对输入的二维数组和卷积核的二维核数组做互相关运算，
#再将这ci个互相关运算的二维输出按通道相加，得到一个二维数组。
import sys
sys.path.append("..")
def corr2d_multi_in(X,K):
    res = d2l.corr2d(X[0,:,:],K[0,:,:])
    for i in range(1,X.shape[0]):
        res+=d2l.corr2d(X[i,:,:],K[i,:,:])
    return res
X = torch.tensor([[[0,1,2],[3,4,5],[6,7,8]],[[1,2,3],[4,5,6],[7,8,9]]])
K = torch.tensor([[[0,1],[2,3]],[[1,2],[3,4]]])
corr2d_multi_in(X,K)


tensor([[ 56.,  72.],
        [104., 120.]])

In [40]:
#多输出通道
#如果希望得到含多个通道的输出，我们可以为每个输出通道分别创建形状为ci×kh×kw的核数组。将它们在输出通道维上连结，
#卷积核的形状即co×ci×kh×kw。
def corr2d_multi_in_out(X,K):
    return torch.stack([corr2d_multi_in(X,k) for k in K])

K = torch.stack([K,K+1,K+2]) #把数组K和K+1（K中元素加1），K+2链接起来
K.shape

torch.Size([3, 2, 2, 2])

In [41]:
corr2d_multi_in_out(X, K)

tensor([[[ 56.,  72.],
         [104., 120.]],

        [[ 76., 100.],
         [148., 172.]],

        [[ 96., 128.],
         [192., 224.]]])

In [42]:
#1*1卷积
#输入和输出具有相同的高和宽。输出中的每个元素来自输入中在高和宽上相同位置的元素在不同通道之间的按权重累加。
#假设我们将通道维当作特征维，将高和宽维度上的元素当成数据样本，那么1×1卷积层的作用与全连接层等价。
#1*1卷积实现
def corr2d_multi_in_out_1(X,K):
    c_i,h,w = X.shape
    c_o = K.shape[0]
    X = X.view(c_i,h*w)
    K = K.view(c_o,c_i)
    Y = torch.mm(K,X) #全连接层矩阵乘法
    return Y.view(c_o,h,w)
X = torch.rand(3,3,3)
K = torch.rand(2,3,1,1)
Y1 = corr2d_multi_in_out_1(X,K)
Y2 = corr2d_multi_in_out(X,K)
(Y1-Y2).norm().item()<1e-6

True

In [None]:
#1×1卷积层被当作保持高和宽维度形状不变的全连接层使用。于是，我们可以通过调整网络层之间的通道数来控制模型复杂度。