In [1]:
import torch
from d2l import torch as d2l
from torch import nn

In [2]:
# 通过在图像边界周围填充零来保证有足够的空间移动卷积核，从而保持输出大小不变。
# 在corr2d函数中实现如上过程，该函数接受输入张量X和卷积核张量K，并返回输出张量Y。

def corr2d(X, K):  #@save
    """计算二维互相关运算"""
    h, w = K.shape # h=2 w=2
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1)) # 3-2+1.  3-2+1
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
#             print(X[i:i + h, j:j + w])
#             print(X[i:i + h, j:j + w] * K)
    return Y

X = torch.tensor([[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]])
K = torch.tensor([[0.0, 1.0], [2.0, 3.0]])
X.shape, K.shape, X.shape[0],X.shape[1], corr2d(X, K)

(torch.Size([3, 3]),
 torch.Size([2, 2]),
 3,
 3,
 tensor([[19., 25.],
         [37., 43.]]))

In [3]:
# 卷积层
# 定义的corr2d函数实现二维卷积层。在__init__构造函数中，将weight和bias声明为两个模型参数。
# 前向传播函数调用corr2d函数并添加偏置。
class Conv2D(nn.Module):
    def __init__(self,kernel_size):
        super().__init__()
        self.weight=nn.Parameter(torch.rand(kernel_size))
        self.bias=nn.Parameter(torch.zeros(1))
        
    def forward(self,x):
        return corr2d(x,self.weight)+self.bias

- 无论是左边还是右边逗号都要靠近冒号：
- 如果冒号：的左边或者右边还有冒号，这时候就说明其中一个冒号代表的是范围（eg:1:5 从１到４）
- 如果冒号：左边或者右边没有任何东西，那么这时候代表全体
- [a:b] 对ａ的改变是行的改变，对ｂ的改变是队列的改变
- 负数在左侧，则从后往前数n个
- 负数在右侧，则是排除了后n个

In [4]:
# 取法
x=torch.tensor([[0,1],[2,3],[4,5],[6,7],[8,9],[10,11],[12,13],[14,15],[16,17],[18,19]])  
x

# x[:,0] #　二维数组取第１维所有数据
# x[:,1] # 第２列
# x[0,:] # 第１行
# x[3,:] # 第4行
# x[1:4,:] # 第一二三行

tensor([[ 0,  1],
        [ 2,  3],
        [ 4,  5],
        [ 6,  7],
        [ 8,  9],
        [10, 11],
        [12, 13],
        [14, 15],
        [16, 17],
        [18, 19]])

In [5]:
X=torch.ones(6,8)
X

tensor([[1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.],
        [1., 1., 1., 1., 1., 1., 1., 1.]])

In [6]:
X[:,2:6]=0 # 第一维全取（行） 第二维取2到6列
X
# 中间四列为黑色（0），其余像素为白色（1）。

tensor([[1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.],
        [1., 1., 0., 0., 0., 0., 1., 1.]])

In [7]:
# 构造一个高度为1、宽度为2的卷积核K
K=torch.tensor([[1.0,-1.0]])
Y=corr2d(X,K)
K , Y

(tensor([[ 1., -1.]]),
 tensor([[ 0.,  1.,  0.,  0.,  0., -1.,  0.],
         [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
         [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
         [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
         [ 0.,  1.,  0.,  0.,  0., -1.,  0.],
         [ 0.,  1.,  0.,  0.,  0., -1.,  0.]]))

In [8]:
# 将输入的二维图像转置，再进行如上的互相关运算。 其输出如下，之前检测到的垂直边缘消失了。 
# 这个卷积核K只可以检测垂直边缘，无法检测水平边缘。

corr2d(X.t(),K)

tensor([[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]])

In [9]:
conv2d=nn.Conv2d(1,1,kernel_size=(1,2),bias=False)

X=X.reshape((1,1,6,8))
Y=Y.reshape((1,1,6,7))

lr=3e-2

for i in range(10):
    y_hat=conv2d(X)
    loss=(y_hat-Y)**2
    conv2d.zero_grad()
    loss.sum().backward()
    # 迭代卷积核
    conv2d.weight.data[:]-=lr*conv2d.weight.grad
    
    print(f'epoch:{i},loss{loss.sum():.3f}')

epoch:0,loss26.157
epoch:1,loss14.287
epoch:2,loss8.139
epoch:3,loss4.797
epoch:4,loss2.902
epoch:5,loss1.788
epoch:6,loss1.116
epoch:7,loss0.703
epoch:8,loss0.445
epoch:9,loss0.283


In [10]:
conv2d.weight.data

tensor([[[[ 0.9346, -1.0437]]]])

- 二维卷积层的核心计算是二维互相关运算。最简单的形式是，对二维输入数据和卷积核执行互相关操作，然后添加一个偏置。

- 我们可以设计一个卷积核来检测图像的边缘。

- 我们可以从数据中学习卷积核的参数。

- 学习卷积核时，无论用严格卷积运算或互相关运算，卷积层的输出不会受太大影响。

- 当需要检测输入特征中更广区域时，我们可以构建一个更深的卷积网络。

#### 6.3填充和步幅
- 填充：由于我们通常使用小卷积核，因此对于任何单个卷积，我们可能只会丢失几个像素。 但随着我们应用许多连续卷积层，累积丢失的像素数就多了。 解决这个问题的简单方法即为填充（padding）

In [11]:
# 为了方便起见，我们定义了一个计算卷积层的函数。
# 此函数初始化卷积层权重，并对输入和输出提高和缩减相应的维数
def comp_conv2d(conv2d, X):
    # 这里的（1，1）表示批量大小和通道数都是1
    X = X.reshape((1, 1) + X.shape)
    Y = conv2d(X)
    # 省略前两个维度：批量大小和通道
    return Y.reshape(Y.shape[2:])

# 请注意，这里每边都填充了1行或1列，因此总共添加了2行或2列
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [12]:
# 当卷积核的高度和宽度不同时，我们可以填充不同的高度和宽度，使输出和输入具有相同的高度和宽度。
# 使用高度为5，宽度为3的卷积核，高度和宽度两边的填充分别为2和1。
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1)) # 1,1 是in 和 out 的通道数 RGB为3
comp_conv2d(conv2d, X).shape

torch.Size([8, 8])

In [13]:
# 步幅 为2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, X).shape

torch.Size([4, 4])

In [14]:
# 
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, X).shape

torch.Size([2, 2])

#### 6.4多输入多输出通道

In [15]:
def corr2d_multi_in(X,K):
    # 先遍历‘X’和‘K’的第0个维度（通道维度）再把他们加起来
    return sum(d2l.corr2d(x,k) for x,k in zip(X,K))  # zip(iterables) 创建一个迭代器，它从每个迭代器中聚合元素。

In [16]:
X = torch.tensor([[[0.0, 1.0, 2.0], [3.0, 4.0, 5.0], [6.0, 7.0, 8.0]],
               [[1.0, 2.0, 3.0], [4.0, 5.0, 6.0], [7.0, 8.0, 9.0]]])
K = torch.tensor([[[0.0, 1.0], [2.0, 3.0]], [[1.0, 2.0], [3.0, 4.0]]])

corr2d_multi_in(X, K)

tensor([[ 56.,  72.],
        [104., 120.]])

In [17]:
def corr2d_multi_in_out(X,K):
    # 迭代“K”的第0个维度，每次都对输入“X”执行互相关运算。
    # 最后将所有结果都叠加在一起
    return torch.stack([corr2d_multi_in(X,k) for k in K],0)

K = torch.stack((K, K + 1, K + 2), 0)
K.shape

torch.Size([3, 2, 2, 2])

In [18]:
corr2d_multi_in_out(X,K)

tensor([[[ 56.,  72.],
         [104., 120.]],

        [[ 76., 100.],
         [148., 172.]],

        [[ 96., 128.],
         [192., 224.]]])

- 多输入多输出通道可以用来扩展卷积层的模型。

- 当以每像素为基础应用时，1x1卷积层相当于全连接层。

- 1x1卷积层通常用于调整网络层的通道数量和控制模型复杂性。