## 2.4构建卷积神经网络

### 2.4.3 卷积层

1）定义卷积运算函数。

In [2]:
from torch import nn
import torch

In [3]:
def cust_conv2d(X, K): 
    """实现卷积运算"""
    #获取卷积核形状
    h, w = K.shape
    #初始化输出值Y
    Y = torch.zeros((X.shape[0] - h + 1, X.shape[1] - w + 1))
    #实现卷积运算
    for i in range(Y.shape[0]):
        for j in range(Y.shape[1]):
            Y[i, j] = (X[i:i + h, j:j + w] * K).sum()
    return Y


2）定义输入及卷积核。

In [5]:
X = torch.tensor([[1.0,1.0,1.0,0.0,0.0], [0.0,1.0,1.0,1.0,0.0], 
                  [0.0,0.0,1.0,1.0,1.0],[0.0,0.0,1.0,1.0,0.0],[0.0,1.0,1.0,0.0,0.0]])
K = torch.tensor([[1.0, 0.0,1.0], [0.0, 1.0,0.0],[1.0, 0.0,1.0]])
cust_conv2d(X, K)


tensor([[4., 3., 4.],
        [2., 4., 3.],
        [2., 3., 4.]])

### 2.4.4 卷积核

1. 卷积核的作用
（1）垂直边缘检测
卷积核对垂直边缘的检测的示意图如图2-14所示。
 ![image.png](attachment:image.png)
					
这个卷积核是3×3矩阵（注，卷积核一般是奇数阶矩阵），其特点是有值的是第1列和第3列，第2列为0。经过这个卷积核作用后，就把原数据垂直边缘检测出来了。
（2）水平边缘检测
卷积核对水平边缘的检测的示意图如图2-15所示。 
 ![image-2.png](attachment:image-2.png)
这个卷积核也是3×3矩阵，其特点是有值的是第1行和第3行，第2行为0。经过这个卷积核作用后，就把原数据水平边缘检测出来了。
（3）对图片的垂直边缘、水平边缘检测
卷积核对图像水平边缘检测、垂直边缘检测的对比效果图如图2-16所示。
 
![image-3.png](attachment:image-3.png)
以上这些卷积核是比较简单的，在深度学习中，卷积核的作用不仅在于检测垂直边缘、水平边缘等，还需要检测其他边缘特征。
2.  如何确定卷积核
如何确定卷积核呢？卷积核类似于标准神经网络中的权重矩阵W，W需要通过梯度下降算法反复迭代求得。同样，在深度学习中，卷积核也需要通过模型训练求得。卷积神经网络的主要目的就是计算出这些卷积核的数值。确定得到了这些卷积核后，卷积神经网络的浅层网络也就实现了对图像所有边缘特征的检测。
以图2-15为例，给定输入X及输出Y，根据卷积运算，通过多次迭代，可以得到卷积核的近似值。


2.  如何确定卷积核  
如何确定卷积核呢？卷积核类似于标准神经网络中的权重矩阵W，W需要通过梯度下降算法反复迭代求得。同样，在深度学习中，卷积核也需要通过模型训练求得。卷积神经网络的主要目的就是计算出这些卷积核的数值。确定得到了这些卷积核后，卷积神经网络的浅层网络也就实现了对图像所有边缘特征的检测。
以图2-15为例，给定输入X及输出Y，根据卷积运算，通过多次迭代，可以得到卷积核的近似值。  
（1）定义输入和输出。

In [6]:
X = torch.tensor([[10.,10.,10.,0.0,0.0,0.0], [10.,10.,10.,0.0,0.0,0.0], [10.,10.,10.,0.0,0.0,0.0],[10.,10.,10.,0.0,0.0,0.0],[10.,10.,10.,0.0,0.0,0.0],[10.,10.,10.,0.0,0.0,0.0]])
Y = torch.tensor([[0.0, 30.0,30.0,0.0], [0.0, 30.0,30.0,0.0],[0.0, 30.0,30.0,0.0],[0.0, 30.0,30.0,0.0]])

（2）训练卷积层。

In [7]:
# 构造一个二维卷积层，它具有1个输出通道和形状为（3，3）的卷积核
conv2d = nn.Conv2d(1,1, kernel_size=(3, 3), bias=False)
# 这个二维卷积层使用四维输入和输出格式（批量大小、通道、高度、宽度），
# 其中批量大小和通道数都为1
X = X.reshape((1, 1, 6, 6))
Y = Y.reshape((1, 1, 4, 4))
lr = 0.001 # 学习率
#定义损失函数
loss_fn = torch.nn.MSELoss()
for i in range(400):
    Y_pre = conv2d(X)
    loss=loss_fn(Y_pre,Y)
    conv2d.zero_grad()
    loss.backward()
    # 迭代卷积核
    conv2d.weight.data[:] -= lr * conv2d.weight.grad
    if (i + 1) % 100 == 0:
        print(f'epoch {i+1}, loss {loss.sum():.4f}')


epoch 100, loss 0.0000
epoch 200, loss 0.0000
epoch 300, loss 0.0000
epoch 400, loss 0.0000


（3）查看卷积核。

In [8]:
conv2d.weight.data.reshape((3,3))

tensor([[ 6.8471e-01,  1.5689e-01, -9.3086e-01],
        [ 1.0430e+00,  5.6410e-04, -1.0942e+00],
        [ 1.2723e+00, -1.5745e-01, -9.7494e-01]])

这个结果与图2-14中的卷积核就比较接近了。  
假设卷积核已确定，卷积核如何对输入数据进行卷积运算呢？详细内容请参考书中对应章节。

### 2.4.7多通道上的卷积
前面我们对卷积在输入数据、卷积核的维度上进行了扩展，但输入数据、卷积核都是单一的。从图形的角度来说就是二者都是灰色的，没有考虑彩色图像的情况。在实际应用中，输入数据往往是多通道的，如彩色图像就3通道，即R、G、B通道。此时应该如何实现卷积运算呢？我们分别从多输入通道和多输出通道两方面来详细讲解。
1. 多输入通道
3通道图像的卷积运算与单通道图像的卷积运算基本一致，对于3通道的RGB图像，其对应的卷积核算子同样也是3通道的。例如一个图像是3× 5 ×5，3个维度分别表示通道数（channel）、图像的高度（height）、宽度（weight）。卷积过程是将每个单通道（R，G，B）与对应的卷积核进行卷积运算，然后将3通道的和相加，得到输出图像的一个像素值。具体过程如图2-21所示。
![image.png](attachment:image.png)
 图2-21多通道输入的卷积运算过程示意图  
下面用PyTorch实现图2-21多通道输入的卷积运算过程。  
 1）定义多输入通道卷积运算函数。


In [9]:
def corr2d_mutil_in(X,K):
    h,w = K.shape[1],K.shape[2]
    value = torch.zeros(X.shape[0] - h + 1,X.shape[1] - w + 1)
    for x,k in zip(X,K):
        value = value + cust_conv2d(x,k)
    return value

2）定义输入数据。

In [10]:
X = torch.tensor([[[1.,0.,1,0.,2.],[1,1,3,2,1],[1,1,0,1,1],[2,3,2,1,3],[0,2,0,1,0]],
                  [[1.,0.,0,1.,0.],[2,0,1,2,0],[3,1,1,3,0],[0,3,0,3,2],[1,0,3,2,1]],
                  [[2.,0.,1.,2.,1.],[3,3,1,3,2],[2,1,1,1,0],[3,1,3,2,0],[1,1,2,1,1]]])
K = torch.tensor([[[0.0,1.0,0.0],[0.0,0.0,2.0],[0.0,1.0,0.0]],
                  [[2.0,1.0,0.0],[0.0,0.0,0.0],[0.0,3.0,0.0]],
                  [[1.0,0.0,0.0],[1.0,0.0,0.0],[0.0,0.0,2.0]]])


（3）计算。

In [11]:
corr2d_mutil_in(X,K)

tensor([[19., 13., 15.],
        [28., 16., 20.],
        [23., 18., 25.]])

2. 多输出通道  
为了实现更多边缘检测，可以增加更多卷积核组。图6-15就是两组卷积核：卷积核1和卷积核2。这里的输入是3x7x7输入，经过与两个3x3x3的卷积核（步幅为2）的卷积运算，得到的输出为2x3x3。另外我们也会看到图6-10中的补零填充（Zero padding）是1，也就是在输入元素的周围补0。补零填充对于图像边缘部分的特征提取是很有帮助的，可以防止信息丢失。最后，不同卷积核组卷积得到不同的输出，个数由卷积核组决定。
![image.png](attachment:image.png)
图2-22多输出通道的卷积运算过程示意图
把图2-22一般化，写成矩阵的方式为图2-23所示。
![image-2.png](attachment:image-2.png)


3.1×1卷积核  
1×1卷积核在很多经典网络结构中都有使用，如Inception网络、ResNet 网络、YOLO网络和Swin-Transformer网络等。在网络中增加1×1卷积核有以下主要作用。  
（1）增加或降低通道数  
如果卷积的输出输入都只是一个二维数据，那么1×1卷积核意义不大，它是完全不考虑像素与周边其他像素关系的。如果卷积的输出、输入是多维矩阵，则可以通过1×1卷积通过不同的通道数，增加或降低卷积后的通道数。  
（2）增加非线性  
1×1卷积核利用后接的非线性激活函数，可以在保持特征图尺度不变的前提下大幅增加非线性特性，使网络更深，同时提升网络的表达能力。  
（3）跨通道信息交互  
	使用1×1卷积核，可以增加或降低通道数，也可以组合来自不同通道的信息。
	图2-24 为通过1×1卷积核改变通道数的例子。

![image.png](attachment:image.png)
图2-24 1x1卷积核改变通道数示意图  
上述过程可以用PyTorch实现，代码如下。



（1）生成输入及卷积核数据。

In [12]:
X = torch.tensor([[[1,2,3],[4,5,6],[7,8,9]],
                  [[1,1,1],[1,1,1],[1,1,1]],
                  [[2,2,2],[2,2,2],[2,2,2]]])
 
K = torch.tensor([[[[1]],[[2]],[[3]]],
                  [[[4]],[[1]],[[1]]],
                  [[[5]],[[3]],[[3]]]])
print(K.shape) ##torch.Size([3, 3, 1, 1])


torch.Size([3, 3, 1, 1])


（2）定义卷积函数。

In [13]:
def corr2d_multi_in_out(X,K):
    return torch.stack([corr2d_mutil_in(X,k) for k in K])
 
corr2d_multi_in_out(X,K)


tensor([[[ 9., 10., 11.],
         [12., 13., 14.],
         [15., 16., 17.]],

        [[ 7., 11., 15.],
         [19., 23., 27.],
         [31., 35., 39.]],

        [[14., 19., 24.],
         [29., 34., 39.],
         [44., 49., 54.]]])

### 2.4.9卷积函数
卷积函数是构建神经网络的重要支架，通常PyTorch的卷积运算是通过nn.Conv2d来完成的。下面先介绍nn.Conv2d的参数，及如何计算输出的形状（shape）。  
1.  nn.Conv2d函数  
 nn.Conv2d函数的定义如下。


主要参数说明：
- in_channels(int) ：输入信号的通道。
- out_channels(int) ：卷积产生的通道。
- kerner_size(int or tuple) ：卷积核的尺寸。
- stride(int or tuple, optional) ：卷积步长。
- padding(int or tuple, optional) ：	输入的每一条边补充0的层数。
- dilation(int or tuple, optional) ：	卷积核元素之间的间距。
- groups(int, optional) ：	控制输入和输出之间的连接。 group=1，输出是所有的输入的卷积；group=2，此时相当于有并排的两个卷积层，每个卷积层计算输入通道的一半，并且产生的输出是输出通道的一半，随后将这两个输出连接起来。
- bias(bool, optional) ：如果bias=True，则添加偏置。其中参数kernel_size、stride、padding、dilation可以是一个整型数值（int），此时卷积的height和width值相同，也可以是一个tuple数组，tuple的第一维度表示height的数值，tuple的第二维度表示width的数值。
- padding_mode：有4种可选模式，分别为zeros、reflect、replicate、circular，默认为zeros，也就是零填充。


2.输出形状
卷积函数nn.Conv2d参数中输出形状的计算公式如下：
$$Input:  (N,C_{in} ,H_{in} ,W_{in} )$$
$$Output: (N,C_{out} ,H_{out} ,W_{out} )$$
这里
$$ H_{out}=\frac{H_{in}+2×padding[0]-dilation[0]×(kernel_- size[0]-1)-1)}{stride[0]} +1  \tag{2.3}  $$ 

$$ W_{out}=\frac{W_{in}+2×padding[1]-dilation[1]×(kernel_- size[1]-1)-1)}{stride[1]} +1  \tag{2.4} $$
$$ weight: (out_{channels}, (in_channels)/groups,kernel_size[0],kernel_size[1]) $$

当groups=1时

In [15]:
conv = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=1, groups=1)
conv.weight.data.size()  # torch.Size([12, 6, 1, 1])


torch.Size([12, 6, 1, 1])

当groups=2时

In [16]:
conv = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=1, groups=2)
conv.weight.data.size() #torch.Size([12, 3, 1, 1])


torch.Size([12, 3, 1, 1])

当groups=3时

In [17]:
conv = nn.Conv2d(in_channels=6, out_channels=12, kernel_size=1, groups=3)
conv.weight.data.size() #torch.Size([12, 2, 1, 1])


torch.Size([12, 2, 1, 1])

**<font color=blue> 注意，in_channels/groups必须是整数，否则报错。</font>**

### 2.4.10转置卷积
转置卷积（Transposed Convolution）在一些文献中也称为反卷积（Deconvolution）或部分跨越卷积（Fractionally-strided Convolution）。何为转置卷积，它与卷积又有哪些不同？
通过卷积的正向传播的图像一般会越来越小，类似于下采样（downsampling）。卷积的反向传播实际上就是一种转置卷积，类似于上采样（upsampling）。    
1.  转置卷积的直观理解  
图2-26 为s=1,p=0,k=3的转置卷积运算示意图。
![image.png](attachment:image.png)
图2-26     转置卷积运算示意图

图2-27 为s=2，p=0，k=3的转置卷积运算示意图。
![image-2.png](attachment:image-2.png)
 图2-27           转置卷积运算示意图
 
图2-26和图2-27中的输出是如何得到的呢？可根据给定的s、p、k进行简单推导：
- 在输入特征图元素间填充 s-1行、列个0。
- 在输入特征图四周填充k-p-1列、行的0值。
- 做正常卷积运算（步长为1，填充为0）。此时不需要再对特征图进行填充了 ，直接进行步长为1、padding为0的卷积运算。
接下来我们介绍PyTorch对转置卷积输出形状的计算公式。

2.  转置卷积输出形状的计算公式  
假设转置卷积的参数为：


torch.nn.ConvTranspose2d(in_channels, out_channels, kernel_size, stride=1, padding=0, output_padding=0, groups=1, bias=True, dilation=1, padding_mode='zeros', device=None, dtype=None)

假设输入的大小为i，即H=W=i，其中dilation、output_padding 的缺省值分别为1和0，为便于计算取dilation=1，则转置卷积的输出大小（假设H=W）为：
$$ H= stride*(i-1)-2* padding+ kernel_size）+output_padding            \tag{2.5}$$
根据式（2.5）可计算图2-20,2-21的输出大小：  
图2-20的参数为s=1，p=0，k=3，原输入大小为i=2，由此可得转置卷积输出大小：  
H=s*(i-1)-2*p+k=1-0+3=4  
图2-21的参数为s=2，p=0，k=3，原输入大小为i=2，由此可得转置卷积输出大小为：  
H=s*(i-1)-2*p+k=2-0+3=5


3.  转置卷积的应用示例
转置卷积主要用于变分自编码、生成式对抗网络GAN、目标检测和语义分割等。图2-28为使用转置卷积的一个示例，它是一个上采样过程。
![image.png](attachment:image.png)
图2-28  转置卷积示例  
4.  转置卷积的PyTorch实现  
（1）把输入x先卷积，然后再使用转置卷积，使最后的输出形状与输入形状一致。


In [18]:
conv = nn.Conv2d(3, 8, 3, stride=2, padding=1)
Dconv = nn.ConvTranspose2d(8, 3, 3, stride=2, padding=1)
x = torch.randn(1, 3, 5, 5)
feature = conv(x)
print(feature.shape)
# out : torch.Size([1, 8, 3, 3])
y = Dconv(feature)
print(y.shape)


torch.Size([1, 8, 3, 3])
torch.Size([1, 3, 5, 5])


（2）把输入x先卷积，然后再使用转置卷积，使最后的输出形状与输入形状一致。
这里用到了参数output_padding，这个参数主要用于调整输出分辨率。


In [19]:
conv = nn.Conv2d(3, 8, 3, stride=2, padding=1)
Dconv = nn.ConvTranspose2d(8, 3, 3, stride=2, padding=1)
x = torch.randn(1, 3, 5, 5)
feature = conv(x)
print(feature.shape)
# out : torch.Size([1, 8, 3, 3])
y = Dconv(feature)
print(y.shape)


torch.Size([1, 8, 3, 3])
torch.Size([1, 3, 5, 5])


（3）把输入x先卷积，然后再使用转置卷积，使最后的输出形状与输入形状一致。  
这里用到了参数output_padding，这个参数主要用于调整输出分辨率。

In [20]:
conv = nn.Conv2d(3, 8, 3, stride=2, padding=1)
Dconv = nn.ConvTranspose2d(8, 3, 3, stride=2, padding=1, output_padding=1)
x = torch.randn(1, 3, 6, 6)
feature = conv(x)
print(feature.shape) #[1, 8, 3, 3]
y = Dconv(feature)
print(y.shape)


torch.Size([1, 8, 3, 3])
torch.Size([1, 3, 6, 6])


其中，通过转置卷积后的特征图大小为：  
H= s*(feature的大小-1)-2p+k+ output_padding  
=2(3-1)-2*1+3+1=6


### 2.4.13现代经典网络
1. ResNet模型
2015年，何恺明推出的ResNet在ISLVRC和COCO上超越所有选手，获得冠军。ResNet在网络结构上做了一大创新，即采用残差网络结构，而不再简单地堆积层数，为卷积神经网络提供了一个新思路。残差网络的核心思想用一句话来说就是：输出的是两个连续的卷积层，并且输入下一层去，如图2-30所示。
![image.png](attachment:image.png)
图2-30 ResNet残差单元结构  
其完整网络结构如图2-31所示。
![image-2.png](attachment:image-2.png)
图2-31  ResNet完整网络结构  
通过引入残差，恒等映射（identity mapping），相当于一个梯度高速通道，使训练更简洁，且避免了梯度消失问题，所以，可以得到很深的网络，如网络层数由 GoogLeNet 的 22 层发展到ResNet的 152 层。
ResNet模型具有如下特点。
- 层数非常深，已经超过百层。
- 引入残差单元来解决退化问题。




2. DenseNet模型  
ResNet模型极大地改变了参数化深层网络中函数的方式，DenseNet（稠密网络）在某种程度上可以说是ResNet的逻辑扩展，其每一层的特征图是后面所有层的输入。网络结构如图2-32所示。
![image.png](attachment:image.png)
图2-32  DenseNet网络结构图  
ResNet和DenseNet的主要区别如图2-33所示（阴影部分）。
![image-2.png](attachment:image-2.png)
 a）ResNet的跨层连接                        b）DenseNet的跨层连接  
图2-33  ResNet与DenseNet 的主要区别  
由图2-33所示，ResNet和DenseNet的主要区别在于，DenseNet 输出是连接（如图2-33b中的[,]表示），而不是ResNet的简单相加。
稠密网络主要由两部分构成： 稠密块（Dense Block）和过渡层（Transition Layer）。 前者定义如何连接输入和输出，后者则控制通道数量、特征图的大小等，使其不会太复杂。

3. U-Net网络  
U-Net网络的架构图如图2-34所示。

![image.png](attachment:image.png)
图2-34  U-Net网络结构图  
1）可以看到，输入是572x572的，但是输出变成了388x388，这说明经过网络以后，输出的结果和原图不是完全对应的，这在计算loss和输出结果都可以得到体现。  
2）朝右的箭头（除跳跃连接方向）代表3x3的卷积操作，并且stride 是1，padding策略是vaild，因此，每个该操作以后，featuremap的大小会减2。  
3）朝下的箭头代表2x2的 maxpooling 操作，需要注意的是，此时的padding策略也是vaild（same 策略会在边缘填充0，保证featuremap的每个值都会被取到，vaild会忽略掉不能进行下去的pooling操作，而不是进行填充），这就会导致如果pooling之前featuremap 的大小是奇数，那么就会损失一些信息 。  
4）朝上的箭头代表2x2的转置卷积操作，操作会将featuremap 的大小乘2，共包含4次上采样过程。  
5）跳跃连接方向表示复制和剪切操作，可以发现，在同一层左边的最后一层要比右边的第一层要大一些，这就导致了，想要利用浅层的feature，就要进行一些剪切，也导致了最终的输出是输入的中心某个区域。  
6）输出的最后一层，使用了1x1的卷积层做了分类。  

4. 用PyTorch实现U-Net网络  
1）定义一个由两个卷积层构成的卷积块

In [21]:
class conv_block(nn.Module):
    def __init__(self, in_channels, out_channels, padding=0):
        super().__init__()
        self.conv = nn.Sequential(
            nn.Conv2d(in_channels, out_channels, kernel_size=3,stride=1,padding=padding),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True),
            nn.Conv2d(out_channels, out_channels, kernel_size=3,stride=1,padding=padding),
            nn.BatchNorm2d(out_channels),
            nn.ReLU(inplace=True)
        )
 
    def forward(self,x):
        x = self.conv(x)
        return x


2）定义下采样模块，这里的下采样包括max pool下采样和连续的两个conv3×3+ReLu。

In [22]:
class DownSample(nn.Module):
    def __init__(self, in_channels, out_channels, padding=0):
        super().__init__()
        self.maxpool_conv = nn.Sequential(
            nn.MaxPool2d(kernel_size=2, stride=2),
            conv_block(in_channels, out_channels, padding=padding)
        )
 
    def forward(self, x):
        return self.maxpool_conv(x)

3）定义上采样模块，这里的上采样包括转置卷积上采样，并与左侧对应编码器的特征图拼接（concatenation）。之后进行连续的两个conv3×3+ReLu。

In [23]:
class UpSample(nn.Module):
    def __init__(self, in_channels, out_channels, concat=0):
        super().__init__()
        """
        concat=0 -> do center crop
        concat=1 -> padding decoder feature map
        concat=2 -> padding=1 in conv_block
        """
        self.concat = concat
        if self.concat not in [0, 1, 2]:
            raise Exception('concat not in list of [0, 1, 2]')
        if self.concat == 2:
            padding = 1
 
        self.up = nn.ConvTranspose2d(in_channels, in_channels // 2, kernel_size=2, stride=2)
        self.conv = conv_block(in_channels, out_channels, padding=padding)
 
    def forward(self, x, x_copy):
        x = self.up(x)
 
        if self.concat == 0:
            B, C, H, W = x.shape
            x_copy = torchvision.transforms.CenterCrop([H, W])(x_copy)
            
        elif self.concat == 1:
            diffY = x_copy.size()[2] - x.size()[2]
            diffX = x_copy.size()[3] - x.size()[3]
            x = F.pad(x, [
                diffX // 2, diffX - diffX // 2, 
                diffY // 2, diffY - diffY // 2
                ])
        #按通道维度进行拼接 
        x = torch.cat([x_copy, x], dim=1)
        return self.conv(x)


4）构建U-Net模型。

In [24]:
class UNet(nn.Module):
    def __init__(self, n_channels, n_classes, concat=0):
        super().__init__()
        self.n_channels = n_channels
        self.n_classes = n_classes
        self.concat = concat 
        if concat == 2:
            padding = 1
        else:
            padding = 0 
        expansion = 2
        inplanes = 64
        chns = [inplanes, inplanes*expansion, inplanes*expansion**2, inplanes*expansion**3, inplanes*expansion**4] 
        self.inc = conv_block(n_channels, chns[0], padding)
        self.down1 = DownSample(chns[0], chns[1], padding)
        self.down2 = DownSample(chns[1], chns[2], padding)
        self.down3 = DownSample(chns[2], chns[3], padding)
        self.down4 = DownSample(chns[3], chns[4], padding) 
        self.up1 = UpSample(chns[-1], chns[-2], concat)
        self.up2 = UpSample(chns[-2], chns[-3], concat)
        self.up3 = UpSample(chns[-3], chns[-4], concat)
        self.up4 = UpSample(chns[-4], chns[-5], concat)
        self.outc = nn.Conv2d(chns[-5], n_classes, kernel_size=1) 
    def forward(self, x):
        e1 = self.inc(x)
        e2 = self.down1(e1)
        e3 = self.down2(e2)
        e4 = self.down3(e3)
        e5 = self.down4(e4)        
        x = self.up1(e5, e4)
        x = self.up2(x, e3)
        x = self.up3(x, e2)
        x = self.up4(x, e1)
        logits = self.outc(x) 
        return logits


5）用测试数据测试模型。

In [25]:
if __name__ == "__main__":
    x = torch.rand(size=(8, 3, 224, 224))
    net =  UNet(3,10,2)
    out = net(x)
    print(out.size())


torch.Size([8, 10, 224, 224])
