In [1]:
%%HTML
<style type='text/css'>
    *{
        # background-color:#E3EDCD;
        # background-color:black;
        # color:white;
        
    }
    h1{
        color:#1976d2;
    }
    h2{
        color:#f57c00;
    }
    h3{
        color:#ba37ff;
    }
    
    h4{
        color:green;
    }
    table{
        border:1px solid black !important;
        border-collapse:collapse !important;
    }
     th{
        background-color:blueviolet !important;
        text-align:center !important;
        color:white;
    }
     th,td{
        border:0.1px solid black !important;
        text-align:center !important;
        transition:0.2s all liner !important;
        
    }
     td:hover{
        transform:scale(1.1);
        background-color:orange;
        color:blueviolet;
    }
    .raw{
        white-space:pre;
    }
    .atcenter{
        text-align:center !important;
    }
    .imp{
        color:red;
        font-weight:bolder;
    }
     table.tts tr:first-child td:nth-child(2){
        background-color:red !important;
    }
     table.tts tr:nth-child(2) td:last-child{
        background-color:red !important;
    }
</style>

# 深度学习用于计算机视觉

本章包括以下内容:    
理解卷积神经网络(convnet)   
使用数据增强来降低过拟合    
使用预训练的卷积神经网络进行特征提取   
微调预训练的卷积神经网络    
将卷积神经网络学到的内容及其如何做出分类决策可视化

#### 代码清单 5-1 实例化一个小型的卷积神经网络

In [2]:
from keras import layers,models,Input

In [3]:
model = models.Sequential() 
model.add(Input(shape=(28,28,1)))
model.add(layers.Conv2D(32,(3,3),activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(64,(3,3),activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(64,(3,3),activation='relu'))

重要的是,卷积神经网络接收形状为 (image_height, image_width, image_channels)  的输入张量(不包括批量维度)。本例中设置卷积神经网络处理大小为 (28, 28, 1) 的输入张量,  这正是 MNIST 图像的格式。我们向第一层传入参数 input_shape=(28, 28, 1) 来完成此设置。  我们来看一下目前卷积神经网络的架构。

In [4]:
model.summary()

可以看到,每个 Conv2D 层和 MaxPooling2D 层的输出都是一个形状为 (height, width,  channels) 的 3D 张量。宽度和高度两个维度的尺寸通常会随着网络加深而变小。通道数量由传  入 Conv2D 层的第一个参数所控制(32 或 64)。  下一步是将最后的输出张量[大小为 (3, 3, 64)]输入到一个密集连接分类器网络中,  即 Dense 层的堆叠,你已经很熟悉了。这些分类器可以处理 1D 向量,而当前的输出是 3D 张量。  首先,我们需要将 3D 输出展平为 1D,然后在上面添加几个 Dense 层。

#### 代码清单 5-2 在卷积神经网络上添加分类器

In [5]:
model.add(layers.Flatten())
model.add(layers.Dense(64,activation='relu'))
model.add(layers.Dense(10,activation='softmax'))

们将进行 10 类别分类,最后一层使用带 10 个输出的 softmax 激活。现在网络的架构如下。

In [6]:
model.summary()

如你所见,在进入两个 Dense 层之前,形状 (3, 3, 64) 的输出被展平为形状 (576,) 的  向量。  下面我们在 MNIST 数字图像上训练这个卷积神经网络。我们将复用第 2 章 MNIST 示例中  的很多代码。

#### 代码清单 5-3 在 MNIST 图像上训练卷积神经网络

In [7]:
from keras.datasets import mnist
from keras.utils import to_categorical
(train_images,train_labels),(test_images,test_labels) = mnist.load_data()

In [8]:
train_images = train_images.reshape((60000,28,28,1))
train_images = train_images.astype('float32') / 255

In [9]:
test_images = test_images.reshape((10000,28,28,1))
test_images = test_images.astype('float32') / 255

In [10]:
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [11]:
model.compile(
    optimizer = 'rmsprop',
    loss = 'categorical_crossentropy',
    metrics=['accuracy']
)

In [12]:
model.fit(
    train_images,
    train_labels,
    epochs=5,
    batch_size=64
)

Epoch 1/5
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m13s[0m 11ms/step - accuracy: 0.8691 - loss: 0.4091
Epoch 2/5
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m11s[0m 12ms/step - accuracy: 0.9841 - loss: 0.0532
Epoch 3/5
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m18s[0m 20ms/step - accuracy: 0.9900 - loss: 0.0329
Epoch 4/5
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m19s[0m 18ms/step - accuracy: 0.9931 - loss: 0.0221
Epoch 5/5
[1m938/938[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m21s[0m 18ms/step - accuracy: 0.9945 - loss: 0.0182


<keras.src.callbacks.history.History at 0x20b5f95d390>

In [13]:
test_loss,test_acc = model.evaluate(test_images,test_labels)

[1m313/313[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 5ms/step - accuracy: 0.9876 - loss: 0.0424


In [14]:
test_acc

0.9901999831199646

第 2 章密集连接网络的测试精度为 97.8%,但这个简单卷积神经网络的测试精度达到了  99.3%,我们将错误率降低了 68%(相对比例)。相当不错!  与密集连接模型相比,为什么这个简单卷积神经网络的效果这么好?要回答这个问题,我  们来深入了解 Conv2D 层和 MaxPooling2D 层的作用。

### 5.1.2 最大池化运算

为什么要用这种方式对特征图下采样?为什么不删除最大池化层,一直保留较大的特征图?  我们来这么做试一下。这时模型的卷积基(convolutional base)如下所示