# 使用卷积网络训练手写数字辨识模型

In [2]:
# 处理数据
from tensorflow.python.keras.datasets import mnist
from tensorflow.python.keras.utils import to_categorical

(train_images, train_labels),(test_images,test_labels)=mnist.load_data()

train_images=train_images.reshape((60000,28,28,1))
train_images=train_images.astype('float32')/255

test_images=test_images.reshape((10000,28,28,1))
test_images=test_images.astype('float32')/255

train_labels=to_categorical(train_labels)
test_labels=to_categorical(test_labels)

In [5]:
# 创建网络
from tensorflow.python.keras import layers
from tensorflow.python.keras import models

model=models.Sequential()
model.add(layers.Conv2D(32,(3,3),activation='relu',input_shape=(28,28,1)))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(64,(3,3),activation='relu'))
model.add(layers.MaxPooling2D((2,2)))
model.add(layers.Conv2D(64,(3,3),activation='relu'))

卷积神经网路接收形状为(image_height, image_width, image_channels)的输入张量(**不包括批量维度**)。

In [6]:
# 卷积神经网络的架构
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_3 (Conv2D)            (None, 26, 26, 32)        320       
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 13, 13, 32)        0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 11, 11, 64)        18496     
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 64)          0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 3, 3, 64)          36928     
Total params: 55,744
Trainable params: 55,744
Non-trainable params: 0
_________________________________________________________________


In [7]:
# 将卷积层的输出，输入到全连接层构建的网络中（先将输出撸平）
model.add(layers.Flatten())
model.add(layers.Dense(64,activation='relu'))
model.add(layers.Dense(10,activation='softmax'))

In [8]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
conv2d_3 (Conv2D)            (None, 26, 26, 32)        320       
_________________________________________________________________
max_pooling2d_2 (MaxPooling2 (None, 13, 13, 32)        0         
_________________________________________________________________
conv2d_4 (Conv2D)            (None, 11, 11, 64)        18496     
_________________________________________________________________
max_pooling2d_3 (MaxPooling2 (None, 5, 5, 64)          0         
_________________________________________________________________
conv2d_5 (Conv2D)            (None, 3, 3, 64)          36928     
_________________________________________________________________
flatten (Flatten)            (None, 576)               0         
_________________________________________________________________
dense (Dense)                (None, 64)               

In [9]:
# 训练网络
model.compile(optimizer='rmsprop',loss='categorical_crossentropy',metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=5, batch_size=64)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7f4e24e3a8d0>

In [10]:
# 在测试集上惊醒评估
test_loss,test_acc=model.evaluate(test_images,test_labels)
test_acc



0.9918

# 卷积运算

1. 密集连接层从输入特征空间中学到的是全局模式，而卷积层学到的是局部模式。这种模式学到后可以应用到所有位置，因此它用到的样本数量比密集连接层的要少。
2. 卷积神经网络可以学到**模式的空间层次结构(spatial hierarchies of patterns)**。第一个卷基层学习较小的局部模式，第二个卷基层学习有第一层特征组成的更大的模式，以此类推产生空间层次结构。

<img src='images/1.png'/>


第一个卷基层接受一个大小为(28,28,1)的特征图$a$(feature map)，并输出一个大小为(26,26,32)的特征图$b$。换言之就是使用32个过滤器对特征图$a$进行特征提取，组成一张相应图(response map，特征图$a$的不同位置会对过滤器产生不同的相应)，这在输出特征图$b$中表现为一个channel。特征图$b$中每一层(channel)都是提取的一个特征。

<font color='#ba05ee' size=3>如何进行提取？</font>
在输入特征图中，以一个固定大小的图块(通常3x3,5x5)滑动(默认步幅stride为1)，从起始位置一直滑到最后得到许多的输入特征图的局部图块，这些局部图块与一个**相同的权重矩阵(卷积核convolution kernel)**做张量积，产生一个形状为(filter_number,)的1D向量(所有的channel同时进行特征提取，每一个channel会变成1D向量中对应的一个数字)，这些1D向量按照原来的顺序组合在一起就是输出特征图。

<img src='images/2.png'/>


# 最大池化运算

池化的原因是：
1. 减少需要处理的特征图的元素个数
2. 通过让连续卷积层的观察窗口越来越大，从而引入空间过滤器的层级结构。<br>


“最大”的原因：<br>
特征中往往编码了某种模式或概念在特征图中的不同位置是否存在，而观察不同特征的最大值相较于平均值能给出更多信息(将这种特征突出出来)。