# **一、任务介绍**

**手写数字识别**（handwritten numeral recognition）是光学字符识别技术（optical character recognition，OCR）的一个分支，是初级研究者的入门基础，在现实产业中也占据着十分重要的地位，它主要的研究内容是如何利用电子计算机和图像分类技术自动识别人手写在纸张上的阿拉伯数字（0～9）。因此，本实验任务简易描述如图所示：  ![](https://ai-studio-static-online.cdn.bcebos.com/4c7206c4ba444963981b43118627fcbf1e67f94840d144bfb7b00265cf63dcfd)

# **二、模型原理**

	近年来，神经网络模型一直层出不穷，在各个计算机视觉任务中都呈现百花齐放的态势。为了让开发者更清楚地了解网络模型的搭建过程，以及为了在后续的各项视觉子任务实战中奠定基础。下面本节将以MNIST手写数字识别为例，在PaddlePaddle深度学习开发平台下构建一个LeNet网络模型并进行详细说明。

	LeNet是第一个将卷积神经网络推上计算机视觉舞台的算法模型，它由LeCun在1998年提出。在早期应用于手写数字图像识别任务。该模型采用顺序结构，主要包括7层（2个卷积层、2个池化层和3个全连接层），卷积层和池化层交替排列。以mnist手写数字分类为例构建一个LeNet-5模型。每个手写数字图片样本的宽与高均为28像素，样本标签值是0~9，代表0至9十个数字。
**下面详细解析LeNet-5模型的网络结构及原理**


![](https://ai-studio-static-online.cdn.bcebos.com/c758063e28754e20ac3ec70cef5ca1b0168ad923000d47f1bd686b59d2f3c23b)

图1 LeNet-5整体网络模型


（1）卷积层L1

L1层的输入数据形状大小为$\mathbb{R}^{m \times 1 \times 28 \times 28}$，表示样本批量为m，通道数量为1，行与列的大小都为28。L1层的输出数据形状大小为$\mathbb{R}^{m \times 6 \times 24 \times 24}$，表示样本批量为m，通道数量为6，行与列维都为24。

这里有两个问题很关键：一是，为什么通道数从1变成了6呢？原因是模型的卷积层L1设定了6个卷积核，每个卷积核都与输入数据发生运算，最终分别得到6组数据。二是，为什么行列大小从28变成了24呢？原因是每个卷积核的行维与列维都为5，卷积核（5×5）在输入数据（28×28）上移动，且每次移动步长为1，那么输出数据的行列大小分别为28-5+1=24。


In [1]:
        # #卷积层L1 
        # self.conv1 = paddle.nn.Conv2D(in_channels=1,
        #                               out_channels=6,
        #                               kernel_size=5,
        #                               stride=1)

（2）池化层L2

L2层的输入数据形状大小为$\mathbb{R}^{m \times 6 \times 24 \times 24}$，表示样本批量为m，通道数量为6，行与列的大小都为24。L2层的输出数据形状大小为$\mathbb{R}^{m \times 6 \times 12 \times 12}$，表示样本批量为m，通道数量为6，行与列维都为12。

在这里，为什么行列大小从24变成了12呢？原因是池化层中的过滤器形状大小为2×2，其在输入数据（24×24）上移动，且每次移动步长（跨距）为2，每次选择4个数（2×2）中最大值作为输出，那么输出数据的行列大小分别为24÷2=12。

In [2]:
        # #池化层L2
        # self.pool1 = paddle.nn.MaxPool2D(kernel_size=2,
        #                                  stride=2)

（3）卷积层L3

L3层的输入数据形状大小为$\mathbb{R}^{m \times 6 \times 12 \times 12}$，表示样本批量为m，通道数量为6，行与列的大小都为12。L3层的输出数据形状大小为$\mathbb{R}^{m \times 16 \times 8 \times 8}$，表示样本批量为m，通道数量为16，行与列维都为8。


In [3]:
        # #卷积层L3
        # self.conv2 = paddle.nn.Conv2D(in_channels=6,
        #                               out_channels=16,
        #                               kernel_size=5,
        #                               stride=1)

（4）池化层L4

L4层的输入数据形状大小为$\mathbb{R}^{m \times 16 \times 8 \times 8}$，表示样本批量为m，通道数量为16，行与列的大小都为8。L4层的输出数据形状大小为$\mathbb{R}^{m \times 16 \times 4 \times 4}$，表示样本批量为m，通道数量为16，行与列维都为4。池化层L4中的过滤器形状大小为2×2，其在输入数据（形状大小24×24）上移动，且每次移动步长（跨距）为2，每次选择4个数（形状大小2×2）中最大值作为输出。

In [4]:
        # #池化层L4
        # self.pool2 = paddle.nn.MaxPool2D(kernel_size=2,
        #                                  stride=2)

（5）线性层L5

L5层输入数据形状大小为$\mathbb{R}^{m \times 256}$，表示样本批量为m，输入特征数量为256。输出数据形状大小为$\mathbb{R}^{m \times 120}$，表示样本批量为m，输出特征数量为120。

In [5]:
        # #线性层L5
        # self.fc1=paddle.nn.Linear(256,120)

（6）线性层L6

L6层的输入数据形状大小为$\mathbb{R}^{m \times 120}$，表示样本批量为m，输入特征数量为120。L6层的输出数据形状大小为$\mathbb{R}^{m \times 84}$，表示样本批量为m，输出特征数量为84。

In [6]:
        # #线性层L6
        # self.fc2=paddle.nn.Linear(120,84)

（7）线性层L7

L7层的输入数据形状大小为$\mathbb{R}^{m \times 84}$，表示样本批量为m，输入特征数量为84。L7层的输出数据形状大小为$\mathbb{R}^{m \times 10}$，表示样本批量为m，输出特征数量为10。

In [7]:
        # #线性层L7
        # self.fc3=paddle.nn.Linear(84,10)

# **三、MNIST数据集**

## 3.1 数据集介绍

手写数字分类数据集来源MNIST数据集，该数据集可以公开免费获取。该数据集中的训练集样本数量为60000个，测试集样本数量为10000个。每个样本均是由28×28像素组成的矩阵，每个像素点的值是标量，取值范围在0至255之间，可以认为该数据集的颜色通道数为1。数据分为图片和标签，图片是28*28的像素矩阵，标签为0~9共10个数字。

![](https://ai-studio-static-online.cdn.bcebos.com/fc73217ae57f451a89badc801a903bb742e42eabd9434ecc8089efe19a66c076)

## 3.2 数据读取
(1)transform函数是对数据进行归一化和标准化

(2)train_dataset和test_dataset

paddle.vision.datasets.MNIST()中的mode='train'和mode='test'分别用于获取mnist训练集和测试集


In [1]:
#导入数据集Compose的作用是将用于数据集预处理的接口以列表的方式进行组合。
#导入数据集Normalize的作用是图像归一化处理，支持两种方式： 1. 用统一的均值和标准差值对图像的每个通道进行归一化处理； 2. 对每个通道指定不同的均值和标准差值进行归一化处理。
import paddle
from paddle.vision.transforms import Compose, Normalize
import os
import matplotlib.pyplot as plt
transform = Compose([Normalize(mean=[127.5],std=[127.5],data_format='CHW')])
# 使用transform对数据集做归一化
print('下载并加载训练数据')
train_dataset = paddle.vision.datasets.MNIST(mode='train', transform=transform)
val_dataset = paddle.vision.datasets.MNIST(mode='test', transform=transform)
print('加载完成')

  from collections import MutableMapping
  from collections import Iterable, Mapping
  from collections import Sized


下载并加载训练数据
item  119/2421 [>.............................] - ETA: 2s - 889us/item

Cache file /home/aistudio/.cache/paddle/dataset/mnist/train-images-idx3-ubyte.gz not found, downloading https://dataset.bj.bcebos.com/mnist/train-images-idx3-ubyte.gz 
Begin to download





Download finished
Cache file /home/aistudio/.cache/paddle/dataset/mnist/train-labels-idx1-ubyte.gz not found, downloading https://dataset.bj.bcebos.com/mnist/train-labels-idx1-ubyte.gz 
Begin to download

Download finished




Cache file /home/aistudio/.cache/paddle/dataset/mnist/t10k-images-idx3-ubyte.gz not found, downloading https://dataset.bj.bcebos.com/mnist/t10k-images-idx3-ubyte.gz 
Begin to download





Download finished
Cache file /home/aistudio/.cache/paddle/dataset/mnist/t10k-labels-idx1-ubyte.gz not found, downloading https://dataset.bj.bcebos.com/mnist/t10k-labels-idx1-ubyte.gz 
Begin to download

Download finished


加载完成


**让我们一起看看数据集中的图片是什么样子的**

In [None]:
train_data0, train_label_0 = train_dataset[0][0],train_dataset[0][1]
train_data0 = train_data0.reshape([28,28])
plt.figure(figsize=(2,2))
print(plt.imshow(train_data0, cmap=plt.cm.binary))
print('train_data0 的标签为: ' + str(train_label_0))

让我们再来看看数据样子是什么样的吧

In [None]:
print(train_data0)

# **四、LeNet模型搭建**
**构建LeNet-5模型进行MNIST手写数字分类**



In [11]:
#导入需要的包
import paddle
import paddle.nn.functional as F
from paddle.vision.transforms import Compose, Normalize

#定义模型
class LeNetModel(paddle.nn.Layer):
    def __init__(self):
        super(LeNetModel, self).__init__()
        # 创建卷积和池化层块，每个卷积层后面接着2x2的池化层
        #卷积层L1
        self.conv1 = paddle.nn.Conv2D(in_channels=1,
                                      out_channels=6,
                                      kernel_size=5,
                                      stride=1)
        #池化层L2
        self.pool1 = paddle.nn.MaxPool2D(kernel_size=2,
                                         stride=2)
        #卷积层L3
        self.conv2 = paddle.nn.Conv2D(in_channels=6,
                                      out_channels=16,
                                      kernel_size=5,
                                      stride=1)
        #池化层L4
        self.pool2 = paddle.nn.MaxPool2D(kernel_size=2,
                                         stride=2)
        #线性层L5
        self.fc1=paddle.nn.Linear(256,120)
        #线性层L6
        self.fc2=paddle.nn.Linear(120,84)
        #线性层L7
        self.fc3=paddle.nn.Linear(84,10)

    #正向传播过程
    def forward(self, x):
        x = self.conv1(x)
        x = F.sigmoid(x)
        x = self.pool1(x)
        x = self.conv2(x)
        x = F.sigmoid(x)
        x = self.pool2(x)
        x = paddle.flatten(x, start_axis=1,stop_axis=-1)
        x = self.fc1(x)
        x = F.sigmoid(x)
        x = self.fc2(x)
        x = F.sigmoid(x)
        out = self.fc3(x)
        return out

model=paddle.Model(LeNetModel())


# **五、模型优化过程**

## 5.1 损失函数
**由于是分类问题，我们选择交叉熵损失函数。交叉熵主要用于衡量估计值与真实值之间的差距。交叉熵值越小，模型预测效果越好。***

$E(\mathbf{y}^{i},\mathbf{\hat{y}}^{i})=-\sum_{j=1}^{q}\mathbf{y}_{j}^{i}ln(\mathbf{\hat{y}}_{j}^{i})$

其中，$\mathbf{y}^{i} \in \mathbb{R}^{q}$为真实值，$y_{j}^{i}$是$\mathbf{y}^{i}$中的元素(取值为0或1)，$j=1,...,q$。$\mathbf{\hat{y}^{i}} \in \mathbb{R}^{q}$是预测值（样本在每个类别上的概率）。其中，在paddle里面交叉熵损失对应的API是paddle.nn.CrossEntropyLoss()

## 5.2 参数优化
定义好了正向传播过程之后，接着随机化初始参数，然后便可以计算出每层的结果，每次将得到m×10的矩阵作为预测结果，其中m是小批量样本数。接下来进行反向传播过程，预测结果与真实结果之间肯定存在差异，以缩减该差异作为目标，计算模型参数梯度。进行多轮迭代，便可以优化模型，使得预测结果与真实结果之间更加接近。

# **六、模型训练与评估**

**训练配置：设定训练超参数**

1、批大小batch_size设置为64，表示每次输入64张图片；

2、迭代次数epoch设置为5，表示训练5轮；

3、日志显示verbose=1，表示带进度条的输出日志信息。

In [12]:
model.prepare(paddle.optimizer.Adam(parameters=model.parameters()),
              paddle.nn.CrossEntropyLoss(),
              paddle.metric.Accuracy())

model.fit(train_dataset,
          epochs=5,
          batch_size=64,
          verbose=1)

model.evaluate(val_dataset,verbose=1)

The loss value printed in the log is the current step, and the metric is the average value of previous step.
Epoch 1/5
step  10/938 [..............................] - loss: 2.3076 - acc: 0.1062 - ETA: 21s - 23ms/step

  return (isinstance(seq, collections.Sequence) and


Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Eval begin...
The loss value printed in the log is the current batch, and the metric is the average value of previous step.
Eval samples: 10000


{'loss': [0.00075607264], 'acc': 0.9794}

经过5个epoch世代迭代，LeNet5模型在MNIST图像分类任务上的准确度达到98%左右。

# **七、模型可视化**

In [13]:
model.summary((1,1,28,28))

---------------------------------------------------------------------------
 Layer (type)       Input Shape          Output Shape         Param #    
   Conv2D-1       [[1, 1, 28, 28]]      [1, 6, 24, 24]          156      
  MaxPool2D-1     [[1, 6, 24, 24]]      [1, 6, 12, 12]           0       
   Conv2D-2       [[1, 6, 12, 12]]      [1, 16, 8, 8]          2,416     
  MaxPool2D-2     [[1, 16, 8, 8]]       [1, 16, 4, 4]            0       
   Linear-1          [[1, 256]]            [1, 120]           30,840     
   Linear-2          [[1, 120]]            [1, 84]            10,164     
   Linear-3          [[1, 84]]             [1, 10]              850      
Total params: 44,426
Trainable params: 44,426
Non-trainable params: 0
---------------------------------------------------------------------------
Input size (MB): 0.00
Forward/backward pass size (MB): 0.04
Params size (MB): 0.17
Estimated Total Size (MB): 0.22
------------------------------------------------------

{'total_params': 44426, 'trainable_params': 44426}

请点击[此处](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576)查看本环境基本用法.  <br>
Please click [here ](https://ai.baidu.com/docs#/AIStudio_Project_Notebook/a38e5576) for more detailed instructions. 