# Gradient-Based Learning Applied to Document Recognition

## 目录

- [从数据中学习](#从数据中学习)
- [基于梯度的学习](#基于梯度的学习)
- [梯度反传](#梯度反传)
- [卷积神经网络用于单个字符识别](#卷积神经网络用于单个字符识别)
  - [卷积网络](#卷积网络)
  - [LeNet-5](#LeNet-5)
  - [损失函数](#损失函数)

## 从数据中学习

1. **数据集**：
数据集可分为**训练数据集**与**测试数据集**，其中训练集用于学习算法，测试集用于评价学习到的算法的性能,
\begin{equation}
\label{eq:dataset}
\tag{式 1}
{\{(Z^1, D^1), \cdots, (Z^P, D^P)\}},
\end{equation}
其中$(Z^i, D^i)$代表数据集中的第$i$个输入模式与期望的标记；

2. **学习函数**：
\begin{equation}
\label{eq:learn function}
\tag{式 2}
Y^P = F(Z^P, W),
\end{equation}
其中$W$是需要学习的参数，$Y^P$代表算法在参数$W$的条件下预测输出;

3. **损失函数**：
\begin{equation}
\label{eq:loss function}
\tag{式 3}
E^P = \mathcal{D}(D^P, Y^P) = \mathcal{D}(D^P, F(Z^P, W)),
\end{equation}
计算算法输出与标记之间的差距，用来评估系统的性能；

4. 学习算法的目的就是要通过_最小化_**平均训练误差**$E_{train}(W)$找到一个公式(\ref{eq:learn function})合适的参数$W$;
5. 相比于平均训练误差，我们更关心**泛化误差**$E_{test}(W)$;
6. 
\begin{equation}
\label{eq:gap function}
\tag{式 4}
E_{test} - E_{train} = k(h/P)^{\alpha},
\end{equation}
其中$P$是训练样本的个数，$\alpha$是一个介于$0.5\sim1$之间的常数，$k$是一个常数，$h$代表学习算法的容量（复杂度）;
7. 为了得到最小化的泛化误差(\ref{eq:loss function})，所以需要平衡算法容量$h$与样本数目$P$，从而引出结构化风险(\ref{eq:structural risk})最小化；
8. 结构化风险：
\begin{equation}
\label{eq:structural risk}
\tag{式 5}
E_{train} + \beta H(W),
\end{equation}
其中$H(W)$是正则化函数用来限制模型容量$h$，$\beta$是常数。

## 基于梯度的学习

梯度更新参数：
\begin{equation}
\label{eq:parameters update with gradient}
\tag{式 6}
W_k = W_{k-1} - \epsilon\frac{\partial E(W)}{\partial W},
\end{equation}
其中$\epsilon$是一个常数或者对角矩阵等。

随机梯度下降算法，参数更新仅使用其中一个样本或者部分样本：
\begin{equation}
\label{eq:sotchastic gradient algorithm}
\tag{式 7}
W_k = W_{k-1} - \epsilon\frac{\partial E^{p_k}(W)}{\partial W},
\end{equation}
参数会在其收敛轨道的周围波动，但是却通常比常规的梯度下降算法和二阶算法收敛更快。式 

## 梯度反传

1. 损失函数的局部极值不在是实践中的主要问题；
2. 反向传播算法：在多层非线性系统中计算梯度；
3. 反向传播应用于使用sigmoidal单元多层神经网络能够解决复杂的问题。 

## 卷积神经网络用于单个字符识别

传统神经网络用于图像识别存在的问题：
1. 图像非常大，拥有很多的像素，全连接需要跟多参数，需要更多的训练样本
2. 硬件内存要求太大
3. 对于图像和语音信号，没有自带局部不变性
4. 全连接网络在许多不同位置上会有很多的重复的权值
5. 全连接网络完全忽略了输入的拓扑结构

### 卷积网络

卷积特性：
1. 局部连接
2. 权值共享
3. 空间（时间）采样


### LeNet-5

![lenet5](Gradient-Based-Learning-Applied-to-Document-Recognition/lenet5.jpg)

#### 结构解析

- C1：  
    输入shape：$1\times32\times32$  
    卷积核：$5\times5$  
    输出shape：$6\times28\times28$  
    可训练参数：$(1\times5\times5+1)\times6=156$  
    连接数：$1\times(5\times5+1)\times6\times(28\times28)=122304$  
    说明：  
     对输入图像进行第一次卷积运算（使用 $6$ 个大小为 $5\times5$ 的卷积核），得到$6$个C1特征图（$6$个大小为$28\times28$的 feature maps, $32-5+1=28$）。我们再来看看需要多少个参数，卷积核的大小为$5\times5$，总共就有$6 \times（5\times5+1）=156$个参数，其中$+1$是表示一个核有一个bias。对于卷积层C1，C1内的每个像素都与输入图像中的$5\times5$个像素和$1$个bias有连接，所以总共有$156\times28\times28=122304$个连接（connection）。有$122304$个连接，但是我们只需要学习$156$个参数，主要是通过权值共享实现的。

- S2:   
    输入shape：$6\times28\times28$  
    采样核：$2\times2$  
    输出shape：$6\times14\times14$  
    可训练参数：$\times(1+1)\times6=12$  
    连接数：$(2\times2+1)\times6\times(14\times14)=5880$   
    说明：  
     第一次卷积之后紧接着就是池化运算，使用 $2\times2$核 进行池化，于是得到了S2，$6$个$14\times14$的 特征图$(28/2=14)$。S2这个pooling层是对C1中的$2\times2$区域内的像素求和乘以一个权值系数再加上一个偏置，然后将这个结果再做一次映射。于是每个池化核有两个训练参数，所以共有$2\times6=12$个训练参数，但是有$5\times14\times14\times6=5880$个连接。

- C3:
    输入shape：$6\times14\times14$  
    卷积核：$5\times5$  
    输出shape：$16\times10\times10$  
    可训练参数：$[3\times(5\times5)+1]\times6+[4\times(5\times5)+1]\times(6+3)+[6\times(5\times5)+1]\times1=1516$  
    连接数：$1516\times(10\times10)=151600$  
    说明：第一次池化之后是第二次卷积，第二次卷积的输出是C3，$16$个$10\times10$的特征图，卷积核大小是 $5
    \times5$. 我们知道S2 有$6$个 $14\times14$ 的特征图，怎么从$6$个特征图得到$ 16$个特征图了？ 这里是通过对S2 的特征图特殊组合计算得到的$16$个特征图。具体如下：
     ![c3与s2连接图](Gradient-Based-Learning-Applied-to-Document-Recognition/lenet5-feature-connect.png)
     C3的前$6$个feature map（对应上图第一个红框的$6$列）与S2层相连的$3$个feature map相连接（上图第一个红框），后面$6$个feature map与S2层相连的$4$个feature map相连接（上图第二个红框），后面$3$个feature map与S2层部分不相连的$4$个feature map相连接，最后一个与S2层的所有feature map相连。卷积核大小依然为$5\times5$，所以总共有$[3\times(5\times5)+1]\times6+[4\times(5\times5)+1]\times(6+3)+[6\times(5\times5)+1]\times1=1516$个参数。而图像大小为$10\times10$，所以共有$151600$个连接。

- S4:  
    输入shape：$16\times10\times10$  
    采样核：$2\times2$  
    输出shape：$16\times5\times5$  
    可训练参数：$\times(1+1)\times16=32$  
    连接数：$(2\times2+1)\times16\times(5\times5)=2000$   
    说明：
    S4是pooling层，窗口大小仍然是$2\times2$，共计$16$个feature map，C3层的$16$个$10\times10$的图分别进行以$2\times2$为单位的池化得到$16$个$5\times5$的特征图。这一层有$2\times16$共$32$个训练参数，$5\times5\times5\times16=2000$个连接。连接的方式与S2层类似。

- C5:  
    输入shape：$16\times5\times5$  
    卷积核：$5\times5$  
    输出shape：$120\times1\times1$  
    可训练参数：$(16\times5\times5+1)\times120=48120$  
    连接数：$(16\times5\times5+1)\times120\times(1\times1)=48120$  
    说明：
    C5层是一个卷积层。由于S4层的$16$个图的大小为$5\times5$，与卷积核的大小相同，所以卷积后形成的图的大小为$1\times1$。这里形成$120$个卷积结果。每个都与上一层的$16$个图相连。所以共有(5x5x16+1)x120 = 48120个参数，同样有48120个连接。

- F6:
    输入：c5 $120$维向量
    计算方式：计算输入向量和权重向量之间的点积，再加上一个偏置，结果通过sigmoid函数输出。
    可训练参数：$84\times(120+1)=10164$
    说明：$6$层是全连接层。F6层有$84$个节点，对应于一个$7\times12$的比特图，$-1$表示白色，$1$表示黑色，这样每个符号的比特图的黑白色就对应于一个编码。该层的训练参数和连接数是$(120 + 1)\times84=10164$。ASCII编码图如下：
    ![ASCII编码图](Gradient-Based-Learning-Applied-to-Document-Recognition/lenet5-ascii-bitmap.png)

- OUTPUT:  
    Output层也是全连接层，共有$10$个节点，分别代表数字$0$到$9$，且如果节点$i$的值为$0$，则网络识别的结果是数字$i$。采用的是径向基函数（RBF）的网络连接方式。假设$x$是上一层的输入，$y$是RBF的输出，则RBF输出的计算方式是：
    \begin{equation}
    \label{eq:RBF}
    \tag{式 8}
    y_i = \sum_j(x_j - w_{ij})^2,
    \end{equation}
    上式$w_ij$ 的值由$i$的比特图编码确定，$i$从$0$到$9$，$j$取值从$0$到$7\times12-1$。RBF输出的值越接近于$0$，则越接近于$i$，即越接近于$i$的ASCII编码图，表示当前网络输入的识别结果是字符$i$。该层有$84\times10=840$个参数和连接。

### 损失函数

#### MSE

\begin{align}
\label{eq:loss MSE}
    E(W) &= \frac{1}{P}\sum_{p=1}^{P}y_{D^p}(Z^p, W)\\
    \tag{式 9}
    &=\frac{1}{P}\sum_{p=1}^{P}(Z^p == j)\sum_j(x_j - w_{ij})^2
\end{align}

注释：$y_{D^p}$代表输出的第$D_p-th$个单元是正确的类别，在大多数情况下该损失函数适合，但是缺少了三个重要的特性：
- 如果允许径向基（RBF）的参数该表，$E(W)$将是不可接受的，例如：  
     所有的RBF参数向量是相等的，并且其输入等于参数向量，那么其输出讲会是$0$，如果不允许参数改变则不会发生；
- 类别之间没有竞争

#### MAP
\begin{align}
\label{eq:loss}
    \tag{式 9}
    E(W) &= \frac{1}{P}\sum_{p=1}^{P}(y_{D^p}(Z^p, W) + log(e^{-j} + \sum_ie^{-y_i}(Z^p, W))),
\end{align}