# 深度神经网络DNN模型与前向传播算法

深度神经网络（Deep Neural Networks， 以下简称DNN）是深度学习的基础，而要理解DNN，首先我们要理解DNN模型，下面我们就对DNN的模型与前向传播算法做一个总结。

## 1. 从感知机到神经网络

感知机的模型，它是一个有若干输入和一个输出的模型，如下图:
<img src='./images/percentron1.png' width='30%'/>

输出和输入之间学习到一个**线性关系**，得到中间输出结果：

$$z = \sum_{i=1}^{m} w_i x_i +b$$

接着是一个神经元激活函数:
$$sign(z) = \begin{cases}
-1 , z<0\\ 1, z \ge -1
\end{cases}$$

从而得到我们想要的输出结果1或者-1。

这个模型只能用于**二元分类**，且无法学习比较复杂的**非线性模型**，因此在工业界无法使用。

而神经网络则在感知机的模型上做了扩展，总结下主要有三点：   
    1. 加入了隐藏层，隐藏层可以有多层，增强模型的表达能力，如下图实例，当然增加了这么多隐藏层模型的复杂度也增加了好多。

<img src='./images/mlp1.png' width='50%'/>

    2. 输出层的神经元也可以不止一个输出，可以有多个输出，这样模型可以灵活的应用于分类回归，以及其他的机器学习领域，比如：降维和聚类等。多个神经元输出的输出层对应的一个实例。如下图，输出层现在有4个神经元了。
    
<img src='./images/mlp2.png' width='50%'/>

    3. 对激活函数做扩展，感知机的激活函数是sign(z)，虽然简单但是处理能力有限，因此神经网络中一般使用的其他的激活函数，比如我们在逻辑回归里面使用过的Sigmoid函数，即：
    
   $$f(z) = \frac{1}{1+e^{-z}}$$
   
    还有后来出现的tanx, softmax,和ReLU等。通过使用不同的激活函数，神经网络的表达能力进一步增强。对于各种常用的激活函数，我们在后面再专门讲。

## 2. DNN的基本结构

上一节我们了解了神经网络基于感知机的扩展，主要在三方面：
- 添加隐藏层
- 单一输出变成多输出
- 激活函数：由简单的Sign(z)符号函数，添加多种变化的激活函数，如：Sigmoid, tanh, ReLU, softmax等


而DNN可以理解为有很多隐藏层的神经网络。这个很多其实也没有什么度量标准。   

多层神经网络和深度神经网络DNN其实也是指的一个东西，当然，DNN有时也叫做多层感知机（Multi-Layer perceptron,MLP）, 名字实在是多。

本文后面我们讲到的神经网络都默认为DNN。

从DNN按不同层的位置划分，DNN内部的神经网络层可以分为三类：
- 输入层
- 隐藏层
- 输出层

如下图示例，一般来说第一层是输入层，最后一层是输出层，而中间的层数都是隐藏层。

<img src='./images/dnn1.png' width='50%'/>

层与层之间是全连接的，也就是说，第i层的任意一个神经元一定与第i+1层的任意一个神经元相连。

虽然DNN看起来很复杂，但是从小的局部模型来说，还是和感知机一样，即一个线性关系$z=∑w_ix_i+b$加上一个激活函数σ(z)。

**由于DNN层数多，则我们的线性关系系数w和偏倚b的数量也就是很多了。具体的参数在DNN是如何定义的呢？**

首先，我们来看看线性关系系数$w$的定义。

以下图一个三层的DNN为例，**第二层的第4个神经元**到**第三层的第2个神经元**的线性系数定义为$w^3_{24}$。
- 上标3代表线性系数w所在的层数；
- 而下标对应的是输出的第三层索引2和输入的第二层索引4。

你也许会问，**为什么不是$w^3_{42}$, 而是$w^3_{24}$呢？**

这主要是为了便于模型用于矩阵表示运算，如果是$w^3_{42}$，而每次进行矩阵运算是$w^Tx+b$，需要进行转置。  
将输出的索引放在前面的话，则线性运算不用转置，即直接为$wx+b$。

总结下，第$l−1$层的第$k$个神经元到第$l$层的第$j$个神经元的线性系数定义为$w^l_{jk}$。  
注意，输入层是没有w参数的。

<img src='./images/dnn2.png' width='50%'/>

再来看看偏倚b的定义。

还是以这个三层的DNN为例，第二层的第三个神经元对应的偏倚定义为$b^2_3$。
其中：
- 上标2代表所在的层数
- 下标3代表偏倚所在的神经元的索引。

同样的道理，第三个的第一个神经元的偏倚应该表示为$b^3_1$。  
同样的，输入层是没有偏倚参数b的。

<img src='./images/dnn3.png' width='50%'/>

## 3. DNN前向传播算法数学原理

## 4. DNN前向传播算法

# 4. DNN前向传播算法小结