本部分主要内容包括：
* 神经网络
* 激活函数
* 梯度下降法
* 反向传播
* 随机初始化

# 神经网络的表示
![nn represation](./Image/nn represation.png)

* 注意其中的参数矩阵规格大小
   - $w^{[1]}->(4,3)$:前面的4是后一层神经元的个数，后面的3是前一层输入层神经元的个数
   - $b^{[1]}->(4,1)$:4表示后一层输出单元的个数
  
 由上面我们可以总结出，在神经网络中，我们以相邻两层为观测对象，前面一层作为输入，后面一层作为输出，两层之间的w参数矩阵大小为($n_{out},n_{in}$)，b参数矩阵大小为($n_{out},1$)，这里是作为z=wX+b的线性关系来说明的
 
 在logistic regression中，一般我们都会用($n_{in},n_{out}$)来表示参数大小，计算使用的公式为：$z=w^TX+b$，要注意这两者的区别。


# 计算神经网络的输出
![nn_output](./Image/nn_output.png)

# 向量化的实现
![nn_vec](./Image/nn_vec.png)

# 激活函数
![activation_function](./Image/activation_function.png)

* sigmoid:$a = \dfrac{1}{1+e^{-z}}$
   - 导数：$a' = a(1-a)$
* tanh:$a=\dfrac{e^{z}-e^{-z}}{e^{z}+e^{-z}}$
   - 导数：$a'=1-a^{2}$
* ReLU:$a = \max(0,z)$
* Leaky ReLu:$a = \max(0.01z,z)$

# 梯度下降

以本节中的浅层神经网络为例，我们给出神经网络的梯度下降法的公式。

- 参数：$W^{[1]},b^{[1]},W^{[2]},b^{[2]}$；
- 输入层特征向量个数：$n_x=n^{[0]}$；
- 隐藏层神经元个数：$n^{[1]}$；
- 输出层神经元个数：$n^{[2]}=1$；
- $W^{[1]}$的维度为($n^{[1]},n^{[0]}$)，$b^{[1]}$的维度为($n^{[1]},1$)；
- $W^{[2]}$的维度为($n^{[2]},n^{[1]}$)，$b^{[2]}$的维度为($n^{[2]},1$)；

下面为该例子的神经网络反向梯度下降公式（左）和其代码向量化（右）：
![gradient](./Image/gradient.png)

**计算的技巧在于根据向量化后的前向传播公式，直接推导出向量化的梯度，注意保证其维度匹配。同时注意，计算dw db的方式都是一致的，只是需要对每层计算dz。而dz的计算每层的方法除了所使用的激活函数不一致外，计算方法也是一样的。为了计算dz，推导时候需要计算中间变量da,而最后实现的时候不需要计算da**

# 随机初始化
如果在初始时，两个隐藏神经元的参数设置为相同的大小，那么两个隐藏神经元对输出单元的影响也是相同的，通过反向梯度下降去进行计算的时候，会得到同样的梯度大小，所以在经过多次迭代后，两个隐藏层单位仍然是对称的。无论设置多少个隐藏单元，其最终的影响都是相同的，那么多个隐藏神经元就没有了意义。**随机的目的在于打破对称性**

在初始化的时候，W参数要进行随机初始化，b则不存在对称性的问题它可以设置为0。

以2个输入，2个隐藏神经元为例：
```
W = np.random.rand((2,2))* 0.01
b = np.zero((2,1))
```
这里我们将W的值乘以0.01是为了尽可能使得权重W初始化为较小的值，这是因为如果使用sigmoid函数或者tanh函数作为激活函数时，W比较小，则Z=WX+b所得的值也比较小，处在0的附近，0点区域的附近梯度较大，能够大大提高算法的更新速度。而如果W设置的太大的话，得到的梯度较小，训练过程因此会变得很慢。

ReLU和Leaky ReLU作为激活函数时，不存在这种问题，因为在大于0的时候，梯度均为1。
