### 梯度消失与梯度爆炸

**梯度消失**（Gradient Vanishing）：是神经网络训练中常见的一个问题，特别是在深层神经网络中。它指的是在网络的反向传播过程中，用于更新网络权重的梯度变得非常小，以至于几乎不对权重产生任何显著的更新。这种现象通常发生在深层网络的较低层（靠近输入层的层）。

**梯度消失的原因**：

* 深层网络结构：在深层网络中，梯度必须通过多个层次进行反向传播。如果这些层使用了某些激活函数，如Sigmoid或Tanh，梯度在传播过程中可能因为连续乘以小于1的数而逐渐变小。

* 不恰当的激活函数：例如，Sigmoid和Tanh激活函数在输入值很大或很小的时候导数接近于零，这会使梯度变得非常小。

* 权重初始化：不适当的权重初始化也可能导致梯度消失，特别是当初始化的权重太小时。

**梯度消失的后果**
梯度消失会导致网络训练过程极度缓慢或完全停滞。由于网络的较低层几乎不更新，网络难以学习到有效的特征表示，这会影响整个模型的性能。


**梯度爆炸**：是指在反向传播过程中，梯度值随着层数的增加而迅速增大，最终变得非常大，超出了神经网络的正常处理范围，从而导致模型参数更新不稳定，甚至训练失败。

**梯度爆炸的原因**：

* 权重初始化过大：在神经网络中，如果权重的初始值设置得过大，那么在反向传播过程中，梯度值可能会因为权重的累积效应而迅速增大，导致梯度爆炸。

* 网络层数过多：在深层神经网络中，由于链式法则的应用，梯度需要通过多层进行反向传播。如果每一层的梯度都稍微增大一点，那么经过多层传播后，梯度值就会变得非常大，导致梯度爆炸。

* 学习率设置过高：学习率决定了模型参数更新的步长。如果学习率设置得过高，那么模型参数在更新时可能会因为步长过大而跳出最优解的范围，同时过高的学习率会使模型在更新参数时过于激进，从而加剧梯度的波动。

### 梯度检验Grad Check

把神经网络的所有参数：$W^{[1]},b^{[1]},...,W^{[L]},b^{[L]}$合成一个大的向量$\theta$。

$$J(W^{[1]},b^{[1]},...,W^{[L]},b^{[L]})=J(\theta_1,...,\theta_L)=J(\theta)$$

$$dθ_{approx_{[i]}}=\frac{J(\theta_1,...,\theta_i+\epsilon,...)-J(\theta_1,...,\theta_i-\epsilon,...)}{2\epsilon}$$

$$\frac{||d\theta_{approx}-d\theta||_2}{||d\theta_{approx}||_2+||d\theta||_2}≈\epsilon$$

$\epsilon≈10^{-7}$ -- great

$\epsilon≈10^{-3}$ -- worry