### Optimization Algorithms

1. Mini-batch gradient descent
    1. Batch vs. mini-batch
        * Batch同时处理整个训练集样本
        * Mini-batch 同时只处理mini-batch大小的样本，梯度的更新也已一个minibatch大小为基础，即每次计算J(w, b)时，m为mini-batch size.
        * Mini-batch 更快
    2. Mini-batch size
        * size = m: 等同于BGD，每次迭代时间长
        * size = 1: SGD, 每次选取一个样本迭代，因此有时会朝反方向迭代，会失去向量化带来的加速，效率底下。
        * 如果样本集比较小 可以用BGD，如果使用mini-batch, 建议使用的size$2^6, 2^7, 2^8, 2^9$

2. Exponentially weighted averages 指数加权平均 = moving average
    1.  $v_t = \beta v_{t-1} + (1 - \beta)\theta_t$ 表示最新状态的值也受之前的值的影响， 但是越远的日子影响越低($\beta^t, 0<\beta<1$)
3. Bias correction for exponentially weighted averages
    1. 在初始时期，指数平均将出现较大偏差，此时可以用$\frac{v_t}{1 - \beta^t}$代替原式

3. Gradient descent with momentum 动量梯度下降
    1. 对于普通GD，如果学习率过大，那么会产生很大的抖动
    2. 每次迭代我们期望在水平方向尽量快， 而在竖直方向尽量小 -> 动量梯度下降
        * 计算dw db
        * $V_{dw} = \beta V_{dw} + (1-\beta)dw$
        * $V_{db} = \beta V_{db} + (1-\beta)db$
        * $w = w - \alpha V_{dw}, b = b - \alpha V_{db}$
    3. 减小梯度的摆动

4. RMSprop
    1. On iteration t:
        * calculate dw, db on current mini-batch
        * $S_{dw} = \beta S_{dw} + (1 - \beta)(dw)^2$
        * $S_{db} = \beta S_{db} + (1 - \beta)(db)^2$
        * update $w = w - \alpha \frac{dw}{\sqrt{S_{dw}}}, b = b - \alpha \frac{db}{\sqrt{S_{db}}}$

5. Adam optimization algorithm(Adaptive Momentum estimation)
    1. Adam将Momentum和RMSprop结合到一起，适用于大多NN
    2. 梯度计算
        * $V_{dw} = \beta_1 V_{dw} + (1-\beta_1)dw$, $V_{db} = \beta_1 V_{db} + (1-\beta_2)db$
        * $S_{dw} = \beta_2 S_{dw} + (1 - \beta_2)(dw)^2$, $S_{db} = \beta_2 S_{db} + (1 - \beta_2)(db)^2$
    3. 梯度修正
        * $ V_{dw}^{c} = \frac{V_{dw}}{1-\beta^t}$, $ V_{db}^{c} = \frac{V_{db}}{1-\beta^t}$
        * $ S_{dw}^{c} = \frac{S_{dw}}{1-\beta^t}$, $ S_{db}^{c} = \frac{S_{db}}{1-\beta^t}$
        *  c means 'corrected'.
    4. 梯度更新
        * $w = w - \alpha\frac{V_{dw}^{c}}{\sqrt{S_{dw}^{c}}+ \varepsilon}$, $b = b - \alpha\frac{V_{db}^{corrrected}}{\sqrt{S_{db}^{c}}+ \varepsilon}$
    5. 超参数
        * 学习率$\alpha$
        * $\beta_1, \beta_2$， 建议$\beta_1=0.9, \beta_2=0.999$
        * $\varepsilon, 10^{-8}$

6. learning rate decay 学习率衰减
    1.  $\alpha = \frac{1}{1 + decay\_rate * epoch\_num} * \alpha_0$

7. local optimal
    1. Saddle point鞍点 这个点的导数为0 但不是局部最优。鞍点的特征可能是凸函数或者凹函数 因此只要不是同时是凹函数 就不是局部最优
    2. 平稳段是NN的主要问题，因为会减缓学习 导数接近0
    3. Adam可以帮助快速走出平稳段