<h1>Optimization</h1>

参考文献：
[0] Deep Learning Book.




# 4. Optimization Strategies

# 0. 随机梯度下降Stachastic Gradient Descent

## (1) 对于$N$个mini-batch的样本，对参数$\boldsymbol{\theta}$计算梯度

> $\boldsymbol{g} = \frac{1}{N}
\sum_{i=1}^{N}
L(f(\boldsymbol{x}^{(i)}; \boldsymbol \theta), \boldsymbol{y}^{(i)})$

## (2) 更新参数

> $\boldsymbol{\theta} = \boldsymbol{\theta} - \epsilon \boldsymbol{g}$


# 1. 动量 Momentum

物理学上

> $动量 = 质量 \times 速度$

在优化过程中，引入动量，为了让参数不偏离上一次运动的方向太多，从而加速收敛。

### （1）计算动量

> $\boldsymbol{v} = \alpha \boldsymbol{v} - \epsilon \boldsymbol{g}$

$\alpha \in [0, 1)$，衡量上次梯度指数衰减变化对当前影响大小。

### （2）更新参数

> $\boldsymbol{\theta} = \boldsymbol{\theta} + \epsilon \boldsymbol{v}$


## 1.1 Nesterov动量

### (1) 更新参数
> $ \boldsymbol{ \widetilde {\theta} } = \boldsymbol{\theta} + \alpha \boldsymbol{v}$

### (2) 计算梯度
> $\boldsymbol{g} = \frac{1}{N}
\sum_{i=1}^{N}
L(f(\boldsymbol{x}^{(i)}; \boldsymbol { \widetilde { \theta } }), \boldsymbol{y}^{(i)})$

### (3) 计算动量

> $\boldsymbol{v} = \alpha \boldsymbol{v} - \epsilon \boldsymbol{g}$

### (4) 更新参数
> $\boldsymbol{\theta} = \boldsymbol{\theta} + \epsilon \boldsymbol{v}$


# 2. 自适应学习率 Adaptive Learning Rate

## 2.1 AdaGrad

> + 计算梯度： $\boldsymbol{g}$
> + 累积梯度平方：$\boldsymbol{r} \gets \boldsymbol{r} + \boldsymbol{g} \odot \boldsymbol{g}$
> + 更新参数：$\boldsymbol{\theta} \gets \boldsymbol{\theta} - 
\frac{\epsilon}{\sigma + \sqrt{\boldsymbol{r}}} \odot \boldsymbol{g}$ ，$\sigma$是一个很小的常数，如${10}^{-7}$

累积梯度平方可能导致学习率下降过快。

## 2.2 RMSProp

采用梯度指数加权的移动平均来更新学习率，该方法经常被采用。

> + 计算梯度：$\boldsymbol{g}$
> + 累积梯度指数加权的滑动平均：$\boldsymbol{r} \gets \rho \boldsymbol{r} + (1 - \rho) \boldsymbol{g} \odot \boldsymbol{g} $
> + 更新参数：$\boldsymbol{\theta} \gets \boldsymbol{\theta} - 
\frac{\epsilon}{\sigma + \sqrt{\boldsymbol{r}}} \odot \boldsymbol{g}$ ，$\sigma$是一个很小的常数，如${10}^{-7}$

## 2.3 Adam

Adaptive Moments

$\rho_1, \rho_2 \in [0, 1)$，$\rho_1$建议为0.9， $\rho_2$建议为0.999

> + $t \gets t + 1$
> + 更新有偏一阶矩：$\boldsymbol{s} \gets \rho_1 \boldsymbol{s} + (1 - \rho_1) \boldsymbol{g}$
> + 更新有偏二阶矩：$\boldsymbol{r} \gets \rho_2 \boldsymbol{r} + (1 - \rho_2) \boldsymbol{g} \odot \boldsymbol{g}$
> + 修正一阶矩偏差：$\boldsymbol{\hat{s}} \gets \frac{\boldsymbol{s}}{1 - \rho_1^t}$
> + 修正二阶矩偏差：$\boldsymbol{\hat{r}} \gets \frac{\boldsymbol{r}}{1 - \rho_2^t}$
> + 更新参数：$\boldsymbol{\theta} \gets \boldsymbol{\theta} - 
\epsilon 
\frac{\boldsymbol{\hat{s}}}{\sigma + \sqrt{\boldsymbol{\hat{r}}}}$

# 3. 二阶近似方法 Second Order Methods

## 3.1 牛顿法

由泰勒展开，

> $f(x+\Delta{x}) \approx f(x) + \Delta{x}^{\top}g + \frac{1}{2}\Delta{x}^{\top}H\Delta{x}$

> $y = f(x+\Delta{x}) - f(x) \approx \Delta{x}^{\top}g + \frac{1}{2}\Delta{x}^{\top}H\Delta{x}$

> 令，$\nabla_{\Delta{x}}y = g + \frac{1}{2}(H+H^{\top})\Delta{x} = g + H\Delta{x} = 0$，得到

> $\Delta{x} = - H ^{-1}g$

所以更新参数规则为，

> $x \gets x - \epsilon ^ {-1} g$

每次迭代需要计算Hessian矩阵（$\mathbb{R}^{k \times k}$）的逆，时间复杂度为$O(k^3)$，计算量太大。

## 3.2 共轭梯度法

## 3.3 BFGS

找到$H^{-1}$的近似矩阵。

## 3.4 L-BFGS



# 4. 批标准化 Batch Normalization