# **优化方法讲解**

我们使用梯度下降法来寻找损失函数的最小值，但是梯度下降法对以下两个问题不能很好的解决：
- 局部最优解
- 鞍点 

其中鞍点较局部最优解更为常见（用函数的黑塞矩阵证明）

以下内容中，$\eta_t$代表t时刻的学习率

## **动量梯度下降**

**问题**:梯度下降会导致在特征取值分布不均匀的情况下，有些方向的自变量移动幅度太大。调整学习率又会使另一个方向的收敛速度变低

**改进计算**

$\large v_t = \gamma v_{t-1} + \eta_tg_t \\
 \large w_t = w_{t-1} - v_t$

上述方法可以使得梯度下降在各个方向上的移动更加平滑，从而使得移动幅度较大的不至于太大，移动幅度较小的不至于太小

动量梯度下降引入了**指数加权平均**的思想，使得当前梯度下降的方向不仅仅依赖于梯度，还依赖于过去方向的一致性

在pytorch中optim.sgd指定momentum参数即可使用动量梯度下降

总而言之问题在于不同参数幅度不一样导致单一学习率难以适应全部计算

## **AdaGrad**

**思想**:根据自变量在每个维度的梯度大小调整各个维度的学习率     
**计算**

$\large s_t = s_{t-1} + g_t \odot g_t \\
 \large x_t = x_{t-1} - \frac {\eta}{\sqrt{s_t + \epsilon}} \odot g_t$

可以看出来的是当某一个维度的梯度越大的话，其学习率是越小的。     
当早期迭代较快且解不佳时，Adagrad后期学习率太低，可能难以找到合适解

调用optim.Adagrad

## **RMSProp**

**思想**：将Adagrad和稍作改变    
**计算**

$\large s_t = \gamma s_{t-1} + (1 - \gamma)g_t \odot g_t \\
 \large x_t = x_{t-1} - \frac {\eta}{\sqrt{s_t + \epsilon}} \odot g_t $

## **AdaDelta**

**思想**：抛弃了学习率，维护两个变量$s_t,\Delta x_t$      
**计算**

$\large s_t = \eta s_{t-1} + (1 - \eta)g_t \odot g_t \\
 \large {g'}_t = \sqrt{\frac{\Delta x_{t-1}+\epsilon}{s_t + \epsilon}} \odot g_t \\
 \large x_t = x_{t-1} - {g'}_t\\
 \large \Delta x_t = \eta \Delta x_{t-1} + (1-\eta){g'}_t{g'}_t$

## **Adam**

**思想**：RMSProp和动量梯度下降的结合    
**计算**

$\large v_t = \beta_1 v_{t-1} + (1-\beta_1)g_t \\
\large s_t = \beta_2 s_{t-1} + (1-\beta_2)g_t \odot g_t \\
\large \hat v_t = \frac{v_t}{1-\beta_1^t} \\
\large \hat s_t = \frac{s_t}{1-\beta_2^t}\\
\large {g'}_t = \frac{\eta \hat v_t}{\sqrt(\hat s_t) + \epsilon}\\
 \large x_t = x_{t-1} - g'_t $