## 2.10深度学习常用的优化算法
优化器在机器学习、深度学习中往往起着举足轻重的作用，同一个模型，因选择不同的优化器，性能有可能相差很大，甚至导致一些模型无法训练。所以，了解各种优化器的基本原理非常必要。本节重点介绍各种优化器或算法的主要原理，及各自的优点或不足。
### 2.10.1传统梯度更新算法
传统梯度更新算法是最常见、最简单的一种参数更新策略。其基本思想是：先设定一个学习率λ，参数沿梯度的反方向移动。假设基于损失函数L(f(x,θ),y)，其中θ需更新的参数，梯度为g，则其更新策略的伪代码如下：
![image.png](attachment:image.png)

这种梯度更新算法简洁，当学习率取值恰当时，可以收敛到全面最优点（凸函数）或局部最优点（非凸函数）。
但其不足也很明显，对超参数学习率比较敏感（过小导致收敛速度过慢，过大又越过极值点），如图2-53的右图所示。在比较平坦的区域，因梯度接近于0，易导致提前终止训练，如图2-53的左图所示，要选中一个恰当的学习速率往往要花费不少时间。
![image.png](attachment:image.png)
学习率除了敏感，有时还会因其在迭代过程中保持不变，很容易造成算法被卡在鞍点的位置，如图2-54所示。
![image-2.png](attachment:image-2.png)
另外，在较平坦的区域，因梯度接近于0，优化算法往往因误判，还未到达极值点，就提前结束迭代，如图2-55所示。
![image-3.png](attachment:image-3.png)
图2-55较平坦区域的梯度接近于0示意图
- 传统梯度优化方面的这些不足，在深度学习中会更加明显。为此，人们自然想到如何克服这些不足的问题。从本小节前文更新策略的伪代码可知，影响优化的主要因素有优化训练数据集的大小、优化梯度方向、优化学习率。
所以很多优化方法大多从这些方面入手，数据集优化方面采用批量随机梯度下降方法，从梯度方向优化方面有动量更新策略；有些从学习率入手，这涉及自适应问题；还有从两方面同时入手等方法，接下来将介绍这些方法。



### 2.10.2 批量随机梯度下降法
梯度下降法是非常经典的算法，训练时，如果使用全训练集，虽然可获得较稳定的值，但比较耗费资源，尤其当训练数据比较大时；另一个极端时，每次训练时用一个样本（又称为随机梯度下降法），这种训练方法振幅较大，也比较耗时，如图2-56所示。
![image.png](attachment:image.png)
图2-56 随机梯度下降法的损失值变化示意图
这种方法虽然资源消耗较少，但很耗时时间，因这种方法无法充分发挥深度学习程序库中高度优化的矩阵运算的优势。为更有效训练模型，我们采用一种折中方法，即批量随机下降法。这种梯度下降方法有两个特点：一是批量，另一个是随机性。如何实现批量随机下降呢？ 其伪代码如下：
![image-2.png](attachment:image-2.png)

其中$x^{(i)}$和小批量数据集的所有元素都是从训练集中随机抽出的，这样梯度的预期将保持不变，相对于随机梯度下降，批量随机梯度下降降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定，这些因素都有利于提升其收敛效果，如图2-57所示。
![image.png](attachment:image.png)
图2-57 批量随机梯度下降法的损失值变化示意图

### 2.10.3 动量算法
梯度下降法在遇到平坦或高曲率区域时，学习过程有时很慢。利用动量算法能比较好解决这个问题。动量算法与传统梯度下降优化的效果，我们以求解函数f(x_1,x_2)=0.05x_1^2+2x_1^2极值为例，使用梯度下降法和动量算法分别进行迭代求解，具体迭代过程如图2-58、图2-59所示（实现代码请参考第5章代码部分）。	
![image.png](attachment:image.png)
从图2-58 可以看出，不使用动量算法的SGD学习速度比较慢，振幅比较大；图2-59 可以看出，使用动量算法的SGD,振幅较小，而且较快到达极值点。动量算法是如何做到这点的呢？
动量（momentum）是模拟物理里动量的概念，具有物理上惯性的含义，一个物体在运动时具有惯性，把这个思想运用到梯度下降计算中，可以增加算法的收敛速度和稳定性，具体实现如图2-60所示。		
![image-2.png](attachment:image-2.png)
图2-60动量算法示意图  
 由图2-60所示，可知动量算法每下降一步都是由前面下降方向的一个累积和当前点的梯度方向组合而成。含动量的随机梯度下降法，其算法伪代码如下：
![image-3.png](attachment:image-3.png)
批量随机梯度下降法PyTorch代码实现：

其中，parameters是模型参数，假设模型为model，则parameters为model. parameters()。
具体使用动量算法时，动量项的计算公式如下：
$$v_k=αv_(k-1)+（-λg ̂(θ_k ）                         \tag{2.20}$$
如果按时间展开，则第k次迭代使用了从1到k次迭代的所有负梯度值，且负梯度按动量系数α指数级衰减，相当于使用了移动指数加权平均，具体展开过程如下：
![image.png](attachment:image.png)
   假设每个时刻的梯度g ̂相似，则得到：
$$v_k≈(λg ̂)/(1-α)                                                                   \tag{2.22}$$
由此可知，当在比较平缓处，但α=0.5、0.9时，将是分别是梯度下降法的2倍、10倍。
使用动量算法不但可加速迭代速度，还可能跨过局部最优找到全局最优，如图2-61所示。
![image-2.png](attachment:image-2.png)
图2-61 使用动量算法的潜在优势

### 2.10.4 Nesterov动量算法
既然每一步都要将两个梯度方向（历史梯度、当前梯度）做一个合并再下降，那为什么不先按照历史梯度往前走那么一小步，按照前面一小步位置的“超前梯度”来做梯度合并呢？如此一来，可以先往前走一步，在靠前一点的位置（如图5-21中的C点）看到梯度，然后按照那个位置再来修正这一步的梯度方向，如图2-62所示。
![image.png](attachment:image.png)
图2-62 Nesterov下降法示意图  
这就得到动量算法的一种改进算法，称为NAG（Nesterov Accelerated Gradient）算法，也称Nesterov动量算法。这种预更新方法能防止大幅振荡，不会错过最小值，并对参数更新更加敏感。如图2-63所示。
![image-2.png](attachment:image-2.png)
图2-63 Nesterov加速梯度下降法
NAG下降法的算法伪代码如下：

![image.png](attachment:image.png)