### SGD算法

***

**Require**: 学习率$\epsilon $

**Require**: 初始参数$\boldsymbol{\theta_0}$

&emsp;&emsp;初始时间步$ t \leftarrow 0$ 

&emsp;&emsp;**while** 停止准则未满足 **do**

&emsp;&emsp;&emsp;&emsp;从训练集中随机选取$m$个样本(小批量)$\{ \mathbf{x^{1}},\mathbf{x^{2}}, \cdots, \mathbf{x^{m}} \}$,其中$\mathbf{x^{i}}$对应目标为$y^{i}$

&emsp;&emsp;&emsp;&emsp;计算梯度:$\boldsymbol{g_t} \leftarrow \frac{1}{m} \nabla_{\boldsymbol{\theta_t}} \sum_i L\left(f(\mathbf{x^{i}};\boldsymbol{\theta_t}), y^i \right)$

&emsp;&emsp;&emsp;&emsp;参数更新:$\boldsymbol{\theta_{t+1}} \leftarrow \boldsymbol{\theta_t} - \epsilon \boldsymbol{g_t}  $

&emsp;&emsp;&emsp;&emsp;$t \leftarrow t+1$

&emsp;&emsp;**end while**

***


### 使用动量的SGD算法

&emsp;&emsp;动量(Momentum)是模拟物理中的概念.一个物体的动量指的是该物体在它运动方向上保持运动的趋势,是该物体的质量和速度的乘积.动量法(Momentum Method)是用之前积累动量来替代真正的梯度.每次迭代的梯度可以看作加速度.更新规则如下

\begin{array}{l}
\boldsymbol{v}_{t} \leftarrow \alpha \boldsymbol{v}_{t-1}-\epsilon \nabla_{\boldsymbol{\theta_{t-1}}}\left(\frac{1}{m} \sum_{i=1}^{m} L\left(\boldsymbol{f}\left(\mathbf{x}^{i} ; \boldsymbol{\theta_{t-1}}\right), y^{i}\right)\right) \\
\boldsymbol{\theta_{t}} \leftarrow \boldsymbol{\theta_t-1}+\boldsymbol{v}_{t}
\end{array}

可以看出这样,参数的实际更新差值取决于最近一段时间内梯度的加权平均值.当某个参数在最近一段时间内的梯度方向不一致时,其真实的参数更新幅度变小;相反,当在最近一段时间内的梯度方向都一致时,其真实的参数更新幅度变大,起到加速作用.一般而言,在迭代初期,梯度方向都比较一致,动量法会起到加速作用,可以更快地到达最优点.在迭代后期,梯度方向会不一致,在收敛值附近振荡,动量法会起到减速作用,增加稳定性.

***

**Require**: 学习率$\epsilon $,动量参数$\alpha$

**Require**: 初始参数$\boldsymbol{\theta_0}$,初始速度$\boldsymbol{v_0} $

&emsp;&emsp;初始时间步$ t \leftarrow 0$ 

&emsp;&emsp;**while** 停止准则未满足 **do**

&emsp;&emsp;&emsp;&emsp;从训练集中随机选取$m$个样本(小批量)$\{ \mathbf{x^{1}},\mathbf{x^{2}}, \cdots, \mathbf{x^{n}} \}$,其中$\mathbf{x^{i}}$对应目标为$y^{i}$

&emsp;&emsp;&emsp;&emsp;计算梯度:$ \boldsymbol{g_t} \leftarrow \frac{1}{m} \nabla_{\boldsymbol{\theta_t}} \sum_i L\left(f(\mathbf{x^{i}};\boldsymbol{\theta_t}), y^i \right)$

&emsp;&emsp;&emsp;&emsp;$t \leftarrow t+1$

&emsp;&emsp;&emsp;&emsp;计算速度更新:$\boldsymbol{v}_{t} \leftarrow \alpha \boldsymbol{v}_{t-1} - \epsilon \boldsymbol{g_t}$

&emsp;&emsp;&emsp;&emsp;参数更新:$\boldsymbol{\theta_{t}} \leftarrow \boldsymbol{\theta_{t-1}} + \boldsymbol{v}_{t} $

&emsp;&emsp;**end while**

***

### Nesterov 动量

&emsp;&emsp;Sutskever et. al.(2013)提出了动量算法的一个变种.这种情况的更新规则如下

\begin{array}{l}
\boldsymbol{v}_{t} \leftarrow \alpha \boldsymbol{v}_{t-1} - \epsilon \nabla_{\boldsymbol{\theta_{t-1}}}\left[\frac{1}{m} \sum_{i=1}^{m} L\left(f\left(\mathbf{x}^{i} ; \boldsymbol{\theta_{t-1}} + \alpha \boldsymbol{v}_{t-1} \right), y^{i}\right)\right] \\
\boldsymbol{\theta_{t}} \leftarrow \boldsymbol{\theta_{t-1}}+ \boldsymbol{v}_{t}
\end{array}

其中参数$\alpha$和$\epsilon$发挥了和标准动量方法中类似的作用.Nesterov 动量和标准动量之间的区别体现在梯度计算上.Nesterov 动量中,梯度计算在施加当前速度之后.因此,Nesterov 动量可以解释为往标准动量方法中添加了一个校正因子.

***

**Require**: 学习率$\epsilon $,动量参数$\alpha$

**Require**: 初始参数$\boldsymbol{\theta_0}$,初始速度$\boldsymbol{v_0} $

&emsp;&emsp;初始时间步$ t \leftarrow 0$ 

&emsp;&emsp;**while** 停止准则未满足 **do**

&emsp;&emsp;&emsp;&emsp;从训练集中随机选取$m$个样本(小批量)$\{ \mathbf{x^{1}},\mathbf{x^{2}}, \cdots, \mathbf{x^{n}} \}$,其中$\mathbf{x^{i}}$对应目标为$y^{i}$

&emsp;&emsp;&emsp;&emsp;计算临时更新:$\boldsymbol{\hat{\theta}} \leftarrow \boldsymbol{\theta_t} + \alpha \boldsymbol{v}_{t-1}$

&emsp;&emsp;&emsp;&emsp;计算梯度:$ \boldsymbol{g_t} \leftarrow \frac{1}{m} \nabla_{\boldsymbol{\hat{\theta}}} \sum_i L\left(f(\mathbf{x^{i}};\boldsymbol{\hat{\theta}}), y^i \right)$

&emsp;&emsp;&emsp;&emsp;$t \leftarrow t+1$

&emsp;&emsp;&emsp;&emsp;计算速度更新:$\boldsymbol{v}_{t} \leftarrow \alpha \boldsymbol{v}_{t-1} - \epsilon \boldsymbol{g_t}$

&emsp;&emsp;&emsp;&emsp;参数更新:$\boldsymbol{\theta_{t}} \leftarrow \boldsymbol{\theta_{t-1}} + \boldsymbol{v}_{t} $

&emsp;&emsp;**end while**

***


