# 概念定义

## 算法基本思想

**第一步：**确定模型的假设函数和损失函数

假设函数：$$h_\theta(x)=\theta_0+\theta_1x$$
损失函数：$$J(\theta_0,\theta_1)=\frac{1}{2m}\sum_{i=1}^{m}(h_\theta(x^{(i)})-y^{(i)})^2$$
损失函数其他写法：$$J(\theta)=\frac{1}{2m}(Y-X\theta)^T(Y-X\theta)$$
其中 $\theta=(\theta_1,\theta_0)$

**第二步：**相关参数的初始化，包括：参数、算法终止距离和步长

参数 $\theta$ —— 最终所求使得J最小的 $\theta$ 值

步长 $\alpha$ —— 学习率

**第三步：**确定当前位置损失函数的梯度

$$gradients=\frac{\partial J(\theta)}{\partial\theta}=\frac{1}{m}X^T(X\theta-Y)$$

**第四步：**用步长乘以梯度，得到当前位置下降的距离

$$\theta_{new}=\theta-\alpha* gradients$$

**第五步：**确定是否所有参数梯度下降的距离都小于算法终止距离，如果小于则算法终止，或是否到达迭代次数上限，如果到达则算法终止，否则进行下一步

**第六步：**更新所有参数，更新完毕转到步骤1


## BGD

BGD是对样本整体做梯度下降

SGD 和 MBGD都是 BGD的特殊情况

# 随机梯度下降（SGD）

**基本思想**

对训练集中每个样本做梯度下降

**优缺点**

优点：计算速度快
缺点：收敛性能不好

# Mini-batch GD

**基本思想**

将一个大的训练集随机均切分成若干子集，对每个子集做梯度下降

mini-batch大小的确定：

- 不能太大，太大会使得训练更快，但泛化能力下降：bacth-size更大，估计的梯度越可靠，需要迭代的步数也越小。可以提高学习率，从而放大梯度噪声的贡献。
- 不能太小，太小的batch梯度估计值的方差非常大，因此需要非常小的学习率来维持稳定性，如果学习速率过大，则导致步长的变化剧烈。由于需要降低学习速率，因此需要消耗更多的迭代次数来训练，虽然每一轮迭代中计算梯度估计值的时间大幅度降低了，但是总的运行时间还是非常大。

**优缺点**

优点：训练集较大时计算速度比BGD快很多


# 优化算法

有一些算法可以加快梯度下降的速度，减轻梯度下降过程中的摆动现象。

## 动量梯度下降（GD with momentum）

**基本思想**

使用指数加权平均的方式更新梯度，以 mini-batch为例：

$$V_{d\omega},V_{db} = 0$$

$$On\ iteration\ t:\ Compute\ d\omega,\ db\ on\ mini-batch$$

$$V_{d\omega} = \beta V_{d\omega}+(1-\beta)d\omega$$

$$V_{db} = \beta V_{db}+(1-\beta)db$$

$$\omega = \omega - \alpha V_{d\omega}$$

$$b = b - \alpha V_{db}$$

向量的写法：

$$V_{\theta} = 0$$

$$On\ iteration\ t:\ Compute\ d\theta\ on\ mini-batch$$

$$V_{d\theta} = \beta V_{d\theta}+(1-\beta)d\theta$$

$$\theta = \theta - \alpha V_{d\theta}$$

**超参**
- 学习率 $\alpha$
- $\beta$

一般 $\beta=0.9$ 时就能取得较好效果，不过可以尝试其他值。

## RMSprop

**基本思想**

与Momentum相同，都是用指数加权平均的方式更新梯度，不同之处在于更新的方式，以 mini-batch为例：

$$S_{d\omega},S_{db} = 0$$

$$On\ iteration\ t:\ Compute\ d\omega,\ db\ on\ mini-batch$$

$$S_{d\omega} = \beta S_{d\omega}+(1-\beta)d\omega^2$$

$$S_{db} = \beta S_{db}+(1-\beta)db^2$$

$$\omega = \omega - \alpha\frac{d\omega}{\sqrt{S_{d\omega}+\varepsilon}}$$

$$b = b - \alpha \frac{db}{\sqrt{S_{db}+\varepsilon}}$$

其中 $\varepsilon$ 作用为保证分母不为0，通常取值 $10^{-8}$

向量的写法：

$$S_{\theta} = 0$$

$$On\ iteration\ t:\ Compute\ d\theta\ on\ mini-batch$$

$$S_{d\theta} = \beta S_{d\theta}+(1-\beta)d\theta^2$$

$$\theta = \theta - \alpha \frac{d\theta}{\sqrt{S_{d\theta}+\varepsilon}}$$

## Adam

**基本思想**

Adam是momentum和RMSprop的结合，以 mini-batch为例：

$$V_{d\omega}, V_{db}, S_{d\omega}, S_{db} = 0$$

$$On\ iteration\ t:\ Compute\ d\omega,\ db\ on\ mini-batch$$

$$V_{d\omega} = \beta_1 V_{d\omega}+(1-\beta_1)d\omega$$

$$V_{db} = \beta_1 V_{db}+(1-\beta_1)db$$

$$S_{d\omega} = \beta_2 S_{d\omega}+(1-\beta_2)d\omega^2$$

$$S_{db} = \beta_2 S_{db}+(1-\beta_2)db^2$$

$$V_{d\omega}^{corrected} = \frac{V_{d\omega}}{1-\beta_1^t}, V_{db}^{corrected} = \frac{V_{db}}{1-\beta_1^t}$$

$$S_{d\omega}^{corrected} = \frac{S_{d\omega}}{1-\beta_2^t}, S_{db}^{corrected} = \frac{S_{db}}{1-\beta_2^t}$$

$$\omega = \omega - \alpha\frac{V_{d\omega}^{corrected}}{\sqrt{S_{d\omega}^{corrected}+\varepsilon}}$$

$$b = b - \alpha \frac{V_{db}^{corrected}}{\sqrt{S_{db}^{corrected}+\varepsilon}}$$

向量的写法：

$$V_{\theta},S_{\theta} = 0$$

$$On\ iteration\ t:\ Compute\ d\theta\ on\ mini-batch$$

$$V_{d\theta} = \beta_1 V_{d\theta}+(1-\beta_1)d\theta$$

$$S_{d\theta} = \beta_2 S_{d\theta}+(1-\beta_2)d\theta^2$$

$$V_{d\theta}^{corrected} = \frac{V_{d\theta}}{1-\beta_1^t}$$

$$S_{d\theta}^{corrected} = \frac{S_{d\theta}}{1-\beta_2^t}$$

$$\theta = \theta - \alpha\frac{V_{d\theta}^{corrected}}{\sqrt{S_{d\theta}^{corrected}+\varepsilon}}$$

## 学习率衰减

**基本思想**

在学习过程中慢慢减少学习率
- 前期，学习率较大，步长大，有利于快速收敛（前期学习率小的话需要花费更多迭代去收敛）
- 后期，学习率较小，步长小，有利于更好收敛（后期学习率大的话则收敛的效果不好）

**衰减公式**

1. $\alpha = \frac{1}{1+decayRate*epoch}\alpha_0$ ，其中epoch为迭代次数，decayRate 和 $\alpha_0$ 是超参。

2. 指数衰减——$\alpha = 0.95^{epoch}\alpha_0$ 


3. 其他——$\alpha = \frac{k}{\sqrt{epoch}}\alpha_0$ or $\alpha = \frac{k}{\sqrt{t}}\alpha_0$，其中t为mini-batch参数


4. 离散下降——每次迭代都为上一个 $\alpha$ 的一半

# 面临的问题

局部最优和鞍点