# 优化算法

优化问题<br>
* 一般形式
$$minimize \ f(x)  \quad subject \ to \ x \in C$$
f就是损失函数<br>

## 局部最小vs全局最小
* 全局最小$\mathbf (x^*): f(x^*) \leq f(x) \quad \forall x \in C$
* 局部最小$\mathbf (x^*): $ 存在$\epsilon$, 使得 $f(x^*) \leq f(x) \quad \forall x: ||x - x^*|| \leq \epsilon$

<img src='./image/minimize.jpg' alt='minimize' width=400><br>

## 凸
### 凸集
任意找两个点随即连一根线这个线也在集合中
* 一个$\mathbb R^n$的子集C是凸当且仅当
$$
\alpha x + (1 - \alpha)y \in C \\
\forall \alpha \in [0,1] \ \forall x,y \in C
$$
<img src='./image/convexSet.jpg' alt='convexSet' width=200><br>

### 凸函数
随机取两个点，整个函数都在该线下面
* 函数$f: C \rightarrow \mathbb R$是凸当且仅当
$$
f(\alpha x + (1 - \alpha )y \leq \alpha f(x) + (1- \alpha )f(y)) \\
\forall \alpha \in [0,1] \ \forall x,y \in C
$$
<img src='./image/convexFunc.jpg' alt='convexFunc' width=300><br>

* 如果$x \not= y, \alpha \in (0,1)$时不等式严格成立，那么叫严格凸函数

### 凸函数优化
* 如果代价函数$f$时凸的，切限制集合$C$是凸的，那么就是凸优化问题，那么局部最小一定是全局最小
* 严格凸优化问题有唯一的全局最小

<img src='./image/convexOpt.jpg' alt='convexOpt' width=300><br>


### 凸和非凸例子
* 凸
  * 线性回归 $f(x) = ||Wx-b||^2_2$
  * softmax回归
* 非凸
  * MLP, CNN, RNN, attention

<img src='./image/example.jpg' alt='example' width=200><br>


## 梯度下降
* 最简单的迭代求解短发
* 选取开始点$x_0$
* 对$t = 1,...,T$
  * $x_t = x_{t-1} - \eta \nabla f(x_{t-1})$
* $\eta$ 叫做学习率

<img src='./image/gradientDescent.jpg' alt='gradientDescent' width=200><br>

### 随机梯度下降
* 有n个样本时，计算$f(x) = \frac 1 n \sum ^n_{i=0} \ell _i(x) $的导数太贵
* 随机梯度下降在时间t随机选项样本$t_i$来近似f(x)
$$
x_t = x_{t-1} - \eta \nabla \ell (x_{t-1}) \\
\mathbb E \left [ \nabla \ell _{t_i}(x) \right] = \mathbb E [\nabla f(x)]
 $$
<img src='./image/SGD.jpg' alt='SGD' width=200><br>

### 小批量梯度下降
* 计算单样本的梯度完全利用硬件资源
* 小批量随机梯度下降在时间t采样一个随机子集$I_t \subset \{ 1,...,n \}$ 使得$|I_t|=b$

* 同样，这是个无偏的近似但是降低了方差
$$\mathbb E  [ \frac 1 b \sum_{i \in I_i} \nabla \ell(x)  ] = \nabla f(x)$$
期望不变，而且对比单个样本的随机梯度，方差减小了<br>
<img src='./image/BSGD.jpg' alt='BSGD' width=300><br>

### 冲量法
维护一个冲量，保证平滑的改变方向，使用$v_t$来计算梯度
* 冲量法使用平滑过的梯度对权重更新
$$
g_t = \frac 1 b \sum_{i \in I_i} \nabla \ell(x_{t-1}) \\
v_t = \beta v_{t-1} + g_t \quad w_t = w_{t-1} - \eta v_t
$$
* $\beta$常见取值[0.5, 0.9, 0.95, 0.99]

所以可以看到过去很多个梯度的值，并每次将低一点权重<br>
<img src='./image/imm.jpg' alt='imm' width=200><br>
momentum选项就是冲量法

### adam
非常平滑，对学习率没有那么敏感
* 记录$v_t = \beta _1 v_{t-1} + (1-\beta_1)g_t$
* 展开$v_t = (1-\beta_1)(g_t + \beta_1g_{t-1} + \beta_2g_{t-2}^2 + \beta_3g_{t-3}^3 + ...)$
* 因为$\sum ^{\inf}_{i=0} \beta^i_1 = \frac 1 {1-\beta_1} $, 所以权重和为1，数列收敛到
* 由于$v_0 = 0$，且$\sum ^t_{i=0} \beta ^i_1 = \frac {1- \beta^t_1}{1- \beta_1}$ 
* 因此需要修正(仅对t小的时候有用): $\hat v_t = \frac {v_t}{1-\beta^t_1}$
* 类似记录$s_t = \beta_2 s_{t-1} + (1-\beta_2) g_t^2$，通常$\beta_2 = 0.999, $且修正$\hat s_t = \frac {s_t}{1-\beta_2^t}$
* 计算重新调整后的梯度$g'_t = \frac {\hat v_t}{\sqrt {\hat s_t} + \epsilon}$ 按元素除
* 最后更新$w_t = w_{t-1} - \eta g'_t$


# The end
[结合代码了解细节](https://paperswithcode.com/)<br>