<h1>Optimization</h1>

# 0. 梯度下降 Gradient Descent

## 损失函数

> $J(\theta) = \sum_{i=1}^{N}L(f(x_i;\theta), y)$

## 优化目标
> $\theta^{*} = \arg\min_{\theta}J(\theta)$

## 梯度下降
根据泰勒展开，

> $f(x+\epsilon) \approx f(x) + \epsilon f(x)$

对于特别小的$\epsilon$，

> $f(x - \epsilon * sign(f'(x)) \approx f(x) - \epsilon * sign (f'(x))$

如果$\epsilon$与$sign(f'(x))$同号，即$x$按照$sign(f'(x))$的反反向移动一小步$\epsilon$，能让$f(x)$的值有所下降，

> $f(x - \epsilon * sign(f'(x)) < f(x)$

### 局部最小值

如果$f'(x) = 0$，导数不能提供函数从当前$x$移动方向的信息。

如果对于比较小的$\epsilon$，有$f(x-\epsilon) < f(x) < f(x+\epsilon)$，则$f(x)$是一个局部最小值。

### 鞍点

如果有$f'(x) = 0$，且$f(x)$既不是局部最大值，也不是局部最小值，则$x$为鞍点。

## 最速下降

对于多维输入$\boldsymbol{x} = \{x_1, x_2, ..., x_M\}$，$f(\boldsymbol{x})$关于$x_i$的偏导数为

> $\frac{\partial}{\partial{x_i}}f(\boldsymbol{x})$

衡量的是$x_i$的变化对函数值$f(\boldsymbol{x})$的大小的影响。

$f(\boldsymbol{x})$的导数$\nabla_{\boldsymbol{x}}{f(\boldsymbol{x})}$是所有关于$x_i$的偏导数的向量。

### 方向偏导

对于单位向量$\boldsymbol{u}$的方向u，其方向偏导为$f(\boldsymbol{x} + a \boldsymbol{u})$在$a=0$关于方向u的偏导数。由链式法则

> $ \frac{\partial} {\partial{a}} f(\boldsymbol{x} + a \boldsymbol{u})
= u^{\top}\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}
$

从而，
> $\arg\min_{\boldsymbol{u}, \boldsymbol{u}^{\top}\boldsymbol{u} = 1}
u^{\top}\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}$

> $=||\boldsymbol{u}||_2 ||
\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}||_2 
\cos\theta$

$\theta$为向量$\boldsymbol{u}$与向量$\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}$的夹角。

$||\boldsymbol{u}|| = 1$，$\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}$与$\boldsymbol{u}$无关，上式变为

> $\arg\min_{\boldsymbol{u}, \boldsymbol{u}^{\top}\boldsymbol{u} = 1}
\cos\theta$

所以，$\boldsymbol{u}$应选择与$\nabla_{\boldsymbol{x}}{f(\boldsymbol{x} + a \boldsymbol{u})}$相反的方向。

为减小$f$，当前$\boldsymbol{x}$应移动为

> $\boldsymbol{x'} = x - \epsilon \nabla_{\boldsymbol{x}}{f(\boldsymbol{x})}$。

$\epsilon>0$是学习率。可以选择固定的比较小的学习率，也可以选择

### Line Search

使得
> $f(x -  \epsilon \nabla_{\boldsymbol{x}}{f(\boldsymbol{x})})$

最小的$\epsilon$。




# 1. Dropout

参考文献：

[1] Dropout: A Simple Way to Prevent Neural Networks from Overfitting


神经网络：

共$L$层，每一层输入$\boldsymbol{z^{(l)}}$，输出$\boldsymbol{y^{(l)}}$，激活函数$f^{(l)}$，每一层节点个数$Q(l)$， $l\in \{0,1,...,L\}$

第$l$层到第$l+1$层的权重为$\boldsymbol{W^{(l)}}$，偏置为$\boldsymbol{b}^{(l)}$，$l\in \{0,1,...,L-1\}$

## a. 第$l+1$层输出

> $z_i^{(l+1)} = \boldsymbol{w}_i^{(l)}\boldsymbol{y}^{(l)} + \boldsymbol{b}_i^{(l)}
= \sum_{j=1}^{Q(l)}
\{w_{ji}^{(l)}y_j^{(l)}+b_i^{(l)}\}$

> $y_i^{(l+1)} = f^{(l+1)}(z_i^{(l+1)})$


## b. Dropout 第$l+1$层输出

假设每个节点的保留概率为$p$，

> $r_i^{(l)} \sim Bernoulli(p)$

> $\widetilde{\boldsymbol{y}}_i^{(l)} =
r_i^{(l)} * \widetilde{\boldsymbol{y}}_i^{(l)}$

> $z_i^{(l+1)} = \boldsymbol{w}_i^{(l)} \widetilde{\boldsymbol{y}}_i^{(l)} 
+ \boldsymbol{b}_i^{(l)}$

> $y_i^{(l+1)} = f^{(l+1)}(z_i^{(l+1)})$

### (1) 训练数据权重不变，测试数据权重变化

训练数据权重不变，每个节点以概率$p$保留，测试数据权重

> $W_{test} = W_{train} * p$

### (2) 训练数据权重变化，测试数据权重不变

> $W_{train} = W_{train} * \frac{1}{p}$

## Jacobian矩阵

如果$f(\boldsymbol{x})$的输入、输出都是向量，那么其输出向量的每个元素$f(\boldsymbol{x})_i$，关于输入向量的每个元素$x_j$的偏导是一个矩阵，被称为Jacobian矩阵。

对于映射$\boldsymbol{f}:\mathbb{R}^m \to \mathbb{R}^n$，其Jacobian矩阵$\boldsymbol{J} \in \mathbb{R}^{n \times m}$为

> $J_{i,j} = \frac{\partial}{\partial{x_j}}f(\boldsymbol{x})_i$

## Hessian矩阵
Jacobian矩阵的梯度是Hessian矩阵$\boldsymbol{H}(f)(\boldsymbol{x})$， 

> $\boldsymbol{H}(f)(\boldsymbol{x})_{i,j} = 
\frac{\partial^2}{\partial{x_i}\partial{x_j}}f(\boldsymbol{x})
$