# 最优化问题的数学基础
> 本文为学校最优化课程的笔记，纯数理多推导无代码

## 向量知识与范数理论
### 向量内积
向量的内积：略

**内积的性质：**
1. 对称性$[\alpha ,\beta]=[\beta,\alpha]$
2. 线性性$[k(\alpha+\beta),\gamma]=k([\alpha,\gamma]+[\beta,\gamma])$
3. 正定性$[\alpha,\alpha]\geqslant 0$，当且仅当$\alpha=\vec{a}$时，$[\alpha,\alpha]=0$

**向量性质：**
 - 向量长度$||\alpha||=\sqrt{[\alpha,\alpha]}$
 - 单位向量
 - 向量夹角$<\alpha,\beta>=arccos\frac{[\alpha,\beta]}{||\alpha||\cdot||\beta|| }$
 - 向量正交：夹角为$\frac{\pi}{2}$，且内积为0

### 范数
定义：若函数$||\cdot||:R^n→R$满足：
1. 非负
2. 三角不等式$\forall x,y\in R^n,||x+y||\leqslant ||x||+||y||$
3. 齐次性

则$||\cdot||$称为$R^n$上的范数

**常见范数：**
- 1-范数：表示向量x中非零元素的绝对值之和
- 2-范数：表示向量元素的平方和再开平方
- 无穷范数：用来度量向量元素的最大值
- $p$-范数：向量元素绝对值的p次方和的1/p次幂

**最优化问题举例L1范数**

<font color=red>L1范数</font>度量两个向量间的差异， 绝对误差和（Sum of Absolute Difference）：
$$SAD(x_1,x_2)=\sum _i^n|x_{1i}-x_{2i}|$$
由于L1范数的天然性质，对L1优化的解是一个**稀疏解**，因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏，去掉一些没有信息的特征。
> note:优化问题里常常需要添加一个正则化项，用于防止过拟合，用L1范数作为正则化项可以获得更多的稀疏解，关于为什么，可以看以下两篇文章[L1 相比于 L2 为什么容易获得稀疏解？](https://www.zhihu.com/question/37096933)，[L1正则化引起稀疏解的多种解释](https://zhuanlan.zhihu.com/p/50142573)，顺带一提，台大机器学习基石课程对这个问题有很好的解释

**最优化问题举例L2范数**

L2也可以度量两个向量间的差异，如平方差和（Sum of Squared Difference） :
$$SSD(x_1,x_2)=\sum_{i=1}^n(x_{1i}-x_{2i})^2$$

L2范数通常会被用来做优化目标函数的正则化项，防止模型为了迎合训练集而
过于复杂造成过拟合的情况，从而提高模型的泛化能力。

## 二次型与正定矩阵
### 二次型
对于一个n维二次函数，可以简写成矩阵形式：
$$f(x_1,x_2,...x_n)=\sum^n_{i=1}\sum^n_{j=1}a_{ij}x_ix_j=x^TAx$$
这样的表述方式就叫做二次型。其中：
- 二次型的系数矩阵$A$为对称阵，$A=A^T$
- 其元素$a_{ij}=a_{ji}(i\neq j)$是二次型$x_ix_j$项系数的一半
- $a_{ii}$是二次型$x_i^2$的系数

因此二次型和它的系数矩阵$A$是相互唯一决定的
> note：用二次型研究函数的好处可以见马同学的文章[如何理解二次型](https://www.matongxue.com/madocs/271/)

有如下对应关系：

对称阵$\Leftrightarrow $二次型矩阵$\Leftrightarrow $二次型

### 正定矩阵
**定义:**

$A$是$n$阶方阵，如果对任何非零向量$x$，都有$x^TAx>0$，其中$x^T$表示$x$的转置，就称$A$正定矩阵。类似的还有半正定矩阵（大于等于0），半负定矩阵等等。

**正定矩阵的判定**

- 判定定理1：$A$正定的充要条件为$A$的特征值都大于零
- 判定定理2：$A$正定的充要条件为$A$的**所有顺序主子式**都大于零



## 方向导数与梯度
### 方向导数
定义：设$f:R^n→R^1$在点$x_0$处可微，$P$是固定不变的非零向量，$e$是方向$P$上的单位向量，则称极限：
$$\frac{\partial f(x_0)}{\partial p}=\lim_{t→0^+}\frac{f(x_0+te)-f(x_0)}{t}$$
为函数$f(x)$在点$x_0$处沿$P$方向的方向导数，记为$\frac{\partial f(x_0)}{\partial p}$

**上升方向与下降方向**
- 若$\frac{\partial f(x_0)}{\partial p}<0$则在$x_0$处沿$P$方向是下降的；
- 若$\frac{\partial f(x_0)}{\partial p}>0$则在$x_0$处沿$P$方向是上升的；

### 梯度
定义：以函数$f(x)$的$n$个偏导数为分量的向量称为$f(x)$在点$x$处的梯度
记为：
$$\triangledown f(x)=[\frac{\partial f(x)}{\partial x_1},\frac{\partial f(x)}{\partial x_2},...,\frac{\partial f(x)}{\partial x_n}]^T$$
梯度也可以称为$f(x)$关于向量$x$的为一阶导数。
### 两者之间的关系：
梯度是一个矢量，其方向上的方向导数最大，其大小正好是此最大方向导数。

### 关于梯度与方向导数的结论
1. 梯度方向是函数值的最速上升方向；
2. 函数在与其梯度正交的方向上变化率为零；
3. 函数在与其梯度成锐角的方向上是上升的，而在与其梯度成钝角的方向上是下降的；
4. 梯度反方向是函数值的最速下降方向。

## Hessian矩阵与泰勒展开
### Hessian矩阵
在数学中, 海森矩阵(Hessian matrix或Hessian)是一个自变量为向量的实值函数的二阶偏导数组成的方块矩阵, 此函数如下：
$$f({x_1},{x_2} \ldots ,{x_n})$$
如果$f$的所有二阶导数都存在, 那么$f$的海森矩阵即：
$$H{(f)_{ij}}(x) = {D_i}{D_j}f(x)$$
其中$x = ({x_1},{x_2} \ldots ,{x_n})$, 即$H(f)$为:
![](https://s2.ax1x.com/2020/03/03/3hvFKS.png)
### 泰勒展开
略

## 极小点的判定条件
### 极小点的定义
- **非严格局部极小点**：设$f:D\subseteq R^n→R^1$，若存在点$X^*\in D$和数$\delta >0$，$\forall X\in N(X^*,\delta)\bigcap D$都有$f(X^*)\leqslant f(X)$,则称$X^*$为$f(X)$的非严格局部极小点
- **严格局部极小点**：设$f:D\subseteq R^n→R^1$，若存在点$X^*\in D$和数$\delta >0$，$\forall X\in N(X^*,\delta)\bigcap D$，但$X\neq X^*$都有$f(X^*)< f(X)$,则称$X^*$为$f(X)$的严格局部极小点
- **非严格全局极小点**：设$f:D\subseteq R^n→R^1$，若存在点$X^*\in D$，$\forall X\in D$都有$f(X^*)\leqslant f(X)$,则称$X^*$为$f(X)$在$D$上的非严格全局极小点
- **严格全局极小点**：设$f:D\subseteq R^n→R^1$，若存在点$X^*\in D$，$\forall X\in D$但$X\neq X^*$都有$f(X^*)\leqslant f(X)$,则称$X^*$为$f(X)$在$D$上的严格全局极小点

可以看出，严格与非严格的区别在于能否取到多个极小值（非严格意味着可以有多个相同的极小值，如果用图像来表述的话，就是可以有盆地）

**定理：**
设$f:D\subseteq R^n→R^1$具有连续的一阶偏导数，若$X^*$是$f(X)$的局部极小点且是$D$的内点，则：
$$\triangledown f(X^*)=0$$
> 注意是充分非必要条件

$\triangledown f(X^*)=0$的点$X^*$称为$f(x)$的驻点

**定理：**
设$f:D\subseteq R^n→R^1$具有连续的二阶偏导数，$X^*$是$D$的一个内点，若$\triangledown  f(X^*)=0$，并且$\triangledown ^2 f(X^*)$是正定的，则$X^*$是$f(X)$的严格局部极小点

## 锥，凸集及其性质
### 锥
定义：集合$C\subset  R^n$.若$\forall X\in C$及任意的数$\lambda X\in C$,则称$C$为锥
### 凸组合
定义：
![](https://s2.ax1x.com/2020/03/03/34s67d.png)