# 第三章 数值计算
## 上溢和下溢
- 当数值很接近0时，计算机会舍入为0，导致后续计算的问题，称为下溢
- 当数值很大时，计算机会将数值近似为$\infty$导致后续计算的问题，称为上溢
- softmax函数：$softmax(x)_i=\frac{exp(x_i)}{\Sigma_{j=1}^{n}exp(x_j)}$

## 基于梯度的优化方法
- 代价函数、损失函数、误差函数：需要最小化或最大化的目标函数
- 梯度下降：因为$f(x)<f(x-\epsilon sign(f\prime(x)))$，这表明我们需要向着函数导数符号的相反方向移动一小步以减小$f(x)$的值
- 移动到$f\prime(x)=0$时，我们找到了一个临界点，通常来说叫做局部极小点
- 对于多维的函数，导数应改为偏导数，是对所有向量求导的向量值，记为$\Delta_xf(x)$
- 方向导数：函数f在$\mu$单位向量方向上的偏导数，$\frac{\partial}{\partial\alpha}f(x+\alpha\mu)=\mu^T\Delta_xf(x)$
- 最速下降的点计算：$x\prime=x-\epsilon\Delta_xf(x)$，其中$\epsilon$称为学习率

#### 梯度之上：Jacobian和Hessian矩阵
- Jacobian矩阵：输入和输出都是向量的函数的偏导数矩阵
- Jacobian：$f:\Bbb{R}^m\to\Bbb{R}^n, J\in\Bbb{R}^{m\times n}, J_{i,j}=\frac{\partial}{\partial x_j}f(x)_i$
- 二阶导数：$\frac{\partial^2}{\partial x_i\partial x_j}f(x)$
- 如果$\frac{\partial^2}{\partial x_i\partial x_j}f(x)=0$，移动$\epsilon$步长时，代价函数将下降$\epsilon f\prime(x)$
- 如果$\frac{\partial^2}{\partial x_i\partial x_j}f(x)<0$，移动$\epsilon$步长时，代价函数将下降比$\epsilon f\prime(x)$大
- 如果$\frac{\partial^2}{\partial x_i\partial x_j}f(x)>0$，移动$\epsilon$步长时，代价函数将下降比$\epsilon f\prime(x)$小
- Hessian矩阵：$H(f)(x)_{i,j}={\partial^2}{\partial x_i\partial x_j}f(x)$
- 交换律：${\partial^2}{\partial x_i\partial x_j}f(x)={\partial^2}{\partial x_j\partial x_i}f(x)$
- 在$x_0$处作函数$f(x)$的近似二阶泰勒级数：$f(x)\approx f(x_0)+(x-x_0)^Tg+\frac{1}{2}(x-x_0)^TH(x-x_0)$，其中g为梯度，H为$x_0$点的Hessian矩阵
- 学习率为$\epsilon$时，新的点$x=x_0-\epsilon g$，代入得：$f(x_0-\epsilon g)\approx f(x_0)-\epsilon g^Tg+\frac{1}{2}\epsilon^2g^THg$
- 当$g^THg$为正时，使上式下降最多的最优步长为：$\frac{d}{d\epsilon}(f(x_0)-\epsilon g^Tg+\frac{1}{2}\epsilon^2g^THg)=0$得到$\epsilon^*=\frac{g^Tg}{g^THg}$
- 仅适用梯度信息的优化算法称为一阶优化算法，使用Hessian矩阵的优化算法称为二阶优化算法

### 约束优化
- 在$x$的某些集合$\Bbb{S}$中寻找$f(x)$的最大值或最小值被称为约束优化
- KKT方法：通用的约束优化的解决方案
- 广义拉格朗日函数：$L(x,\lambda,\alpha)=f(x)+\Sigma_i\lambda_ig^{(i)}(x)+\Sigma_j\alpha_jh^{(j)}(x)$
- $\lambda$和$\alpha$称为KKT乘子
- $g^{(i)}(x)$和$h^{(j)}(x)$满足：$\Bbb{S}=\{x\mid\forall{i},g^{(i)}(x)=0\ and\ \forall{j},h^{(j)}\leq0\}$
- 然后通过求解$min_x\ max_{\lambda}\ max_{\alpha,\alpha\geq0}L(x,\lambda,\alpha)$即可求解$min_xf(x)$

### 线性最小二乘
- 需找到函数$f(x)=\frac{1}{2}||Ax-b||_2^2$的最小化值
- 计算梯度：$\nabla_xf(x)=A^T(Ax-b)=A^TAx-A^Tb$
- 按照固定步长$\epsilon$下降，容差为$\delta$，见下面函数

In [1]:
import numpy as np
import numpy.linalg as la
def matmul_chain(*args):
    if len(args) == 0: return np.nan
    result = args[0]
    for x in args[1:]:
        result = result@x
    return x
def gradient_decent(x, A, b, epsilon, delta):
    while la.norm(matmul_chain(A.T, A, x)-matmul_chain(A.T, b)) > delta:
        x -= epsilon*(matmul_chain(A.T, A, x)-matmul_chain(A.T, b))
        #print(x)
    return x

x = np.zeros((4, 1), dtype=np.float64)
A = np.arange(16, dtype=np.float64).reshape(4,4)
b = np.arange(4, dtype=np.float64).reshape(4,1)
epsilon = 0.0001
delta = 1e-6
gradient_decent(x, A, b, epsilon, delta)

array([[ 0.        ],
       [ 0.99999973],
       [ 1.99999947],
       [ 2.9999992 ]])