# 1 误差
* 模型误差 (model)
  数学模型对现实世界进行近似的误差.
* 测量误差 (measure)
* 舍入误差 (rounding)
  储存小数精度与运算导致的误差.
* 截断误差 (truncation)
  迭代算法无法无穷次迭代导致的误差.

若 $x$ 为真实值, $\hat x$ 为测量值, 绝对误差常表为

$$\epsilon = \hat x - x,\quad \Vert \epsilon\Vert = \Vert \hat x - x\Vert$$

相对误差常常表为

$$\epsilon_{r1} = \frac{\Vert \hat x - x\Vert}{\Vert x\Vert},\quad 
\epsilon_{r2} = \frac{\Vert \hat x - x\Vert}{\Vert \hat x\Vert},\quad 
\epsilon_{r3} = \frac{\Vert \hat x - x\Vert}{\max \{\Vert x\Vert, \Vert\hat x \Vert\}}$$

#### 误差下界

例.

$$S_n=1-\frac13+\frac15-\frac17+\dotsc\rightarrow \frac{\pi}{4}$$

$$\frac{\pi}{4} - S_{2n}=\left(\frac{1}{4n+1}-\frac{1}{4n+3}\right)
+\left(\frac{1}{4n+5}-\frac{1}{4n+7}\right)+\dotsc
=\frac{2}{(4n+2)^2-1}+\frac{2}{(4n+6)^2-1}+\dotsc\\
\geqslant \sum_{k=n}^{\infty} \frac{2}{(4k+2)^2}
=\frac12\sum_{k=n}^{\infty}\frac{1}{(2k+1)^2}\geqslant \frac12 \int_{n}^{\infty}\frac{dx}{(2x+1)^2}=\frac{1}{8n+4}
$$

In [11]:
from math import pi
s = 0
n = 100
for i in range(n):
    s += 1. / (4*i + 1)
    s -=  1. / (4*i + 3)
print(f'Error = {pi/4. - s} >= {1./(8*n+4)}')

Error = 0.0012499921877442421 >= 0.0012437810945273632


#### Wilkinson 模型

$${\rm fl}(a+b)\leqslant (a+b)(1+\epsilon)$$

其中相对误差 $|\epsilon |<\mathbb u$ 被机器精度控制.

##### 推论

$$|{\rm fl}(x^Ty)-x^Ty|\leqslant |x|^T|y|\cdot O(n\mathbb u)$$

#### IEEE754 模型

${\rm fl}(a+b)$ 必为最接近 $a+b$ 真实值的浮点数表示.


## 条件数

$${\rm cond}(f,x)=\lim_{\epsilon\rightarrow 0^+}\sup_{\Vert \Delta x\Vert\leqslant \epsilon}
\frac{\Vert f(x+\Delta x)-f(x)\Vert}{\epsilon \Vert f(x)\Vert}$$

# 2 方程

### 方程

#### 线性方程组与最小二乘法

求解 $\text{argmin} \Vert b - Ax\Vert_2$ 或, 理论上等价于 $A^*Ax = A^*b$.

#### 优化问题

优化问题有时可以转化为导数为零的方程.

$$\text{argmin}_x F(x) = 0\Leftrightarrow F'(x) = 0$$

对于有约束项的问题可用拉格朗日乘数法 $L(x,\lambda) = F(x)+\lambda G(x)$, 

$$\text{argmin}_x F(x) = 0\Leftrightarrow \frac{\partial L}{\partial x}=0,\ \frac{\partial L}{\partial \lambda}= 0$$

#### 隐函数

$$F(x,y)=0\leftrightarrow y = F(x)$$

### 二分法

若一元连续函数 $f(a)<0<f(b)$ 则可通过二分法求零点。 每次令 $c_k = \frac{a_k+b_k}2$ .

若 $f\left( c_k\right) < 0$ 
则取 $(a_{k+1},b_{k+1})=( c_k,b_{k+1})$, 否则
$(a_{k+1},b_{k+1})=(a_k, c_k)$. 重复此步骤直至 $b_k-a_k<\epsilon$.


对多元连续值函数若 $f(x)<0<f(y)$, 可考虑 $g(t) = f(x+t(y-x))$.

<br>

二分法可能受到舍入误差干扰: 若 $f\left( c_k \right)$ 很接近零, 有可能舍入误差导致 $f\left( c_k \right)$ 正负号算错. 可通过判断以下条件提前终止: $$\left|f\left( c_k \right)\right| < \widetilde \epsilon$$

这可以看作输入函数 $f(x)$ 存在微小扰动: $\Vert \widetilde f(x) - f(x)\Vert_{\infty}\leqslant \widetilde \epsilon$.

<br>

#### 反插值法 (false position)

每次取 $c_k = \frac{a_kf(b_k) - b_kf(a_k)}{f(b_k) - f(a_k)}$ 为连接两端点 $(a_k,f(a_k)),(b_k,f(b_k))$ 的直线的横截距.


In [16]:
# solve x = cosx  ( 0 < x < 1) by binary search
from math import cos
f = lambda x: cos(x) - x
l , r = 0 , 1
for i in range(50):
    m = (l + r) * .5
    if f(m) < 0: r = m
    else: l = m 
print(f'x    = {m}\nf(x) = {cos(m)}')

x    = 0.73908513321516
f(x) = 0.7390851332151611



### 迭代法 (不动点法)

将方程写成 $x=g(x)$ 的形式, 考虑迭代 $x_{k+1}\leftarrow g(x_k)$. 若 $g(x)$ 在区间内可导且
$\Vert g'(x)\Vert_{\infty}=r<1$

设精确解为 $x_*$ 则不动点迭代有一次收敛:
$$|x_{k+1}-x_*|=|g(x_k)-g(x_*)|=|g'(\xi)(x_k - x_*)|\leqslant r|x_k - x_*|$$

若在 $g(x)$ 在 $x_*$ 前 $m$ 阶导数为零, $0 = g'(x_*) = \dotsc g^{(m)}(x_*)$, 则具有局部 $m+1$ 次收敛性.

$$|x_{k+1}-x_*|=|g(x_k)-g(x_*)|=\left|\sum_{k=1}^{\infty}\frac{g(x_*)^{(k)}(x_k - x_*)^k}{k!}\right|
=o\left((x_{k}-x_*)^{m}\right)$$

#### 例 巴比伦算法

这实际上是牛顿法求解平方根的例子.

求解方程 $x^2=2$, 等价于 $x=\frac12x+\frac1x$. 令 $g(x)=\frac12x+\frac1x$, 由于 $|g(x)|\geqslant \sqrt 2$, 不妨给定初值
$x_1\geqslant \sqrt 2$. 则 
$$\Vert g(x)\Vert_{\infty} =\Vert \frac12 -\frac{1}{x^2}\Vert_{\infty} \leqslant \frac12,\quad x\in[\sqrt 2,+\infty)$$

由于 $g'(\sqrt 2)=0$, 更精细的估计表明其具有局部二次收敛性:

$$x_{k+1}-\sqrt2=\frac{1}{2}x_k+\frac{1}{x_k}-\sqrt 2
=\frac{(x_k - \sqrt2)^2}{2x_k}\leqslant \frac{(x_k - \sqrt2)^2}{2\sqrt 2}
$$

In [6]:
x = 3
for i in range(5):
    x = x * .5 + 1. / x
print(f'x  = {x}\n√2 = {2**0.5}')

x  = 1.4142135623731118
√2 = 1.4142135623730951


### 牛顿法 (切线法)

对于方程 $f(x)=0$, 写成 $x = x - \frac{f(x)}{f'(x)}$, 即迭代法中 $g(x) = x - \frac{f(x)}{f'(x)}$. 

几何意义上是取 $x_{k+1}$ 为 $y=f(x)$ 在 $x_k$ 处切线的横截距.

$$x_{k+1}\leftarrow x_k - \frac{f(x)}{f'(x)}$$

且
$$g'(x) = 1 - \frac{f'(x)f'(x) - f(x)f''(x)}{\left(f'(x)\right)^2}=\frac{f(x)f''(x)}{\left(f'(x)\right)^2}$$

若 $f'(x_*)\neq 0$, 则 $g'(x_*)=0$ 表明牛顿法具有局部二次收敛性. 但不一定具有全局收敛性. 

进一步, 若 $f(x_*) = f'(x_*) =\dotsc f^{(m)}(x_*) = 0\neq f^{(m+1)}(x_*)$ 则将迭代改为如下方案具有二次收敛性.

$$x_{k+1}\leftarrow x_k-\frac{(m+1)f(x_k)}{f'(x_k)}$$

<br>

#### 割线法

若难以求导, 由于 $x_k - x_{k-1}\rightarrow 0$, 可在切线法中利用 $f'(x) \approx \frac{f(x_k) - f(x_{k-1})}{x_k - x_{k-1}}$ 代替求导. 可以证明其具备局部 $\frac{\sqrt 5+1}{2}$ 次收敛性.

$$x_{k+1} = x_k - \frac{f(x_k)(x_k - x_{k-1})}{f(x_k) - f(x_{k-1})}$$

#### Stevenson 法

若难以求导, 由于 $f(x_k)\rightarrow 0$, 可在切线法中利用 $f'(x)\approx \frac{f(x_k + f(x_k)) - f(x_k)}{f(x_k)}$ 代替求导.
可以证明其具备局部二次收敛性. 即迭代法中 $g(x) = x - \frac{\left(f(x)\right)^2}{f(x+f(x)) - f(x)}$.

$$x_{k+1} = x_k - \frac{\left(f(x_k)\right)^2}{f(x_k+f(x_k)) - f(x_k)}$$

$$g'(x) = 1 - \frac{2f(x)f'(x)\left(f(x+f(x)) - f(x)\right) - \left(f(x)\right)^2\left(f'(x+f(x))(1+f'(x)) - f'(x)\right)}{\left(
    f(x+f(x)) - f(x)\right)^2}$$

假设 $f'(x)\neq 0$, $f(x+f(x)) - f(x) \sim f'(x)f(x)\quad (x\rightarrow x_*)$. 从而

$$g'(x_*) = 1 - \lim_{x\rightarrow x_*}\frac{2(f(x)f'(x))^2 - (f(x))^2\left(f'(x+f(x))(1+f'(x)) - f'(x)\right) + o(f(x))^3}{(f'(x)f(x))^2}\\=1-\lim_{x\rightarrow x_*}\frac{2(f'(x))^2 - \left(f'(x+f(x))(1+f'(x)) - f'(x)\right)}{(f'(x))^2}
=0
$$


#### 简化 Newton 法

若难以求导, 可只估计一次邻域内导数的近似值 $f'(x_*)\approx A$. 

$$x_{k+1} = x_k - \frac{f(x_k)}{A}$$

#### 阻尼牛顿法

带有阻尼的牛顿法, 防止牛顿法发散.

$$x_{k+1} = x_k - \alpha_k \frac{f(x_k)}{f'(x_k)}$$

### 多元牛顿法

若 $f:\mathbb R^n\rightarrow \mathbb R^n$, 则求解 $f(x) = 0$ 有时可考虑多元形式的牛顿法. 设 $J_k = J_f(x_k)$ 表示 Jacobi 矩阵.

$$x_{k+1} = x_k - J_k^{-1}f(x_k)$$


#### Broyden 方法

又称 Good Broyden 方法. 

由于求解线性方程组 $J_k^{-1}f(x_k)$ 是 $O(n^3)$ 量级的, Broyden 方法提出用其它近似的 $J_k$ 代替准确的 Jacobi 矩阵, 即类似割线法. 希望 $J_{k+1}$ 是 $J_k$ 的秩 1 修正, 且满足类似梯度的性质, 即以下两条.

$$J_{k+1} = J_k + uv^T\\
J_{k+1} (x_{k+1} - x_k) = f(x_{k+1}) - f(x_k)$$

即
$$u(v^T\Delta x) = \Delta f(x) - J_k\Delta x$$
不妨设 $\Vert u\Vert_2 = 1$, 从而
$$u = \frac{\Delta f(x) - J_k\Delta x}{\Vert \Delta f(x) - J_k\Delta x\Vert_2},\quad v^T\Delta x=\Vert \Delta f(x) - J_k\Delta x\Vert_2$$

由于 $v$ 不唯一, 可额外限制其范数最小, 即与 $\Delta x$ 平行, $v = \Delta x \frac{\Vert \Delta f(x) - J_k\Delta x\Vert_2}{\Vert \Delta x\Vert_2^2}$, 整理得到

$$J_{k+1} = J_k + \frac{(\Delta f(x) - J_k\Delta x)\Delta x^T}{\Vert \Delta x\Vert_2^2}$$

秩 1 修正取逆可通过 Sherman-Morrison 公式得到, 节省时间复杂度.
$$(A+uv^T)^{-1} = A^{-1} - \frac{A^{-1}uv^TA^{-1}}{1+v^TA^{-1}u}$$


#### Bad Broyden 方法

Bad Broyden 方法提出用其它近似的 $J_k^{-1}$ 代替准确的 Jacobi 矩阵的逆. 希望 $J_{k+1}^{-1}$ 是 $J_k^{-1}$ 的秩 1 修正.

$$J_{k+1}^{-1} = J_k^{-1} + uv^T\\
J_{k+1}^{-1}f(x_{k+1}) - f(x_k) = x_{k+1} - x_k $$

类似求得

$$J_{k+1} = J_k + \frac{(\Delta x - J_k^{-1}\Delta f(x))\Delta f(x)^T}{\Vert \Delta f(x)\Vert_2^2}$$

注: 笔者暂未找到 Bad Broyden 被冠名为 Bad 的原因, 即暂未找到其明确劣于 Good Broyden 的原因.