# 非线性优化

## 状态估计问题

### 最大后验与最大似然

SLAM模型由以下方程构成：
​
$$
\left\{
\begin{aligned}
&x_k=f(x_{k-1},u_k)+w_k,\\
&z_{k,j}=h(y_j,x_k)+v_{k,j}.
\end{aligned}
\right.
$$
​
$x_k$表示相机的位姿，$u_k$是状态输入，$w_k$则是扰动
​
第二个是相机的观测方程，即相机在$x_k$对于路标$y_j$，进行一次观测对应像素位置$z_{k,j}$
​
观测方程为：
​
$$sz_{k,j}=K\exp (\xi ^\wedge) y_j$$
​
其中$K$为相机的内参，$s$为像素点到路标的距离。位姿可以由外参$\exp(\xi^\wedge)$表达。

考虑噪声项
​
$$w_k \sim N(0,R_k), v_k\sim N(0,Q_{k,j}) $$
​
在这些噪声的影响下推断$x,y$，即状态估计问题。
​
对相机$k$时刻的位姿$x_k$，以及$k$时刻路标$j$的位置的状态估计，就是在已知条件$(z,u)$下求$(x,y)$的条件概率分布：
​
$$P(x,y|z,u)$$
​
利用贝叶斯公式，有
​
$$P(x,y|z,u)=\frac{P(z,u|x,y)P(x,y)}{p(z,u)}\propto P(z,u|x,y)P(x,y)$$
​
左侧$P(x,y|z,u)$为后验概率，右侧$P(z,u|x,y)$为似然，$P(x,y)$为先验。如果让乘积最大，则可以找到合适的$(x,y)$。

如果不能直接给出运动方程，则没有先验信息，只能求最大似然估计

$$P(z,u|x,y)$$

即，最大似然估计指的是在现在的位姿下，会可能会产生的观测数据

直接求后验比较困难，求最优状态估计，再这个状态先使得后验概率最大化(MAP)：
​
$$(x,y)^*_{MAP} = \arg \max P(x,y|z,u) = \arg \max  P(z,u|x,y)P(x,y)$$

## 最小二乘

由于噪声满足$v_{k,j}\sim N(0,Q_{k,j})$，因此观测数据满足概率分布

$$P(z_{j,k}|x_k,y_j)\sim N(h(y_j,x_k),Q_{k,j})$$

取最大值，等价于最小化负对数。

高维Gaussian分布形式：

$$P(x)=\frac{1}{\sqrt{(2\pi )^N \det (\Sigma )}}\exp\left( -\frac{1}{2}(x-\mu )^T\Sigma ^{-1}(x-\mu ) \right)$$

其中$\Sigma$是变量的协方差矩阵，因此两个相同变量的协方差就是$Q_{k,j}$

负对数为

$$-\ln (P(x))=\frac{1}{2}\ln \left( (2\pi )^N \det (\Sigma ) \right)+\frac{1}{2}（x-\mu )^T \Sigma ^{-1}(x-\mu ).$$

由于运动方程和观测方程中$u,z$相互独立，先选取带入观测方程：

$$(x_{k},y_{j})^{*} = \arg\min\left((z_{k,j}-h(x_{k},y_{j}))^{T} Q^{-1}_{k,j}(z_{k,j}-h(x_{k},y_{j}))\right)$$

第一项与$x$无关，可以省略，因此可以最小化Gaussian分布右边的二次型

对于完整$P(z,u|x,y)$来说，由于$z,u$相互独立，因此

$$P(z,u|x,y)=\prod \limits_{k}P(u_{k}|x_{k-1},x_{k})\prod_{k,j}P(z_{k,j}|x_{k},y_{j})$$

定义误差：

$$
\begin{aligned}
&e_{u,k}=x_{k}-f(x_{k-1},u_{k})\\
&e_{z,j,k}=z_{k,j}-h(x_{k},y_{j})
\end{aligned}
$$

取负对数后可以得出

$$\min J(x,y) = \sum_{k}e_{u,k}^{T}R_{k}^{-1}e_{u,k}+\sum_{k}\sum_{j}e_{z,j,k}^{T}Q^{-1}_{k,j}e_{z,j,k}$$

## 非线性最小二乘法

对于问题
$$\min \frac{1}{2}||f(x)||^{2}_{2}$$

其极值or鞍点

$$\frac{\mathbf{d}f}{\mathbf{d}x}=0$$

即寻找增量$\Delta x_k$使得$||f(x)||^{2}_{2}$达到极小值

将目标函数在$x$附近泰勒展开

$$||f(x)+ \Delta x||^{2}_{2}\approx||f(x)||^{2}_{2}+J(x)\Delta x \color{red}{+\frac{1}{2}\Delta x^{T}H\Delta x} $$

$J(x)$是雅各比矩阵，$H(x)$是Hassian矩阵，分别表示一阶和二阶梯度方法。

- 一阶

$$\Delta x^*=\arg\min\left(||f(x)||^{2}_{2}+J(x)\Delta x\right)$$

最小值的增量解：

$$\Delta x^{*}=-J^{T}(x)$$



- 二阶

$$\Delta x^*=\arg\min\left( ||f(x)||^{2}_{2}+J(x)\Delta x +\frac{1}{2}\Delta x^{T}H\Delta x \right)$$

最小值的增量解：

$$H\Delta x = -J^{T}$$

- 高斯牛顿法



- 列文伯格-马夸尔特法