# 最小二乘法

考虑有一组m个数据点(x1, y1), (x2, y2),……, (xm, ym)

模型函数表示为： 
$$ y(x) = f(x, \beta)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ (1)$$

其中 $\beta = (\beta_1, \beta_2, \dots, \beta_n)$ 表示待拟合参数，n表示待拟合参数的数量，其中m > n

模型`残差`定义为： 
$$r_i = y_i - f(x_i, \beta)\ \ \ \ for\ i = 1, 2, \dots, m\ \ \ \ \ \ \ \ \ \ \ \ (2)$$

最小二乘法的目标就是通过最小化残差平方和RSS来估计 $\beta$

$$RSS(\beta) = \| r \|^2 = r^Tr = \sum_{i=1}^n r_i^2$$

## 推导线性最小二乘法公式

在线性最小二乘法中，拟合的数学表达式：
$$y = \sum_{j=1}^n f_j(x)\beta_j = X\beta$$
其中 $\beta$ 是一个n个元素的列向量，X是一个m行n列的矩阵，m是数据点个数，n是拟合参数的个数。

矩阵求导公式, 下面要用到：

公式1: $$\frac{dAX}{dX} = A^T$$

公式2: $$\frac{dX^TA}{dX} = A$$

公式3: $$\frac{dX^TAX}{dX} = (A + A^T)X$$

最小二乘法要求对 $\beta$ 求解，使得RSS最小，即：$$ \frac{\partial RSS(\beta)}{\partial \beta} = 0$$

即：
$$
\begin{align}
\frac{\partial r^Tr}{\partial \beta}
     = \frac{\partial ((y - f(x, \beta))^T(y - f(x,\beta)))}{\partial \beta} \\[4mm]
     = \frac{\partial ((y - X\beta)^T(y - X\beta))}{\partial \beta} \\[4mm]
     = \frac{\partial ((y^T -\beta^TX^T)(y - X\beta))}{\partial \beta}\\[4mm]
     = \frac{\partial(y^Ty - y^TX\beta-\beta^TX^Ty+\beta^TX^TX\beta)}{\partial \beta}\\[4mm]
     = \frac{\partial y^Ty}{\partial \beta} - \frac{\partial y^TX\beta}{\partial \beta}
     - \frac{\partial \beta^TX^Ty}{\partial \beta} + \frac{\partial \beta^TX^TX\beta}{\partial \beta}
     = 0
\end{align}     
$$

根据矩阵的求导公式，即可得到：
$$
-X^Ty -X^Ty + (X^TX + (X^TX)^T)\beta = 0
$$
简化可得： $$X^TX\beta = X^Ty$$
因此 $$\beta = (X^TX)^{-1}X^Ty$$

方法2====================================================================================================================
$$
\frac{\partial r^Tr}{\partial \beta}
     = \frac{\partial \| y - X\beta \|^2}{\partial \beta} \\[4mm]
     = \frac{\partial (y^Ty - 2y^TX\beta + \beta^TX^TX\beta)}{\partial \beta} \\[4mm]
     = 0 - 2X^Ty + (X^TX + (X^TX)^T)\beta = 0
$$
简化可得： $$X^TX\beta = X^Ty$$
因此 $$\beta = (X^TX)^{-1}X^Ty$$

至此，线性最小二乘法的公式推导完毕。

## 非线性最小二乘法
对于线性最小二乘法我们可以分析他的导函数形式，但是对于复杂的情况，导函数不好写或者根本写不出来，这时需要采用迭代的方式求取。

**迭代方式**

1. 给定初始值$X_0$
2. 对于第k次迭代，寻找一个合适的增量 $\Delta X_k$, 使得 $\| f(X_k + \Delta X_k) \|^2$最小
3. 若$\Delta X_k$足够小，则停止
4. 否则， 令 $X_{k+1} = X_k + \Delta X_k$, 返回2

**如何寻找增量**

泰勒展开：
$$\| f(\beta_k + \Delta \beta) \|^2 \approx \| f(\beta_k)\|^2 + J(\beta_k)\Delta \beta + \frac{1}{2}\Delta \beta^TH(\beta_k)\Delta \beta$$

其中H是m行m列的Hessian矩阵，存在关系有 $H = J^TJ$ ,其中J是雅可比矩阵

### 梯度下降法： 保留一阶

即 $$\| f(\beta_k + \Delta \beta) \|^2 \approx \| f(\beta_k)\|^2 + J(\beta_k)\Delta \beta$$

$J_F(x)$ 即为F(x)的梯度，沿着引力势梯度相反的方向高度下降的最快。

从某个初值 $\beta_0$出发， 每次都取 $\Delta \beta = -\alpha J^T(\beta)$ ，$\alpha$ 是一个控制步长大小的系数。


### 牛顿迭代法： 保留二阶。
$$\| f(\beta_k + \Delta \beta) \|^2 \approx \| f(\beta_k)\|^2 + J(\beta_k)\Delta \beta + \frac{1}{2}\Delta \beta^TH(\beta_k)\Delta \beta$$

将上式对 $\Delta \beta$ 求偏导，令其为0，则有关于 $\Delta \beta$的方程
$$J(\beta_k) + \frac{1}{2}[H(\beta_k + H(\beta_k)^T)]\Delta \beta = 0$$

hessian矩阵为对称矩阵， $H^T = H$， 因此
$$ J(\beta_k) + H(\beta_k)\Delta \beta = 0$$
即
$$\Delta \beta = -H^{-1}J$$


### 高斯-牛顿法

把$r_i$作泰勒展开：
$$r_i(\beta + \Delta \beta) \approx r_i(\beta) + J_i(\beta)\Delta \beta$$
则：
$$r(\beta + \Delta \beta)  = r(\beta) + J_r(\beta)\Delta \beta$$

因此：
$$
\frac{\partial \| r(\beta) + J(\beta)\Delta \beta \|^2}{\partial \Delta \beta} \\[4mm]
= \frac{\partial (\|f(\beta)\|^2 + 2r(\beta)^TJ(\beta)\Delta \beta + \Delta \beta^TJ(\beta)^TJ(\beta)\Delta \beta)}{\partial \Delta \beta} \\[4mm]
= 2J(\beta)^Tr(\beta) + 2J(\beta)^TJ(\beta)\Delta \beta = 0
$$

因此：
$$
J(\beta)^TJ(\beta)\Delta \beta = -J(\beta)^Tr(\beta)
$$

从而：
$$
\Delta \beta = -(J^TJ)^{-1}J^Tr
$$

## 拟合参数的协方差矩阵的计算

$\Delta \beta$的协方差矩阵可以写为：
$$
\text{Cov}(\boldsymbol{\Delta \beta}) = \mathbb{E}[\Delta \boldsymbol{\beta} \Delta \boldsymbol{\beta}^\top] \\[4mm]
= (J^TJ)^{-1}J^Trr^TJ[(J^TJ)^{-1}]^T
$$

由于hessian矩阵是对称矩阵，则它的逆也是对称矩阵，因此：
$$[(J^TJ)^{-1}]^T = (J^TJ)^{-1}$$

又由于$rr^T = \sigma^2I$, 

这个公式的存在其实是因为那个高斯噪声$\epsilon_i$的分布，那个的分布就是残差的期望分布，每个变量相互独立，协方差为0，只有对角线上元素为$\sigma^2$

将上面的两个公式带入，化简可得：

$$
\text{Cov}(\boldsymbol{\Delta \beta}) =  \sigma^2(J^TJ)^{-1}J^TJ(J^TJ)^{-1}
$$

由于$(J^TJ)^{-1}J^TJ$等于单位矩阵，则：
$$
\text{Cov}(\boldsymbol{\Delta \beta}) =  \sigma^2(J^TJ)^{-1}
$$

在统计学意义上，$\beta$参数不确定性来源于 $\Delta \beta$
则：
$$\text{Cov}(\boldsymbol{\beta}) = \text{Cov}(\boldsymbol{\Delta \beta}) =  \sigma^2(J^TJ)^{-1}$$

参考：

【1】https://www.bilibili.com/video/BV1xh4y1Z7ku/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=099edd8ba094e7ddc14190b99d15a5fe

【2】https://www.bilibili.com/video/BV1134y1k7gv/?spm_id_from=333.788.top_right_bar_window_custom_collection.content.click&vd_source=099edd8ba094e7ddc14190b99d15a5fe

【3】https://blog.csdn.net/wangqy3811457/article/details/123186754

【4】https://en.wikipedia.org/wiki/Non-linear_least_squares

【5】https://en.wikipedia.org/wiki/Linear_least_squares

有博主推荐的一篇论文，我还没看：

推荐一篇超级好的论文：http://www2.imm.dtu.dk/pubdb/edoc/imm3215.pdf