# 最小二乘法

## 线性回归与最小二乘法  
  工程中许多问题，常常需要根据多个变量，来找出试验结果的函数关系的近似表达式，也就是求得自变量到到因变量之间的映射关系，叫做线性回归。

 例1 为了测定刀具的磨损速度，设计了这么一个实验：经过一定时间(入每隔一个小时)，测量一次刀具的厚度，得到一组实验数据如下：
 $$
\begin{array}{c|c|c|c|c|c|c|c|clcr}\hline
\text{顺序编号}i & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\
\hline
\text{时间}t_i/h & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 \\
\hline
\text{刀具厚度}y_i/mm & 27.0 & 26.8 & 26.5 & 26.3 & 26.1 & 25.7 & 25.3 & 24.8 \\\hline
\end{array}
$$  
可以先在坐标系上描出上面各个点，可以可到这些实验数据的分布接近线性。于是设：  
$$\hat{y}=f(t)=at+b$$
确立自变量时间$t$到因变量刀具厚度$y$的关系，其中$a,b$是待定的常数。使用$\hat{y}$而不是$y$，是因为$\hat{y}$与$y$存在着偏差。  
但是，数据虽然接近线性，然而实际上并非线性。为了求出函数$f(t)$来拟合$y$，只好选一个$f(t)$使得每个点$f(t_i)$分别离$y_i$最接近。  
假设使用这个偏差和，作为判断偏差的函数：
$$\sum_{i=0}^7[y_i-f(t_i)]$$  
但是$y_i-f(t_i)$有正有负，会造成求和过程中相互抵消。于是，假设使用绝对值来做偏差函数，使得这个和的值最小就认为$f(t_i)$离$y_i$最近：
$$\sum_{i=0}^7|y_i-f(t_i)|=\sum_{i=0}^7|y_i-(at_i+b)|$$  
然而有绝对值的函数在计算过程中不方便处理，会出现两段式的函数。于是将绝对值改成平方的形式。  
$$M=\sum_{i=0}^7[y_i-(at_i+b)]^2$$  
这种根据平方和作为偏差函数，以平方和最小作为条件来选择待定常数$a,b$的方法，叫做** 最小二乘法 **  
此时就可以归结为，函数$M=M(a,b)$在哪些点$(a,b)$处，能取得最小值。联立方程：
$$
\begin{cases}
M_a(a,b)=0 \\
M_b(a,b)=0
\end{cases}
$$

分别对$a,b$求偏导：  
$$
\begin{cases}
\frac{\displaystyle \partial M}{\displaystyle \partial a}=-2\displaystyle \sum_{i=0}^7[y_i-(at_i+b)]t_i=0 \\
\frac{\displaystyle \partial M}{\displaystyle \partial b}=-2\displaystyle \sum_{i=0}^7[y_i-(at_i+b)]=0
\end{cases}
$$
亦即：
$$
\begin{cases}
\displaystyle \sum_{i=0}^7t_i[y_i-(at_i+b)]t_i=0 \\
\displaystyle \sum_{i=0}^7[y_i-(at_i+b)]=0
\end{cases}
$$
将括号内各项进行整理合并，并把未知数$a,b$分离出来，可得：
$$\begin{aligned}
& a\sum_{i=0}^7t_i^2+b\sum_{i=0}^7t_i=\sum_{i=0}^7y_it_i \\
& a\sum_{i=0}^7t_i+8b=\sum_{i=0}^7y_i
\end{aligned}$$  
通过计算$\displaystyle \sum_{i=0}^7t_i,\sum_{i=0}^7t_i^2,\sum_{i=0}^7y_i,\sum_{i=0}^7y_it_i$得：
$$\sum_{i=0}^7t_i=28,\sum_{i=0}^7t_i^2=140,\sum_{i=0}^7y_i=208.5,\sum_{i=0}^7y_it_i=717.0$$
带入求偏导后整理的方程组，得：
$$\begin{cases}
140a+28b=717, \\
28a+8b=208.5 .
\end{cases}$$
解此方程组，得到$a=-0.3036,b=27.125$，于是可得$f(t)$
$$\hat{y}=f(t)=-0.3036t+27.125$$
将实验数据代入$f(t)$，并求得$M=0.108\,165$，$\sqrt{M}=0.329$，此处$\sqrt{M}$称为**均方误差**。

## 最小二乘法误差函数代数形式
$$S(\beta_0,\beta_1)=\sum_{i=1}^n(y_i-\beta_0-\beta_ix_i)^2$$
分别对$\beta_0,\beta_1$求偏导：
$$
\begin{aligned}
& \frac{\partial{S}}{\partial{\beta_0}}=-2\sum_{i=1}^n(y_i-\beta_0-\beta_1x_i) \\
& \frac{\partial{S}}{\partial{\beta_1}}=-2\sum_{i=1}^nx_i(y_i-\beta_0-\beta_1x_i)
\end{aligned}
$$
另上面两个偏导数等于零，有：
$$\begin{aligned}
& \sum_{i=1}^ny_i=n\hat{\beta}_0+\hat{\beta}_1\sum_{i=1}^nx_i \\
& \sum_{i=1}^nx_iy_i=\hat{\beta}_0\sum_{i=1}^nx_i+\hat{\beta}_1\sum_{i=1}^nx_i^2
\end{aligned}
$$
求解$\hat{\beta}_0,\hat{\beta}_1$，可得：
$$\begin{aligned}
\hat{\beta}_0
&=\frac{(\displaystyle\sum_{i=1}^nx_i^2)(\sum_{i=1}^ny_i)-(\sum_{i=1}^nx_i)(\sum_{i=1}^nx_iy_i)}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2} \\
\hat{\beta}_1 
& =\frac{\displaystyle n\sum_{i=1}^nx_iy_i-(\sum_{i=1}^nx_i)(\sum_{i=1}^ny_i)}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)}
\end{aligned}
$$

## 最小二乘估计斜率和截距的统计性质
### **定理 在标准统计模型的假设下，最小二乘估计是无偏的**
$$E(\hat{\beta}_j)=\beta_j,j=0,1$$
证明 根据假设，$E(y_i)=\beta_0+\beta_1x_i$，由$\hat{\beta}_0$的表达式，可得：
$$\begin{aligned}
E(\hat{\beta}_0) & =\frac{(\displaystyle\sum_{i=1}^nx_i^2)(\sum_{i=1}^nE(y_i))-(\sum_{i=1}^nx_i)(\sum_{i=1}^nx_iE(y_i))}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2} \\
& =\frac{(\displaystyle\sum_{i=1}^nx_i^2)(n\beta_0+\beta_1\sum_{i=1}^nx_i)-(\sum_{i=1}^nx_i)(\beta_0\sum_{i=1}^nx_i+\beta_1\sum_{i=1}^nx_i^2)}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2} \\
& = \beta_0
\end{aligned}
$$

### **定理 在标准统计模型的假设下**
$$Var(\hat\beta_0)=\frac{\displaystyle\sigma^2\sum_{i=1}^nx_i^2}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}$$
$$
Var(\hat\beta_1)=\frac{\displaystyle n\sigma^2}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}
$$
$$
Cov(\hat\beta_0,\hat\beta_1)=\frac{\displaystyle -\sigma^2\sum_{i=1}^nx_i}
{\displaystyle n\sum_{i=1}^nx_i^2-(\sum_{i=1}^nx_i)^2}
$$

## 线性最小二乘的矩阵方法
假设模型形式为：(p-1个变量，n组观察值)
$$y=\beta_0+\beta_1x_1+\cdots+\beta_{p-1}x_{p-1}$$
即，用参数$\beta_0,\beta_1,\cdots,\beta_{p-1}$来拟合数据
$$y_i,x_{i1},x_{i2},\cdots,x_{i,p-1},\,i=1,\cdots,n$$
用向量$Y$表示$y_i$，用$\beta$表示$\beta_0,\beta_1,\cdots,\beta_{p-1}$，$X_{n\times p}$表示成矩阵形式：
$$X=
\left[
\begin{matrix}
1 & x_{11} & x_{12} & \cdots &  x_{1,p-1} \\
1 & x_{21} & x_{22} & \cdots &  x_{2,p-1} \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
1 & x_{n1} & x_{n2} & \cdots  & x_{n,p-1} 
\end{matrix}
\right]
$$
则拟合向量$\hat{Y}$可以写为:
$$\hat{Y}_{n\times 1}=X_{n\times p}\beta_{p\times 1}$$
运用最小二乘法的误差函数并使其最小化
$$\begin{aligned}
\Vert Y-X\beta\Vert_2^2
& =(Y-X\beta)^T(Y-X\beta) \\
& =(Y^T-\beta^TX^T)(Y-X\beta) \\
& = Y^TY-Y^TX\beta-\beta^TX^TY+\beta^TX^TX\beta \\
& = \Vert Y\Vert_2^2 -2Y^TX\beta+\beta^TX^TX\beta
\end{aligned}
$$

对$\beta$求梯度：
$$\begin{aligned}
\bigtriangledown_{\beta} \frac{1}{2}\Vert Y-X\beta\Vert_2^2
& = \bigtriangledown_{\beta}\frac{1}{2}(\Vert Y\Vert_2^2 -2Y^TX\beta+\beta^TX^TX\beta) \\
& = \frac{1}{2}\bigtriangledown_{\beta}tr(\Vert Y\Vert_2^2 -2Y^TX\beta+\beta^TX^TX\beta),(\text{一个实数的迹等于其本身}) \\
& = \frac{1}{2}\bigtriangledown_{\beta}(tr(-2Y^TX\beta)+tr(\beta^TX^TX\beta)) \\
& = \frac{1}{2}\bigtriangledown_{\beta}(tr(\beta^TX^TX\beta)-2tr(Y^TX\beta)) \\
& = \frac{1}{2}\bigtriangledown_{\beta}(tr(\beta\beta^TX^TX)-2tr(Y^TX\beta)) \\
& = \frac{1}{2}\bigtriangledown_{\beta}(tr(\beta I\beta^TX^TX)-2tr(Y^TX\beta)) \\
& = \frac{1}{2}(X^TX\beta+X^TX\beta-2X^TY)) \\
& = X^TX\beta-X^TY
\end{aligned}
$$
倒数第三步推导到倒数第二步，利用了下面的定理：
$$\bigtriangledown_{A^T}trABA^TC=B^TA^TC^T+BA^TC$$
其中，把$\beta$对应$A^T$，$I$对应$B$，$X^TX$对应C

最后，令$\bigtriangledown_{\beta} \frac{1}{2}\Vert Y-X\beta\Vert_2^2=0$，可得：
$$X^TX\beta=X^TY,\text{(正规方程)}$$
即：
$$\beta =(X^TX)^{-1}X^TY$$
**说明**：从计算的角度来讲，构造正规方程有时是不明智的，这是由于在形成$X^TX$的过程中，乘法运算可能会引入意想不到的舍入误差，并且会导致后面的计算把该误差放大。

## 正交性与最小二乘
当方程组$X\beta=Y$的解不存在又要求解的时候，最好的方法就是寻找$\beta$，使得$X\beta$尽可能接近$Y$。考虑$X\beta$作为$Y$的一个近似，从$Y$到$X\beta$的距离越小，$\Vert Y-X\beta\Vert$近似程度越好，一般的最小二乘问题就是找出使得$\Vert Y-X\beta\Vert$尽量小的$\beta$。
最小二乘问题最重要的特征就是，无论怎么选取$\beta$，向量$\hat{Y}=X\beta$必然属于列空间$ColX$。也就是说，我们需要寻求$\beta$，使得$X\beta$是$ColX$中最接近$Y$的向量。  
把$\hat{Y}$写成线性空间的表达式：
$$
\hat{Y}=
\left[
\begin{matrix}
\mid & \mid & \, & \mid \\ 
x_{1} & x_{2} & \cdots & x_{p} \\ 
\mid & \mid & \, & \mid 
\end{matrix}
\right]
\left[
\begin{matrix}
\beta_1 \\ \beta_2 \\ \vdots \\ \beta_p
\end{matrix}
\right]=\beta_1\vec{x_1}+\beta_2\vec{x_2}+\cdots+\beta_p\vec{x_p},\,(x_p\text{表示列向量})
$$
那么，最接近$ColX$空间的就是$Y$在$ColX$上的投影。  
令$\hat{Y}=X\hat\beta$是$Y$在$ColX$上的投影，那么$Y-\hat{Y}=Y-X\hat\beta$就是与$ColX$上的任意向量正交。也就是$Y-\hat{Y}=Y-X\hat\beta$正交与矩阵$X$里面的任何一个向量$\vec{x_i},i\in(1,\cdots,p)$，可得$Y-\hat{Y}=Y-X\hat\beta$正交于$X$。于是，由正交性性质可得：
$$X^T(Y-X\hat\beta)=0$$
（正交性定理：假设$A$是$m\times n$矩阵，那么$A$的列向量空间的正交补是$A^T$的零空间。）  
故有：
$$X^TX\hat\beta=X^TY,\text{(正规方程)}$$