# 多元线性回归
## 7.1 引言
回归分析是一种通过一组预测变量来预测一个或多个响应变量的统计方法，它也可以用于评估预测变量对响应变量的效果。本章首先讨论预测一个响应变量的多重回归，然后将这个模型推广到预测若干因变量的情况。我们对回归分析的简要讨论重点在以下几个方面:
* 模型的假定及其后果
* 回归模型的一些不同表达方式
* 回归方法在看上去非常不同的场合下的一般应用


## 7.2 经典线性回归模型
设$z_1,z_2,\dots, z_r$为r个预测变量，设想它们与一个响应变量Y有关系。例如，对r=4，我们可能有
* $Y$ = 住房当前市场价值
* $z_1$ = 居住面积(平方英尺)
* $z_2$ = 位置(城市区域的指标)
* $z_3$ = 去年的评估价值
* $z_4$ = 建筑质量(每平方英尺价格)

经典线性回归模型，假定Y有一个均值和误差$\epsilon$合成，其中均值为$z_i$的连续函数，而$\epsilon$则考虑测量误差和其余未被明确考虑在模型中所产生的效应，在实验中被记录下来或由研究者设定的变量值被视为固定值。误差被看成随机变量，其服从一个假定的分布。
$$Y = \beta_0 + \beta_1z_1 + \dots + \beta_rz_r + \epsilon \tag 1$$
$$(响应) = [均值(依赖于z_1,\dots,z_r)] + (误差)$$
其中误差项目假定有如下性质:
1. $E(\epsilon)=0$
2. $Var(\epsilon_j)=\sigma^2(常数)$
3. $Cov(\epsilon_j,\epsilon_k)=0, j\neq k$
经典归回模型如下
$$\mathop{\boldsymbol{Y}}_{(n\times 1)} = \mathop{\boldsymbol{Z}}_{(n\times (r+1))}\mathop{\boldsymbol{\beta}}_{((r+1)\times 1)} + \mathop{\boldsymbol{\epsilon}}_{(n+1)} \tag 2$$
$$E(\boldsymbol{\epsilon})=\mathop{\boldsymbol{0}}_{(n\times n)}, Cov(\boldsymbol{\epsilon})=\sigma^2\boldsymbol{I}$$
其中$\boldsymbol{\beta}$和$\sigma^2$为未知参数.

## 7.3 最小二乘估计
回归分析的目标之一是得出一个方程，使研究者可以根据给定的预测变量来预测响应变量的值，这就需要将模型同数据进行拟合，也就是说，我们必须确定与数据相容的**回归系数$\beta$和误差方差$\sigma^2$**<br >
设$\boldsymbol{b}$为$\boldsymbol{\beta}$的一个尝试值，最小二乘法会选择这样的$\boldsymbol{b}$，使平方和达到极小:
$$S(\boldsymbol{b})=\sum_{j=1}^{n}(y_j-b_0-b_1z_{j1}-\dots - b_rz_{jr})^2 \tag 3$$
$$=(\boldsymbol{y}-\boldsymbol{Z}\boldsymbol{b})^{'}(\boldsymbol{y}-\boldsymbol{Z}\boldsymbol{b})$$
由最小二乘法选定的参数$\boldsymbol{b}$称为$\boldsymbol{\beta}$的最小二乘估计。今后将记最小二乘估计为$\hat{\boldsymbol{\beta}}$,以强调是$\boldsymbol{\beta}$的估计值。

**结论7.1** 设$\boldsymbol{Z}$有满秩$r+1\leq n$，则$\beta$的最小二乘估计为:
$$\hat{\boldsymbol{\beta}} = (\boldsymbol{Z}^{'}\boldsymbol{Z})^{-1}\boldsymbol{Z}^{'}\boldsymbol{y}$$
残差
$$\hat{\boldsymbol{\epsilon}}=\boldsymbol{y}-\hat{\boldsymbol{y}} = (\boldsymbol{I}-\boldsymbol{H})\boldsymbol{y}$$
其中$\boldsymbol{H}=\boldsymbol{Z}(\boldsymbol{Z}^{'}\boldsymbol{Z})^{'}\boldsymbol{Z}^{'}\boldsymbol{y}$
    $$残差平方和=\boldsymbol{y}^{'}\boldsymbol{y}-\boldsymbol{y}^{'}\boldsymbol{Z}\hat{\boldsymbol{\beta}}$$

In [4]:
# 例子 计算最小二乘估计，残差以及残差平方和
#已知
import numpy as np

Z = np.matrix([[1,1,1,1,1],[0,1,2,3,4]]).T
Y = np.matrix([1,4,3,8,9]).T

In [25]:
ZZ = Z.T.dot(Z)
ZZ_ = np.linalg.inv(ZZ)
Zy = Z.T.dot(Y)
#拟合参数
beta = ZZ_.dot(Zy)
#拟合值向量
y_hat = Z.dot(beta)
#残差
e_hat = Y - y_hat
#残差平方和
e_mse = e_hat.T.dot(e_hat)

### 平方和分解
因为$\hat{\boldsymbol{y}}^{'}\hat{\boldsymbol{\epsilon}} = 0$,故总的响应变量平方和$\boldsymbol{y}^{'}\boldsymbol{y}=\sum_{j=1}^{n}y_{i}^2$满足
$$\boldsymbol{y}^{'}\boldsymbol{y}=(\hat{\boldsymbol{y}}+\boldsymbol{y}-\hat{\boldsymbol{y}})^{'}(\hat{\boldsymbol{y}}+\boldsymbol{y}-\hat{\boldsymbol{y}}) = (\hat{\boldsymbol{y}} + \hat{\boldsymbol{\epsilon}})^{'}(\hat{\boldsymbol{y}} + \hat{\boldsymbol{\epsilon}}) = \hat{\boldsymbol{y}}^{'}\hat{\boldsymbol{y}}+\hat{\boldsymbol{\epsilon}}^{'}\hat{\boldsymbol{\epsilon}} \tag 7$$
由于$\boldsymbol{Z}$的第一列为1，条件$\boldsymbol{Z}^{'}\hat{\boldsymbol{\epsilon}}=0$意味着$0=\boldsymbol{1}^{'}\hat{\boldsymbol{\epsilon}}=\sum_{j=1}^{n}\hat{\boldsymbol{\epsilon}}_j = \sum_{j=1}^{n}y_i-\sum_{j=1}^{n}\hat{y}_i$,或$\overline{y}=\overline{\hat{y}}$,进行化简得到关于均值平方和的基本分解式。
$$\boldsymbol{y}^{'}\boldsymbol{y}-n\overline{y}^2 = \hat{\boldsymbol{y}}^{'}\hat{\boldsymbol{y}}-n(\overline{\hat{y}})^2 + \hat{\boldsymbol{\epsilon}}^{'}\hat{\boldsymbol{\epsilon}}$$
或者
$$\sum_{j=1}^{n}(y_j-\overline{y})^2 = \sum_{j=1}^{n}(\hat{y}_j-\overline{y})^2 + \sum_{j=1}^{n}\hat{\epsilon}^2_j$$
$$\left(\mathop{均值的总}_{平方和}\right) = \left(回归平方和\right) + \left(\mathop{残差(误差)}_{平方和}\right)$$
这个平方和的分解式表明模型拟合的质量可以用**决定系数**来度量，其定义为:
$$R^2=1- \frac{\sum_{j=1}^{n}\hat{\epsilon}_j^2}{\sum_{j=1}^{n}(y_i-\overline{y})^2}=\frac{\sum_{j=1}^{n}(\hat{y}_j-\overline{y})^2}{\sum_{j=1}^{n}(y_j-\overline{y})^2}$$
$$R^2$$这个量给出$y_j,j=1,\dots,n$的总变差中由预测变量$z_1, z_2,\dots, z_r$的解释或所贡献的部分所占比例，若拟合方程通过所有数据点，即对所有j有$\hat{\epsilon}_j=0$，此时$R^2$等于1，另一个极端是当$\hat{\beta}_0=\overline{y}$和$\hat{\beta}_1=\hat{\beta}_2=\dots=\hat{\beta}_r=0$时$R^2$等于0，在这种场合，预测变量$z_1,z_2,\dots,z_r$对响应变量没有影响。

### 最小二乘的集合解释
最小二乘法的几何解释能使我们更好的理解这个概念的本质，根据经典的线性回归模型
$$响应均值向量=E(\boldsymbol{Y})=\boldsymbol{Z}\boldsymbol{\beta}=\beta_0\begin{bmatrix}1\\1\\\vdots\\1\end{bmatrix}+\beta_1\begin{bmatrix}z_{11}\\z_{21}\\ \vdots \\z_{n1}\end{bmatrix}+\dots+\beta_r\begin{bmatrix}z_{1r}\\z_{2r}\\ \vdots \\z_{nr}\end{bmatrix}$$