# 多元回归分析：估计
---

## 使用多元回归的动因

### 含有两个自变量的模型

一般地，两个自变量的模型写成

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\mu$$

其中$\beta_{0}$是截距，$\beta_{1}$度量了在其他条件不变的情况下$y$相对$x_{1}$的变化，而$\beta_{2}$度量了在其他条件不变的情况下$y$相对$x_{2}$的变化。

关于$\mu$与$x_{1}$和$x_{2}$相关性的关键假定是

$$\mathrm{E}\left(u | x_{1}, x_{2}\right)=0$$

### 含有$k$个自变量的模型

一般的多元线性回归模型写成

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}+\ldots+\beta_{k} x_{k}+\mu$$

一般多元回归模型的关键假定表示为

$$\mathrm{E}\left(u | x_{1}, x_{2}, \ldots, x_{k}\right)=0$$

## 普通最小二乘法的操作和解释

### 多元线性回归模型的最小二乘估计量

残差可以定义为

$$e=y-X \hat{\beta}$$

最小化残差平方和

$$\begin{aligned} e^{\prime} e &=(y-X \hat{\beta})^{\prime}(y-X \hat{\beta}) \\ &=y^{\prime} y-\hat{\beta}^{\prime} X^{\prime} y-y^{\prime} X \hat{\beta}+\hat{\beta}^{\prime} X^{\prime} X \hat{\beta} \\ &=y^{\prime} y-2 \hat{\beta}^{\prime} X^{\prime} y+\hat{\beta}^{\prime} X^{\prime} X \hat{\beta} \end{aligned}$$

一阶条件

$$\frac{\partial e^{\prime} e}{\partial \hat{\beta}}=-2 X^{\prime} y+2 X^{\prime} X \hat{\beta}=0$$

OLS估计量

$$\hat{\beta}=\left(X^{\prime} X\right)^{-1} X^{\prime} y$$

### 对OLS回归方程的解释

对于含有两个自变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

估计值$\hat{\beta}_{1}$和$\hat{\beta}_{2}$具有偏效应（partial effect）或其他条件不变的解释。从方程得到

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}+\hat{\beta}_{2} \Delta x_{2}$$

当$x_{2}$固定，即$\Delta x_{2}=0$时，可以得到

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}$$

**例：大学GPA的决定因素**

In [2]:
import ipystata

Terminated 1 unattached Stata session(s).


In [4]:
%%stata

cd "D:\github\notebook\Teaching\Courses\Undergraduate\Econometrics\data"

D:\github\notebook\Teaching\Courses\Undergraduate\Econometrics\data



In [3]:
%%stata

use GPA1, clear

eststo clear
eststo: quietly reg colGPA ACT
eststo: quietly reg colGPA hsGPA ACT
esttab, se r2


(est1 stored)

(est2 stored)

--------------------------------------------
                      (1)             (2)   
                   colGPA          colGPA   
--------------------------------------------
ACT                0.0271*        0.00943   
                 (0.0109)        (0.0108)   

hsGPA                               0.453***
                                 (0.0958)   

_cons               2.403***        1.286***
                  (0.264)         (0.341)   
--------------------------------------------
N                     141             141   
R-sq                0.043           0.176   
--------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001



多于两个自变量的情况与此类似。OLS回归方程为

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}+\ldots+\hat{\beta}_{k} x_{k}$$

用变化量表示为

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}+\hat{\beta}_{2} \Delta x_{2}+\ldots+\hat{\beta}_{k} \Delta x_{k}$$

$x_{1}$的系数度量的是，在所有其他条件不变的情况下，因提高一个单位的$x_{1}$而导致的$\hat{y}$的变化，即在保持$x_{2}, x_{3}, \ldots, x_{k}$不变的情况下

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}$$

### 多元回归中“保持其他因素不变”的含义

多元回归分析使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情：保持其他条件不变。

### 对多元回归“排除其他变量影响”的解释

考虑两个自变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

$\hat{\beta}_{1}$的一种表达形式是

$$\hat{\beta}_{1}=\left(\sum_{i=1}^{n} \hat{r}_{i 1} y_{i}\right) /\left(\sum_{i=1}^{n} \hat{r}_{i 1}^{2}\right)$$

其中，$\hat{r}_{i 1}$是利用现有样本将$x_{1}$对$x_{2}$进行简单回归得到的OLS残差。

偏回归系数$\hat{\beta}_{1}$可以通过以下两个步骤回归得到：

1. 将$x_{1}$对$x_{2}$进行简单回归得到的OLS残差$\hat{r}_{i 1}$

2. 将$y$对$\hat{r}_{i 1}$进行简单回归就能得到$\hat{\beta}_{1}$

### 简单回归和多元回归估计值的比较

模型一：$$\tilde{y} = \tilde{\beta}_{0} + \tilde{\beta}_{1} x_{1}$$

模型二：$$\hat{y} = \hat{\beta}_{0} + \hat{\beta}_{1} x_{1} + \hat{\beta}_{2} x_{2}$$

如果模型二是正确的模型，则

$$\tilde{\beta}_{1} = \hat{\beta}_{1} + \hat{\beta}_{2}\tilde{\delta}_{1}$$

其中，$\tilde{\delta}_{1}$是$x_{i2}$对$x_{i1}$进行简单回归的斜率系数。

### 拟合优度

- 在回归中增加一个自变量后，它绝对不会减少，而且通常会增大

- 判断一个解释变量是否应放入模型的依据应该是，这个解释变量在总体中对$y$的偏效应是否非零

## OLS估计量的期望值

**多元线性回归模型假定**

- MLR.1 线性于参数

- MLR.2 随机抽样

- MLR.3 不存在完全共线性 —— 没有一个自变量是常数，自变量之间也不存在严格的线性关系

- MLR.4 零条件均值 $E(\mu|x_{1},x_{2},...x_{k}) = 0$

当满足假定MLR.4时，我们常说具有**外生解释变量**，否则，$x_{j}$就被称为**内生解释变量**。

- MLR.5 同方差性 $Var(\mu|x_{1},x_{2},...x_{k}) = \sigma^{2}$

**OLS的无偏性**

在假定MLR.1至MLR.4下，下式对总体参数对$\beta_{j}$的任意值都成立，

$$E(\hat{\beta}_{j}) = \beta_{j},j=0,1,...,k$$

即OLS估计量是总体参数的无偏估计量。

### 在回归模型中包含了无关变量

在一个多元回归模型中包含一个或多个无关变量，对模型进行了过度设定，并不会影响到OLS估计量的无偏性

### 遗漏变量的偏误：简单情形

若在模型中遗漏了重要变量$x_{2}$，则

<div align=center>
<img src="./pic/w005.jpg" width = "50%" />
</div>

### 遗漏变量的偏误：更一般的情形

假设总体模型

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}+u$$

但我们遗漏了变量$x_{3}$，并估计了模型

$$\widetilde{Y}=\widetilde{\beta}_{0}+\widetilde{\beta}_{1} x_{1}+\widetilde{\beta}_{2} x_{2}$$

假设$x_{1}$与被遗漏变量$x_{3}$相关，但$x_{2}$却与$x_{3}$无关。那么$\tilde{\beta}_{1}$和$\tilde{\beta}_{2}$通常都是有偏误的。

**OLS斜率估计量的抽样方差**

在假定MLR.1至MLR.5下，以自变量的样本值为条件，对所有的$j=1,2,...,k$，都有

$$Var(\hat{\beta}_{j}) = \frac{\sigma^{2}}{SST_{j}(1-R_{j}^{2})}$$

其中，$SST_{j} = \sum^{n}_{i=1} (x_{i}-\bar{x})^{2}$是$x_{j}$的总样本变异，而$R_{j}^{2}$则是将$x_{j}$对所有其他自变量（并包括一个截距项）进行回归得到的$R^{2}$。

$\hat{\beta}_{j}$的方差取决于三个因素：

- 误差方差$\sigma^{2}$

- $x_{j}$的总样本波动$SST_{j}$

- 自变量之间的线性关系$R^{2}_{j}$

**多重共线性**

两个或多个自变量之间高度（但不完全）相关被称为多重共线性。

**方差膨胀因子**

方差膨胀因子为$VIF_{j}=\frac{1}{1-R^{2}_{j}}$，则

$$\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\operatorname{SST}_{j}} \cdot \mathrm{VIF}_{j}$$

### 误设模型中的方差

假定真实总体模型写为

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+u$$

考虑两个变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

$\hat{\beta}_{1}$的抽样方差为

$$\operatorname{Var}\left(\hat{\beta}_{1}\right)=\sigma^{2} /\left[\operatorname{SST}_{1}\left(1-R_{1}^{2}\right)\right]$$

若模型中遗漏了变量$x_{2}$，并将$y$对$x_{1}$进行简单回归

$$\widetilde{y}=\widetilde{\beta}_{0}+\widetilde{\beta}_{1} x_{1}$$

$\tilde{\beta}_{1}$的抽样方差为

$$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)=\sigma^{2} / \mathrm{SST}_{1}$$

讨论

- 当$\beta_{2} \neq 0$时，$\tilde{\beta}_{1}$是有偏的，$\hat{\beta}_{1}$是无偏的，而且$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)<\operatorname{Var}\left(\hat{\beta}_{1}\right)$

- 当$\beta_{2}=0$时，$\tilde{\beta}_{1}$和$\hat{\beta}_{1}$都是无偏的，而且$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)<\operatorname{Var}\left(\hat{\beta}_{1}\right)$

哪个估计量更好？

### 估计$\sigma^{2}$：OLS估计量的标准误

在一般多元回归情形中，$\sigma^{2}$的无偏估计量是

$$\hat{\sigma}^{2}=\left(\sum_{i=1}^{n} \hat{u}_{i}^{2}\right) /(n-k-1)=\operatorname{SSR} /(n-k-1)$$

**$\sigma^{2}$的无偏估计**

在高斯-马尔可夫假定MLR.1至MLR.5下，有

$$ E(\hat{\sigma}^{2}) = \sigma^{2}$$

## OLS的有效性：高斯-马尔科夫定理

在假定MLR.1至MLR.5下，$\hat{\beta}_{0},\hat{\beta}_{1},...,\hat{\beta}_{k}$分别是$\beta_{0},\beta_{1},...,\beta_{k}$的最优线性无偏估计量。

**案例**

研究问题：快餐店是否在黑人更集中的区域收更高的价格？

搜集新泽西和宾夕法尼亚的各个邮区，搜集快餐店各种商品价格和人口特征方面的数据，回答以上问题。

实证模型

$$psoda=\beta_{0}+\beta_{1} prpblck+\beta_{2} \text { income }+ \mu$$

其中
- 被解释变量$psoda$是苏打饮料的价格
- $prpblck$是黑人在总人口中的比例
- $income$是收入中位数

In [8]:
%%stata

use discrim, clear

gen lincome = log(income)

su psoda prpblck income lincome


variable lincome already defined
r(110);

    Variable |        Obs        Mean    Std. Dev.       Min        Max
-------------+---------------------------------------------------------
       psoda |        402    1.044876    .0886873        .73       1.49
     prpblck |        409    .1134864    .1824165          0   .9816579
      income |        409    47053.78    13179.29      15919     136529
     lincome |        409    10.71994    .2844794   9.675268   11.82429



In [9]:
%%stata

eststo clear
eststo: quietly reg psoda prpblck income
eststo: quietly reg psoda prpblck lincome
esttab, se r2


(est1 stored)

(est2 stored)

--------------------------------------------
                      (1)             (2)   
                    psoda           psoda   
--------------------------------------------
prpblck             0.115***        0.126***
                 (0.0260)        (0.0270)   

income         0.00000160***                
             (0.000000362)                   

lincome                            0.0788***
                                 (0.0174)   

_cons               0.956***        0.186   
                 (0.0190)         (0.188)   
--------------------------------------------
N                     401             401   
R-sq                0.064           0.066   
--------------------------------------------
Standard errors in parentheses
* p<0.05, ** p<0.01, *** p<0.001

