# 横截面数据的线性回归

## 简单线性回归模型

### 简单回归模型的定义

关于 $y$ 和 $x$ 之间关系的一个简单方程

$$y = \beta_{0} + \beta_{1}x + \mu$$

其中 $y$ 为因变量、被解释变量， $x$ 为自变量、解释变量， $\mu$ 为误差项、干扰项， $\beta_{0}$ 为截距参数， $\beta_{1}$ 为斜率参数。

**工资方程**

一个人的工资水平与他的可测教育水平及其他非观测因素的关系为

$$wage=\beta_{0}+\beta_{1}educ +\mu$$

**线性形式**

线性意味着线性于参数，并且意味着不管 $x$ 的初始值为多少，它的任何一单位变化对 $y$ 的影响都是相同的。

**对于误差项的假设**

- 零均值假定 $E(\mu) = 0$ —— 总是成立的
- 零条件均值假定 $E(\mu|x) = E(\mu) = 0$

### 普通最小二乘法

**样本回归函数**

$$\hat{y}_{i} = \hat{\beta_{0}}+\hat{\beta_{1}}x_{i}$$

**最小化残差平方和**

$$\sum^{n}_{i=1} \hat{\mu}^{2}_{i} = \sum^{n}_{i=1} (y_{i} - \hat{\beta_{0}} - \hat{\beta_{1}}x_{i})^{2}$$

**OLS估计量**

$$\hat{\beta_{1}} = \frac{\sum^{n}_{i=1} (x_{i}-\bar{x})(y_{i}-\bar{y})}{\sum^{n}_{i=1} (x_{i}-\bar{x})^{2}}$$

$$\hat{\beta_{0}} = \bar{y} - \hat{\beta_{1}}\bar{x}$$

**斜率估计值**

$$\Delta \hat{y} = \hat{\beta}_{1} \Delta x$$

它告诉我们 $\hat{y}$ 在 $x$ 变化一个单位时的变化量。

**OLS统计量的代数性质**

- OLS残差和及其样本均值都为零 $\sum_{i=1}^{n} \hat{\mu}_{i} = 0$
- 回归元和OLS残差的样本协方差为零 $\sum_{i=1}^{n} x_{i} \hat{\mu}_{i} = 0$
- 点 $(\bar{x}, \bar{y})$ 总在OLS回归线上

### 拟合优度

拟合优度是 $y$ 的样本波动中被 $x$ 解释的部分，用于概括OLS回归线对数据拟合得有多好，它的取值范围为0和1之间。

$$R^{2} \equiv SSE/SST \equiv 1 - SSR/SST$$

其中

总平方和(SST) $SST \equiv \sum^{n}_{i=1} (y_{i}-\bar{y})^{2}$

解释平方和(SSE) $SSE \equiv \sum^{n}_{i=1} (\hat{y_{i}}-\bar{y})^{2}$

残差平方和(SSR) $SSR \equiv \sum^{n}_{i=1} \hat{\mu}_{i}^{2}$

它们符合 $SST = SSE + SSR$

**讨论**

在什么情况下 $R^{2}=1$ ？

### OLS估计量的期望值和方差

**简单线性回归（SLR）的假定**

- SLR.1 线性于参数
- SLR.2 随机抽样
- SLR.3 解释变量的样本有波动，即 $x$ 的样本不是完全相同的数值
- SLR.4 零条件均值 $E(\mu|x) = 0$
- SLR.5 同方差性 $Var(\mu|x) = \sigma^{2}$

<br>

**OLS的无偏性**

利用假定SLR.1至SLR.4，对 $\beta_{0}$ 和 $\beta_{1}$ 的任何值，我们都有

$$E(\hat{\beta_{0}}) = \beta_{0},E(\hat{\beta_{1}}) = \beta_{1}$$

<br>

**OLS估计量的抽样方差**

在假定SLR.1至SLR.5下，以样本值 $\{x_{1},x_{2},...,x_{n}\}$ 为条件，有

$$Var(\hat{\beta_{1}}) = \frac{\sigma^{2}}{\sum^{n}_{i=1} (x_{i}-\bar{x})^{2}} = \sigma^{2} / SST_{x}$$

**$\sigma^{2}$的无偏估计**

若回归标准误（SER）

$$\hat{\sigma}^{2}=\frac{1}{(n-2)} \sum_{i=1}^{n} \hat{u}_{i}^{2}=\operatorname{SSR} /(n-2)$$

在假定SLR.1至SLR.5下，有

$$ E(\hat{\sigma}^{2}) = \sigma^{2}$$

## 多元回归分析：估计

### 使用多元回归的动因

**含有两个自变量的模型**

一般地，两个自变量的模型写成

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\mu$$

其中$\beta_{0}$是截距，$\beta_{1}$度量了在其他条件不变的情况下$y$相对$x_{1}$的变化，而$\beta_{2}$度量了在其他条件不变的情况下$y$相对$x_{2}$的变化。

关于$\mu$与$x_{1}$和$x_{2}$相关性的关键假定是

$$\mathrm{E}\left(u | x_{1}, x_{2}\right)=0$$

<br>

**含有$k$个自变量的模型**

一般的多元线性回归模型写成

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\beta_{3} x_{3}+\ldots+\beta_{k} x_{k}+\mu$$

一般多元回归模型的关键假定表示为

$$\mathrm{E}\left(u | x_{1}, x_{2}, \ldots, x_{k}\right)=0$$

### 普通最小二乘法的操作和解释

**多元线性回归模型的最小二乘估计量**

残差可以定义为

$$e=y-X \hat{\beta}$$

最小化残差平方和

$$\begin{aligned} e^{\prime} e &=(y-X \hat{\beta})^{\prime}(y-X \hat{\beta}) \\ &=y^{\prime} y-\hat{\beta}^{\prime} X^{\prime} y-y^{\prime} X \hat{\beta}+\hat{\beta}^{\prime} X^{\prime} X \hat{\beta} \\ &=y^{\prime} y-2 \hat{\beta}^{\prime} X^{\prime} y+\hat{\beta}^{\prime} X^{\prime} X \hat{\beta} \end{aligned}$$

一阶条件

$$\frac{\partial e^{\prime} e}{\partial \hat{\beta}}=-2 X^{\prime} y+2 X^{\prime} X \hat{\beta}=0$$

OLS估计量

$$\hat{\beta}=\left(X^{\prime} X\right)^{-1} X^{\prime} y$$

<br>

**对OLS回归方程的解释**

对于含有两个自变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

估计值$\hat{\beta}_{1}$和$\hat{\beta}_{2}$具有偏效应（partial effect）或其他条件不变的解释。从方程得到

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}+\hat{\beta}_{2} \Delta x_{2}$$

当$x_{2}$固定，即$\Delta x_{2}=0$时，可以得到

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}$$

多于两个自变量的情况与此类似。OLS回归方程为

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}+\ldots+\hat{\beta}_{k} x_{k}$$

用变化量表示为

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}+\hat{\beta}_{2} \Delta x_{2}+\ldots+\hat{\beta}_{k} \Delta x_{k}$$

$x_{1}$的系数度量的是，在所有其他条件不变的情况下，因提高一个单位的$x_{1}$而导致的$\hat{y}$的变化，即在保持$x_{2}, x_{3}, \ldots, x_{k}$不变的情况下

$$\Delta \hat{y}=\hat{\beta}_{1} \Delta x_{1}$$

<br>

**多元回归中“保持其他因素不变”的含义**

多元回归分析使我们能在非实验环境中去做自然科学家在受控实验中所能做的事情：保持其他条件不变。

<br>

**对多元回归“排除其他变量影响”的解释**

考虑两个自变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

$\hat{\beta}_{1}$的一种表达形式是

$$\hat{\beta}_{1}=\left(\sum_{i=1}^{n} \hat{r}_{i 1} y_{i}\right) /\left(\sum_{i=1}^{n} \hat{r}_{i 1}^{2}\right)$$

其中，$\hat{r}_{i 1}$是利用现有样本将$x_{1}$对$x_{2}$进行简单回归得到的OLS残差。

偏回归系数$\hat{\beta}_{1}$可以通过以下两个步骤回归得到：

1. 将$x_{1}$对$x_{2}$进行简单回归得到的OLS残差$\hat{r}_{i 1}$

2. 将$y$对$\hat{r}_{i 1}$进行简单回归就能得到$\hat{\beta}_{1}$

### 拟合优度

- 在回归中增加一个自变量后，它绝对不会减少，而且通常会增大

- 判断一个解释变量是否应放入模型的依据应该是，这个解释变量在总体中对$y$的偏效应是否非零

### 多元线性回归模型的高斯-马尔科夫定理

**多元线性回归模型假定**

- MLR.1 线性于参数

- MLR.2 随机抽样

- MLR.3 不存在完全共线性 —— 没有一个自变量是常数，自变量之间也不存在严格的线性关系

- MLR.4 零条件均值 $E(\mu|x_{1},x_{2},...x_{k}) = 0$

当满足假定MLR.4时，我们常说具有**外生解释变量**，否则，$x_{j}$就被称为**内生解释变量**。

- MLR.5 同方差性 $Var(\mu|x_{1},x_{2},...x_{k}) = \sigma^{2}$

<br>

**OLS的无偏性**

在假定MLR.1至MLR.4下，下式对总体参数对$\beta_{j}$的任意值都成立，

$$E(\hat{\beta}_{j}) = \beta_{j},j=0,1,...,k$$

即OLS估计量是总体参数的无偏估计量。

<br>

**OLS斜率估计量的抽样方差**

在假定MLR.1至MLR.5下，以自变量的样本值为条件，对所有的$j=1,2,...,k$，都有

$$Var(\hat{\beta}_{j}) = \frac{\sigma^{2}}{SST_{j}(1-R_{j}^{2})}$$

其中，$SST_{j} = \sum^{n}_{i=1} (x_{i}-\bar{x})^{2}$是$x_{j}$的总样本变异，而$R_{j}^{2}$则是将$x_{j}$对所有其他自变量（并包括一个截距项）进行回归得到的$R^{2}$。

$\hat{\beta}_{j}$的方差取决于三个因素：

- 误差方差$\sigma^{2}$

- $x_{j}$的总样本波动$SST_{j}$

- 自变量之间的线性关系$R^{2}_{j}$

**多重共线性**

两个或多个自变量之间高度（但不完全）相关被称为多重共线性。

**方差膨胀因子**

方差膨胀因子为$VIF_{j}=\frac{1}{1-R^{2}_{j}}$，则

$$\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\operatorname{SST}_{j}} \cdot \mathrm{VIF}_{j}$$

<br>

**估计$\sigma^{2}$：OLS估计量的标准误**

在一般多元回归情形中，$\sigma^{2}$的无偏估计量是

$$\hat{\sigma}^{2}=\left(\sum_{i=1}^{n} \hat{u}_{i}^{2}\right) /(n-k-1)=\operatorname{SSR} /(n-k-1)$$

**$\sigma^{2}$的无偏估计**

在高斯-马尔可夫假定MLR.1至MLR.5下，有

$$ E(\hat{\sigma}^{2}) = \sigma^{2}$$

<br>

**OLS的有效性：高斯-马尔科夫定理**

在假定MLR.1至MLR.5下，$\hat{\beta}_{0},\hat{\beta}_{1},...,\hat{\beta}_{k}$分别是$\beta_{0},\beta_{1},...,\beta_{k}$的最优线性无偏估计量。

### 遗漏变量与无关变量

**简单回归和多元回归估计值的比较**

模型一：$$\tilde{y} = \tilde{\beta}_{0} + \tilde{\beta}_{1} x_{1}$$

模型二：$$\hat{y} = \hat{\beta}_{0} + \hat{\beta}_{1} x_{1} + \hat{\beta}_{2} x_{2}$$

如果模型二是正确的模型，则

$$\tilde{\beta}_{1} = \hat{\beta}_{1} + \hat{\beta}_{2}\tilde{\delta}_{1}$$

其中，$\tilde{\delta}_{1}$是$x_{i2}$对$x_{i1}$进行简单回归的斜率系数。这表明若在模型中遗漏了重要变量$x_{2}$，则OLS估计量是有偏误的。

**在回归模型中包含了无关变量**

在一个多元回归模型中包含一个或多个无关变量，对模型进行了过度设定，并不会影响到OLS估计量的无偏性。

<br>

**误设模型中的方差**

假定真实总体模型写为

$$y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+u$$

考虑两个变量的回归模型

$$\hat{y}=\hat{\beta}_{0}+\hat{\beta}_{1} x_{1}+\hat{\beta}_{2} x_{2}$$

$\hat{\beta}_{1}$的抽样方差为

$$\operatorname{Var}\left(\hat{\beta}_{1}\right)=\sigma^{2} /\left[\operatorname{SST}_{1}\left(1-R_{1}^{2}\right)\right]$$

若模型中遗漏了变量$x_{2}$，并将$y$对$x_{1}$进行简单回归

$$\widetilde{y}=\widetilde{\beta}_{0}+\widetilde{\beta}_{1} x_{1}$$

$\tilde{\beta}_{1}$的抽样方差为

$$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)=\sigma^{2} / \mathrm{SST}_{1}$$

讨论

- 当$\beta_{2} \neq 0$时，$\tilde{\beta}_{1}$是有偏的，$\hat{\beta}_{1}$是无偏的，而且$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)<\operatorname{Var}\left(\hat{\beta}_{1}\right)$

- 当$\beta_{2}=0$时，$\tilde{\beta}_{1}$和$\hat{\beta}_{1}$都是无偏的，而且$\operatorname{Var}\left(\widetilde{\beta}_{1}\right)<\operatorname{Var}\left(\hat{\beta}_{1}\right)$

哪个估计量更好？

## 多元线性回归：推断

### OLS估计量的抽样分布

我们需要知道$\hat{\beta}_{j}$的抽样分布，所以需要对误差进行概率分布的假定。

**假定MLR.6 (正态性)**

总体误差$\mu$独立于解释变量$X_{1}, X_{2}, \ldots, X_{k}$，而且服从均值为零和方差为$\sigma^{2}$的正态分布:$u \sim \text { Normal }\left(0, \sigma^{2}\right)$。

假定MLR.1到假定MLR.6被称为**经典线性模型（CLM）假定**。我们将这六个假定下的模型称为**经典线性模型**。

总结CLM总体假定的一种简洁方法是

$$y | \mathbf{x} \sim \operatorname{Normal}\left(\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\ldots+\beta_{k} x_{k}, \sigma^{2}\right)$$

<br>

**定理4.1 正态抽样分布**

在CLM假定MLR.1到MLR.6下，以自变量的样本值为条件，有

$$\hat{\beta}_{j} \sim \text { Normal } \beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right) ]$$

其中，$\operatorname{Var}\left(\hat{\beta}_{j}\right)=\frac{\sigma^{2}}{\operatorname{SST}_{j}\left(1-R_{j}^{2}\right)}$。因此

$$\left(\hat{\beta}_{j}-\beta_{j}\right) / \operatorname{sd}\left(\hat{\beta}_{j}\right) \sim \text { Normal }(0,1)$$

### 检验对单个总体参数的假设：$t$检验

**定理4.2 标准化估计量的$t$分布**

在CLM假定MLR.1到MLR.6下，

$$\left(\hat{\beta}_{j}-\beta_{j}\right) / \operatorname{se}\left(\hat{\beta}_{j}\right) \sim t_{n-k-1}=t_{d f}$$

其中，$k+1$是总体模型$y=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}+\mu$中未知参数的个数（$k$个斜率参数和截距$\beta_{0}$），$n-k-1$是自由度（df）。

<br>

在多数应用中，我们主要的兴趣在于检验**原假设（null hypothesis）**

$$\mathrm{H}_{0} : \beta_{j}=0$$

对应的**$t$统计量**被定义为

$$t_{\hat{\beta}_{j}} \equiv \hat{\beta}_{j} / \operatorname{se}\left(\hat{\beta}_{j}\right)$$

### 对多个线性约束的检验：F检验

**对排除性约束的检验**

将具有$k$个自变量的**不受约束模型**写为

$$y=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k} x_{k}+\mu$$

原假设为

$$\mathrm{H}_{0} : \beta_{k-q+1}=0, \ldots, \beta_{k}=0$$

则当我们施加在$H_{0}$下的约束时，**受约束模型**为

$$y=\beta_{0}+\beta_{1} x_{1}+\ldots+\beta_{k-q} x_{k-q}+\mu$$

定义**$F$统计量**为

$$F \equiv \frac{\left(\mathrm{SSR}_{r}-\mathrm{SSR}_{u r}\right) / q}{\mathrm{SSR}_{u r} /(n-k-1)}$$

其中，$\mathrm{SSR}_{r}$是受约束模型的残差平方和，$\mathrm{SSR}_{u r}$是不受约束模型的残差平方和，$q$是所施加的约束数。

在$H_{0}$下,$F$统计量服从自由度为$(q, n-k-1)$的$F$随机变量的分布，可写为

$$F \sim F_{q, n-k-1}$$

<br>

**$F$统计量的$R^{2}$型**

$$F=\frac{\left(R_{u r}^{2}-R_{r}^{2}\right) / q}{\left(1-R_{u r}^{2}\right) /(n-k-1)}=\frac{\left(R_{u r}^{2}-R_{r}^{2}\right) / q}{\left(1-R_{u r}^{2}\right) / d f_{u r}}$$

## 多元回归分析：OLS的渐近性质

### 一致性

**定理5.1 OLS的一致性**

在假定MLR.1到MLR.4下，对所有的$j=0,1, \ldots, k$，OLS估计量$\hat{\beta}_{j}$都是$\beta_{j}$的一致估计量。

<br>

我们表述一个比MLR.4更弱的假定。

**假定 MLR.$4^{\prime}$ （零均值和零相关）**

对所有的$j=0,1, \ldots, k$，都有$E(u)=0$和$\operatorname{Cov}\left(x_{i}, u\right)=0$。

对于OLS的一致性，MLR.4的假设可以用更弱的MLR.$4^{\prime}$取代。

### 渐近正态和大样本推断

**定理5.2 OLS的渐近正态性**

在高斯-马尔科夫假定MLR.1到MLR.5下

- $\sqrt{n}\left(\hat{\beta}_{j}-\beta_{j}\right) \stackrel{a}{\sim} \text { Normal }\left(0, \sigma^{2} / a_{j}^{2}\right)$，其中$\sigma^{2} / a_{j}^{2}>0$是$\sqrt{n}\left(\hat{\beta}_{j}-\beta_{j}\right)$的**渐近方差**，至于斜率系数，$a_{j}^{2}=\operatorname{plim}\left(n^{-1} \sum_{i=1}^{n} \hat{r}_{i j}^{2}\right)$，其中$\hat{r}_{i j}$是$x_{j}$对其余自变量进行回归所得到的残差。我们称$\hat{\beta}_{j}$为渐近正态分布的。

- $\hat{\sigma}^{2}$是$\sigma^{2}=\operatorname{Var}(u)$的一个一致估计量。

- 对每个$j$，都有

$$\frac{\left(\widehat{\beta}_{j}-\beta_{j}\right)}{\operatorname{se}\left(\widehat{\beta}_{j}\right)} \stackrel{a}{\sim} \text { Normal }(0,1)$$

<br>

实际上，$\hat{\beta}_{j}$的估计方差是

$$\widehat{\operatorname{Var}\left(\hat{\beta}_{j}\right)}=\frac{\hat{\sigma}^{2}}{\operatorname{SST}_{j}\left(1-R_{j}^{2}\right)}$$

由于$x_{j}$的样本方差是$\mathrm{SST}_{j} / n$，所以$\mathrm{SST}_{j} / n$随着样本容量的扩大而收敛于$\operatorname{Var}\left(x_{j}\right)$。因此，$\widehat{\operatorname{Var}}\left(\hat{\beta}_{j}\right)$以速度$1/n$收缩至零，这就说明了样本容量为什么越大越好。

## 含定性信息的多元回归分析：虚拟自变量

### 对定性信息的描述

定性信息通常以二值信息的形式出现：一个人是男还是女；一个人是否拥有一台个人计算机。有关信息可以通过定义一个**二值变量**或**0-1变量**。

讨论：是否可以用其他二值来描述定性信息？

### 包含一个虚拟变量的线性回归模型

例如如下决定小时工资的模型

$$wage=\beta_{0}+\delta_{0} \text { female }+\beta_{1} educ+\mu$$

那么

$$\delta_{0}=\mathrm{E}(\text { wage } | \text { female}=1, \text {educ}) - \mathrm{E}(\text { wage } | \text { female}=0, \text {educ})$$

即

$$\delta_{0}=\mathrm{E}(\text { wage } | \text { female,educ }) - \mathrm{E}(\text { wage } | \text { male,educ })$$

其中男性为**基组**。

<br> 
讨论：是否可以在模型中包括另一个虚拟变量$male$?

答：在上述模型中使用两个虚拟变量将导致完全多重共线性。如果将模型的截距去掉，可以将每一组的虚拟变量都包括进来，例如上述模型可以写为$wage=\beta_{0} \text { male }+\alpha_{0} \text { female }+\beta_{1} educ+\mu$。但是不含截距项的回归怎样计算$R^{2}$没有一个一致同意的方法，所以很少使用这个表达式。

### 通过使用虚拟变量来包括序数信息

假设我们想估计城市信用等级对地方政府债券利率（$MBR$）的影响。为简便起见，假设等级的方位是$\{0,1,2,3,4\}$，$0$为最低信用等级，$4$为最高信用等级。这就是一个**序数变量**的例子，如果称这个变量为$CR$。如何将变量$CR$放到一个模型中去解释$MBR$呢？

一种可能是

$$MBR=\beta_{0}+\beta_{1} CR+ \text{other factors}$$

另一种可能是

$$MBR=\beta_{0}+\delta_{1} C R_{1}+\delta_{2} C R_{2}+\delta_{3} C R_{3}+\delta_{4} C R_{4}+ \text{other factors}$$

第二个模型更好，因为它使得每两个信用等级之间的变动都可能具有不同的影响。事实上，模型一可以视为模型二的一个特殊形式，它施加了下述约束条件：$\delta_{2}=2 \delta_{1}$, $\delta_{3}=3 \delta_{1}$,$\delta_{4}=4 \delta_{1}$。

### 允许出现不同的斜率

在工资方程中，如果我们还想检验男性和女性接受教育的回报是否相同。

对此，我们必须构建下列模型

$$\log (\text {wage})=\beta_{0}+\delta_{0} \text {female }+\beta_{1} \text {educ }+\delta_{1} \text {female} \cdot \text {educ}+\mu$$

### 检验不同组之间回归函数上的差别

假设我们想检验，是否有一个相同的回归模型来描述大学男女运动员的大学GPA。这个方程是

$$cumgpa =\beta_{0}+\beta_{1} sat+\beta_{2} hsperc+\beta_{3} \text {tothrs}+\mu$$

其中$sat$是SAT分数，$hsperc$是高中的排名百分位，而$tothrs$则是大学课程的总学时数。如果我们想检验男女之间是否存在差异，就必须运行模型的截距和斜率对两组而言都不相同：

$$\begin{align}
cumgpa &= \beta_{0}+\delta_{0}female+\beta_{1}sat+\delta_{1}female \cdot sat + \beta_{2}hsperc \\
& + \delta_{2}female \cdot hsperc + \beta_{3}tothrs+ \delta_{3}female \cdot tothrs +\mu
\end{align}$$

男性和女性的$cumgpa$都遵循同一个模型的原假设表述为

$$\mathrm{H}_{0} : \delta_{0}=0, \delta_{1}=0, \delta_{2}=0, \delta_{3}=0$$

## 异方差性

### 异方差对OLS所造成的影响

考虑线性回归模型

$$
y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+u
$$

- 根据高斯马尔科夫定理，违反同方差假定，并**不会导致OLS估计量出现偏误或产生不一致**。
- 拟合优度及调整的拟合优度也不受异方差的影响
- 出现异方差，如果依靠同方差假定，那么**OLS估计量不再是有效的**，相应的据此计算的t和F统计量也不再成立。

若**异方差形式未知**，那么既然OLS仍然是无偏且一致的，那么只需要对于标准误进行恰当调整，就可以使得相应的t、F和LM统计量是有效的。这就是所谓的异方差-稳健过程。

对于一般多元回归模型

$$
y=\beta_{0}+\beta_{1} x_{1}+\cdots+\beta_{k} x_{k}+u
$$

$\operatorname{Var}\left(\hat{\beta}_{j}\right)$的一个有效估计量是

$$
\widehat{\operatorname{Var}}\left(\hat{\beta}_{j}\right)=\frac{\sum_{i=1}^{n} \hat{r}_{i j}^{2} \hat{u}_{i}^{2}}{\operatorname{SSR}_{j}^{2}}
$$

其中$\hat{r}_{i j}$是$x_{j}$对所有其他自变量回归所得到的的第$i$个残差，而$SSR_{j}$则是这个回归的残差平方和。上述公式的平方根被称为$\hat{\beta}_{j}$的异方差-稳健的标准误，或者简称稳健标准误。

一旦得到异方差-稳健的标准误，就可以构造异方差-稳健的t统计量，从而进行统计推断。

### 异方差性检验

对于线性回归模型

$$
y=\beta_{0}+\beta_{1} x_{1}+\beta_{2} x_{2}+\cdots+\beta_{k} x_{k}+u,
$$

检验同方差假定

$$
\mathrm{H}_{0}: \operatorname{Var}\left(u \mid x_{1}, x_{2}, \ldots, x_{k}\right)=\sigma^{2}
$$

由于误差的条件期望为零，因此上述假定等价于

$$
\mathrm{H}_{0}: \mathrm{E}\left(u^{2} \mid x_{1}, x_{2}, \ldots, x_{k}\right)=\mathrm{E}\left(u^{2}\right)=\sigma^{2}
$$

因此对于异方差性的合理猜测是误差方差可能是$x_{j}$的某个函数。

**怀特异方差检验**

同方差假定可由一个较弱的假定来替代，即误差平方与所有自变量、自变量的平方以及它们的交叉乘积都不相关。由此，怀特（White，1980）据此提出了对异方差性的一个检验方法。

若线性回归模型包含三个自变量，怀特检验则基于如下估计

$$
\begin{aligned}
\hat{u}^{2}=& \delta_{0}+\delta_{1} x_{1}+\delta_{2} x_{2}+\delta_{3} x_{3}+\delta_{4} x_{1}^{2}+\delta_{5} x_{2}^{2}+\delta_{6} x_{3}^{2} \\
&+\delta_{7} x_{1} x_{2}+\delta_{8} x_{1} x_{3}+\delta_{9} x_{2} x_{3}+\text { error }
\end{aligned}
$$

怀特异方差检验就是检验上式中除截距外所有斜率（即所有$\delta_{j}$）都为0的LM统计量。

回归元过多是怀特检验的一般形式的一个缺陷，它要用掉很多自由度。因此，可以考虑怀特检验的特殊形式。

$$
\hat{u}^{2}=\delta_{0}+\delta_{1} \hat{y}+\delta_{2} \hat{y}^{2}+\text { error }
$$

然后再构建F或LM统计量。

### 加权最小二乘估计

### 除了一个常数倍数以外异方差是已知的

假定

$$
\operatorname{Var}(u \mid \mathbf{x})=\sigma^{2} h(\mathbf{x})
$$

例如简单的储蓄函数

$$
\begin{array}{c}
\text {sav}_{i}=\beta_{0}+\beta_{i} \text {inc}_{i}+u_{i} \\
\operatorname{Var}\left(u_{i} \mid \text {inc}_{i}\right)=\sigma^{2} \text{inc}_{i}
\end{array}
$$

对于多元线性回归模型

$$
y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\beta_{2} x_{i 2}+\cdots+\beta_{k} x_{i k}+u_{i}
$$

由于$\operatorname{Var}\left(u_{i} \mid \mathbf{x}_{i}\right)=\mathrm{E}\left(u_{i}^{2} \mid \mathbf{x}_{i}\right)=\sigma^{2} h_{i}$，因此

$$
\mathrm{E}\left[\left(u_{i} / \sqrt{h_{i}}\right)^{2}\right]=\mathrm{E}\left(u_{i}^{2}\right) / h_{i}=\left(\sigma^{2} h_{i}\right) / h_{i}=\sigma^{2}
$$

我们可以将上述方程两边同时除以$\sqrt{h_{i}}$，得到

$$
\begin{aligned}
y_{i} / \sqrt{h_{i}}=& \beta_{0} \sqrt{h_{i}}+\beta_{1}\left(x_{i 1} / \sqrt{h_{i}}\right)+\beta_{2}\left(x_{i 2} / \sqrt{h_{i}}\right)+\cdots \\
&+\beta_{k}\left(x_{i k} / \sqrt{h_{i}}\right)+\left(u_{i} / \sqrt{h_{i}}\right)
\end{aligned}
$$

或

$$
y_{i}^{*}=\beta_{0} x_{i 0}^{*}+\beta_{1} x_{i 1}^{*}+\cdots+\beta_{k} x_{i k}^{*}+u_{i}^{*}
$$

对于前面储蓄函数的例子中，变形后的方程为

$$
\text{sav}_{i} / \sqrt{i n c_{i}}=\beta_{0}\left(1 / \sqrt{i n c_{i}}\right)+\beta_{1} \sqrt{i n c_{i}}+u_{i}^{*}
$$

若变换前原方程满足前四个高斯-马尔科夫假定，那么变换后的方差就满足所有的五个高斯-马尔科夫假定。这个纠正异方差的GOLS估计量被称为**加权最小二乘（WLS）估计量**。这是因为，WLS估计量是使得下式尽可能小的$b_{j}$值

$$
\sum_{i=1}^{n}\left(y_{i}-b_{0}-b_{1} x_{i 1}-b_{2} x_{i 2}-\cdots-b_{k} x_{i k}\right)^{2} / h_{i}
$$

## 多元回归分析的深入讨论

### 数据的测度单位对OLS统计量的影响

### 拟合优度和回归元选择的进一步讨论

**调整$R^{2}$**

拟合优度可以写为

$$R^{2}=1-(\mathrm{SSR} / n) /(\mathrm{SST} / n)$$

总体$R^{2}$被定义为$\rho^{2}=1-\sigma_{u}^{2} / \sigma_{y}^{2}$，那么对自由度进行修正，我们可以得到

$$\begin{aligned} \overline{R}^{2} &=1-[\operatorname{SSR} /(n-k-1)] /[\operatorname{SST} /(n-1)] \\ &=1-\hat{\sigma}^{2} /[\operatorname{SST} /(n-1)] \end{aligned}$$

$\overline{R}^{2}$的根本吸引力在于，它为在一个模型中另外增加自变量施加了惩罚。

<br>

**利用调整$R^{2}$在两个非嵌套模型中进行选择**

考虑将R&D与企业销售额相联系的两个模型

$$rdintens=\beta_{0}+\beta_{1} \log (\text {sales})+ \mu$$

$$rdintens=\beta_{0}+\beta_{1} \text {sales}+\beta_{2} \text {sales}^{2} + \mu$$

它的一个重要局限在于，我们不能用它在因变量的不同函数形式之间进行选择。

### 中介作用