# 政策评估方法

**内容**

- 理想实验与反事实框架

- 回归与匹配

- 断点回归设计

## 理想实验与反事实框架

医院能够使人变得更健康么？

利用NHIS的数据，下面的表格给出了最近去过医院和没有去过医院的人的平均健康状况。

<div align=center>
<img src="https://p193.p3.n0.cdn.getcloudapp.com/items/z8u8XPyR/Snipaste_2020-06-14_17-13-24.jpg?v=1907a92979fa77cf2c38b62bf639a145" width = "40%" />
</div>

<br>

**鲁宾因果框架（Rubin Causal Model）**

个体健康状况的潜在结果

$$
\begin{aligned}
\mathrm{Y}_{i} &=\left\{\begin{array}{ll}
\mathrm{Y}_{1 i} & \text { if } \mathrm{D}_{i}=1 \\
\mathrm{Y}_{0 i} & \text { if } \mathrm{D}_{i}=0
\end{array}\right.\\
&=\mathrm{Y}_{0 i}+\left(\mathrm{Y}_{1 i}-\mathrm{Y}_{0 i}\right) \mathrm{D}_{i}
\end{aligned}
$$

对于个体来说，只能观测到$Y_{1 i}$或$Y_{0 i}$，所以可以理解为一个缺失数据问题。 平均处理效应(average treatment effect，ATE)为

$$\tau_{A T E}=E\left(Y_{1 i}-Y_{0 i}\right)$$

处理组的平均处理效应(average treatment effect on the treated,ATT)

$$\tau_{A T T}=E\left(Y_{1 i}-Y_{0 i} | D_{i}=1\right)$$

把是否去医院接受治疗带来的不同结果进行简单比较

$$\begin{aligned}
E\left[Y_{i} | D_{i}=1\right]-E\left[Y_{i} | D_{i}=0\right] &=E\left[Y_{1 i} | D_{i}=1\right]-E\left[Y_{0 i} | D_{i}=1\right] \\
&+E\left[Y_{0 i} | D_{i}=1\right]-E\left[Y_{0 i} | D_{i}=0\right]
\end{aligned}$$

前半部分是处理的平均因果效应，后半部分是选择性偏误。 给定随机分配下$D_{i}$的独立性，我们可以对因果效应继续简化

$$E\left[Y_{1 i} | D_{i}=1\right]-E\left[Y_{0 i} | D_{i}=1\right]=E\left[Y_{1 i}-Y_{0 i} | D_{i}=1\right]=E\left[Y_{1 i}-Y_{0 i}\right]$$

**田纳西的师生比例改进计划（STAR）**

这项实验将学生分配至三个处理组：小班、普通班及普通/助理班。对随机实验的第一个问题就是随机化是否成功地平滑了不同处理组间的各种特征。

<div align=center>
<img src="https://p193.p3.n0.cdn.getcloudapp.com/items/eDu1xjQL/Snipaste_2020-06-14_17-27-03.jpg?v=d876baccf71dc425431447332800e546" width = "50%" />
</div>

<div align=center>
<img src="https://p193.p3.n0.cdn.getcloudapp.com/items/WnubNY29/Snipaste_2020-06-14_17-29-44.jpg?v=f4b39b6079fe5f967cf000fe97e29078" width = "50%" />
</div>

## 回归与匹配

### 经济学中的关系和条件期望函数

**定理：条件期望函数的分解性质**

$$
\mathrm{Y}_{i}=E\left[\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right]+\varepsilon_{i}
$$

其中（i）$\varepsilon_{i}$关于$X_{i}$均值独立，即$E\left[\varepsilon_{i} \mid \mathrm{X}_{i}\right]=0$；（ii）$\varepsilon_{i}$与关于$X_{i}$的任何函数都不相关。

证：（i）$E\left[\varepsilon_{i} \mid \mathrm{X}_{i}\right]=E\left[\mathrm{Y}_{i}-E\left[\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right] \mid \mathrm{X}_{i}\right]=E\left[\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right]-E\left[\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right]=0$；

（ii）根据迭代期望法则$E\left[\mathrm{Y}_{i}\right]=E\left\{E\left[\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right]\right\}$，则$E\left[h\left(\mathrm{X}_{i}\right) \varepsilon_{i}\right]=E\left\{h\left(\mathrm{X}_{i}\right) E\left[\varepsilon_{i} \mid \mathrm{X}_{i}\right]\right\}$

<br>

定义回归系数如下

$$
\beta=\underset{b}{\arg \min } E\left[\left(\mathrm{Y}_{i}-\mathrm{X}_{i}^{\prime} b\right)^{2}\right]
$$

一阶条件为

$$
E\left[\mathrm{X}_{i}\left(\mathrm{Y}_{i}-\mathrm{X}_{i}^{\prime} b\right)\right]=0
$$

那么最小二乘估计量为$\beta=E\left[\mathrm{X}_{i} \mathrm{X}_{i}^{\prime}\right]^{-1} E\left[\mathrm{X}_{i} \mathrm{Y}_{i}\right]$，或者也可以写为

$$
\beta=E\left[\mathrm{X}_{i} \mathrm{X}_{i}^{\prime}\right]^{-1} E\left[\mathrm{X}_{i} \mathrm{Y}_{i}\right]=E\left[\mathrm{X}_{i} \mathrm{X}_{i}^{\prime}\right]^{-1} E\left[\mathrm{X}_{i} E\left(\mathrm{Y}_{i} \mid \mathrm{X}_{i}\right)\right]
$$

<br>

分别利用微观数据以及条件均值数据得到的回归结果

<div align=center>
<img src="./pics/CE01.jpg" width = "60%" />
</div>

### 回归与因果关系

**条件独立性假设（Conditional Independence assumption）**

它有时又被称为**选择偏误来自可观察变量**。假设教育水平是一个二值变量，即为虚拟变量$C_{i}$，例如可以表示是否上大学。则有

$$\begin{aligned}
E\left[Y_{i} | C_{i}=1\right]-E\left[Y_{i} | C_{i}=0\right] &=E\left[Y_{1 i} | C_{i}=1\right]-E\left[Y_{0 i} | C_{i}=1\right] \\
&+E\left[Y_{0 i} | C_{i}=1\right]-E\left[Y_{0 i} | C_{i}=0\right]
\end{aligned}$$

如果说上大学的的那些人本来就可以赚得更多，那么这里出现的选择性偏误就是正的。那么观察到的收入差距可能夸大了接受大学教育带来的收益。

条件独立假设（CIA）指的是给定观察到的特点$X_{i}$，选择性偏误消失，即

$$\left\{Y_{0 i}, Y_{1 i}\right\} \perp C_{i} | X_{i}$$

换而言之，即

$$E\left[Y_{i} | X_{i}, C_{i}=1\right]-E\left[Y_{i} | X_{i}, C_{i}=0\right]=E\left[Y_{1 i}-Y_{0 i} | X_{i}\right]$$

这里讨论的选择性偏误来自可观察变量的假设（selection-on-observable assumption），已经成为经济学中绝大多数经验研究的基础。

<br>

**案例：对失业工人强制再培训项目的研究（Black等，2003）**

强制再培训项目的入选资格取决于基本的个体特征、过去的失业记录和工作历时。根据这些特征，工人被分入不同的组。当某些强制接受培训的组别中工人数量大于受培训的限额数量时，接受培训的机会是以抽签的方式决定的。因此，给定导致这些特征协变量，培训状态是随机分配的。

<br>

**案例：不合格的控制变量**

假设教育水平是随机分配的，一旦考虑到教育水平影响职业选择，那么职业选择是否是工资方程中的合格控制变量？

设每个个体接受或不接受大学教育都带来收入水平和职业选择的两种不同的潜在结果，分别记为$\left\{\mathrm{Y}_{1 i}, \mathrm{Y}_{0 i}\right\}$和$\left\{\mathrm{W}_{1 i}, \mathrm{~W}_{0 i}\right\}$。因此，在估计$C_{i}$对$\mathrm{Y}_{0 i}$和$\mathrm{W}_{1 i}$的因果效应时不存在任何困难

$$
E\left[\mathrm{Y}_{i} \mid \mathrm{C}_{i}=1\right]-E\left[\mathrm{Y}_{i} \mid \mathrm{C}_{i}=0\right]=E\left[\mathrm{Y}_{1 i}-\mathrm{Y}_{0 i}\right]
$$

$$
E\left[\mathrm{~W}_{i} \mid \mathrm{C}_{i}=1\right]-E\left[\mathrm{~W}_{i} \mid \mathrm{C}_{i}=0\right]=E\left[\mathrm{~W}_{1 i}-\mathrm{W}_{0 i}\right]
$$

但若给定$\mathrm{W}_{i}$，大学毕业生和非大学毕业生的收入差距未必可以得到因果解释

$$
\begin{aligned}
&E\left[\mathrm{Y}_{1 i} \mid \mathrm{W}_{1 i}=1\right]-E\left[\mathrm{Y}_{0 i} \mid \mathrm{W}_{0 i}=1\right] \\
&=\underbrace{E\left[\mathrm{Y}_{1 i}-\mathrm{Y}_{0 i} \mid \mathrm{W}_{1 i}=1\right]}_{\text {causal effect on college grads }}+\underbrace{\left\{E\left[\mathrm{Y}_{0 i} \mid \mathrm{W}_{1 i}=1\right]-E\left[\mathrm{Y}_{0 i} \mid \mathrm{W}_{0 i}=1\right]\right\}}_{\text {selection bias }}
\end{aligned}
$$

#### 匹配估计量与倾向得分匹配

匹配法对由每个协变量的特定值所决定的个体计算处理组和控制组之间的平均差异，然后用加权平均的方法将这些平均因果效应汇总到一个总的因果效应中。

**回归与匹配**

回归和匹配都是用来控制协变量的研究策略。而回归可以看做是一种特殊的匹配估计量，特定类型的一种加权后的匹配估计量(Angrist,2008)。

<div align=center>
<img src="https://p193.p3.n0.cdn.getcloudapp.com/items/yAuYvrDk/Snipaste_2020-06-14_21-10-41.jpg?v=70b92beee425fb356cc399fb4c010897" width = "40%" />
</div>

**匹配策略可行**

如果解释变量(协变量)所决定的子集中的元素并非既有被处理的个体，也有作为控制的个体，匹配策略就未必可行。

**倾向评分定理**

若条件独立假设成立，也就是$\left\{Y_{0 i}, Y_{1 i}\right\} \perp D_{i} | X_{i}$，那么给定协变量向量的某个值函数$p\left(X_{i}\right)$(即倾向得分)，则潜在结果与处理状况仍然相互独立，即

$$\left\{Y_{0 i}, Y_{1 i}\right\} \perp D_{i} | p\left(X_{i}\right)$$

其中

$$p\left(X_{i}\right) \equiv E\left[D_{i} | X_{i}\right]=P\left[D_{i}=1 | X_{i}\right]$$

<br>

**PSM设计**

- 条件独立 —— 倾向评分定理

- 共同区间 —— $0 < p(X_{i}) < 1$

<br>

基本步骤

- 获取$p(x)$ —— logistic回归，机器学习

- 计算ATT

$$
E\left[\mathrm{Y}_{1 i}-\mathrm{Y}_{0 i} \mid \mathrm{D}_{i}=1\right]=E\left\{E\left[\mathrm{Y}_{i} \mid p\left(\mathrm{X}_{i}\right), \mathrm{D}_{i}=1\right]-E\left[\mathrm{Y}_{i} \mid p\left(\mathrm{X}_{i}\right), \mathrm{D}_{i}=0\right] \mid \mathrm{D}_{i}=1\right\}
$$

## 断点回归设计

断点回归设计分类

- 清晰断点回归（Sharp RD）

- 模糊断点回归（Fuzzy RD）

### 清晰断点回归

- 最早来自于Donald L. Thistlethwaite和Donald T. Campbell(1960)的研究

  - 非实验环境下的处理效应
  - 处理由一个可观察的配置变量（assignment variable，或forcing variable，running variable）决定
  - 存在一个端点（cutoff point）

因此若处理状态$D_{i}$是协变量$x_{i}$的确定性、不连续函数，使用清晰断点回归。

$$
\mathrm{D}_{i}=\left\{\begin{array}{ll}
1 & \text { if } x_{i} \geq x_{0} \\
0 & \text { if } x_{i}<x_{0}
\end{array}\right.
$$

这里$x_{0}$是已知的阈值或临界值。

<div align=center>
<img src="./pics/RDD01.jpg" width = "60%" />
</div>

<br>

例如：美国获得国家杰出奖学金的高中生是否更愿意读研究生？

<br>

假设我们可以使用一个线性、常因果效应模型来描述潜在结果

$$
\begin{gathered}
E\left[\mathrm{Y}_{0 i} \mid X_{i}\right]=\alpha+\beta X_{i} \\
\mathrm{Y}_{1 i}=\mathrm{Y}_{0 i}+\rho
\end{gathered}
$$

那么可以用一个回归模型来估计因果效应

$$
\mathrm{Y}_{i}=\alpha+\beta X_{i}+\rho \mathrm{D}_{i}+\eta_{i}
$$

这里假定$E\left[\mathrm{Y}_{0 i} \mid X_{i}\right]$和$E\left[\mathrm{Y}_{1 i} \mid X_{i}\right]$关于$x_{i}$是连续的

<br>

讨论：也许表示趋势关系的函数$E\left[\mathrm{Y}_{0 i} \mid X_{i}\right]$是非线性

<div align=center>
<img src="./pics/RDD02.jpg" width = "60%" />
</div>

<div align=center>
<img src="./pics/RDD03.jpg" width = "60%" />
</div>

考虑拟合曲线

$$
\mathrm{Y}_{i}=f\left(x_{i}\right)+\rho \mathrm{D}_{i}+\eta_{i}
$$

- 考虑非参估计

- 或多项式拟合函数 —— $\mathrm{Y}_{i}=\alpha+\beta_{1} x_{i}+\beta_{2} x_{i}^{2}+\ldots+\beta_{p} x_{i}^{p}+\rho \mathrm{D}_{i}+\eta_{i}$

### 作为 一种工具变量法的模糊断点回归

若在临界点，$D_{i}$不再是临界值的确定性函数，但在$x_{0}$处个体被处理的概率还是有一个跳跃，即

$$
P\left[\mathrm{D}_{i}=1 \mid x_{i}\right]=\left\{\begin{array}{ll}
g_{0}\left(x_{i}\right) & \text { if } x_{i} \geq x_{0} \\
g_{1}\left(x_{i}\right) & \text { if } x_{i}<x_{0}
\end{array}, \text { where } g_{1}\left(x_{0}\right) \neq g_{0}\left(x_{0}\right)\right.
$$

则可以使用模糊断点设计。这里，处理状态$D_{i}$和$x_{i}$之间的关系为

$$
E\left[\mathrm{D}_{i} \mid x_{i}\right]=P\left[\mathrm{D}_{i}=1 \mid x_{i}\right]=g_{0}\left(x_{i}\right)+\left[g_{1}\left(x_{i}\right)-g_{0}\left(x_{i}\right)\right] \mathrm{T}_{i}
$$

其中$\mathrm{T}_{i}=1\left(x_{i} \geq x_{0}\right)$

因此模糊断点回归设计很自然带来了工具变量估计策略。最为简单的情况下只用$T_{i}$做工具变量，当然也可以加入交互项等。第一阶段是

$$
\mathrm{D}_{i}=\gamma_{0}+\gamma_{1} x_{i}+\gamma_{2} x_{i}^{2}+\ldots+\gamma_{p} x_{i}^{p}+\pi \mathrm{T}_{i}+\xi_{1 i}
$$