## 断点回归设计

**RD**识别基于这样一种思想：在高度基于规则的世界中，有些规则是随机而定的，因此可以提供很好的实验。RD
有两种风格，即**模糊RD** 和**清晰RD**。清晰 RD
设计可以被看作基于可观测变量选择的描述。模糊 RD
设计则是工具变量一类的识别策略。

## 清晰断点回归

当处理状态是由协变量$\mathrm{X}_i$确定且是不连续函数时，使用清晰RD。

$$
D_i=\left\{\begin{array}{ll}
1 & \text { 如果 } x_{i} \geqslant x_{0} \\
0 & \text { 如果 } x_{i} \leqslant x_{0}
\end{array}\right.
$$

其中 $x_0$ 是已知的阈值或临界值。这个分配机制是 $x_{i}$
的确定性函数，因为一旦我们知道 $x_{i}$, 我们就知道 $D_{i}$ 。处理状态是
$x_{i}$ 的不连续函数, 因为无论 $x_{i}$ 多么接近 $x_{0}$,
处理状态都是不变的, 直到 $x_{i}=x_{0}$ 。

美国高中生是根据 PSAT 成绩获得国家优秀奖学金的，PSAT
是大多数准备上大学的高三学生，尤其是那些以后还要参加 SAT
考试的学生会参加的考试。引发关于RD的最初讨论之一的问题是：**获得国家优等奖学金的学生或秀奖学金的学生是否会因此改变职业或学习计划。例如，获得国家优秀奖学金的学生或许更有可能去读研究生**（Thistlewaithe
and Campbell, 1960; Campbell, 1969）。

清晰RD将PSAT分数略高于和略低于国家优秀奖学金门槛的学生的研究生入学率进行了比较。一般来说，我们可能认为PSAT分数高的学生更有可能去读研究生，但这种影响可以通过过对研究生入学率和PSAT分数之间关系的拟合回归来控制，至少在奖学金阈值附近是这样。在这个例子中，**PSAT分数和研究生入学率之间的关系在奖学金阈值附近的跳跃被作为处理效应的证据**。正是这种间归线上的跳跃赋予了它RD这个名字。

下图展示了一个RD场景假设，其中 $x_{i} \geqslant 0.5$
的那些个体属于处理组。在图A中，结果变量和 $x_{i}$
之间的趋势关系是线性的，而在图B中它是非线性的。在这两种情况下，所观测到的CEF(即$E\left[Y_i \mid x_i\right]$）在点$x_0$附近是不连续的，而$E\left[\mathrm{Y}_{0 i} \mid x_i\right]$是平滑的。

<img src="http://www.plutoese.com:8888/images/2025/05/20/rddf5a726f4325de6d5.png" width = 500 alt="title" align=center />

用一个简单的模型对 RD 思想形式化。假设除了分配机制式之外，潜在结果

$$
\begin{aligned}
E\left[\mathrm{Y}_{0 i} \mid x_i\right] & =\alpha+\beta x_i \\
\mathrm{Y}_{1 i} & =\mathrm{Y}_{0 i}+\rho 
\end{aligned}
$$

由此推出回归:

$$
Y_{i}=\alpha+\beta x_{i}+\rho D_{i}+\eta_{i}
$$

其中 $\rho$ 是我们感兴趣的因果效应。

但如果趋势关系 $\mathrm{E}\left[\mathrm{Y}_{0} \mid x_{i}\right]$
是非线性的呢？准确地说，对于某个相当光滑的函数 $f\left(x_{i}\right)$
，我们假设
$\mathrm{E}\left[\mathrm{Y}_{0} \mid x_{i}\right]=f\left(x_{i}\right)$
。图中的图B显示，即使在这种更一般的情况下， RD
仍然是有希望的。现在我们可以通过拟合下式构造 RD 估计值:

$$
Y_{i}=f\left(x_{i}\right)+\rho D_{i}+\eta_{i}
$$

式中 $D_{i}=1\left(x_{i} \geqslant x_{0}\right)$ 仍在 $x_{0}$ 处关于
$x_{i}$ 不连续。例如，用一个 $p$ 阶多项式对 $f\left(x_{i}\right)$
建模，RD 估计值可以从以下回归中构造出来：

$$
Y_{i}=\alpha+\beta_{i} x_{i}+\beta_{i} x_{i}^{2}+\cdots+\beta_{p} x_{i}^{p}+\rho D_{i}+\eta_{i}
$$

RD 一般化形式允许 $\mathrm{E}\left[\mathrm{Y}_{0} \mid x_{i}\right]$ 和
$\mathrm{E}\left[\mathrm{Y}_{0} \mid x_{i}\right]$ 有不同的趋势函数。用
$p$ 阶多项式对这两个 CEF 建模，我们有：

$$
\begin{aligned}
& E\left[\mathrm{Y}_{0 i} \mid x_i\right]=f_0\left(x_i\right)=\alpha+\beta_{01} \tilde{x}_i+\beta_{02} \tilde{x}_i^2+\cdots+\beta_{0 p} \tilde{x}_i^p \\
& E\left[\mathrm{Y}_{1 i} \mid x_i\right]=f_1\left(x_i\right)=\alpha+\rho+\beta_{11} \tilde{x}_i+\beta_{12} \tilde{x}_i^2+\cdots+\beta_{1 p} \tilde{x}_i^p
\end{aligned}
$$

其中
$\bar{x}_{i}=x_{i}-x_{0}$。在这种情况下，为了推导出一个可以用来估计感兴趣的因果效应的回归模型，我们使用
$D_{i}$ 是 $x_{i}$ 的确定性函数这一事实来写出下式:

$$
\mathrm{E}\left[Y_{i} \mid X_{i}\right]=\mathrm{E}\left[Y_{0 i} \mid x_{i}\right]+\left(\mathrm{E}\left[Y_{0 i}-Y_{0 i} \mid x_{i}\right]\right) D_{i}
$$

用多项式代替条件期望，我们得到：

$$
\begin{aligned}
\mathrm{Y}_i= & \alpha+\beta_{01} \tilde{x}_i+\beta_{02} \tilde{x}_i^2+\cdots+\beta_{0 p} \tilde{x}_i^p \\
& +\rho \mathrm{D}_i+\beta_1^* \mathrm{D}_i \tilde{x}_i+\beta_2^* \mathrm{D}_i \tilde{x}_i^2+\cdots+\beta_p^* \mathrm{D}_i \tilde{x}_i^p+\eta_i
\end{aligned}
$$ 其中,
$\beta_{1 }^{*}=\beta_{1 1}-\beta_{01}, \beta_{2}^{*}=\beta_{1 2}-\beta_{0 2}, \beta_{p}^{*}=\beta_{1 p}-\beta_{0 p}, \eta_{i}$是残差。

因果效应所得RD估计值的有效性，取决于多项式模型是否提供了
$\mathrm{E}\left[Y_{i 0} \mid x_{i}\right]$
的充分描述。如果不是，那么由处理产生的跳跃可能只是反事实条件均值函数中未解释的非线性情况而已。

这种可能性在图C中得到了说明，它显示了
$\mathrm{E}\left[Y_{i 0} \mid x_{i}\right]$
的急转弯可能被误认为从一条回归线到另一条回归线的跳跃。为了减少出现这种错误的可能性，我们可以只观察断点邻域的数据，比如关于某个较小正数
$\Delta$ 的区间 $\left[x_{0}-\Delta, x_{0}+\Delta\right]$
。那么，我们有：

$$
\begin{aligned}
& E\left[Y_i \mid x_0-\Delta<x_i<x_0\right] \simeq E\left[Y_{0 i} \mid x_i=x_0\right] \\
& E\left[Y_i \mid x_0 \leq x_i<x_0+\Delta\right] \simeq E\left[Y_{1 i} \mid x_i=x_0\right]
\end{aligned}
$$

如此则有：

$$
\begin{aligned}
& \lim _{\Delta \rightarrow 0} E\left[\mathrm{Y}_i \mid x_0 \leq x_i<x_0+\Delta\right]-E\left[\mathrm{Y}_i \mid x_0-\Delta<x_i<x_0\right] \\
& \quad=E\left[\mathrm{Y}_{1 i}-\mathrm{Y}_{0 i} \mid x_i=x_0\right]
\end{aligned}
$$

换句话说，比较 $x_{0}$
左右足够小的邻域内的平均结果，以一种不依赖于须正确设定
$\mathrm{E}\left[Y_{i 0}\right]$ $x_{i}$ 模型的方式估计处理效应。

要获得这样的估计值是很棘手的。第一个问题是，在临界值附近的较小区域进行估计意味着我们不会有太多的数据。此外，样本平均值对临界值（在本例中为
$x_{0}$ ）附近的 CEF
也有偏差。这些问题的解决方案包括使用被称为局部线性回归的非参数回归（Hahn，Todd
and van der Klaauw，2001），以及使用
Porter（2003）开发的局部线性和局部多项式回归估计量。局部回归相当于进行
WLS 估计，为接近临界值的点赋予更多的权重。

Angrist 和
Lavy（1999）称之为”不连续样本”——这个想法提出了一种有价值的稳健性检验：尽管RD估计值随着用于选择不连续样本的窗口越来越小而变得不那么精确，但用于模型
$f\left(x_{i}\right)$
所需的多项式项的数量应该会减少。有希望的是，当我们通过用越来越少的控制变量将注意力集中在
$x_{0}$上时， $D_{i}$
的估计效应保持稳定。第二个重要的检查着眼于在断点附近的预处理变量的表现。由于预处理变量不受处理状态的影响，所以这些变量在
$x_{i}$ 处的 CEF 应该没有跳跃。

**案例：在任对连任的因果效应**

为了捕捉在任对连任的因果效应，Lee（2008）将民主党候选人获胜的可能性作为前一次选举中相对选票份额的函数进行了研究。具体来说，他利用了这样一个事实：选举获胜者由
$D_{i}=1(x_{i} \geqslant 0)$ 决定，其中 $x_{i}$
是获胜的选票份额差额（例如，民主党和共和党这两个最大的政党之间的选票份额之差）。注意，因为
$D_{i}$ 是 $x_{i}$ 的确定性函数，所以除了 $x_{i}$
之外没有其他混杂变量。这是 RD 框架的一个标志性特征。

图2A 来自 Lee(2008), 表明了清晰 RD
设计的实际情况。这张图绘制了民主党获胜的概率与民主党和共和党在上一次选举中的选票份额之差的关系。图中的圆点是局部平均（非重叠样本窗口的平均胜率，宽度为
0.005）；图中的线是来自一个在零处不连续的参数模型的拟合值。民主党获胜的概率是过去选票份额的一个递增函数。然而，这个图最重要的特点是，在民主党候选人获得更多选票的零点上，胜率会急剧上升。根据跳跃的幅度，在任似乎使该党连任的可能性提高了约
40 个百分点。

图B 通过观察上次选举前民主党的胜利，检验了清晰 RD
识别的假设。在过去的选举中，民主党的胜率应该与上次选举中的胜选差额临界值无关，该设定检验的效果很好，在本例中我们增加了对
RD
设计的信心。Lee（2008）对预处理变量胜利的研究是该思想的一个体现，即协变量应该被处理状态所平衡，就像在随机试验中一样。一个相关的检验考察了在断点周围的
$x_{i}$ 的密度，检查的是 $x_{i}$ 在 $x_{0}$
附近的分布中的聚集程度。这里的问题是， $D_{i}$
的利益既得个体可能会试图操纵 $x_{i}$
来接近临界值，在这种情况下，临界点两边的观测值可能没有可比性\[McCrary（2008）对此提出了一个正式的检验\]。直到最近，我们还会说，在像
$\operatorname{Lee}(2008)$ 的选举研究中，这是不可能的。但是，2000
年总统选举后佛罗里达州的重新计票表明，当美国大选选票接近时，我们可能应该担心选票份额被操纵的问题。

<img src="http://www.plutoese.com:8888/images/2025/05/20/rdd2.png" width = 500 alt="title" align=center />

## 模糊断点回归是工具变量

模糊 RD
利用了以某个协变量为条件的处理状态的概率或期望值上的不连续。其结果是这样一个研究设计：不连续性成为处理状态的工具变量，取代了处理状态变化切换的确定性。为了了解这是如何运作的，令
$D_{i}$ 像之前一样表示处理状态，尽管这里 $D_{i}$
不再确定地与跨规则的阈值$x_i \geq x_0$相关。更准确点说，在 $x_{0}$
处处理状态的概率有一个跳跃，所以有

$$
P\left(\mathrm{D}_i=1 \mid x_i\right)=\left\{\begin{array}{ll}
g_1\left(x_i\right) & \text { if } x_i \geq x_0 \\
g_0\left(x_i\right) & \text { if } x_i<x_0
\end{array}, \text { where } g_1\left(x_0\right) \neq g_0\left(x_0\right)\right.
$$

我们假设
$g_{1}\left(x_{0}\right)>g_{0}\left(x_{0}\right), x_{i} \geqslant x_{0}$
使处理更有可能。我们可以写出处理概率与 $x_{i}$ 之间的关系

$$
E\left[\mathrm{D}_i \mid x_i\right]=P\left(\mathrm{D}_i=1 \mid x_i\right)=g_0\left(x_i\right)+\left[g_1\left(x_i\right)-g_0\left(x_i\right)\right] \mathrm{T}_i
$$

其中 $T_{i}=1\left(x_{i} \geqslant x_{0}\right)$ 。废拟变量 $T_{i}$ 表示
$\mathrm{E}\left[D_{i} \mid x_{i}\right]$ 是断点。

模糊 RD 自然会导致一个简单的 2SLS 估计策略。假设
$g_{0}\left(x_{i}\right)$ 和 $g_{1}\left(x_{i}\right)$ 可以用 $p$
阶多项式来描述，就像我们对 $f_{0}\left(x_{i}\right)$ 和
$f_{1}\left(x_{i}\right)$ 所做的那样，那么我们有

$$
\begin{aligned}
E\left[\mathrm{D}_i \mid x_i\right]= & \gamma_{00}+\gamma_{01} x_i+\gamma_{02} x_i^2+\cdots+\gamma_{0 p} x_i^p \\
& +\left[\pi+\gamma_1^* x_i+\gamma_2^* x_i^2+\cdots+\gamma_p^* x_i^p\right] \mathrm{T}_i \\
= & \gamma_{00}+\gamma_{01} x_i+\gamma_{02} x_i^2+\cdots+\gamma_{0 p} x_i^p \\
& +\pi \mathrm{T}_i+\gamma_1^* x_i \mathrm{~T}_i+\gamma_2^* x_i^2 \mathrm{~T}_i+\cdots+\gamma_p^* x_i^p \mathrm{~T}_i,
\end{aligned}
$$

由此可见, $T_{1}$ 以及交互项
$\left\{x_{i} T_{i}, x_{i}^{2} T_{i}, \cdots, x_{i}^{p} T_{i}\right\}$
可作为式中 $D_{i}$ 的工具变量。

最简单的模糊 RD 估计量只使用 $T_{1}$ 作为工具变量,
不含交互项。所得到的恰好识别的工具变量估计量具有清晰性和良好的有限样本性质。这个情况下的第一阶段回归是:

$$
\mathbf{D}_i=\gamma_0+\gamma_1 x_i+\gamma_2 x_i^2+\cdots+\gamma_p x_i^p+\pi \mathbf{T}_i+\xi_{1 i}
$$

模糊 RD 的简化形式是

$$
\mathbf{Y}_i=\mu+\kappa_1 x_i+\kappa_2 x_i^2+\cdots+\kappa_p x_i^p+\rho \pi \mathbf{T}_i+\xi_{2 i}
$$

其中对 $j=1, \cdots, p$ 有 $\mu=\alpha+ \rho \gamma_{0}$ 和
$\kappa_{j}=\beta_{j}+\rho \gamma_{j} \cdot$ 与清晰 RD
类似，模糊情况下的识别依赖于从第一阶段和第二阶段的多项式控制变量的效应中对
$Y_{1}$
和不连续函数$\mathrm{T}_i=1\left(x_i \geq x_0\right)$之间关系进行区分的能力。

处理效应是随 $x_{1}$ 变化的函数时，模糊 RD
估计值可以通过处理变量一协变量交互项方程的 2SLS
估计来构建。为了匹配第二阶段的参数化，我们以 $x_{0}$
为中心集中多项式项。在这种情况下，被排除的工具变量有
$\left\{T_{i}, \tilde{x}_{i}^{2} T_{i}, \tilde{x}_{i}^{2} T_{i}, \cdots, \tilde{x}_{i}^{p} T_{i}\right\}$
，而变量
$\left\{\mathrm{D}_i, \tilde{x}_i \mathrm{D}_i, \mathrm{D}_i \tilde{x}_i^2, \ldots \mathrm{D}_i \tilde{x}_i^p\right\}$则被视为内生的。对
$D_{i}$ 的第一个阶段回归变成：

$$
\begin{aligned}
\mathrm{D}_i= & \gamma_{00}+\gamma_{01} \tilde{x}_i+\gamma_{02} \tilde{x}_i^2+\cdots+\gamma_{0 p} \tilde{x}_i^p \\
& +\pi \mathrm{T}_i+\gamma_1^* \tilde{x}_i \mathrm{~T}_i+\gamma_2^* \tilde{x}_i^2 \mathrm{~T}_i+\cdots+\gamma_p^* \tilde{x}_i^p \mathrm{~T}_i+\xi_{1 i}
\end{aligned}
$$

同样地，必须为集合$\left\{\tilde{x}_i \mathrm{D}_i, \mathrm{D}_i \tilde{x}_i^2, \ldots \mathrm{D}_i \tilde{x}_i^p\right\}$中的每个多项式交互项构造一个类似的第一阶段回归。

模糊 RD 的非参数版本由在断点周围的较小邻域内的工具变量估计组成。 $Y_{i}$
在 $x_{0}$附近的条件期望的简化形式是

$$
E\left[Y_i \mid x_0 \leq x_i<x_0+\Delta\right]-E\left[Y_i \mid x_0-\Delta<x_i<x_0\right] \simeq \rho \pi
$$

类似地, 对于 $D_{i}$ 的第一阶段回归, 我们有

$$
E\left[\mathrm{D}_i \mid x_0 \leq x_i<x_0+\Delta\right]-E\left[\mathrm{D}_i \mid x_0-\Delta<x_i<x_0\right] \simeq \pi
$$

因此有

$$
\lim _{\Delta \rightarrow 0} \frac{E\left[\mathrm{Y}_i \mid x_0<x_i<x_0+\Delta\right]-E\left[\mathrm{Y}_i \mid x_0-\Delta<x_i<x_0\right]}{E\left[\mathrm{D}_i \mid x_0<x_i<x_0+\Delta\right]-E\left[\mathrm{D}_i \mid x_0-\Delta<x_i<x_0\right]}=\rho
$$

Angrist 和 Lavy(1999) 使用模糊 RD
研究设计来估计班级规模对儿童考试成绩的影响。模糊 RD
是一种特别强大且灵活的研究设计, 这一点在 Angrist 和 Lavy(1999)
的研究中得到了强调, 他们从两方面总结了模糊 RD。首先,
感兴趣的因果变量——班级规模——有多个取值。因此,
第一阶段利用的是班级平均规模的跳跃, 而不是概率的跳跃。其次, Angrist 和
Lavy(1999) 的研究设计使用了多重不连续。

Angrist 和 Lavy(1999) 的研究首先观察到, 以色列学校的班级人数上限为 40
人。 40人以内的年级的学生可以分到 40 人的班级, 但 41 人的年级的学生分为
2 个班, 81 人的年级的学生分为 3 个班, 以此类推。Angrist 和 Lavy
称其为”迈蒙尼德法则” (Maimonides’ rule), 因为 40
人的班级人数上限最早是由中世纪的犹太法典学者迈蒙尼德提出的。对迈蒙尼德法则进行正式阐述，令$m_{s c}$
表示学校；中分配给 $c$
班的预计班级规模（在给定年级），蒙尼德法则所预测的班级规模为：

$$
m_{s c}=\frac{e_s}{\operatorname{int}\left[\frac{\left(e_s-1\right)}{40}\right]+1}
$$

这里的 $\operatorname{int}(a)$ 是实数 $a$
的整数部分。对于四年级和五年级学生，这个函数在图中用虚线标出，在 40
的整数倍处具有不连续的锯齿形状（在这种情况下，班级规模预测值出现急剧下降）。同时，$m_{s c}$显然是学生人学人数
$e_{i}$ 的一个通增函数，这使得学生人学人数成为一个重要的控制变量。

<img src="http://www.plutoese.com:8888/images/2025/05/20/rddclass.png" width = 500 alt="title" align=center />

Angrist 和 Lavy（1999）利用迈蒙尼德法则中的不连续性构造了如下方程的 2SLS
估计值:

$$
\mathbf{Y}_{i s c}=\alpha_0+\alpha_1 d_s+\beta_1 e_s+\beta_2 e_s^2+\cdots+\beta_p e_s^p+\rho n_{s c}+\eta_{i s c}
$$

其中 $X_{isc}$ 是学生 $i$ 在 $s$ 学校和 $c$ 班的考试成绩， $n_{sc}$
是这个班的人数， $e_{s}$ 是人学人数。在这个版本的模糊 RD 中, $m_{sc}$
扮演 $T_{i}$ 的角色, $e_{s}$ 拾演 $x_{i}$ 的角色, 班级规模 $n_{sc}$ 拾演
$D_{i}$ 的角色。 Angrist 和
Lavy（1999）还纳入了一个与人学人数不相关的协变量 $d_{s}$,
以控制学校中具有弱势背景的学生的比例。这对于 RD 来说其实是没有必要的,
因为 RD 模型中 OVB 的唯一来源是 $e_{s}$,
不过它使该设定能与用于构建相应的 OLS 估计值的模型相比较。

迈蒙尼德法则不能完美地预测班级规模, 主要是因为一些学校在人学人数低于 40
人时进行了年级分班。这正是使 RD 设计变得模糊的原因。尽管如此, 在 40 人、
80 人和 120 人的招生水平上, 班级规模明显下降。