# 05 - 线性回归的不合理有效性


## 你需要的只是回归

在处理因果推理时，我们看到每个人有两个潜在的结果：\\(Y_0\\) 是个人如果不接受治疗的结果和 \\(Y_1\\)是他或她接受治疗的结果。将处理 \\(T\\) 设置为 0 或 1 的行为会实现其中一个潜在结果，并使我们不可能知道另一个结果。这导致个体处理效果\\(\tau_i = Y_{1i} - Y_{0i}\\) 是不可知的。

$
Y_i = Y_{0i} + T_i(Y_{1i} - Y_{0i}) = Y_{0i}(1-T_i) + T_i Y_{1i}
$

所以，现在，让我们专注于估计平均因果效应这个更简单的任务。考虑到这一点，我们接受这样一个事实，即有些人对治疗的反应比其他人更好，但我们也接受我们无法知道他们是谁的事实。相反，我们将尝试看看治疗是否有效，**平均**。

$
ATE = E[Y_1 - Y_0]
$

这将为我们提供一个简化的模型，具有恒定的处理效果 \\(Y_{1i} = Y_{0i} + \kappa\\)。如果 \\(\kappa\\) 是正的，我们会说平均而言，治疗具有积极的效果。即使有些人会对此做出不良反应，但平均而言，其影响将是积极的。

让我们还记得，我们不能简单地估计 \\(E[Y_1 - Y_0]\\) 与平均值的差异 \\(E[Y|T=1] - E[Y|T=0]\\)由于偏见。当治疗和未治疗由于治疗本身以外的原因而不同时，往往会出现偏差。看到这一点的一种方法是它们在潜在结果方面的差异 \\(Y_0\\)

$
E[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATET} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0]\}}_{BIAS}
$

之前，我们看到了如何通过随机实验或有时称为 **随机对照试验** (RCT) 来消除偏差。 RCT 迫使接受治疗的和未接受治疗的人平等，这就是偏见消失的原因。我们还看到了如何在我们对治疗效果的估计周围设置不确定性水平。也就是说，我们研究了在线课堂与面对面课堂的情况，其中 \\(T=0\\) 代表面对面授课，\\(T=1\\) 代表在线课堂。学生被随机分配到这两种类型的讲座中的一种，然后评估他们在考试中的表现。我们已经建立了一个 A/B 测试函数，可以比较两组，提供平均治疗效果，甚至在它周围放置一个置信区间。

现在，是时候看看我们可以使用因果推理的主力来完成所有这些工作：**线性回归**！这么想吧。如果比较处理过和未处理过的平均值是甜点的苹果，那么线性回归将是冷奶油提拉米苏。或者，如果比较处理过和未处理过的面包是一条悲伤的老面包，那么线性回归将是查德·罗伯逊本人烘焙的一种硬皮、柔软的乡村面包酸面团。

![img](./data/img/linear-regression/you_vs.png)

让我们看看这种美是如何运作的。在下面的代码中，我们希望对在线课程与面对面课程的比较进行完全相同的分析。但是，我们没有进行置信区间的所有数学运算，而是进行回归。更具体地说，我们估计以下模型：

$
考试_i = \beta_0 + \kappa \ Online_i + u_i
$

请注意，\\(Online\\) 是我们的治疗指征，因此是一个虚拟变量。面对面治疗时为 0，在线时为 1。考虑到这一点，我们可以看到线性回归将恢复 \\(E[Y|T=0] = \beta_0\\) 和 \\(E[Y|T=1] = \beta_0 + \kappa \\ ）。 \\(\kappa\\) 将是我们的 ATE。

In [None]:
import warnings
warnings.filterwarnings('ignore')

import pandas as pd
import numpy as np
import statsmodels.formula.api as smf
import graphviz as gr
%matplotlib inline

data = pd.read_csv("data/online_classroom.csv").query("format_blended==0")
result = smf.ols('falsexam ~ format_ol', data=data).fit()
result.summary().tables[1]