# 第一章：因果关系入门

为了超越简单的直觉，让我们首先建立一些符号。 这将是我们谈论因果关系的共同语言。 把它想象成我们将用来识别其他勇敢和真正的因果战士的通用语言，它将在未来的许多战斗中组成我们的呼声。

用 \\(T_i\\) 表达单元i的干预介入量（treatment intake）. 

$
T_i=\begin{cases}
1 \ \text{if unit i received the treatment}\\
0 \ \text{otherwise}\\
\end{cases}
$



为了解决这个问题，我们将在**潜在结果**方面进行很多讨论。它们被成为潜在的结果是因为它们实际上并没有发生。相反，它们表示在采取某些干预的情况下**会发生什么**。我们有时将发生的潜在结果称为事实，而将未发生的潜在结果称为反事实。

至于符号，我们使用了一个额外的下标：

\\(Y_{0i}\\) 是未经处理的单元 i 的潜在结果。

\\(Y_{1i}\\) 是**相同**单元 i 的潜在结果。

有了潜在的结果，我们可以定义个体治疗效果：

 \\(Y_{1i} - Y_{0i}\\)


当然，由于因果推断的根本问题，我们永远无法知道个体的治疗效果，因为我们只观察了其中一种潜在结果。目前，让我们关注一些比估计个体治疗效果更容易的事情。相反，让我们关注**平均处理效果**，其定义如下。

\\(ATE = E[Y_1 - Y_0]\\)

其中，`E[...]` 是期望值。另一个更容易估计的数量是**对被干预者的平均干预效果**：

\\(ATT = E[Y_1 - Y_0 | T=1]\\)


为了了解它们之间的关系，让我们进行关联测量并将观察到的结果替换为潜在结果。对于治疗，观察到的结果是\\(Y_1\\)。对于未治疗者，观察到的结果是\\(Y_0\\)。

$
E[Y|T=1] - E[Y|T=0] = E[Y_1|T=1] - E[Y_0|T=0]
$

现在，让我们加减\\(E[Y_0|T=1]\\)。这是一个反事实的结果。它说明如果他们没有接受治疗，治疗的结果会是什么。

$
E[Y|T=1] - E[Y|T=0] = E[Y_1|T=1] - E[Y_0|T=0] + E[Y_0|T=1] - E[Y_0|T =1]
$

最后，我们对术语重新排序，合并一些期望，然后瞧：

$
E[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATT} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0] \}}_{BIAS}
$

**如果 \\(E[Y_0|T=0] = E[Y_0|T=1]\\)，那么，关联就是因果关系！** 如果\\(E[Y_0|T=0] = E[Y_0|T=1]\\)就是说干预组和对照组干预前具有可比性。在数学上，偏差项会消失：

$
E[Y|T=1] - E[Y|T=0] = E[Y_1 - Y_0|T=1] = ATT
$

此外，如果处理和未处理仅在处理本身不同，即 \\(E[Y_0|T=0] = E[Y_0|T=1]\\)
 
我们认为对处理的因果影响与未处理的相同（因为它们非常相似）。

$
\begin{align}
E[Y_1 - Y_0|T=1] &= E[Y_1|T=1] - E[Y_0|T=1] \\
&= E[Y_1|T=1] - E[Y_0|T=0] \\
&= E[Y|T=1] - E[Y|T=0]
\end{align}
$

不仅如此，\\(E[Y_1 - Y_0|T=1]=E[Y_1 - Y_0|T=0]\\)，仅仅因为经过处理和未经处理是可以互换的。因此，在这种情况下，**手段的差异成为因果效应**：

$
E[Y|T=1] - E[Y|T=0] = ATT = ATE
$


# 第二章： 随机实验



如果 \\(E[Y_0|T=0]=E[Y_0|T=1]\\)，就不会有偏差。换句话说，如果干预组和对照组相同或具有可比性，除了他们接受的干预外，关联将是因果关系。或者，用更专业的话说，当未处理的结果等于处理的反事实结果时。请记住，如果他们没有接受干预，这个反事实结果将是干预组的结果。

现在，我们来看看我们必须使偏差消失的第一个工具：**随机实验**。随机实验包括将群体中的个体随机分配到干预组或对照组。接受干预的比例不必是 50%。您可以进行一个实验，其中只有 10% 的样本得到处理。

随机化通过使潜在结果独立于干预来消除偏见。

$
(Y_0, Y_1) \perp\!\!\!\perp T
$

潜在的结果是在干预 (\\(Y_1\\)) 或控制 (\\(Y_0\\)) 下结果  **本来**会是怎样的。在随机试验中，我们**不**希望结果**独立**于干预，因为我们认为**干预会导致**结果。但我们希望**潜在**结果独立于干预。

说潜在的结果独立于干预是说它们在预期中在干预组或对照组中是相同的。简单来说，这意味着干预组和对照组具有可比性。或者知道干预分配并没有给我任何关于干预前结果如何的信息。因此，\\((Y_0, Y_1)\perp T\\) 意味着干预是唯一在干预和对照中产生结果差异的因素。要看到这一点，请注意独立性恰好意味着

$
E[Y_0|T=0]=E[Y_0|T=1]=E[Y_0]
$

正如我们所见，这使得

$
E[Y|T=1] - E[Y|T=0] = E[Y_1 - Y_0]=ATE
$

因此，随机化为我们提供了一种在干预和控制之间使用简单差异的方法，并将其称为干预效果。


# 第三章： 统计回顾：最危险的公式

Moivre 公式：

$
SE = \dfrac{\sigma}{\sqrt{n}}
$

其中 \\(SE\\) 是平均值的标准误差，\\(\sigma\\) 是标准偏差，\\(n\\) 是样本大小。

塔勒布在他的书《被随机性愚弄》中说：

> 概率不仅仅是计算骰子或更复杂的变体的几率；它是接受我们的知识缺乏确定性和发展处理我们的无知的方法。

量化我们的不确定性的一种方法是**我们的估计值的方差**。方差告诉我们观察值偏离了它们的中心值和最可能值的程度。正如 Moivre 方程所示，这种不确定性随着我们观察到的数据量的增加而缩小。

我们需要估计 \\(SE\\)。我们已经有了 \\(n\\)，我们的样本大小。要获得标准偏差的估计值，我们可以执行以下操作

$
\hat{\sigma}^2=\frac{1}{N-1}\sum_{i=0}^N (x-\bar{x})^2
$

其中 \\(\bar{x}\\) 是 \\(x\\) 的平均值。

**中心极限定理**指出**实验均值是正态分布的**。


＃＃ 假设检验

包含不确定性的另一种方法是陈述假设检验：均值差异在统计上与零（或任何其他值）不同吗？为此，我们将回忆起 2 个独立正态分布的和或差也是正态分布。结果均值将是两个分布之间的总和或差，而方差始终是方差之和：

$
N(\mu_1, \sigma_1^2) - N(\mu_2, \sigma_2^2) = N(\mu_1 - \mu_2, \sigma_1^2 + \sigma_2^2)
$

$
N(\mu_1, \sigma_1^2) + N(\mu_2, \sigma_2^2) = N(\mu_1 + \mu_2, \sigma_1^2 + \sigma_2^2)
$

如果我们取两组均值的分布并从另一个中减去一个，我们将得到第三个分布。 该最终分布的均值将是均值的差值，该分布的标准差将是标准差总和的平方根。

$
\mu_{diff} = \mu_1 - \mu_2
$

$
SE_{diff} = \sqrt{SE_1 + SE_2} = \sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}
$

我们还可以通过将均值差异除以差异的 \\\(SE\\\\) 来构建 **z 统计量**。

$
z = \dfrac{\mu_{diff} - H_{0}}{SE_{diff}} = \dfrac{(\mu_1 - \mu_2) - H_{0}}{\sqrt{\sigma_1^2/n_1 + \sigma_2^2/n_2}}
$

其中 \\(H_0\\) 是我们要测试差异的值。

在 \\(H_0\\) 下，z 统计量遵循标准正态分布。因此，如果差异确实为零，我们将在 95% 的时间内看到 z 统计量在平均值的 2 个标准差内。这样做的直接后果是，如果 z 高于或低于 2 个标准差，我们可以以 95% 的置信度拒绝原假设。




In [None]:
print("P-value:", stats.norm.cdf(z))

In [8]:
import pandas as pd
import numpy as np
data = pd.read_csv("./chapters/data/online_classroom.csv")
online = data.query("format_ol==1")["falsexam"]
face_to_face = data.query("format_ol==0 & format_blended==0")["falsexam"]

def se(y: pd.Series):
    return y.std() / np.sqrt(len(y))

print("SE for Online:", se(online))
print("SE for Face to Face:", se(face_to_face))

SE for Online: 1.5371593973041635
SE for Face to Face: 0.8723511456319106


In [10]:
from scipy import stats
def AB_test(test: pd.Series, control: pd.Series, confidence=0.95, h0=0):
    
    mu1, mu2 = test.mean(), control.mean()
    se1, se2 = test.std() / np.sqrt(len(test)), control.std() / np.sqrt(len(control))
    
    diff = mu1 - mu2
    se_diff = np.sqrt(test.var()/len(test) + control.var()/len(control))
    
    z_stats = (diff-h0)/se_diff
    p_value = stats.norm.cdf(z_stats)
    
    def critial(se): return -se*stats.norm.ppf((1 - confidence)/2)
    
    print(f"Test {confidence*100}% CI: {mu1} +- {critial(se1)}")
    print(f"Control {confidence*100}% CI: {mu2} +- {critial(se2)}")
    print(f"Test-Control {confidence*100}% CI: {diff} +- {critial(se_diff)}")
    print(f"Z Statistic {z_stats}")
    print(f"P-Value {p_value}")
        
AB_test(online, face_to_face)

Test 95.0% CI: 73.63526308510637 +- 3.0127770572134565
Control 95.0% CI: 78.5474845833333 +- 1.7097768273108005
Test-Control 95.0% CI: -4.912221498226927 +- 3.4641250548559537
Z Statistic -2.7792810791031064
P-Value 0.0027239680835564706
