# Causal Inference
## Potential Outcome이란?

### Z와 X의 조건에 따라 Y 데이터를 생성해 보자
#### 암치료를 받은 사람과 받지 않은 사람의 생존율이 차이가 있을 것이라고 생각한 의사는 데이터를 통해 이를 증명해 보고자 하였다. 
- X=1은 수술을 받음 X=0은 수술을 받지 않음
- Y=1 은 생존 Y=0 죽음 
- Z=0은 건강하지 않음 ,Z=1은 건강함(알 수 없음)

---

- Simulation Setting

In [2]:
import pandas as pd
import numpy as np

In [19]:
p_z = 0.6
p_x_z = [0.9, 0.1] # P(X=1|Z=0) = 0.9 , P(X=1|Z=1) = 0.1 처럼 각 조건에 따라 X=1일 확률을 바꿔준다.
p_y_xz = [0.2, 0.4, 0.6, 0.8]  # P(Y=1|X,Z) 에 따라 4가지 확률을 분배 (X=0,Z=0은 건강하지 않은데 수술도 안받음)
n_samples = 100000

z = np.random.binomial(n=1, p=p_z, size=n_samples)

p_x = np.choose(z, p_x_z) 
x = np.random.binomial(n=1, p=p_x, size=n_samples)

p_y = np.choose(x+2*z, p_y_xz) # 2*z의 이유는 z 가 0,1의 값만 갖기 때문
y = np.random.binomial(n=1, p=p_y, size=n_samples)
    

In [20]:
data = pd.DataFrame({"z":z,"x":x, "y":y})

In [21]:
data[['z','x','y']].value_counts().sort_index()

z  x  y
0  0  0     3256
      1      810
   1  0    21705
      1    14475
1  0  0    21376
      1    32523
   1  0     1172
      1     4683
dtype: int64

#### 암치료를 받은 사람과 받지 않은 사람의 생존율이 차이는 아래와 같이 나타낼 수 있다. 
$P(Y=1|X=1) - P(Y=1|X=0)$

In [22]:
x_0 = data[data.x == 0]

In [23]:
x_0

Unnamed: 0,z,x,y
0,1,0,0
1,1,0,1
3,1,0,1
4,1,0,1
6,1,0,1
...,...,...,...
99991,1,0,1
99992,1,0,1
99993,0,0,1
99998,1,0,1
