# Causal Inference
## 실험 단계
### 1. Science Experiment 
- A,B 두 집단을 Random 하게(RCT) 분리한 후 모든 조건을 동일하게 하여 실험을 진행함

### 2. AB Test 
- A,B 두 집단을 Random 하게(RCT) 분리 한 후 모든 조건을 통제 할 수는 없음 

### 3. Natural Test (Quasi Experiment)
- A,B 두 집단이 나눠진 이유가 어떠한 자연적인 이유로 나눠지게 되었음
<br>ex) 미세먼지가 폐암에 주는 효과를 측정하기 위하여 미세먼지가 많은 도시와 그렇지 않은 도시의 사람들을 추출 하게 됨 

### 4. Counter Factual World(평행이론, Causal Inference 분야의 가장 핵심)
- Observational Study (Cohort, Case-Control) 즉 이미 관측된 데이터를 기반으로 인과관계를 추정해야 하는 상황으로 
<br> 담배를 핀 "나"와 담배를 안핀 "나"를 비교해야 되는 사실상 불가능한 상황에서 최대한 인과관계를 추론(**Inference**)

## DAG 용어 정리 
### Causal Inferece를 이해하기 위해 사용되는 기본 용어들 
### 다음 챕터인 DAG(Directed acyclic graph) 에서 더 자세히 다룰것
- **X** : Cause, Treatment, Exposure, to be intervented
- **Y** : Outcome, Effect
- **Z** : Confounder (Z->X, Z->Y 둘다 영향을 줌)
- **C** : Collider (X->C, Y->C ,X,Y가 C에 영향을 줌) 
- **M** : Mediator (X->M->Y, 즉 X가 Y에 영향을 주지만 Direct 하지 않음)
- Observed : 구성된 DAG에서 1-5번까지가 데이터로 관측 된경우 
- Unobserved : DAG에서 데이터로 관측되지 않은 경우 
- Latent : 영향을 주나 알 수 없음 (경제관념, 사랑 등) 
- Potential Outcome : 평행세계 A,B의 결과를 의미

## Notation 
### Causal Inference에 사용되는 수식어 및 기호 
- $Y^{a}$ : Hernan과 D.Robin이 주로 애용하는 기호 a는 Treatment를 의미하며 
<br>$Y^{a=1}$은 Potential Outcome중 Treat를 받은 세계 
<br>$Y^{a=0}$은 Treat를 받지 않은 세계의 Potential Outcome을 의미 하며 $Y(1),Y(0)$으로도 표현 

- $Y|do(a=1), Y|do(a=0)$ : J.Pearl 이 주로 사용하는 Notation으로 의 1번의 $Y^{a=1}$과 동일 

- $X$ㅛ$Y$ : Independent

<br>해당 데이터 분석은 Hernan과 D.Robin의 Notation을 사용

<br>Ref.
[Judea, P. (2010). An introduction to causal inference. The International Journal of Biostatistics, 6(2), 1-62.](https://cdn1.sph.harvard.edu/wp-content/uploads/sites/1268/2019/10/ci_hernanrobins_1oct19.pdf)


In [194]:
import pandas as pd
import numpy as np

### Z와 X의 조건에 따라 Y의 선택 확률을 임의로 조정해 보자

In [188]:
p_z = 0.5
p_x_z = [0.9, 0.1] # P(X=1|Z=0) = 0.9 , P(X=1|Z=1) = 0.1 처럼 각 조건에 따라 X=1일 확률을 바꿔준다.
p_y_xz = [0.2, 0.4, 0.6, 0.8]  # P(Y=1|X,Z) 에 따라 4가지 확률을 분배
n_samples = 100000

z = np.random.binomial(n=1, p=p_z, size=n_samples)

p_x = np.choose(z, p_x_z) 
x = np.random.binomial(n=1, p=p_x, size=n_samples)

p_y = np.choose(x+2*z, p_y_xz) # 2*z의 이유는 z 가 0,1의 값만 갖기 때문
y = np.random.binomial(n=1, p=p_y, size=n_samples)
    

In [182]:
data = pd.DataFrame({"z":z,"x":x, "y":y})

In [186]:
data[['z','x','y']].value_counts().sort_index()

z  x  y
0  0  0     4051
      1      996
   1  0    27132
      1    17858
1  0  0    17925
      1    26946
   1  0     1020
      1     4072
dtype: int64