# 02 - Randomised Experiments
## The Golden Standard
---

- Recap
    - $E[Y|T=1] - E[Y|T=0] = \underbrace{E[Y_1 - Y_0|T=1]}_{ATT} + \underbrace{\{ E[Y_0|T=1] - E[Y_0|T=0] \}}_{BIAS}$
    - 이전 시간에 연관성에 편향이 존재하지 않을 때, 인과성을 의미한다는 것을 배웠다.
    - 이는 $E[Y_0|T=0]=E[Y_0|T=1]$를 만족할 때 편향이 없으며, 실험군과 대조군이 처리 이외에 동등하거나 유사하다는 것을 의미한다.
    - 더 자세하게 말하면, 이는 처리 받지 않은 대조군과 실험군의 Counterfactual Outcome(처리 받지 않은 결과)와 같다는 것을 의미한다.



- 위 설명은 수식적으로는 잘 설명되지만, 이는 이론적이기만 하다. Bias를 줄이기 위한 첫 번째 도구인 **Randomised Experiments(무작위 실험)**에 대해 살펴보자.
    - 무작위 실험에서 실험군은 10% 정도여도 되며, 꼭 50%일 필요는 없다.





- 무작위 실험은 Potential Outcomes를 처리와 독립으로 만들어서 편향을 제거하는 방법이다.
    - $(Y_0, Y_1) \perp\!\!\!\perp T$
    - 이는 처음에는 혼란스러울 수 있다.
    - 처리의 효과가 없었다는 것을 암시하는 것이 맞으며, 이는 실제 결과에 대하여 말하는 것이 아니라 Potential Outcomes에 관한 것이다. 
    - 무작위 실험에서는 Potential Outcomes는 처리와 독립이길 바라고, 처리는 결과의 원인이라고 보기 때문에 실제 결과는 처리와 독립이길 바라지 않는다.
    
    
- Potential Outcomes가 처리와 무관하다는 것은, 실험군과 대조군에서도 같은 결과가 나와야한다는 것을 의미한다.
    - 더 간단히 말하면 비교가 가능하다는 것이다.
    - 또한, $(Y_0, Y_1) \bot T$은 실험군과 대조군의 유일한 차이임을 의미한다.
    - 이는 수식적으로 아래와 같다.
        - $E[Y_0|T=0] = E[Y_0|T=1] = E[Y_0]$
    - 1강 뒷 부분에서, 위 수식이 성립하는 경우 아래와 같음을 봤다.
        - $E[Y|T = 1] - E[Y|T = 0] = E[Y_1 - Y_0] = ATE$
    - 따라서, Randomization은 실험군과 대조군의 평균(기댓값)의 차이를 처리효과로 볼 수 있게 한다.
    


## In a School Far, Far Away
---

- 예시
    - 온라인학습과 오프라인학습이 학습성과에 어떤 영향을 미칠까?
    - T(Treatment) : 온라인학습 받음(T=1), 안받음 (T=0)
    - Y(Outcome) : 학습성과
    
    
- 긍정 편향 (Positive Bias)
    - $E[Y_0|T=1] > E[Y_0|T=0]$
    - 온라인 수업을 들은 집단의 학습능력이 이미 온라인 교육을 받지 않는 집단보다 교육을 잘받은 경우
    
    
- 부정 편향 (Negative Bias)
    - $E[Y_0|T=1] < E[Y_0|T=0]$
    - 온라인 수업을 들은 집단의 학습능력이 이미 온라인 교육을 받지 않는 집단보다 교육을 잘받지 않은 경우
    

- 위와 같은 긍부정 편향은 인과관계를 감추며, 우리의 실험에 편향이 있는지 확신하기는 어렵다.
    - $E[Y_0|T=1] = E[Y_0|T=0]$ 
    - 따라서, 편향이 생기지않도록 비교가능하도록 만들어야 한다.
    - 이를 위해, 위에서 배운 무작위 할당(randomly assinging)을 할 수 있다.
    - 무작위 할당을 한다면, 실험군과 대조군의 처리 이전의 outcome은 같아야한다.


- 놀랍게도, 한 경제학자는 편향이 없도록 작업을 미리해두었으며 데이터는 아래와 같다.
    - 큰 데이터는 아니지만 323의 학생들에 대한 실험이다.

In [1]:
import pandas as pd
import numpy as np

data = pd.read_csv("./data/online_classroom.csv")
print(data.shape)
 
display(data
 .assign(class_format = np.select(
     [data["format_ol"].astype(bool), data["format_blended"].astype(bool)],
     ["online", "blended"],
     default="face_to_face"
 ))
 .groupby(["class_format"])
 .mean().T)
display(data.head())

(323, 10)


class_format,blended,face_to_face,online
gender,0.550459,0.633333,0.542553
asian,0.217949,0.20202,0.228571
black,0.102564,0.070707,0.028571
hawaiian,0.025641,0.0,0.014286
hispanic,0.012821,0.010101,0.028571
unknown,0.012821,0.0,0.0
white,0.628205,0.717172,0.7
format_ol,0.0,0.0,1.0
format_blended,1.0,0.0,0.0
falsexam,77.093731,78.547485,73.635263


Unnamed: 0,gender,asian,black,hawaiian,hispanic,unknown,white,format_ol,format_blended,falsexam
0,0,0.0,0.0,0.0,0.0,0.0,1.0,0,0.0,63.29997
1,1,0.0,0.0,0.0,0.0,0.0,1.0,0,0.0,79.96
2,1,0.0,0.0,0.0,0.0,0.0,1.0,0,1.0,83.37
3,1,0.0,0.0,0.0,0.0,0.0,1.0,0,1.0,90.01994
4,1,0.0,0.0,0.0,0.0,0.0,1.0,1,0.0,83.3


- 데이터 설명
    - 대면 수업의 평균 학습성과: 78.55 점
    - 온라인 수업 평균 학습성과: 73.63 점
    - 온라인 수업의 ATE: -4.91 점 
    - **이는 온라인 수업은 학습성과를 평균적으로 5점 낮추는 원인임을 의미한다.**


- 랜덤화(randomisation)가 잘 이루어졌는지 확인하는 방법은 실험군과 대조군의 다른 변수(pretreatment variables)이 같은지 확인하는 것이다.
    - 이번 실험 데이터에서는 성별, 인종에 대한 정보들이 있다.
    - `gender`, `asian`, `hispanic` , `white` 변수에 대한 비율은 실험군과 대조군이 유사하지만, `black`에서는 살짝 다르다.
    - 랜덤화를 수행하더라도, 한 그룹이 다른 그룹과 다를 수 있다. 
    - 표본이 커질 수록 이러한 차이가 사라지는 경항이 있다.



    
    

## The Ideal Experiment
---

- 무작위 실험(Randomised experiments) 또는 무작위 통제실험(RCT; Randomised Controlled Trials)는 인과효과를 확인할 수 있는 가장 신뢰할만한 방안이다.
    - 무작위 실험은 대부분의 국가에서 신약의 효과를 입증하기 위한 요구사안일 만큼 강력하다.
    - 잘 설계된 RCT는 모든 과학자들의 꿈이다.


- 하지만, 무작위 실험은 비용이 크거나, 비윤리적이거나 제어할 수 없을 가능성이 있다.
    - ex. 아래와 같은 실험은 우리가 제어할 수 없다.
        - 최저임금 인상이 실업률에 미치는 영향
        - 임신 중 흡연이 출생아의 체중에 미치는 영향
    - 추후에 **conditional randomisation**을 통해 무작위화의 비용을 낮추는 방안을 살펴보자. 





## The Assignment Mechanism
---


- 무작위 실험에서 unit에게 처리를 할당할지 안할지는 랜덤하다.
    - 모든 인과추론 기법은 처리 할당 메커니즘을 어떻게든 확인하려고 한다.
    - 우리가 이 메커니즘의 동작 방식을 알게된다면, 할당 메커니즘이 무작위가 아니더라도, 우리의 인과추론은 할당이 랜덤하지 않더라도 자신있게 주장할 수 있다.


- 하지만 할당 메커니즘은 데이터를 단순히 보는 것만으로 발견할 수 있는 것은 아니다.
    - ex. 교육 수준과 재산 수준의 상관관계 데이터셋
        - 단순하게 데이터만 보는 것이 어떤 것이 어떤 것을 유발했는 지 알기 어려움.
        - 세상이 돌아가는 지식을 이용해, 그럴듯한 할당 메커니즘에 찬성할 것이다.
        - a. 교육은 학생들은 생산적이게 되고, 더 높은 임금과 재산으로 이끈다.
        - b. 교육은 생산성에 영향이 없으며, 단지 부유한 가정이 교육 수준이 높기에 거짓 상관관계이다.
  

- 두 변수의 인과관계에 대한 질문은 보통 아래 두가지 답변이 나온다.
    - 답변
        - X가 Y의 원인이다.
        - X와 Y를 모두 유발하는 Z의 변수가 있으므로, X와 Y는 거짓 상관(spurious correlation)이다.
    - 따라서, 우리가 할당 메커니즘을 이해한다면 보다 설득력있는 인과적 답변을 할 수 있다.
    - **ML은 단순히 적절한 순서로 버튼을 누르는 것이라면, 인과추론은 데이터의 생성과정을 진지하게 생각하는 것이 요구된다.**
    



## Key Ideas
---

- 무작위 실험이 왜 인과적 영향을 추론하는 가장 간단하고 효과적인 방법인지 보았다.
- 통계를 공부한 사람은 인과관계의 추정치를 확인하지 않았다고 항의할 수 있다.
    - ex. 4.91점의 하락이 우연인지 어떻게 알 수있는가? 통계적으로 유의한가?
    - 곧 이에 대해 답변한다.
        