# 8. 베이즈 통계학

## 8.1 조건부 확률

- 조건부확률 $P(A|B)$ 는 사건 $B$ 가 일어난 상황에서 사건 $A$ 가 발생할 확률을 의미한다.

$$
P(A|B) = \frac{P(A \cap B)}{P(B)}
$$

<br>

$$
P(A \cap B) = P(B)P(A|B)
$$

<br>

## 8.2 베이즈 정리

### 8.2.1 베이즈 정리란?

- 베이즈 정리는 조건부확률을 이용하여 **정보를 갱신하는 방법**을 알려준다.
- $A$ 라는 새로운 정보가 주어졌을 때 $P(B)$ 로부터 $P(B|A)$ 를 계산하는 방법을 제공한다.
  - $P(B|A)$ 를 구할 때 $P(B)$ 를 이용한다.

$$
P(B|A) = \frac{P(A \cap B)}{P(A)} = P(B) \frac{P(A|B)}{P(A)}
$$

<br>

### 8.2.2 베이즈 정리 관련 용어

$$
P(\theta | \mathcal{D}) = 
P(\theta)
\frac{P(\mathcal{D} | \theta)}{P(\mathcal{D})}
$$

$$
\text{사후확률} = 
\text{사전확률}
\frac{\text{가능도}}{\text{Evidence}}
$$


- $\mathcal{D}$
  - 새로 관찰하는 데이터
- $\theta$
  - hypothesis
  - 모델링하는 이벤트
  - 모델에서 계산하고 싶은 파라미터 (모수)

- $P(\theta | \mathcal{D})$
  - 사후확률 (posterior)
  - 데이터가 주어져 있을 때(or 관찰했을 때) 파라미터(or hypothesis)가 성립할 확률
  - 데이터를 관찰한 이후에 측정하는 확률이기 때문에 사후확률로 불린다.
- $P(\theta)$
  - 사전확률 (prior)
  - 데이터가 주어지지 않은 상황에서 $\theta$에 대한 확률
  - 데이터를 분석하기 전에 모수나 hypothesis 에 대한 사전에 정한 가정

- 베이즈 정리 공식을 이용하여 사전확률을 사후확률로 업데이트할 수 있다.
  - 이 때 likelihood 와 Evidence 가 사용된다.


- $P(\mathcal{D} | \theta)$
  - 가능도 (likelihood)
  - 현재 주어진 파라미터(or 모수)에서 해당 데이터가 관찰될 확률
- $P(\mathcal{D})$
  - Evidence
  - 데이터 자체의 분포
  - $P(\mathcal{D}) = \sum_\theta P(\mathcal{D} | \theta) \, P(\theta) = P(\mathcal{D} | \theta) \, P(\theta) + P(\mathcal{D} | \lnot \theta) \, P(\lnot \theta)$



<br>

### 8.2.3 베이즈 정리: 예제

- COVID-99 의 **발병률이 10%**로 알려져 있다.
- COVID-99 에 **실제로 걸렸을 때 검진될 확률은 99%** 이다.
- COVID-99 에 실제로 걸리지 않았을 때 **오검진될 확률이 1%** 이다.
- 어떤 사람이 **질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률**은?

- 이 문제는 사전확률, 민감도(recall), 오탐율(False alarm)을 가지고 정밀도(precision)을 계산하는 문제이다.

- $\theta$
  - COVID-99 발병 사건으로 정의
  - 관찰 불가
  - 실제로 걸린 경우
- $\mathcal{D}$
  - 테스트 결과라고 정의
  - 관찰 가능
  - 검진된 경우

- 발병률이 10%
  - 사전확률
  - $P(\theta) = 0.1$
- 실제로 걸렸을 때 검진될 확률은 99%
  - 가능도
  - $P(\mathcal{D}|\theta) = 0.99$
- 실제로 걸리지 않았을 때 오검진될 확률이 1%
  - 가능도
  - $P(\mathcal{D} | \lnot \theta) = 0.01$

- Evidence 는 사전확률과 가능도를 통해 구할 수 있다.
- 만약 $P(\mathcal{D} | \lnot \theta)$ 를 모른다면 이 문제를 풀기 어렵다.

$$
\begin{align*}
P(\mathcal{D})
&= \sum_\theta P(\mathcal{D} | \theta) \, P(\theta) \\
&= P(\mathcal{D} | \theta) \, P(\theta) + P(\mathcal{D} | \lnot \theta) \, P(\lnot \theta) \\
&= 0.99 \times \underset{P(\theta)}{0.1} + 0.01 \times \underset{P(\lnot \theta)}{0.9} \\
&= 0.108
\end{align*}
$$

- 질병에 걸렸다고 검진결과가 나왔을 때 정말로 COVID-99에 감염되었을 확률은 다음과 같다.

$$
P(\theta | \mathcal{D} ) = 0.1 \times \frac{0.99}{0.108} \approx 0.916
$$

- 만약 오검진될 확률(1종 오류)이 1%가 아닌 10%면 어떻게 될까?
  - $P(\mathcal{D} | \lnot \theta) = 0.1$
- 오탐율(False alarm)이 오르면 테스트의 정밀도(precision)이 떨어진다.

$$
\begin{align*}
P(\mathcal{D})
&= \sum_\theta P(\mathcal{D} | \theta) \, P(\theta) \\
&= 0.99 \times \underset{P(\theta)}{0.1} + 0.1 \times \underset{P(\lnot \theta)}{0.9} \\
&= 0.189
\end{align*}
$$

$$
P(\theta | \mathcal{D} ) = 0.1 \times \frac{0.99}{0.189} \approx 0.524
$$

<br>

### 8.2.4 조건부 확률 시각화 (confusion matrix)

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1nGouHF7Tyfy6rnExMJ9OPZHW0As-jRwV' width=800/>


- 1종 오류
  - False Positive
  - Positive 라고 잘못 예측
  - 양성이 아닌데 양성이라고 검진하는 경우
  - 오탐(False alarm)과 관련 있음
- 2종 오류
  - False Negative
  - Negative 라고 잘못 예측
  - 양성인데 양성이라고 검진하는 경우


- 데이터 분석의 성격에 따라서 1종 오류를 중요하게 볼 지, 2종 오류를 중요하게 볼 지 다를 수 있다.
- ex) 암 환자 진단
  - 2종 오류가 중요함

- 질병에 걸렸을 때 양성으로 검진될 확률을 계산하는 것은 민감도(recall)에 해당하는 값이다.
- 사전확률은 해당 질병의 발생률이 된다.
  - 데이터 분석을 하기 전(사전)에 주어진 정보
  - 사전확률 없이 베이즈 통계학을 이용해 분석하기 어렵다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=15TXSRfWpXJ8qRSW_iGI-VMh0ztDXeWWX' width=800/>

- 사전확률이 0.1 이고, 오탐률이 0.1 일 때 1종 오류(False Positive)와 True Positive 를 가지고 **정밀도(precision)**를 계산했을 때 0.524 가 나온다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1i9oebIQDCZli34xLgWwx5dK1rfPMVn-h' width=800/>

- 오탐률을 0.1 에서 0.01로 줄이게 되면 분모에 들어가는 False Positive 값이 작아지기 때문에 정밀도는 0.916으로 크게 향상한다.

<br>

### 8.2.5 베이즈 정리를 통한 정보의 갱신

- 베이즈 정리를 통해 새로운 데이터가 들어왔을 때 앞서 계산한 사후확률을 사전확률로 사용하여 **갱신된 사후확률을 계산**할 수 있다.
- 데이터가 새로 들어왔을 때 베이즈 정리를 통해 정보를 갱신하는 것이 가능하다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1KKOFeORpZR-nmadXJDnRDo6xGOngmDkl' width=600/>

- 이 프로세스를 반복하면서 데이터를 관찰할 때마다 모델의 파라미터 $\theta$ 를 점점 업데이트하여 모델의 정확도를 향상시킬 수 있다.

- 앞서 COVID-99 판정을 받은 사람이 **두 번째 검진**을 받았을 때도 양성이 나왔을 때 진짜 COVID-99에 걸렸을 확률은?
  - 오탐률이 0.1 이라서 첫 번째 검사에서의 신뢰도는 0.524 밖에 되지 않았다.
  - 두 번째 검사에서도 또 양성이 나왔을 때 실제 COVID-99 에 걸렸을 확률을 계산해보자.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1zDhEuqj59hIIO4oMp2lhorNR7sR2Wt0X' width=650/>


&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1x9anYe9udSSWCGvqHroixb9xg7q8zR4o' width=550/>

- 사전확률의 값으로 첫 번째 검사를 통해 구한 사후확률 0.524 값을 기존의 사전확률 0.1 대신 사용한다.
- 이때 Evidence 를 갱신하여 계산할 수 있다. (가능도(likelihood) 는 그대로 유지)
  - 첫 번째 검사 때의 Evidence 와는 다른 값을 갖게 된다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1i5qO9Gt0XexXqY4EURIaUJzcYCkh8DRA' width=550/>

- 갱신된 evidence를 갖고 갱신된 사후확률을 다음과 같이 계산할 수 있다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1jzFw79eAL3GfajNzwLzVNzZy4rptb3-P' width=550/>

- 첫 번째 사후확률이 0.524 이였던 것에 비해 두 번째 사후확률은 0.917 로 값이 매우 커진 것을 볼 수 있다.
  - 세 번째 검사를 해도 양성이 나오면 정밀도가 99.1%까지 갱신된다.

- 베이즈 통계학의 가장 큰 장점은 데이터가 새로 들어올 때마다 사후확률을 업데이트할 수 있다.
- 이렇게 업데이트된 정보를 가지고 모델링을 할 수 있기 때문에 유용한 테스팅을 할 수 있다.

<br>

### 8.2.6 사후확률 코드로 계산

In [33]:
# 첫 번째 검사 - 오탐률(likelihood_2) = 0.01
likelihood_p = 0.99
likelihood_n = 0.01
prior_1 = 0.1

d_1 = likelihood_p * prior_1 + likelihood_n * (1-prior_1)
print(f"p(d) : {d_1}")

posterior_1 = prior_1 * likelihood_p / d_1
print(f"posterior : {posterior_1}")

p(d) : 0.10800000000000001
posterior : 0.9166666666666666


In [23]:
# 첫 번째 검사 - 오탐률(likelihood_2) = 0.1
likelihood_p = 0.99
likelihood_n = 0.1
prior_1 = 0.1

d_1 = likelihood_p * prior_1 + likelihood_n * (1-prior_1)
print(f"p(d) : {d_1}")

posterior_1 = prior_1 * likelihood_p / d_1
print(f"posterior : {posterior_1}")

p(d) : 0.189
posterior : 0.5238095238095238


In [24]:
# 두 번째 검사 - 오탐률(likelihood_2) = 0.1, 사전확률 갱신
likelihood_p = 0.99
likelihood_n = 0.1
prior_2 = posterior_1

d_2 = likelihood_p * prior_2 + likelihood_n * (1-prior_2)
print(f"p(d) : {d_2}")

posterior_2 = prior_2 * likelihood_p / d_2
print(f"posterior : {posterior_2}")

p(d) : 0.5661904761904761
posterior : 0.9158957106812449


In [25]:
# 세 번째 검사 - 오탐률(likelihood_2) = 0.1, 사전확률 갱신
likelihood_p = 0.99
likelihood_n = 0.1
prior_3 = posterior_2

d_3 = likelihood_p * prior_3 + likelihood_n * (1-prior_3)
print(f"p(d) : {d_3}")

posterior_3 = prior_3 * likelihood_p / d_3
print(f"posterior : {posterior_3}")

p(d) : 0.9151471825063079
posterior : 0.9908097526904449


<br>

## 8.3 조건부 확률 -> 인과관계 x

- 조건부 확률은 유용한 통계적 해석을 제공한다.
- 하지만 **인과관계(causality)**를 추론할 때 함부로 사용해서는 안된다.
  - 데이터가 많아져도 조건부 확률만 가지고 인과관계를 추론하는 것은 불가능하다.

<br>

### 8.3.1 인과관계가 필요한 경우

- 인과관계는 **데이터 분포의 변화에 강건한 예측모형**을 만들 때 필요하다.
  - 단, 인과관계만으로는 높은 예측 정확도를 담보하기는 어렵다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1hvKummD5_40i5FA4gmtM5hiWKYgsPXzJ' width=800/>

- 조건부확률 기반 예측 모형
  - 인과관계를 고려하지 않고 예측 모형을 만들면 테스트 시에는 높은 예측 정확도를 가지는 모델을 만들 수 있다.
  - 하지만 데이터 분포가 바뀌는 경우에는 조건부 확률만을 가지고 예측 모형을 만들면 시나리오에 따라서 예측 정확도가 크게 변할 수 있다.
    - 데이터 분포가 바뀌는 경우 (예시)
      - 데이터가 유입되는 상황의 변화
      - 새로운 정책 도입
      - 새로운 치료법 도입
- 인과관계 기반 예측모형
  - 인과관계를 도입했을 때 조건부 확률을 이용한 예측모형 만큼의 높은 정확도를 가질수는 없다.
  - 하지만 데이터 분포에 변화가 생기더라도 비슷한 수준의 예측 정확도를 유지할 수 있다.

<br>

### 8.3.2 중첩요인 제거의 필요성

- 인과관계를 알아내기 위해서는 **중첩요인(confounding factor)의 효과를 제거**하고 원인에 해당하는 변수만의 인과관계를 계산해야 한다.
  - 중첩요인(confounding factor) : 두 개의 변수 T, R 에 동시에 영향을 주는 요인 (Z)
  - 만일 Z 의 효과를 제거하지 않으면 가짜 연관성(spurious correlation)이 나온다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=122UEW8TRXoP-8iNiMzfpOesFUMP3O_ge' width=300/>


<br>

#### 8.3.2.1 예시

- R : 지능 지수
- T : 키
- 인과관계 : 키가 크면 지능 지수가 높을까?
- 일반적으로는 두 변수 사이에 인과관계가 없을 것 같지만 데이터 분석을 해보면 키가 클수록 지능 지수가 높다는 결과가 나온다.
- 이는 연령(나이)라는 중첩요인 Z를 제거하지 않았기 때문이다.
  - 나이가 많을수록 키는 클 것이다.
  - 키가 크면 어른일 확률이 높고, 키가 작으면 아이일 확률이 높다.
  - 어른의 지능 지수가 대체로 아이의 지능 지수보다 높을 것이다.

<br>

### 8.3.3 인과관계 추론: 예제

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1HBHVAp-LBn8X2EKKOpddQt_nRIUDXaQs' width=800/>

- 치료법 a 와 b 중 어느 것이 더 나은가?
  - a : 개복 수술
  - b : 주사 치료
- 치료법에 따른 완치율의 원인과 결과에 대한 분석 필요
- 오른쪽 표는 각각의 치료법 별로 작은 신장 결석을 가진 환자(Z=0)의 완치율과 큰 신장 결석을 가진 환자(Z=1)의 완치율을 나타낸다.
- 전체적으로 봤을 땐 치료법 b가 더 높은 완치율을 갖는 것으로 보인다.
  - a(78%) < b(83%)
- 하지만 각각의 환자군을 따로 분리하여 완치율을 비교하면 치료법 a가 더 높은 완치율을 갖는다.
  - Z=0: a(93%) > b(87%)
  - Z=1: a(87%) > b(69%)


- do(T = a) 라는 조정(intervention) 효과를 통해 Z의 개입을 제거한다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1th6UTPsrSXy2uUDWyp6Bke_qWpYOL7xl' width=600/>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1zsXSvGNWZjmmcoqlYINVoUozYncPNhJf' width=600/>

- do(T = b) 라는 조정(intervention) 효과를 통해 Z의 개입을 제거한다.

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1s-Suxn3svwOJUZpnMy_rok11ux4NSOhL' width=600/>

&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;
<img src='https://drive.google.com/uc?id=1CQa7WJVcpHo-qafj2pxyHRDTZd4fVxvT' width=600/>


- 조건부확률로 계산한 치료효과와 정반대의 결과가 나오게 된다.
  - 조건부 확률 이용 : a(78%) < b(83%)
  - 조정 효과 적용 : a(83%) > b(78%)