# 베이즈 정리

베이즈 정리는 사건 $B$가 발생함으로써(사건 $B$가 진실이라는 것을 알게 됨으로써 즉, 사건 $B$의 확률 $P(B)=1$이라는 것을 알게 됨으로써) 사건 $A$의 확률이 어떻게 변화하는지를 표현한 정리이다. 

사건 $B$가 발생하였다는 것은 우리가 찾는 샘플이 사건 $B$라는 부분집합에 포함되어 있다는 새로운 정보를 취득하였다는 의미이다. 따라서 베이즈 정리는 새로운 정보가 기존의 의사 결정에 어떻게 영향을 미치는지를 설명하고 있다.

베이즈 정리는 다음과 같은 수식으로 나타난다.


$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$


베이즈 정리는 다음과 같이 증명한다.


(증명)



$$ P(A|B) = \dfrac{P(A,B)}{P(B)} \;\; \rightarrow \;\; P(A,B) = P(A|B)P(B) $$

$$ P(B|A) = \dfrac{P(A,B)}{P(A)} \;\; \rightarrow \;\; P(A,B) = P(B|A)P(A) $$

$$ P(A,B) = P(A|B)P(B) = P(B|A)P(A) $$

$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$

여기에서 $P(A)$는 **사전 확률(prior)**이라고 하며 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률이다. 만약 사건 B가 발생하게 되면 이 정보를 반영하여 사건 $A$의 확률은 $P(A|B)$라는 값으로 변하게 되며 이를 **사후 확률(posterior)**이라고 한다.

사후 확률 값은 기존 확률값에 $P(B|A)/P(B)$라는 값을 곱하면 얻을 수 있다. 곱하는 $P(B|A)$는 **likelihood**라고 하고 나누는 $P(B)$는 **정규화 상수(normalizing constant)**라고 한다.


$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$


* $P(A|B)$: 사후 확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
* $P(A)$: 사전 확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
* $P(B|A)$: likelihood. 사건 A가 발생한 경우 사건 B의 확률
* $P(B)$: 정규화 상수(normalizing constant): 확률의 크기 조정


## 베이즈 정리의 확장 1

만약 사건 $A_i$가 다음의 조건을 만족하는 경우,

* 서로 교집합이 없고

$$ A_i \cap A_j = \emptyset $$


* 모두 합쳤을 때 (합집합) 전체 표본 공간이면

$$ A_1 \cup A_2 \cup \cdots = \Omega $$ 
    

전체 확률의 법칙을 이용하여 다음과 같이 베이즈 정리를 확장할 수 있다.

$$ P(A_1|B) = \dfrac{P(B|A_1)P(A_1)}{P(B)} = \dfrac{P(B|A_1)P(A_1)}{\sum_i P(A_i, B)}= \dfrac{P(B|A_1)P(A_1)}{\sum_i P(B|A_i)P(A_i)}  $$


$A_1 = A$, $A_2 = A^C$ 인 경우에는 다음과 같다.

$$ 
\begin{eqnarray}
P(A|B) 
&=& \dfrac{P(B|A)P(A)}{P(B)} \\
&=& \dfrac{P(B|A)P(A)}{P(B,A) + P(B,A^C)} \\
&=& \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} \\
&=& \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1 - P(A))} 
\end{eqnarray}
$$

## 검사 시약 문제

베이즈 정리를 이용하여 다음과 같은 문제를 풀어보자.

제약사에서 환자가 특정한 병에 걸린지 확인할 수 있는 시약을 만들었다. 그 병에 걸린 환자에게 시약을 테스트한 결과 99%의 확률로 양성 반응을 보였다. 병에 걸린지 확인이 되지 않은 어떤 환자가 이 시약을 테스트한 결과 양성 반응을 보였다면 이 환자가 그 병에 걸려 있을 확률은 얼마인가? 99%일까?

이 문제를 확률론의 용어로 다시 정리하여 서술하여 보자.

우선 환자가 실제로 병에 걸린 경우를 사건 $D$ 라고 하자. 그러면 병에 걸려있지 않은 경우는 사건 $D^C$ 가 된다.
또 시약 테스트에서 양성 반응을 보이는 경우를 사건 $S$ 라고 하면 음성 반응을 보이는 경우는 사건 $S^C$ 이다.

현재 주어진 확률 값은 병에 결린 환자에게 시약을 테스트하였을 때 양성 반응을 보이는 확률이다. 병에 걸렸다는 것은 추가된 조건 혹은 정보이므로 이 확률은 $P(S|D)$로 표기할 수 있다.

그런데 우리가 구해야 하는 값은 이것과 반대로 양성 반응을 보이는 환자가 병에 걸려있을 확률이다. 이 때에는 양성 반응을 보인다라는 것이 추가된 정보이므로 이 확률은 $P(D|S)$로 표기할 수 있다.

* 사건

 * 병에 걸리는 경우: 사건 $D$
 * 양성 반응을 보이는 경우: 사건 $S$
 * 병에 걸린 사람이 양성 반응을 보이는 경우: 조건부 사건 $S|D$
 * 양성 반응을 보이는 사람이 병에 걸려 있을 경우: 조건부 사건 $D|S$



* 문제
 * $P(S|D)=0.99$가 주어졌을 때, $P(D|S)$를 구하라
 

베이즈 정리에서 

$$ P(D|S) = \dfrac{P(S|D)P(D)}{P(S)} $$

임을 알고 있다. 그러나 이 식에서 우리가 알고 있는 것은 $P(S|D)$ 뿐이고 $P(D)$나 $P(S)$는 모르기 때문에 $ P(D|S)$ 현재로서는 구할 수 없다. 즉, 99%라고 간단히 말할 수 없다는 것이다.

추가 조사를 통해 필요한 정보를 다음과 같이 입수하였다고 하자.

* 이 병은 전체 인구 중 걸린 사람이 0.2% 인 희귀병이다.
* 이 병에 걸리지 않은 사람에게 시약 검사를 했을 때, 양성 반응, 즉 잘못된 결과(False Positive)가 나타난 확률이 5% 이다.

이를 확률론적 용어로 바꾸면 다음과 같다.

$$P(D) = 0.002$$

$$P(S|D^C) = 0.05$$


베이즈 정리의 확장을 사용하면

$$ 
\begin{eqnarray}
P(D|S) 
&=& \dfrac{P(S|D)P(D)}{P(S)} \\
&=& \dfrac{P(S|D)P(D)}{P(S,D) + P(S,D^C)} \\
&=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)P(D^C)} \\
&=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)(1-P(D))} \\
&=& \dfrac{0.99 \cdot 0.002}{0.99 \cdot 0.002 + 0.05 \cdot (1 - 0.002)} \\
&=& 0.038
\end{eqnarray}
$$

즉, 시약 반응에서 양성 반응을 보이는 사람이 실제로 병에 걸려 있을 확률은 약 3.8% 에 불과하다.

## pgmpy을 사용한 베이즈 정리 적용

pgmpy 패키지에서는 조건부 확률을 정의할 수 있는 `TabularCPD` 클래스와 베이즈 정리를 적용할 수 있는 `BayesianModel` 클래스를 제공한다.

이 두 클래스를 이용하면 위의 검사 시약 문제를 다음처럼 풀 수 있다.

`TabularCPD` 클래스는 다음처럼 사용한다.

```
TabularCPD(variable, variable_card, value, evidence, evidence_card)
```

* `variable`: 확률 변수의 이름 문자열
* `variable_card`: 확률 변수가 가질 수 있는 경우의 수
* `value`: 조건부 확률 배열. 하나의 열이 하나의 조건(경우)을 뜻하므로 하나의 열의 확률 합은 1이어야 한다.
* `evidence`: 조건이 되는 확률 변수의 이름 문자열의 리스트
* `evidence_card`: 조건이 되는 확률 변수가 가질 수 있는 경우의 수의 리스트

In [8]:
from pgmpy.factors.discrete import TabularCPD

우선 확률 변수 X를 이용하여 병에 걸렸을 확률 $P(D)=P(X=1)$, 병에 걸리지 않았을 확률 $P(D^C)=P(X=0)$를 정의한다.

In [9]:
cpd_X = TabularCPD('X', 2, [[1 - 0.002, 0.002]])
print(cpd_X)

+-----+-------+
| X_0 | 0.998 |
+-----+-------+
| X_1 | 0.002 |
+-----+-------+


다음으로 확률 변수 Y를 이용하여 양성 반응이 나올 확률 $P(S)=P(Y=1)$, 음성 반응이 나올 확률 $P(S^C)=P(Y=0)$를 정의한다. 이 확률은 병에 걸렸는가 걸리지 않았는가에 따라 달라지므로 다음처럼 조건부로 정의한다.

In [10]:
cpd_YX = TabularCPD('Y', 2, np.array([[0.95, 0.01], [0.05, 0.99]]),
                    evidence=['X'], evidence_card=[2])
print(cpd_YX)

+-----+------+------+
| X   | X_0  | X_1  |
+-----+------+------+
| Y_0 | 0.95 | 0.01 |
+-----+------+------+
| Y_1 | 0.05 | 0.99 |
+-----+------+------+


이 조건부 확률과 조건이 되는 확률을 결합하기 위해서는 `BayesianModel` 클래스 객체를 만들고 `add_cpds` 메서드로 위에서 구현한 조건부 확률을 추가한다. `check_model` 메서드로 모형이 완전한지 확인할 수 있다.

In [11]:
from pgmpy.models import BayesianModel

model = BayesianModel([('X', 'Y')])
model.add_cpds(cpd_X, cpd_YX)
model.check_model()

True

`BayesianModel` 클래스는 변수 제거법(VariableElimination)을 사용한 추정을 제공한다. 사용법은 다음과 같다. 자세한 내용은 추후 확률적 그래프 모형에서 다루게 된다.

In [12]:
from pgmpy.inference import VariableElimination

infer = VariableElimination(model)
posterior = infer.query(['X'], evidence={'Y': 1})
print(posterior['X'])

+-----+----------+
| X   |   phi(X) |
| X_0 |   0.9618 |
+-----+----------+
| X_1 |   0.0382 |
+-----+----------+


## 베이즈 정리의 확장 2

베이즈 정리는 사건 $A$의 확률이 사건 $B$에 의해 갱신(update)된 확률을 계산한다. 그런데 만약 이 상태에서 또 추가적인 사건 $C$가 발생했다면 베이즈 정리는 다음과 같이 쓸 수 있다.

 $$ P(A|B,C) = \dfrac{P(C|A,B)P(A|B)}{P(C|B)} $$
 
이 공식을 사건 $A$와 $C$ 만 있는 경우와 비교해 보자.

$$ P(A|C) = \dfrac{P(C|A)P(A)}{P(C)} $$

(증명)


$$ P(A,B,C) = P(A|B,C)P(B,C) = P(A|B,C)P(C|B)P(B)$$


$$ P(A,B,C) = P(C|A,B)P(A,B) = P(C|A,B)P(A|B)P(B) $$


$$ P(A|B,C)P(C|B)P(B) = P(C|A,B)P(A|B)P(B) $$


$$ P(A|B,C) = \dfrac{P(C|A,B)P(A|B)}{P(C|B)} $$

#### 연습 문제 1

다음 식을 증명하라.

$$ P(A|B,C) = \dfrac{P(B|A,C)P(A|C)}{P(B|C)} $$

