베이즈 정리는 데이터라는 조건이 주어졌을 때의 조건부확률을 구하는 공식이다. 베이즈 정리를 쓰면 데이터가 주어지기 전의 사전확률값이 데이터가 주어지면서 어떻게 변하는지 계산할 수 있다. 따라서 데이터가 주어지기 전에 이미 어느 정도 확률값을 예측하고 있을 때 이를 새로 수집한 데이터와 합쳐서 최종 결과에 반영할 수 있다. 데이터의 개수가 부족한 경우 아주 유용하다. 데이터를 매일 추가적으로 얻는 상황에서도 매일 전체 데이터를 대상으로 새로 분석작업을 할 필요없이 어제 분석결과에 오늘 들어온 데이터를 합쳐서 업데이트만 하면 되므로 유용하게 활용할 수 있다.

# 베이즈 정리

조건부확률을 구하는 다음 공식을 **베이즈 정리(Bayesian rule)**라고 한다.

$$P(A|B)={P(B|A)P(A)} \over P(B)$$

여기에서 P(A)는 **사전확률(prior)**이라고 하며 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률이다. 만약 사건 B가 발생하면 이 정보를 반영하여 사건 A의 확률은 P(A|B)라는 값으로 변하게 되며 이를 **사후확률(posterior)**이라고 한다.

사후확률값은 사전확률에 $P(B|A)\over P(B)$라는 값을 곱하면 얻을 수 있다. 곱하는 P(B|A)는 **가능도(likelihood)**라고 하고 나누는 P(B)는 정규화 상수(normalizing constant) 혹은 **증거(evidence)**라고 한다.

베이즈 정리는 사건 B가 발생함으로써(사건 B가 진실이라는 것을 알게 됨으로써, 즉 사건 B의 확률 P(B)=1이라는 것을 알게 됨으로써) 사건 A의 확률이 어떻게 변화하는지를 표현한 정리다. 따라서 베이즈 정리는 새로운 정보가 기존의 추론에 어떻게 영향을 미치는지를 나타낸다.

1. P(A|B) : 사후확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률

2. P(A) : 사전확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률

3. P(B|A): 가능도(likelihood). 사건 A가 발생한 경우 사건 B의 확률

4. P(B) : 정규화 상수(normalizing constant) 또는 증거(evidence). 확률의 크기 조정

# $*$베이즈정리 확장1

$$P(A1|B)={P(B|A1)P(A1)}\over P(B)$$

$$={P(B|A1)P(A1)}\over ∑iP(Ai,B)$$

$$={P(B|A1)P(A1)}\over∑iP(B|Ai)P(Ai)$$

# *베이즈정리확장2

$$P(A|B)={P(B|A)P(A)}\over P(B)$$

$$={P(B|A)P(A)} \over {P(B,A)+P(B,AC)}$$

$$={P(B|A)P(A)}\over {P(B|A)P(A)+P(B|AC)P(AC)}$$

$$={P(B|A)P(A)}\over {P(B|A)P(A)+P(B|AC)(1−P(A))}$$

# 피지엠파이를 사용한 베이즈 정리 적용

피지엠파이 패키지는 베이즈 정리에 적용하는 BayesianModel 클래스를 제공한다. 베이즈 정리를 적용하려면 조건부확률을 구현하는 TabularCPD 클래스를 사용하여 사전확률과 가능도를 구현해야 한다. TabularCPD 클래스 객체는 다음과 같이 만든다.

TabularCPD(variable, variable_card, value, evidence=None, evidence_card=None)

1. variable: 확률변수의 이름 문자열

2. variable_card: 확률변수가 가질 수 있는 경우의 수

3. value: 조건부확률 배열. 하나의 열(column)이 동일 조건을 뜻하므로 하나의 열의 확률 합은 1이어야 한다.

4. evidence: 조건이 되는 확률변수의 이름 문자열의 리스트

5. evidence_card: 조건이 되는 확률변수가 가질 수 있는 경우의 수의 리스트

TabularCPD 클래스는 원래는 조건부확률을 구현하기 위한 것이지만 evidence=None, evidence_card=None으로 인수를 주면 일반적인 확률도 구현할 수 있다.

In [12]:
from pgmpy.factors.discrete import TabularCPD
import numpy as np
cpd_X = TabularCPD('X', 2, [[1 - 0.002], [0.002]])
print(cpd_X)

+------+-------+
| X(0) | 0.998 |
+------+-------+
| X(1) | 0.002 |
+------+-------+


In [13]:
cpd_Y_on_X = TabularCPD('Y', 2, np.array([[0.95, 0.01], [0.05, 0.99]]),
                        evidence=['X'], evidence_card=[2])
print(cpd_Y_on_X)

+------+------+------+
| X    | X(0) | X(1) |
+------+------+------+
| Y(0) | 0.95 | 0.01 |
+------+------+------+
| Y(1) | 0.05 | 0.99 |
+------+------+------+


In [14]:
from pgmpy.models import BayesianModel

model = BayesianModel([('X', 'Y')])
model.add_cpds(cpd_X, cpd_Y_on_X)
model.check_model()

True

add_cpds(): 조건부확률을 추가

check_model(): 모형이 정상적인지 확인. True면 정상적인 모형

query(variables, evidences)

variables: 사후확률을 계산할 확률변수의 이름 리스트

evidences: 조건이 되는 확률변수의 값을 나타내는 딕셔너리



In [15]:
from pgmpy.inference import VariableElimination

inference = VariableElimination(model)
posterior = inference.query(['X'], evidence={'Y': 1}, joint=False, show_progress=False)
print(posterior['X'])

+------+----------+
| X    |   phi(X) |
| X(0) |   0.9618 |
+------+----------+
| X(1) |   0.0382 |
+------+----------+
