확률을 정확히 정의하려면 우선 다음 3가지 개념을 알아야 한다.

- 확률 표본
- 표본 공간
- 사건

확률론의 방법으로 접근하기 위해 우선 $확률 표본(sample)$과 $표본 공간(sample space)$을 정의해야 한다.

# 확률 표본 또는 표본$(sample)$
은 풀고자 하는 확률적 문제에서 선택될 수 있는 혹은 답이 될 수 있는 하나의 경우 혹은 숫자를 말한다.

# 표본 공간$(sample$ $space)$
은 답이 될 수 있는 혹은 선택될 수 있는 모든 표본의 집합을 말한다. 보통  $Ω $(대문자 오메가)라는 그리스 문자로 표기한다.

# 사건($event$)
는 표본 공간  $Ω$ 의 부분집합, 즉, 전체 표본 공간 중에서 우리가 관심을 가지고 있는 일부 표본의 집합을 뜻한다. 보통  $A,B,C,⋯$  식으로 대문자 알파벳으로 표기한다.

# 확률(probability)
이란 사건(부분 집합)을 입력하면 숫자(확률값)가 출력되는 함수이다.

$$사건(부분집합)→숫자$$

-- 콜모고로프의 공리(Kolmogorov's axioms)
- 모든 사건에 대해 확률은 실수이고 0 또는 양수이다.

$$P(A)∈R,P(A)≥0$$
 
- 표본공간이라는 사건에 대한 확률은 1이다.

$$P(Ω)=1$$
 
- 공통 원소가 없는 두 사건의 합집합의 확률은 각각의 사건의 확률의 합이다.

$$A∩B=∅→P(A∪B)=P(A)+P(B)$$
 

> - 주변 확률(marginal probability)

> 결합 확률과 대비되는 개념으로 결합되지 않는 개별 사건의 확률  P(A)  또는  P(B) 를 주변 확률라고 한다.

> - 조건부 확률(conditional probability)

> B 가 사실일 경우의 사건 A에 대한 확률을 사건 B에 대한 사건 A의 조건부확률이라고 하며 다음과 같이 표기한다.

# 조건부 확률  $P(A|B)$ 
사건 B가 발생한 경우의 사건 A의 확률
$$P(A|B) = \dfrac{P(A,B)}{P(B)}$$

# 독립
$$P(A,B) = P(A)P(B)$$

$B$  라는 사건이 발생하든 말든 사건 $A$ 에는 전혀 영향을 주지 않는 다는 것이다.

$$P(A|B) = \dfrac{P(A,B)}{P(B)} = \dfrac{P(A)P(B)}{P(B)} = P(A)$$

# pgmpy 패키지
JointProbabilityDistribution(variables, cardinality, values)
- variables: 확률 변수의 이름 문자열의 리스트
- cardinality: 각 확률 변수의 경우의 수(cardinality)의 리스트
- values: 각 확률 변수의 모든 경우의 조합에 대한 확률 값의 리스트

In [6]:
from pgmpy.factors.discrete import JointProbabilityDistribution as JPD
j1 = JPD(['X', 'Y'], [2, 2], np.array([3, 9, 7, 1]) / 20)
print(j1)

╒═════╤═════╤══════════╕
│ X   │ Y   │   P(X,Y) │
╞═════╪═════╪══════════╡
│ X_0 │ Y_0 │   0.1500 │
├─────┼─────┼──────────┤
│ X_0 │ Y_1 │   0.4500 │
├─────┼─────┼──────────┤
│ X_1 │ Y_0 │   0.3500 │
├─────┼─────┼──────────┤
│ X_1 │ Y_1 │   0.0500 │
╘═════╧═════╧══════════╛


주변 확률 marginal_distribution(values, inplace=True)
- values: 주변 확률을 구할 변수 이름 문자열 리스트
- inplace: True이면 객체 자신을 주변 확률 모형으로 변화시킨다. False면 주변 확률 모형 객체를 반환한다.

조건부 확률 conditional_distribution(values, inplace=True)
- values: 주변 확률을 구할 변수 이름 문자열과 값을 묶은 튜플의 리스트
- inplace: True이면 객체 자신을 조건부 확률 모형으로 변화시킨다. False면 조건부 확률 모형 객체를 반환한다.

In [8]:
j1

<Joint Distribution representing P(X:2, Y:2) at 0x1d42fa78d68>

In [9]:
m1x = j1.marginal_distribution(['X'], inplace=False)
print(m1x)

╒═════╤════════╕
│ X   │   P(X) │
╞═════╪════════╡
│ X_0 │ 0.6000 │
├─────┼────────┤
│ X_1 │ 0.4000 │
╘═════╧════════╛


In [10]:
m1y = j1.marginal_distribution(['Y'], inplace=False)
print(m1y)

╒═════╤════════╕
│ Y   │   P(Y) │
╞═════╪════════╡
│ Y_0 │ 0.5000 │
├─────┼────────┤
│ Y_1 │ 0.5000 │
╘═════╧════════╛


In [11]:
c1x0 = j1.conditional_distribution([('X', 0)], inplace=False)  # 사건 A에 대한 조건부 확률
print(c1x0)

╒═════╤════════╕
│ Y   │   P(Y) │
╞═════╪════════╡
│ Y_0 │ 0.2500 │
├─────┼────────┤
│ Y_1 │ 0.7500 │
╘═════╧════════╛


In [12]:
c1x1 = j1.conditional_distribution([('X', 1)], inplace=False)  
print(c1x1)

╒═════╤════════╕
│ Y   │   P(Y) │
╞═════╪════════╡
│ Y_0 │ 0.8750 │
├─────┼────────┤
│ Y_1 │ 0.1250 │
╘═════╧════════╛


In [13]:
c1y0 = j1.conditional_distribution([('Y', 0)], inplace=False) # 사건 B에 대한 조건부 확률
print(c1y0)

╒═════╤════════╕
│ X   │   P(X) │
╞═════╪════════╡
│ X_0 │ 0.3000 │
├─────┼────────┤
│ X_1 │ 0.7000 │
╘═════╧════════╛


In [14]:
c1y1 = j1.conditional_distribution([('Y', 1)], inplace=False)
print(c1y1)

╒═════╤════════╕
│ X   │   P(X) │
╞═════╪════════╡
│ X_0 │ 0.9000 │
├─────┼────────┤
│ X_1 │ 0.1000 │
╘═════╧════════╛


In [10]:
j1.check_independence(['X'], ['Y'])

False

# 베이즈 정리
$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$
- P(A|B) : 사후 확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
- P(A) : 사전 확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
- P(B|A) : likelihood. 사건 A가 발생한 경우 사건 B의 확률
- P(B) : 정규화 상수(normalizing constant): 확률의 크기 조정

증명)
$$ P(A|B) = \dfrac{P(A,B)}{P(B)} \;\; \rightarrow \;\; P(A,B) = P(A|B)P(B)$$

$$P(B|A) = \dfrac{P(A,B)}{P(A)} \;\; \rightarrow \;\; P(A,B) = P(B|A)P(A)$$

$$P(A,B) = P(A|B)P(B) = P(B|A)P(A)$$

$$P(A|B) = \dfrac{P(B|A)P(A)}{P(B)}$$

# 검사 시약 문제

- 사건

> 병에 걸리는 경우: 사건  D

> 양성 반응을 보이는 경우: 사건  S 

> 병에 걸린 사람이 양성 반응을 보이는 경우: 조건부 사건  S|D

> 양성 반응을 보이는 사람이 병에 걸려 있을 경우: 조건부 사건  D|S
    
- 문제

> P(S|D)=0.99 가 주어졌을 때,  P(D|S) 를 구하라


$P(D)=0.002$
 
$P(S|D^C) = 0.05$

 $$베이즈 정리  P(D|S) = \dfrac{P(S|D)P(D)}{P(S)} $$

\begin{eqnarray}
P(D|S) 
&=& \dfrac{P(S|D)P(D)}{P(S)} \\
&=& \dfrac{P(S|D)P(D)}{P(S,D) + P(S,D^C)} \\
&=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)P(D^C)} \\
&=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)(1-P(D))} \\
&=& \dfrac{0.99 \cdot 0.002}{0.99 \cdot 0.002 + 0.05 \cdot (1 - 0.002)} \\
&=& 0.038
\end{eqnarray}

# pgmpy을 사용한 베이즈 정리 적용

TabularCPD(variable, variable_card, value, evidence, evidence_card)
- variable: 확률 변수의 이름 문자열
- variable_card: 확률 변수가 가질 수 있는 경우의 수
- value: 조건부 확률 배열. 하나의 열이 하나의 조건(경우)을 뜻하므로 하나의 열의 확률 합은 1이어야 한다.
- evidence: 조건이 되는 확률 변수의 이름 문자열의 리스트
- evidence_card: 조건이 되는 확률 변수가 가질 수 있는 경우의 수의 리스트

우선 확률 변수 X를 이용하여 병에 걸렸을 확률  $P(D)=P(X=1)$ , 병에 걸리지 않았을 확률 $P(D^C)=P(X=0)$ 를 정의한다.

In [2]:
from pgmpy.factors.discrete import TabularCPD
cpd_X = TabularCPD('X', 2, [[1 - 0.002, 0.002]])
print(cpd_X)

╒═════╤═══════╕
│ X_0 │ 0.998 │
├─────┼───────┤
│ X_1 │ 0.002 │
╘═════╧═══════╛


다음으로 확률 변수 Y를 이용하여 양성 반응이 나올 확률  $P(S)=P(Y=1)$ , 음성 반응이 나올 확률  $P(S^C)=P(Y=0)$ 를 정의한다. 이 확률은 병에 걸렸는가 걸리지 않았는가에 따라 달라지므로 다음처럼 조건부로 정의한다.

In [3]:
cpd_YX = TabularCPD('Y', 2, np.array([[0.95, 0.01], [0.05, 0.99]]),
                    evidence=['X'], evidence_card=[2])
print(cpd_YX)

╒═════╤══════╤══════╕
│ X   │ X_0  │ X_1  │
├─────┼──────┼──────┤
│ Y_0 │ 0.95 │ 0.01 │
├─────┼──────┼──────┤
│ Y_1 │ 0.05 │ 0.99 │
╘═════╧══════╧══════╛


이 조건부 확률과 조건이 되는 확률을 결합하기 위해서는 BayesianModel 클래스 객체를 만들고 add_cpds 메서드로 위에서 구현한 조건부 확률을 추가한다.
check_model 메서드로 모형이 완전한지 확인할 수 있다.

In [4]:
from pgmpy.models import BayesianModel

model = BayesianModel([('X', 'Y')])
model.add_cpds(cpd_X, cpd_YX)
model.check_model()

True

BayesianModel 클래스는 변수 제거법(VariableElimination)을 사용한 추정을 제공한다. 사용법은 다음과 같다. 자세한 내용은 추후 확률적 그래프 모형에서 다루게 된다.

In [5]:
from pgmpy.inference import VariableElimination

infer = VariableElimination(model)
posterior = infer.query(['X'], evidence={'Y': 1})
print(posterior['X'])

╒═════╤══════════╕
│ X   │   phi(X) │
╞═════╪══════════╡
│ X_0 │   0.9618 │
├─────┼──────────┤
│ X_1 │   0.0382 │
╘═════╧══════════╛


# 베이즈 정리와 분류 문제

확률 변수 Y를 Y=0인 경우가 Red 농장, Y=1인 경우가 Blue 농장으로 정의한다.

In [6]:
from pgmpy.factors.discrete import TabularCPD
cpd_Y = TabularCPD('Y', 2, [[8/12, 4/12]])
print(cpd_Y)

╒═════╤══════════╕
│ Y_0 │ 0.666667 │
├─────┼──────────┤
│ Y_1 │ 0.333333 │
╘═════╧══════════╛


확률 변수 X는 X=0인 경우를 오렌지인 경우, X=1인 경우를 사과인 경우으로 정의한다.

In [7]:
cpd_XY = TabularCPD('X', 2, np.array([[6/8, 1/4], [2/8, 3/4]]),
                    evidence=['Y'], evidence_card=[2])
print(cpd_XY)

╒═════╤══════╤══════╕
│ Y   │ Y_0  │ Y_1  │
├─────┼──────┼──────┤
│ X_0 │ 0.75 │ 0.25 │
├─────┼──────┼──────┤
│ X_1 │ 0.25 │ 0.75 │
╘═════╧══════╧══════╛


In [8]:
from pgmpy.models import BayesianModel

model = BayesianModel([('Y', 'X')])
model.add_cpds(cpd_Y, cpd_XY)
model.check_model()

True

베이지안 네트워크 모형으로 사후확률을 계산하면  0.1429=1/7이 나온다.

In [9]:
from pgmpy.inference import VariableElimination

infer = VariableElimination(model)
posterior = infer.query(['Y'], evidence={'X': 0})
print(posterior['Y'])

╒═════╤══════════╕
│ Y   │   phi(Y) │
╞═════╪══════════╡
│ Y_0 │   0.8571 │
├─────┼──────────┤
│ Y_1 │   0.1429 │
╘═════╧══════════╛
