In [1]:
import matplotlib.pyplot as plt
import numpy as np
plt.rc("font", size=10, family='Malgun Gothic')
plt.rc('axes', unicode_minus=False)

조건부확률은 데이터로부터 어떤 결론을 얻을 수 있는가를 나타내는 숫자이므로 데이터 분석에 있어서 가장 중요한 개념이다.

# 결합확률과 조건부확률

베이지안 확률론은 두 사건 A와 B의 관계를 알고 있다면 사건 B가 발생하였했다는 사실로부터 기존에 알고 있는 사건 A에 대한 확률 P(A)를 좀 더 정확한 확률로 바꿀 수 있는 방법을 알려준다. 이를 위해서는 결합확률과 조건부확률이라는 두 가지 개념을 정의해야 한다.

**결합확률(joint probability)**은 사건 A와 B가 동시에 발생할 확률이다. 즉, 사건(명제/주장) A도 진실이고 사건(명제/주장) B도 진실이므로 사건 A와 B의 교집합의 확률을 계산하는 것과 같다.

$P(A∩B) or P(A,B)$

결합확률과 대비되는 개념으로 결합되지 않는 개별 사건의 확률 P(A) 또는 P(B)를 **주변확률(marginal probability)**라고 한다.

또한 B가 사실일 경우의 사건 A에 대한 확률을 **사건 B에 대한 사건 A의 조건부확률(conditional probability)**이라고 하며 다음과 같이 표기한다.

$P(A|B)$

위 수식에서 기호 |는 if를 뜻한다. 즉 다음과 같다.



P(A|B)≡ new P(A) if P(B)=1

$$P(A|B)=P(A,B)\over P(B)$$

사건 B가 사실이므로 모든 가능한 표본은 사건 B에 포함되어야 한다. 즉, 새로운 실질적 표본공간은 Ωnew→B가 된다.

사건 A의 원소는 모두 사건 B의 원소도 되므로 사실상 사건 A∩B의 원소가 된다. 즉, 새로운 실질적 Anew→A∩B가 된다.

따라서 사건 A의 확률 즉, 신뢰도는 원래의 신뢰도(결합확률)를 새로운 표본공간의 신뢰도(확률)로 정규화(normalize)한 값이라고 할 수 있다.

조건부확률 P(A|B) 요약

1. 사건 B가 발생한 경우의 사건 A의 확률

2. 표본이 이벤트 B에 속한다는 새로운 사실을 알게 되었을 때,

3. 이 표본이 사건 A에 속한다는 사실의 정확성(신뢰도)이 어떻게 변하는지를 알려준다.

# 독립

수학적으로는 사건 A와 사건 B의 결합확률의 값이 다음과 같은 관계가 성립하면 **두 사건 A와 B는 서로 독립(independent)**이라고 정의한다.

$P(A,B)=P(A)P(B)$

독립인 경우 조건부확률과 원래의 확률이 같아짐을 알 수 있다. 즉, B라는 사건이 발생하든 말든 사건 A에는 전혀 영향을 주지 않는 다는 것이다.

$$P(A|B)={P(A,B) \over P(B)}={{P(A)P(B)}\over P(B)=P(A)}$$

# 원인과 결과, 근거와 추론, 가정과 조건부 결론

조건부확률 P(A|B)에서 사건(주장/명제) B, A는 각각

1.'가정과 그 가정에 따른 조건부 결론’ 또는

2.'원인과 결과’ 또는

3.'근거와 추론’

또 결합확률의 정의를 바꿔 쓰면 다음과 같이 되는데,

$P(A,B)=P(A|B)P(B)$

이 식은 다음과 같은 관점에서 볼 수 있다.

A,B 가 모두 발생할 확률은 B라는 사건이 발생할 확률과 그 사건이 발생한 경우 다시 A가 발생할 경우의 곱

# 확률변수

**확률적인 숫자 값을 출력하는 변수를 확률변수(random variable)**라고 한다.

확률변수는 확률분포를 그 안에 내포하고 있어서 그 확률분포에 따라 숫자를 출력할 수 있다. 확률변수 X가 가진 확률을 확률변수의 확률 P(X)라고 한다. 위 예에서 확률변수 X는 사건 A와 사건 AC를 가질 수 있다.

두 확률변수 X, Y가 가질 수 있는 모든 사건의 조합에 대해 독립이 성립하면 두 확률변수 X, Y가 독립이라고 한다. 위 결합확률 표에서 주변확률의 곱을 구해서 결합확률과 비교해보면 확률변수 X, Y는 독립이 아니라는 것을 알 수 있다.

# 피지엠파이 패키지

pgmpy(Probabilistic Graphical Models in Python) 패키지를 사용하면 이산확률모형을 쉽게 구현할 수 있다.

피지엠파이 패키지의 JointProbabilityDistribution 클래스는 결합확률 모형을 만드는 데 사용하는 클래스다. 사용법은 다음과 같다.

JointProbabilityDistribution(variables, cardinality, values)

variables: 확률변수의 이름 문자열의 리스트. 정의하려는 확률변수가 하나인 경우에도 리스트로 넣어야 한다.

cardinality: 각 확률변수의 표본 혹은 배타적 사건의 수의 리스트

values: 확률변수의 모든 표본(조합)에 대한 (결합)확률값의 리스트

In [5]:
from pgmpy.factors.discrete import JointProbabilityDistribution as JPD

px = JPD(['X'], [2], np.array([12, 8]) / 20)
print(px)

+------+--------+
| X    |   P(X) |
| X(0) | 0.6000 |
+------+--------+
| X(1) | 0.4000 |
+------+--------+


In [6]:
py = JPD(['Y'], [2], np.array([10, 10]) / 20)
print(py)

+------+--------+
| Y    |   P(Y) |
| Y(0) | 0.5000 |
+------+--------+
| Y(1) | 0.5000 |
+------+--------+


In [7]:
pxy = JPD(['X', 'Y'], [2, 2], np.array([3, 9, 7, 1]) / 20)
print(pxy)

+------+------+----------+
| X    | Y    |   P(X,Y) |
| X(0) | Y(0) |   0.1500 |
+------+------+----------+
| X(0) | Y(1) |   0.4500 |
+------+------+----------+
| X(1) | Y(0) |   0.3500 |
+------+------+----------+
| X(1) | Y(1) |   0.0500 |
+------+------+----------+


In [8]:
pxy1 = JPD(['X', 'Y'], [2, 2], np.array([6, 6, 4, 4]) / 20)
print(pxy1)

+------+------+----------+
| X    | Y    |   P(X,Y) |
| X(0) | Y(0) |   0.3000 |
+------+------+----------+
| X(0) | Y(1) |   0.3000 |
+------+------+----------+
| X(1) | Y(0) |   0.2000 |
+------+------+----------+
| X(1) | Y(1) |   0.2000 |
+------+------+----------+


ointProbabilityDistribution 클래스는 결합확률로부터 주변확률을 계산하는 marginal_distribution() 메서드, marginalize() 메서드와 조건부확률을 계산하는 conditional_distribution() 메서드를 제공한다.

# marginal_distribution(values, inplace=True)

values: 주변확률을 구할 확률변수의 이름 문자열 리스트

inplace: True이면 객체 자신을 주변확률 모형으로 변화시킨다. False면 주변확률 모형 객체를 반환한다.

# marginalize(values, inplace=True)

values: 어떤 확률변수의 주변확률을 구하기 위해 없앨 확률변수의 이름 문자열 리스트

inplace: True이면 객체 자신을 주변확률 모형으로 변화시킨다. False면 주변확률 모형 객체를 반환한다.

# conditional_distribution(values, inplace=True)

values: 주변확률을 구할 확률변수의 이름 문자열과 값을 묶은 튜플의 리스트

inplace: True이면 객체 자신을 조건부확률 모형으로 변화시킨다. False면 조건부확률 모형 객체를 반환한다.

marginal_distribution() 메서드는 인수로 받은 확률변수에 대한 주변확률분포를 구한다. 다음 코드는 결합확률로부터 주변확률 P(A), P(AC)를 계산한다.

In [13]:
pmx = pxy.marginal_distribution(['X'], inplace=False)
print(pmx)

+------+--------+
| X    |   P(X) |
| X(0) | 0.6000 |
+------+--------+
| X(1) | 0.4000 |
+------+--------+


marginalize() 메서드는 인수로 받은 확률변수를 주변화(marginalize)하여 나머지 확률변수에 대한 주변확률분포를 구한다. 다음 코드도 앞과 마찬가지로 결합확률로부터 주변확률 P(A), P(AC)를 계산한다.

In [14]:
pmx = pxy.marginalize(['Y'], inplace=False)
print(pmx)

+------+--------+
| X    |   P(X) |
| X(0) | 0.6000 |
+------+--------+
| X(1) | 0.4000 |
+------+--------+


conditional_distribution() 메서드를 사용하면 어떤 확률변수가 어떤 사건이 되는 조건에 대해 조건부확률값을 계산한다. 다음 코드는 결합확률로부터 조건부확률 P(B|A), P(BC|A)를 계산한다.

In [15]:
py_on_x0 = pxy.conditional_distribution([('X', 0)], inplace=False)  # 사건 A에 대한 조건부확률
print(py_on_x0)

+------+--------+
| Y    |   P(Y) |
| Y(0) | 0.2500 |
+------+--------+
| Y(1) | 0.7500 |
+------+--------+


In [16]:
py_on_x1 = pxy.conditional_distribution([('X', 1)], inplace=False)
print(py_on_x1)

+------+--------+
| Y    |   P(Y) |
| Y(0) | 0.8750 |
+------+--------+
| Y(1) | 0.1250 |
+------+--------+


In [17]:
px_on_y0 = pxy.conditional_distribution([('Y', 0)], inplace=False)  # 사건 B에 대한 조건부확률
print(px_on_y0)

+------+--------+
| X    |   P(X) |
| X(0) | 0.3000 |
+------+--------+
| X(1) | 0.7000 |
+------+--------+


check_independence() 메서드를 이용하면 두 확률변수 간의 독립도 확인할 수 있다.

In [18]:
pxy.check_independence(['X'], ['Y'])

False

In [19]:
print(px * py)
print(pxy)

+------+------+----------+
| X    | Y    |   P(X,Y) |
| X(0) | Y(0) |   0.3000 |
+------+------+----------+
| X(0) | Y(1) |   0.3000 |
+------+------+----------+
| X(1) | Y(0) |   0.2000 |
+------+------+----------+
| X(1) | Y(1) |   0.2000 |
+------+------+----------+
+------+------+----------+
| X    | Y    |   P(X,Y) |
| X(0) | Y(0) |   0.1500 |
+------+------+----------+
| X(0) | Y(1) |   0.4500 |
+------+------+----------+
| X(1) | Y(0) |   0.3500 |
+------+------+----------+
| X(1) | Y(1) |   0.0500 |
+------+------+----------+
