In [7]:
from pgmpy.factors.discrete import JointProbabilityDistribution as JPD
import numpy as np
import pandas as pd

## 확률

확률이란 사건(부분집합)을 입력하면 숫자(확률값)가 출력되는 함수이다.
<br/>
각가의 사건에 어떤 숫자를 할당(allocate)하는 모형이다
<br/>
<br/>
파이썬에서는 사건을 키(key)로 가지고 숫자를 값(value)로 가지는 딕셔너리를 사용하여 확률을 구현할 수 있다.

In [2]:
A = frozenset([])
B = frozenset(['H'])
C = frozenset(['T'])
D = frozenset(['T','H'])
set([A,B,C,D])

{frozenset(), frozenset({'T'}), frozenset({'H'}), frozenset({'H', 'T'})}

In [3]:
P={A:0,B:0.4,C:0.6,D:1}
P

{frozenset(): 0,
 frozenset({'H'}): 0.4,
 frozenset({'T'}): 0.6,
 frozenset({'H', 'T'}): 1}

### Ex1) 
살인 사건이 발생하였다고 가정하자. 경찰은 전체 용의자 목록을 가지고 있다. 베이지안 확률론 관점에서 전체 용의자 목록은 바로 표본 공간이다. 우리가 알고 싶은 것은 전체 용의자 목록(표본 공간)에서 누가 범인(선택된 표본)인가 하는 점이다. 현재 표본 공간은 20명의 용의자로 구성되어 있으며 이 중 남자가 12명, 여자가 8명이라고 가정한다.

- 살인 사건 발생. 용의자는 20명
    - 남자 12명, 여자 8명
    - 머리가 긴 사람 10명, 머리가 짧은 사람 10명
- 범인이 남자일 확률
    - 남자의 집합(사건)  A 에 범인(선택된 표본)이 속해 있다는 주장의 신뢰도:  P(A)=0.6 
- 범인이 머리가 길 확률
    - 머리가 긴 사람의 집합(사건)  B 에 범인(선택된 표본)이 속해 있다는 주장의 신뢰도:  P(B)=0.5

위의 범인 찾기 문제의 예에서 12명의 남자 중 머리가 긴 사람이 다음과 같이 3명인 경우는 다음처럼 모형을 만들 수 있다. 이 모형은 두 개의 확률 변수  X ,  Y 를 가지며  
- X=0 인 경우가 사건  A ,  
- Y=0 인 경우가 사건  B 가 된다.

## pgmpy 패키지

JointProbabilityDistribution(variables, cardinality, values)
<br/>
- variable : 확률 변수의 이름 문자열의 리스트
- cardinality : 각 확률 변수의 경우의 수(cardinality)의 리스트
- values : 각 확률 변수의 모든 경우의 조합에 대한 확률 값의 리스트


variable에 들아가는 인수가 사건의 이름이 아니라 확률 변수의 이름이라는 점에 주의하라. 여기서 확률변수는 0에서 N-1까지 값을 가질 수 있는 변수이다. 확률 변수가 특정한 값을 가지면 하나의 사건이 된다.


In [4]:
j1 = JPD(['X','Y'],[2,2],np.array([3,9,7,1])/20)
print(j1)

╒═════╤═════╤══════════╕
│ X   │ Y   │   P(X,Y) │
╞═════╪═════╪══════════╡
│ X_0 │ Y_0 │   0.1500 │
├─────┼─────┼──────────┤
│ X_0 │ Y_1 │   0.4500 │
├─────┼─────┼──────────┤
│ X_1 │ Y_0 │   0.3500 │
├─────┼─────┼──────────┤
│ X_1 │ Y_1 │   0.0500 │
╘═════╧═════╧══════════╛


- marginal_distribution(values, inplace=True)
    - values : 주변확률을 구할 변수 이름 문자열 리스트
    - inplace: True이면 객체 자신을 주변확률 모형으로 변화시킨다. False 면 주변확률 모형 객체를 반환한다. 
    
- conditional_distribution(values, inplace=True)
    - values : 주변확률을 구할 변수 이름 문자열과 값을 묶은 튜플 리스트
    - inplace : True 이면 객체 자신을 조건부 확률 모형으로 변화시킨다. False면 조건부 확률 모형 객체를 반환한다

In [5]:
m1x = j1.marginal_distribution(['X'],inplace=False)
print(m1x)

╒═════╤════════╕
│ X   │   P(X) │
╞═════╪════════╡
│ X_0 │ 0.6000 │
├─────┼────────┤
│ X_1 │ 0.4000 │
╘═════╧════════╛


In [6]:
m1y = j1.marginal_distribution(['Y'], inplace=True)
print(m1y)

None


# Association

In [11]:
A = frozenset(['b','c','g'])
B = frozenset(['a','b','d','e','f'])
C = frozenset(['a','b','c','g'])
d = frozenset(['b','c','e','f'])
e = frozenset(['b','c','e','f','g'])
set([A,B,C,d,e])

{frozenset({'b', 'c', 'g'}),
 frozenset({'b', 'c', 'e', 'f'}),
 frozenset({'a', 'b', 'c', 'g'}),
 frozenset({'a', 'b', 'd', 'e', 'f'}),
 frozenset({'b', 'c', 'e', 'f', 'g'})}