## import numpy as np
import pandas as pd

# 확률론적 그래프 모델 (PGM)
    
PGM은 compactly하게 Joint probability distribution 을 표현한 것이다. 이때 다양한 Random variable들 가운데서, 서로간의 영향을 표현하기 위해 조건부 독립관계를 고려하여 표현된다. 즉 다수의 확률 변수가 서로에 영향을 미치는 복잡한 관계를, 표현하는 모형이다. 확률론적 접근을 통해 현실 문제의 __uncertainty__ 에 대한 대응이 가능하다는 장점이 있다.

- Representation
    - Directed & Undirected
    - Temporal & plate mode
- Inference(reasoning)
    - Exact and approximation
    - Decision Making
- Learning
    - Parameters and sturcture
    - with and without complete data
    
### Case

1. Bayisan Model : 방향성이 있는 그래프이자 조건부 확률 분포를 따른다. 각각 조건부 확률 분포는 $ P(node | parents(node)) $ 의 형태이며, $ parents(node)$ 각 노드의 부모역할을 한다.

2. Markov Model : 방향성이 없으며, Factors들에 의해서 parameterized 되어있다. 각각 Factors들은 2개 이상의 변수들에 의해 결합되어있다.


### Model

__Declarative Representation of our understanding of world__
<br>
세상을 이해한 것을 명확하게 표현한것을 모델이라고 합니다. 그러나 우리의 세상은 늘 같은 현상만들 보여주지 않습니다. 여러가지 예측 불가능한 uncertainty가 존재합니다.

### 확률론?

확률론의 목표는 이러한 세상의 불확실성을 제어를 도와주는 좋은 도구입니다. 불확실성은 다음과 같이 정의할 수 있습니다.

- Partial Knowledge
    - 우리는 세상 현상에 대한 부분적인 지식을 가지게 됩니다.
- Noisy observation
    - 우리가 수집한 데이텋에는 항상 노이즈가 형성됩니다.
- Model limiation
    - 우리가 설계한 가설 모형의 경우 항상 coverage의 문제가 있습니다.
- Inherent Stocastic
    - 작은 단위가 아닌 큰 단위로 변화와 같은 문제에 다른 특성이 반영됩니다.

### 그래프?

Intuitive & compact data sturucuture로 고차원의 확률 분포를 시각화시켜준다. 이는 확률 모델의 구조를 시각화시켜 모형 전체의 이해를 도와줌을 의미한다.

- __Node__ : 확률 변수 (Random variable)
- __Edge__ : 확률론적 연결을 의미한다.(확률 변수간의 관계)


![Alt text](images/1/Iris_BN.png)

In [12]:
%run pgmpy/pgmpy_notebook/scripts/1/discretize.py
data.head()

Unnamed: 0,length,width,type
63,6,3,1
111,6,3,2
53,6,2,1
56,6,3,1
113,6,2,2


In [13]:
X_train, X_test = data[:120], data[120:]

In [9]:
# joint probability 를 구해보자

joint_prob = data.groupby(['length','width','type']).size()/120
joint_prob

length  width  type
4       2      0       0.008333
        3      0       0.033333
5       2      1       0.033333
               2       0.008333
        3      0       0.200000
               1       0.016667
        4      0       0.133333
6       2      1       0.075000
               2       0.025000
        3      1       0.225000
               2       0.200000
        4      0       0.041667
7       2      2       0.008333
        3      1       0.066667
               2       0.116667
        4      2       0.008333
8       3      2       0.033333
        4      2       0.016667
dtype: float64

In [14]:
# Selecting just the feature variables.
X_test_features = X_test.iloc[:, :2].values
X_test_actual_results = X_test.iloc[:, 2].values

In [23]:
predicted_values = []
for i in X_test_features:
    predicted_values.append(np.argmax(joint_prob[i[0], i[1]]))

will be corrected to return the positional maximum in the future.
Use 'series.values.argmax' to get the position of the maximum now.
  return getattr(obj, method)(*args, **kwds)


In [25]:
predicted_values = np.array(predicted_values)
predicted_values

array([1, 2, 0, 1, 1, 1, 0, 1, 0, 2, 2, 1, 1, 1, 2, 0, 0, 1, 1, 1, 1, 1,
       0, 1, 0, 0, 1, 1, 0, 1])

In [27]:
score = (predicted_values == X_test_actual_results).sum() / 30
print(score)

0.8333333333333334
