# GMM

- 확률분포를 활용한 군집화
- 데이터가 여러개의 정규분포로 구성되어 있다고 가정
- EM알고리즘을 활용
    - 기대값을 최대화 하는 알고리즘으로 likelyhood method와 유사

In [1]:
import numpy as np
import pandas as pd

from sklearn.datasets import load_iris

data = pd.DataFrame(load_iris().data, columns=load_iris().feature_names)
target = load_iris().target

In [2]:
from sklearn.mixture import GaussianMixture
# sklearn.mixture임을 유의

n = 3
gmm = GaussianMixture(n_components=n, random_state=2019).fit(data)
gmm_data = gmm.predict(data)

In [3]:
gmm_data

array([2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], dtype=int64)

In [4]:
target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [5]:
def mapping(a):
    if a == 2:
        return 0
    elif a == 0:
        return 1
    else :
        return 2
    
gmm_data = np.array(list(map(mapping, gmm_data)))

In [6]:
def acurate(a, b):
    c = 0
    for i in range(len(a)):
        if a[i] == b[i]:
            c += 1
    return round(c/len(a), 3)

print(acurate(target, gmm_data))

0.967


In [7]:
from sklearn.metrics import silhouette_samples


score_samples = silhouette_samples(data, gmm_data)

sils = pd.DataFrame([gmm_data, score_samples]).T
sils.columns = ['clustering', 'silhouette']

In [8]:
sils.groupby('clustering')['silhouette'].mean()

clustering
0.0    0.784421
1.0    0.429259
2.0    0.302522
Name: silhouette, dtype: float64

## 비교포인트

- k-means와 dbscan이 원형으로 거리를 비교하는 것에 비해 선형 군집에 효과적
- 확률분포등을 가정하고 식을 전개하기 때문에 알고리즘으로 직접 구현하는 것에 어려움이 따름(능력 부족)
- 해당 파트는 여러 군집화 알고리즘 중 한 방법으로 인식하고 활용할 수 있으면 좋을듯