In [None]:
# 🎯 GMM 기초
- 데이터가 여러 개의 **가우시안(정규) 분포 혼합**이라고 가정
- 각 점이 군집에 속할 **확률(soft assignment)** 계산
- 장점: KMeans보다 유연(타원형 군집), 확률적 해석 가능
- 단점: 분포 가정이 틀리면 성능 저하, K/공분산 형태 선택 필요


from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.mixture import GaussianMixture
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
import numpy as np

X = load_iris().data
Xs = StandardScaler().fit_transform(X)

gmm = GaussianMixture(n_components=3, covariance_type='full', random_state=42)
labels = gmm.fit_predict(Xs)
proba = gmm.predict_proba(Xs)  # 각 군집 소속 확률

Xp = PCA(n_components=2, random_state=42).fit_transform(Xs)
plt.figure(figsize=(7,5))
plt.scatter(Xp[:,0], Xp[:,1], c=labels, cmap='tab10', s=60, alpha=0.8, edgecolor='k')
plt.title("GMM on Iris (PCA 2D)")
plt.show()

print("첫 5개 샘플의 군집 확률:\n", np.round(proba[:5], 3))
