<a href="https://colab.research.google.com/github/bbberylll/ESAA_OB/blob/main/M4_9/22_%ED%95%84%EC%82%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## 가우시안 혼합 모델 (GMM):

### 개념 및 특징
: 가우시안 혼합 모델(Gaussian Mixture Model, GMM)은 데이터가 여러 개의 가우시안 분포(종 모양의 정규 분포)가 혼합되어 생성되었다고 가정하는 확률 모델  
각 가우시안 분포는 하나의 클러스터(보통 타원형 모양)를 나타냄

GMM의 목표는 주어진 데이터를 기반으로 각 가우시안 분포의 파라미터(평균, 공분산)와 각 클러스터에 속할 확률을 나타내는 가중치를 추정하는 것.

### 사이킷런(Scikit-learn)에서 GMM 사용하기
사이킷런의 GaussianMixture 클래스를 사용해 GMM을 구현할 수 있습니다. 사용 시에는 클러스터의 개수 k를 사전에 지정해야 함

* 주요 파라미터:
    * n_components: 클러스터의 개수 k를 지정
    * n_init: 파라미터 초기화를 시도할 횟수를 지정


* 학습 과정:
    1. GMM은 기댓값-최대화(EM) 알고리즘을 사용해 파라미터를 학습
    2. 랜덤 초기화 후, **기댓값 단계(E-step)**와 **최대화 단계(M-step)**를 반복하며 최적의 파라미터를 찾아 수렴


* 소프트 클러스터링: K-평균과 달리, GMM은 각 데이터 포인트가 특정 클러스터에 속할 확률(책임)을 계산

### GMM의 주요 기능 및 활용
GMM은 단순히 데이터를 군집화하는 것 외에도 다양한 기능을 제공

* 파라미터 확인:
    * gm.weights_: 각 클러스터의 가중치(비율)를 나타냄
    * gm.means_: 각 클러스터의 평균(중심) 행렬
    * gm.covariances_: 각 클러스터의 공분산(분산 및 상관관계) 행렬


* 예측 및 샘플링:
    * 하드 군집: predict() 메서드로 각 샘플이 가장 속할 확률이 높은 클러스터를 할당
    * 소프트 군집: predict_proba() 메서드로 각 샘플이 각 클러스터에 속할 확률을 예측
    * 샘플 생성: GMM은 생성 모델이므로, sample(n) 메서드를 사용해 새로운 데이터 포인트를 생성
    * 밀도 평가: score_samples(X) 메서드로 주어진 데이터의 확률 밀도 함수의 로그 값을 계산. 값이 높을수록 밀도가 높음

* 모델 제약:
GMM의 학습은 클러스터가 많거나 샘플이 적을 때 불안정할 수 있음. 이때 covariance_type 매개변수를 조정해 클러스터의 모양과 방향에 제약을 줄 수 있음
    * covariance_type:
      * 'spherical': 모든 클러스터가 원형(구형)
      * 'diag': 타원형이지만 축에 평행
      * 'tied': 모든 클러스터가 동일한 타원 모양, 크기, 방향을 가짐
      * 'full': 제약이 없는 완전한 형태의 타원형 (기본값)

** **

## 9.2.1 가우시안 혼합 모델을 이용한 이상치 탐지
가우시안 혼합 모델(GMM)은 **밀도가 낮은 지역에 있는 샘플을 이상치(outlier)**로 간주하여 이상치를 탐지함.  
사용자는 특정 **밀도 임곗값(threshold)**을 설정하여 이보다 밀도가 낮은 모든 샘플을 이상치로 식별

특이치 탐지(Novelty Detection): 훈련 데이터셋이 이상치에 의해 오염되지 않았다고 가정하고, 새로운 샘플이 정상 데이터와 얼마나 다른지 탐지하는 기법

** **

## 9.2.2 클러스터 개수 선택하기: AIC와 BIC
GMM에서 최적의 클러스터 개수를 결정할 때, K-평균 군집에서 사용되는 이너셔나 실루엣 점수 대신 AIC(Akaike Information Criterion) 또는 **BIC(Bayesian Information Criterion)**와 같은 정보 기준을 사용

AIC와 BIC: 모델의 복잡도(클러스터 수)에 패널티를 부여하고, 데이터에 대한 모델의 적합도를 평가하는 지표임. 이 값들을 최소화하는 모델을 선택함

BIC는 AIC보다 더 강력하게 복잡한 모델에 패널티를 부여하므로, 더 간단한 모델을 선택하는 경향이 있음

가능도(Likelihood): 주어진 데이터가 특정 모델 파라미터에서 얼마나 그럴듯하게 나타나는지를 설명하는 함수. GMM은 이 가능도 함수를 최대화하는 파라미터를 찾아 학습하며, 이 최댓값을 AIC, BIC 계산에 사용

** **

## 9.2.3 베이즈 가우시안 혼합 모델 (BayesianGaussianMixture)
사이킷런의 BayesianGaussianMixture 클래스는 최적의 클러스터 개수를 수동으로 지정할 필요 없이 불필요한 클러스터의 가중치를 0으로 만들어 자동적으로 제거해준다. 따라서 예상되는 최적의 클러스터 수보다 큰 값을 n_components에 지정해도 문제가 없음

변분 추론(Variational Inference): 베이즈 모델에서 사후 확률을 직접 계산하기 어려울 때 사용되는 방법. 사후 확률과 가장 유사한(KL 발산 최소화) 근사 분포를 찾아줌

ELBO(Evidence Lower Bound): 변분 추론에서 최대화해야 할 값으로, KL 발산을 최소화하는 것과 동일한 효과를 가져옴

한계: GMM은 타원형 클러스터에 잘 작동하지만, 다른 형태의 클러스터에는 적합하지 않을 수 있음
** **
## 9.2.4 기타 이상치 탐지 및 특이치 탐지 알고리즘

1. PCA (Principal Component Analysis): 데이터의 주성분(분산이 가장 큰 방향)을 찾아, 이 방향에서 벗어나는 데이터를 이상치로 간주

2. Fast-MCD (Minimum Covariance Determinant): 단일 가우시안 분포를 가정하고 타원형 이상치를 효과적으로 탐지

3. 아이솔레이션 포레스트(Isolation Forest): 데이터를 무작위로 분할하여 이상치를 '고립'시키는 데 효율적. 고차원 데이터에 특히 유용

4. LOC (Local Outlier Factor): 특정 샘플의 주변 밀도와 이웃의 주변 밀도를 비교하여 이상치를 탐지

5. One-class SVM (Support Vector Machine): 주로 특이치 탐지에 사용되며, 정상 데이터 샘플을 둘러싸는 초평면(hyperplane)을 찾아 경계 밖에 있는 샘플을 이상치로 분류




In [1]:
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=1000,noise=0.05)

In [2]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10)
gm.fit(X)

In [3]:
gm.weights_

array([0.20187837, 0.19616682, 0.60195481])

In [4]:
gm.means_

array([[ 1.75414503, -0.05316734],
       [-0.75677874,  0.54762985],
       [ 0.49116034,  0.258684  ]])

In [5]:
gm.covariances_

array([[[ 0.05215841,  0.06113258],
        [ 0.06113258,  0.08641945]],

       [[ 0.0468365 ,  0.05778737],
        [ 0.05778737,  0.08363187]],

       [[ 0.17932273, -0.11164043],
        [-0.11164043,  0.2911335 ]]])

In [6]:
gm.converged_

True

In [7]:
gm.n_iter_

18

In [8]:
gm.predict(X)

array([2, 0, 1, 2, 2, 2, 0, 2, 2, 2, 2, 0, 1, 2, 1, 1, 2, 2, 2, 2, 2, 2,
       2, 0, 1, 1, 2, 2, 2, 2, 0, 0, 2, 2, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2,
       0, 2, 2, 2, 2, 0, 1, 2, 1, 1, 2, 0, 2, 1, 0, 0, 2, 1, 2, 2, 0, 2,
       1, 2, 2, 0, 0, 1, 2, 0, 0, 2, 2, 2, 2, 2, 1, 1, 2, 2, 2, 2, 2, 1,
       1, 2, 2, 2, 0, 2, 2, 0, 2, 2, 2, 2, 0, 2, 0, 1, 2, 0, 1, 2, 1, 1,
       2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 1, 2, 2, 2, 1, 2, 2, 2, 0, 0, 1, 1,
       2, 0, 2, 2, 0, 2, 1, 2, 2, 2, 1, 1, 2, 2, 1, 2, 2, 2, 2, 2, 2, 2,
       1, 2, 1, 2, 2, 2, 2, 0, 1, 2, 2, 2, 1, 1, 2, 0, 2, 2, 0, 1, 1, 2,
       1, 0, 0, 0, 2, 0, 2, 0, 1, 2, 2, 2, 2, 1, 0, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 0, 0, 1, 2, 0, 2, 2, 2, 0, 0, 2, 1, 1, 2, 2, 0, 1, 0, 2, 2,
       1, 0, 2, 1, 1, 1, 1, 2, 1, 2, 2, 2, 2, 2, 0, 0, 0, 2, 2, 1, 2, 2,
       2, 2, 0, 1, 2, 2, 0, 1, 2, 2, 2, 2, 2, 2, 2, 0, 2, 2, 2, 2, 1, 2,
       1, 2, 1, 0, 2, 2, 0, 1, 1, 2, 2, 1, 1, 2, 1, 0, 2, 1, 1, 1, 1, 0,
       2, 2, 2, 2, 2, 1, 0, 2, 2, 1, 2, 2, 1, 2, 1,

In [9]:
gm.predict_proba(X)

array([[2.12223950e-171, 3.98078051e-003, 9.96019219e-001],
       [9.99745695e-001, 1.24975163e-264, 2.54304968e-004],
       [1.40912537e-199, 9.99739880e-001, 2.60120488e-004],
       ...,
       [4.44802238e-205, 9.96854462e-001, 3.14553834e-003],
       [1.90606903e-217, 9.98335405e-001, 1.66459494e-003],
       [2.76382200e-066, 6.35900250e-052, 1.00000000e+000]])

In [10]:
X_new, y_new = gm.sample(6)

In [11]:
X_new

array([[ 2.07911417,  0.33501613],
       [-0.67792189,  0.88866068],
       [-1.08077446,  0.16202833],
       [ 1.22226677, -0.56663207],
       [ 0.83137939,  0.08885843],
       [ 0.53211508, -0.32135437]])

In [12]:
y_new

array([0, 1, 1, 2, 2, 2])

In [13]:
gm.score_samples(X)

array([-2.11760786e+00, -6.31453414e-01, -1.23007907e+00, -2.28684814e+00,
       -1.51501932e+00, -1.72985255e+00, -1.22484921e+00, -1.64730631e+00,
       -1.63402132e+00, -1.41704691e+00, -1.62551205e+00, -2.24383584e+00,
       -7.81811915e-01, -1.45333897e+00, -9.63695790e-01, -2.05552474e+00,
       -1.53434790e+00, -1.78003153e+00, -1.72847119e+00, -1.57333933e+00,
       -1.38118363e+00, -1.33203401e+00, -2.00623342e+00, -2.11273976e-02,
       -5.56583151e-01, -1.41112934e+00, -1.50002033e+00, -1.93103064e+00,
       -1.64994580e+00, -1.64604612e+00, -3.38713767e-01, -6.06040068e-02,
       -2.08002465e+00, -1.74934228e+00, -2.13682450e+00, -1.55269010e+00,
       -1.86338905e+00, -1.14288084e+00, -1.60937813e+00, -1.48838324e+00,
       -1.68821812e+00, -9.20714474e-01, -1.52583766e+00, -1.97921506e+00,
       -9.95948392e-01, -1.68819763e+00, -1.59657011e+00, -1.55144710e+00,
       -1.79276831e+00, -1.87484007e-01, -5.10846708e-01, -1.57730860e+00,
        1.36753248e-01, -

In [14]:
import numpy as np
densities = gm.score_samples(X)
density_threshold = np.percentile(densities,4)
anomalies = X[densities < density_threshold]

In [15]:
gm.bic(X)

np.float64(2710.8937796892365)

In [16]:
gm.aic(X)

np.float64(2627.46193994654)

In [17]:
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_,2)



array([0.13, 0.14, 0.1 , 0.12, 0.16, 0.11, 0.1 , 0.13, 0.  , 0.  ])