###9.2 가우시안 혼합
- GMM(가우시안 혼합 모델): 샘플이 파라미터가 알려지지 않은 여러 개의 혼합된 가우시안 분포에서 생성되었다고 가정하는 확률모델
- 하나의 가우시안 분포에서 생성된 모든 샘플은 하나의 클러스터를 형성함
  - 클러스터는 대부분 타원형이며, 각 클러스터는 타원의 모양, 크기, 밀집도, 방향이 다름
- 데이터셋 X가 주어지면 가중치 $\theta$와 전체 분포의 파라미터 $\mu^{1}$에서 $\mu^{k}$까지와 $\SUM^{1}$에서 $\SUM^{k}$까지를 추정함
- 사이킷런에선 GussianMixture이라는 클래스를 사용함  

In [3]:
import numpy as np
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=1000,noise=0.05)

In [6]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10)
gm.fit(X)

In [7]:
gm.weights_

array([0.58223676, 0.2061373 , 0.21162594])

In [8]:
gm.means_

array([[ 0.50826847,  0.24052079],
       [ 1.73906539, -0.06506252],
       [-0.7203993 ,  0.57215525]])

In [9]:
gm.covariances_

array([[[ 0.16618737, -0.09356748],
        [-0.09356748,  0.28497379]],

       [[ 0.05641324,  0.06232203],
        [ 0.06232203,  0.08384879]],

       [[ 0.06143585,  0.06539826],
        [ 0.06539826,  0.08810314]]])

- 가우시안 혼합모델은 기댓값-최대화(EM)알고리즘을 사용함
  - 클러스터의 파라미터를 랜덤하게 초기화하고 수렴할 때까지 이 2단계를 반복함
  - 기댓값 단계: 샘플을 클러스터에 할당
  - 최대화 단계: 클러스터를 업데이터
- K-평균과 달리 EM은 소프트 클러스터 할당을 사용하여, 현재 클러스터 파라미터에 기반하여 각 클러스터에 속할 확률을 예측하는데, 이때의 확률은 클러스터의 **책임**이라고 함

In [10]:
gm.converged_

True

In [11]:
gm.n_iter_

16

In [12]:
# 새로운 샘플을 가장 비슷한 클러스터에 할당하는 경우(하드 군집)
gm.predict(X)

array([0, 2, 2, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0,
       2, 2, 0, 0, 2, 0, 0, 2, 2, 1, 1, 2, 0, 2, 0, 0, 1, 1, 2, 2, 0, 1,
       1, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 1, 0, 0, 1, 0, 2, 2, 0, 0, 0, 0,
       0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 2, 0, 2, 1, 0, 0, 1, 0, 1, 0, 2, 1,
       1, 1, 2, 2, 1, 0, 0, 1, 1, 0, 0, 0, 0, 0, 1, 2, 1, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 2, 1, 0, 0, 1, 2, 0, 0, 0, 0, 2, 0, 1, 0, 1, 2, 1,
       1, 2, 1, 0, 1, 1, 1, 0, 1, 0, 0, 2, 0, 1, 1, 0, 1, 2, 0, 0, 2, 0,
       0, 1, 0, 0, 2, 1, 1, 0, 2, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0,
       0, 0, 2, 2, 0, 0, 0, 2, 1, 0, 0, 0, 2, 0, 1, 2, 0, 2, 1, 1, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 2, 0, 0, 2, 0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1,
       1, 0, 0, 0, 0, 2, 1, 0, 2, 1, 1, 2, 0, 0, 0, 0, 1, 2, 2, 0, 2, 2,
       1, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 2, 1, 0, 0, 1, 0, 0, 0, 2, 2, 0,
       0, 0, 0, 1, 2, 0, 0, 2, 0, 0, 0, 1, 1, 0, 1, 0, 0, 2, 2, 2, 2, 0,
       0, 0, 0, 0, 2, 2, 0, 0, 1, 0, 0, 2, 0, 1, 1,

In [13]:
# 새로운 샘플을 특정 클러스터에 속할 확률을 예측하는 경우 (소프트 군집)
gm.predict_proba(X)

array([[1.00000000e+000, 4.37838171e-043, 3.80065272e-040],
       [4.44158248e-002, 3.09750827e-191, 9.55584175e-001],
       [4.90100963e-002, 4.47848624e-184, 9.50989904e-001],
       ...,
       [1.00000000e+000, 3.11900207e-013, 1.03659255e-080],
       [9.99997296e-001, 4.67789073e-121, 2.70399581e-006],
       [1.00000000e+000, 4.30943981e-046, 2.49308102e-037]])

- 가우시안 혼합 모델은 생성모델에 해당하기 때문에, 모델에서 새로운 샘플을 생성할 수 있음

In [14]:
X_new, y_new = gm.sample(6)
X_new

array([[ 0.37447797,  0.54223327],
       [ 0.50802879, -0.45862353],
       [ 1.09306586,  0.33666214],
       [ 2.09153694,  0.09672087],
       [ 1.8880242 ,  0.20260247],
       [-0.83905393,  0.34750531]])

In [15]:
y_new

array([0, 0, 0, 1, 1, 2])

- 주어진 위치에서 모델의 밀도를 추정할 수 있음 -> score_samples() 메서드 활용
  - 샘플이 주어지면 그 위치의 확률 밀도 함수(PDF)의 로그를 예측함
  - 점수가 높을수록 밀도가 높음
  - 점수의 지숫값을 계산하면 샘플의 위치에서 PDF의 값을 얻을 수 있음

In [16]:
gm.score_samples(X)

array([-1.52686839e+00, -6.57829784e-01, -5.52684478e-01, -1.97007778e+00,
       -1.54359508e+00, -1.50687613e+00, -1.69412176e+00, -1.89057963e+00,
       -1.96211888e+00, -1.45957233e+00, -2.08864574e+00, -1.74485130e+00,
       -2.19593259e+00, -8.59262738e-01, -1.37126525e+00, -1.48306832e+00,
       -5.75091445e-01, -1.78668016e+00, -1.46452302e+00, -1.71753591e+00,
       -1.25028394e+00, -1.85226204e+00, -8.23002181e-01, -4.28988468e-01,
       -1.60260388e+00, -2.01181145e+00, -5.87676025e-01, -1.73563204e+00,
       -1.77372126e+00, -7.65721043e-01, -9.25460269e-01, -2.11288957e-02,
       -4.25526835e-01, -4.55808200e-01, -1.59597721e+00, -1.57122284e+00,
       -2.18674872e+00, -1.52779389e+00, -2.54356027e+00, -2.31197398e+00,
       -4.15642910e-02, -3.73956326e-01, -2.17082378e+00, -2.94803457e-01,
       -6.00255929e-01, -1.80371752e+00, -1.96355758e+00, -1.04656947e+00,
       -1.44735692e+00, -1.20213276e+00, -1.67185847e+00, -7.27878452e-01,
       -1.82155640e+00, -

- 클러스터의 모양과 방향의 범위를 제한하면, EM이 최적의 솔루션으로 수렴하기 수월해짐
  - covariance_type에 제약을 추가
    - spherical: 모든 클러스터가 원형이나 지름은 다를 수 있음(분산이 다름)
    - diag: 클러스터가 크기에 상관없이 어떤 타원형도 가능하나, 타원의 축은 좌표 축과 나란함
    - tied: 모든 클러스터가 동일한 타원 모양 크기, 방향을 가짐

**9.2.1 가우시안 혼합을 사용한 이상치 탐지
- 이상치 탐지: 보통과 많이 다른 샘플을 탐지하는 것
- 가우시안 혼합 모델에서 이상치는 밀도가 낮은 지역에 있는 모든 샘플이라고 보면 됨
  - 즉, 밀도 임계값을 정해, 임계값보다 낮은 값을 이상치로 보는 것

In [17]:
densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 4)
amonalies = X[densities < density_threshold]

- 이상치 탐지와 비슷하게 특이치 탐지도 존재
  - 이상치로 오염되지 않은 깨끗한 데이터 셋에서 훈련 진행

**9.2.2 클러스터 개수 선택하기**
- 가우시안 혼합모델에서는 BIC와 AIC와 같은 이론적 정보기준을 최소화하는 지표를 이용하여 적절한 클러스터의 개수를 찾아냄
  - 이 두 평가지표 모두 학습할 파라미터가 많은 모델에게 벌칙을 가하고 데이터에 잘 학습하는 모델에게 보상을 더하는 방식임
  - 둘은 선택은 대다수 동일하나, 일부 다른 경우 대개 BIC가 선택한 모델이 AIC가 선택한 모델보다 간단한 경향이 존재

In [18]:
gm.bic(X)

np.float64(2798.7879954096456)

In [19]:
gm.aic(X)

np.float64(2715.3561556669492)

- covariance_type 매개변수에 데해 최선의 값을 탐색할 수도 있음

**9.2.3 베이즈 가우시안 혼합 모델**
- 최적의 클러스터 개수를 수동으로 찾는 것이 아닌 불필요한 클러스터의 가중치를 0으로 두는 방식
- n_components를 최적의 클러스터 개수보다 크다고 믿을 만한 값으로 지정한 후, 자동으로 불필요한 클러스터를 제거함

In [21]:
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components= 10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_, 2)

array([0.13, 0.13, 0.18, 0.11, 0.15, 0.12, 0.11, 0.08, 0.  , 0.  ])

- 이 모델이서 클러스터 파라미터는 고정된 모델 파라미터가 아닌, 클러스터 할당과 같은 잠재 확률변수가 됨
- 베타 분포: 고정 범위 안에 놓인 값을 가진 확률 변수를 모델링할 때 사용하는 분포
  - 범위는 0에서 1 사이
  - 새로운 샘플이 작은 클러스터보다 큰 클러스터에 합류할 가능성이 높은 데이터셋에 잘맞음
  - 잠재변수 z에 대한 사전지식이 사전 확률이라는 확률분포에 인코딩되어, 사전 믿음을 가질 수 있음
    - 이러한 사전 믿음은 weight_concentration_prior 매개변수로 조정 가능
- 베이즈 정리는 이렇게 데이터 X가 주어졌을 때 z의 조건부 확률인 사후 확률 분포를 계산하게 됨
  - 하지만 이 사후 확률의 분모인 p(X)를 직접알기 어렵다는 점이 베이즈 정리의 문제임
    -이를 해결하기 위하여 변분추론 방식을 사용
- 변분 추론: 자체적인 변분 파라미터를 가진 분포 패밀리를 선택하고 다음 확률이 이 분포 패밀리에 좋은 근삿값이 되도록 파라미터를 최적화 함
  - 이는 다음 확률에서 분포패밀리로의 KL 발산을 최소화하는 $\lambda$를 찾아야 함
    - 이 식을 다시 작성하면 증거의 로그에서 증거 하한(ELBO)를 뺀 식으로 작성 가능
    - 즉, KL 발산을 최소화하기 위해선 ELBO를 최대화 해야 함
- ELBO를 최대화하는 간단한 방법 중 하나는 블랙 박스 확률적 변분 추론임
  - 각 반복에서 몇개의 샘플을 q에서 뽑아 변분 파라미터 $\lambda$에 대한 ELBO의 그레이디언트를 추정하는데 사용됨

**9.2.4 이상치 탐지와 특이치 탐지를 위한 다른 알고리즘**
- PCA: 보통 샘플의 재구성 오차와 이상치의 재구성 오차를 비교하면 일반적으론 후자가 더욱 큼
- Fast-MCD: 이상치 감지에 유용한 알고리즘으로, 데이터 셋을 정제할 때 사용됨. 보통 샘플이 하나의 가우시안 분포에서 생성되었다고 가정하면, 이 가우시안 분포에서 생성되지 않은 이상치로 이 데이터셋은 오염되었다고 가정함
- 아이솔레이션 포레스트: 고차원 데이터셋에서 이상치 감지를 위한 효율적인 알고리즘으로, 무작위로 성장한 결정 트리로 구성된 랜덤 포레스트를 만들어 각 노드에서 특성을 랜덤하게 선택한 다음, 랜덤한 임계값을 골라 데이터 셋을 점차 분리하여 다른 샘플과 격리 될 때까지 진행함
- LOF: 주어진 샘플 주위의 밀도와 이웃 주위의 밀도를 비교하는 방법
- one-clas SVM: 특이치 탐지에 적합하며, 원본 공간으로부터 고차원 공간에 있는 샘플을 분리하게 됨, 대규모 데이터셋으로의 확장이 어려움