<a href="https://colab.research.google.com/github/JS0501/ESAA_OB/blob/main/ESAA0919.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **9.2 가우시안 혼합**

**가우시안 혼합 모델** (GMM)은 샘플이 파라미터가 알려지지 않은 여러 개의 혼합된 가우시안 분포에서 생성되었다고 가정한다.

하나의 가우시안 분포에서 생성된 모든 샘플은 하나의 클러스터를 형성하고, 일반적으로 이 클러스터는 타원형이다.

각 클러스터는 타원의 모양, 크기, 밀집도, 방향이 다르다.



In [1]:
import numpy as np

from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000,noise=0.05)

In [2]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10)
gm.fit(X)

이 알고리즘이 추정한 파라미터 확인.

In [3]:
gm.weights_

array([0.60922231, 0.20001342, 0.19076427])

In [5]:
gm.means_

array([[ 0.48701397,  0.2619038 ],
       [ 1.75274828, -0.04890987],
       [-0.77266757,  0.53710723]])

In [6]:
gm.covariances_

array([[[ 0.18197672, -0.11537087],
        [-0.11537087,  0.29323356]],

       [[ 0.05069573,  0.06052909],
        [ 0.06052909,  0.08709579]],

       [[ 0.04031055,  0.05283696],
        [ 0.05283696,  0.08571576]]])

이 클래스는 **기댓값-최대화** (EM) 알고리즘 사용한다.

클러스터 파라미터를 랜덤하게 초기화하고 수렴할때까지 두 단계를 반복한다.

먼저 샘플을 클러스터에 할당하고, (**기댓값 단계**)

클러스터를 업데이트한다. (**최대화 단계**)

k-평균과 달리 **EM**은 하드 클러스터 할당이 아니라 **소프트 클러스터 할당**을 사용한다.

예를 들어 기댓값 단계에서 알고리즘은 (현재 클러스터 파라미터에 기반하여) 각 클러스터에 속할 확률을 예측한다.

그다음 최대화 단계에서 각 클러스터가 데이터셋에 있는 모든 샘플을 사용해 업데이트된다.

클러스터에 속할 추정 확률로 샘플에 가중치가 적용된다.

이 확률을 샘플에 대한 클러스터의 **책임**이라고 부른다.

최대화 단계에서 클러스터 업데이트는 책임이 가장 많은 샘플에 크게 영향을 받는다.



알고리즘이 수렴했는지 여부와 반복 횟수 확인.

In [7]:
gm.converged_

True

In [8]:
gm.n_iter_

17

새로운 샘플을 가장 비슷한 클러스터에 할당 (하드 군집) -> predict()

특정 클러스터에 속할 확률 예측 (소프트 군집) -> predict_proba()

In [9]:
gm.predict(X)

array([0, 1, 0, 0, 0, 0, 0, 2, 1, 0, 1, 1, 0, 0, 0, 0, 2, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 2, 2, 2, 2, 2, 0, 0, 2, 1, 0, 0, 1, 2, 2, 0, 2, 2, 0,
       0, 1, 0, 1, 0, 1, 0, 2, 0, 1, 0, 2, 1, 1, 0, 0, 1, 0, 2, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 2, 2, 0, 0, 0, 0, 2, 0, 2, 1, 1, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 2, 0, 0, 1, 1,
       0, 2, 2, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 2, 0, 2, 1, 0, 0,
       2, 0, 0, 0, 1, 0, 1, 0, 0, 2, 2, 1, 0, 0, 1, 0, 0, 0, 0, 0, 2, 0,
       1, 0, 0, 0, 0, 1, 0, 2, 0, 2, 1, 0, 2, 0, 0, 0, 2, 0, 0, 0, 0, 2,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 1, 1, 0, 2, 1, 0, 0, 0, 0, 0, 2, 2, 1, 0, 0, 0, 0, 1, 0, 0,
       2, 0, 0, 0, 0, 1, 1, 0, 0, 2, 1, 0, 0, 2, 2, 2, 0, 0, 0, 1, 0, 0,
       2, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0,
       1, 0, 0, 0, 2, 0, 2, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 2, 0, 0, 0, 0,
       0, 0, 0, 2, 0, 0, 0, 1, 2, 2, 1, 0, 0, 2, 1,

In [10]:
gm.predict_proba(X)

array([[9.99773873e-001, 2.26127007e-004, 7.46223553e-171],
       [1.60375905e-004, 9.99839624e-001, 9.22784819e-233],
       [1.00000000e+000, 2.21010693e-057, 3.07582730e-053],
       ...,
       [1.00000000e+000, 1.06806259e-064, 2.08027139e-047],
       [1.00000000e+000, 1.78364987e-014, 6.11708677e-127],
       [1.00000000e+000, 7.51743451e-030, 7.27730427e-091]])

가우시안 혼합 모델은 **생성 모델**이다.

즉, 이 모델에서 새로운 샘플을 만들 수 있다.

In [11]:
X_new, y_new = gm.sample(6)
X_new

array([[-0.04472619,  0.15012257],
       [ 0.74865346,  0.59945773],
       [-0.01823586,  0.38847578],
       [ 1.8701089 ,  0.19502967],
       [ 1.54747012, -0.55050968],
       [ 1.74950288, -0.0475853 ]])

In [12]:
y_new

array([0, 0, 0, 1, 1, 1])

또한 주어진 위치에서 모델의 밀도를 추정할 수 있다.

이를 위해 score_samples() 메서드를 사용한다.

샘플이 주어지면 이 메서드는 그 위치의 **확률 밀도 함수**의 로그를 예측한다.

점수가 높을수록 밀도가 높다.

In [17]:
gm.score_samples(X)

array([-1.93740728e+00, -9.97390686e-01, -2.04526741e+00, -1.63183391e+00,
       -1.80730064e+00, -1.49771667e+00, -2.07007717e+00, -1.47873162e+00,
       -3.66654194e-01, -1.46093916e+00, -4.73059049e-01, -2.94017331e-01,
       -2.04393486e+00, -1.66094868e+00, -2.00138761e+00, -1.63048621e+00,
       -1.86985944e+00, -1.90131872e+00, -1.62967294e+00, -1.68709026e+00,
       -1.74161676e+00, -6.51395910e-01, -1.80607759e+00, -1.56428196e+00,
       -1.89755381e+00, -8.31625318e-01, -6.46646563e-01, -1.54478825e+00,
       -9.74514655e-01, -1.07791303e-02, -2.55159958e-03, -1.36434400e+00,
       -1.70931259e+00, -1.52997277e+00, -1.81361479e-01, -1.29471747e+00,
       -1.86891136e+00, -2.50644243e-01, -4.53276413e-01, -1.54783334e+00,
       -1.84744397e+00, -4.21273277e-01, -2.81654679e+00, -1.32276338e+00,
       -1.69235808e+00, -1.02843554e-03, -2.19720152e+00, -2.67084849e-01,
       -1.50144000e+00, -1.88918503e+00, -1.41675306e+00, -7.41538773e-01,
       -2.02473556e+00, -

### **9.2.1 가우시안 혼합을 사용한 이상치 탐지**

**이상치 탐지**는 보통과 많이 다른 샘플을 감지하는 작업이다.

가우시안 혼합 모델을 이상치 탐지에 사용하는 방법은 매우 간단하다.

밀도가 낮은 지역에 있는 모든 샘플을 이상치로 볼 수 있다.

이렇게 하려면 사용할 밀도 임곗값을 정해야 한다.

네 번째 백분위수 (4%)를 밀도 임곗값으로 사용하여 이상치를 구분하는 방법.

In [13]:
densities = gm.score_samples(X)
density_threshold = np.percentile(densities,4)
anomalies = X[densities < density_threshold]

이와 비슷한 작업은 **특이치 탐지**이다.

이 알고리즘은 이상치로 오염되지 않은 '깨끗한' 데이터셋에서 훈련한다는 것이 이상치 탐지와 다르다.

### **9.2.2 클러스터 개수 선택하기**

k-평균에서는 이너셔나 실루엣 점수를 사용해 적절한 클러스터 개수를 선택한다.

가우시안 혼합에서는 이러한 지표를 사용할 수 없다.

이런 지표들은 클러스터가 타원형이거나 크기가 다를 때 안정적이지 않기 때문이다.

대신 **BIC**나 **AIC**와 같은 **이론적 정보 기준**을 최소화하는 모델을 찾는다.

BIC와 AIC는 모두 학습할 파라미터가 많은(즉 클러스터가 많은) 모델에게 벌칙을 가하고 데이터에 잘 학습하는 모델에게 보상을 더한다.

이 둘은 종종 동일한 모델을 선택하지만, 둘의 선택이 다를 경우 BIC가 선택한 모델이 더 간단한(파라미터가 적은) 경향이 있다.

하지만 데이터에 아주 잘 맞지 않을 수 있다.

BIC, AIC 계산.

In [14]:
gm.bic(X)

np.float64(2754.427035559637)

In [15]:
gm.aic(X)

np.float64(2670.9951958169404)

### **9.2.3 베이즈 가우시안 혼합 모델**

최적의 클러스터 개수를 수동으로 찾지 않고 불필요한 클러스터의 가중치를 0으로(또는 0에 가깝게) 만드는 BayesianGaussianMixture 클래스를 사용할 수 있다.

클러스터 개수는 n_components를 최적의 클러스터 개수보다 크다고 믿을 만한 값으로 지정한다.

이 알고리즘은 자동으로 불필요한 클러스터를 제거한다.

예를 들어 클러스터 개수를 10으로 설정하고 결과 확인.

In [16]:
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_,2)



array([0.13, 0.13, 0.16, 0.16, 0.11, 0.1 , 0.11, 0.1 , 0.  , 0.  ])

**베타 분포**는 고정 범위 안에 놓인 값을 가진 확률 변수를 모델링할 때 자주 사용된다.

이 경우는 0에서 1 범위이다.

### **9.2.4 이상치 탐지와 특이치 탐지를 위한 다른 알고리즘**

사이킷런에는 이상치 탐지와 특이치 탐지 전용으로 사용할 수 있는 몇 가지 알고리즘이 구현되어 있다.

- PCA

보통 샘플의 재구성 오차와 이상치의 재구성 오차를 비교하면 일반적으로 후자가 훨씬 크다. 이는 간단하고 종종 매우 효과적인 이상치 탐지 기법이다.

- Fast-MCD

EllipticEnvelope 클래스에서 구현된 이 알고리즘은 이상치 감지에 유용하다. 특히 데이터셋을 정제할 때 사용된다.

- 아이솔레이션 포레스트

특히 고차원 데이터셋에서 이상치 감지를 위한 효율적인 알고리즘이다. 이 알고리즘은 무작위로 성장한 결정 트리로 구성된 랜덤 포레스트를 만든다.

- LOF

이상치 탐지에 유용하다. 주어진 샘플 주위의 밀도와 이웃 주위의 밀도를 비교한다. 이상치는 종종 k개의 최근접 이웃보다 더 격리된다.

- one-class SVM

특이치 탐지에 잘 맞는다. 특히 고차원 데이터셋에 잘 작동한다. 하지만 모든 SVM과 마찬가지로 대규모 데이터셋으로의 확장은 어렵다.