<a href="https://colab.research.google.com/github/salmonin-o3o/ESAA_study/blob/main/250324_markdown.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

핸즈온
## 9.2 가우시안 혼합
가우시안 혼합 모델(GMM)은 샘플이 파라미터가 알려지지 않은 여러 개의 혼합된 가우시안 분포에서 생성되었다고 가정하는 확률 모델이다. 하나의 가우시안 분포에서 생성된 모든 샘플은 하나의 클러스터를 형성하며, 일반적으로 이 클러스터는 타원형이다.

여러 GMM 변종이 있다. 가장 간단한 버전이 GaussianMixture 클래스에 구현되어 있다. 여기에서는 사전에 가우시안 분포의 개수 k를 알아야 한다.

먼저 데이터셋 X가 주어지면 가중치와 전체 분포의 파라미터를 추정한다. 사이킷런의 GaussianMixture 클래스를 사용하면 아주 쉽다.

In [1]:
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise= 0.05)

In [2]:
from sklearn.mixture import GaussianMixture

gm = GaussianMixture(n_components=3, n_init=10)
gm.fit(X)

In [3]:
# 파라미터 확인
gm.weights_

array([0.59426052, 0.20081036, 0.20492912])

In [4]:
gm.means_

array([[ 0.49329066,  0.25381583],
       [-0.75253784,  0.55059118],
       [ 1.73770181, -0.05850789]])

In [5]:
gm.covariances_

array([[[ 0.16857436, -0.10392462],
        [-0.10392462,  0.29232143]],

       [[ 0.04867727,  0.05890034],
        [ 0.05890034,  0.08808797]],

       [[ 0.0521202 ,  0.06080262],
        [ 0.06080262,  0.08511239]]])

이 클래스는 기댓값-최대화 알고리즘을 사용한다. 이 알고리즘은 k-평균 알고리즘과 비슷하게, 샘플을 클러스터에 할당하고(기댓값 단계), 클러스터를 업데이트하는(최대화 단계)를 수렵할 때까지 반복한다. 대신 EM은 하드 클러스터 할당이 아니라 소프트 클러스터 할당을 사용한다.

알고리즘이 수렴했는지 여부와 반복 횟수를 확인할 수 있다.

In [6]:
gm.converged_

True

In [7]:
gm.n_iter_

17

이제 각 클러스터를 예측했으므로, 새로운 샘플을 할당할 수 있고(하드 군집), 특정 클러스터에 속할 확률도 예측할 수 있다(소프트 군집). 하드 군집을 위해서는 predict(), 소프트 군집을 위해서는 predict_proba()를 사용한다.

In [8]:
gm.predict(X)

array([2, 0, 0, 2, 0, 0, 0, 2, 0, 1, 0, 0, 0, 0, 2, 2, 2, 0, 0, 0, 0, 1,
       0, 0, 2, 1, 0, 0, 2, 0, 2, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1, 0, 2,
       2, 0, 1, 0, 0, 1, 2, 0, 0, 1, 0, 0, 1, 1, 2, 2, 1, 0, 0, 2, 2, 0,
       2, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 1, 2, 1, 0, 0, 0, 1, 0,
       0, 2, 2, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0,
       0, 2, 0, 2, 2, 1, 0, 0, 1, 0, 1, 2, 0, 0, 2, 0, 2, 1, 1, 1, 1, 0,
       1, 0, 2, 0, 0, 0, 0, 0, 2, 1, 2, 0, 0, 0, 0, 2, 0, 2, 0, 2, 0, 0,
       0, 2, 0, 2, 1, 0, 0, 1, 1, 0, 1, 0, 0, 2, 0, 0, 0, 0, 2, 2, 1, 0,
       1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 0, 0, 0, 2, 1, 2, 2, 0, 0, 0, 1, 0,
       0, 1, 0, 1, 1, 1, 0, 1, 0, 0, 2, 0, 1, 0, 0, 2, 0, 0, 0, 0, 0, 0,
       0, 0, 2, 0, 2, 1, 1, 0, 0, 0, 2, 0, 0, 1, 2, 0, 0, 2, 0, 0, 0, 0,
       0, 2, 0, 1, 1, 0, 0, 0, 0, 0, 2, 2, 0, 2, 2, 0, 0, 1, 0, 1, 0, 0,
       2, 0, 0, 1, 0, 0, 0, 1, 1, 0, 2, 1, 2, 0, 0, 0, 0, 2, 1, 0, 1, 1,
       0, 2, 0, 2, 0, 0, 1, 0, 0, 2, 1, 0, 0, 0, 0,

In [9]:
gm.predict_proba(X)

array([[3.96123132e-001, 7.39547923e-180, 6.03876868e-001],
       [1.00000000e+000, 5.36728770e-071, 4.61309078e-035],
       [9.99999987e-001, 1.32982921e-008, 3.96893147e-142],
       ...,
       [4.85346125e-004, 1.55526054e-192, 9.99514654e-001],
       [9.46351760e-004, 4.58105044e-175, 9.99053648e-001],
       [1.00000000e+000, 9.44146493e-025, 7.05734611e-089]])

가우시안 혼합 모델은 생성 모델이기 때문에 이 모델에서 새로운 샘플을 만들 수 있따.

In [10]:
X_new, y_new = gm.sample(6)
X_new

array([[-0.2200422 ,  0.65487595],
       [ 0.39905965,  0.11924233],
       [ 0.44379807, -0.3969634 ],
       [ 0.97889582, -0.24882888],
       [ 0.67226015,  1.21137562],
       [-1.01166803,  0.27937993]])

In [11]:
y_new

array([0, 0, 0, 0, 0, 1])

또한 score_samples()는 샘플이 주어지면 주어진 위치ㅔ서의 pdf의 로그를 예측한다. 점수가 높을수록 밀도가 높다.

In [12]:
gm.score_samples(X)

array([-1.77170282e+00, -1.38369139e+00, -1.80968669e+00, -1.44387998e+00,
       -1.52818955e+00, -1.58794176e+00, -1.99305965e+00, -1.53298491e-01,
       -1.65034674e+00, -1.90376561e+00, -1.51378981e+00, -1.42400742e+00,
       -1.85405237e+00, -1.63561620e+00, -1.32319550e+00, -7.22860716e-01,
       -1.24163744e+00, -2.25215821e+00, -1.50035716e+00, -2.05866609e+00,
       -1.37986450e+00,  5.72773200e-02, -1.37110899e+00, -1.61825056e+00,
       -6.74992728e-01, -3.68639390e+00, -1.28344075e+00, -2.13398984e+00,
       -1.96046011e+00, -1.65423445e+00, -5.86424503e-01, -1.66127710e+00,
       -2.25094092e+00, -2.89078742e-01, -1.38442914e+00, -5.44399438e-01,
       -1.51130933e+00, -2.17028434e+00, -6.82783757e-01, -1.56846305e+00,
       -1.70025501e+00, -4.92716488e-01, -1.48974424e+00, -1.59167281e+00,
       -3.51734585e-01, -1.45311136e+00, -1.66366034e+00, -1.47047437e+00,
       -1.51212670e+00, -2.61266384e-01, -3.16546856e+00, -1.80852136e+00,
       -1.65318232e+00, -

그러나 실제로는 특성이나 클러스터가 많거나 샘플이 적을 수 있다. 이때는 EM이 최적의 솔루션으로 수렴하기 어렵다. 따라서 알고리즘이 학습할 파라미터 개수를 제한해야한다. covariance_type 매개변수에 다음 값을 설정해보자.
- spherical
- diag
- tied
또한, 가우시안 혼합 모델은 이상치 탐지에도 사용할 수 있다.

### 9.2.1 가우시안 혼합을 사용한 이상치 탐지
이상치 탐지는 보통과 많이 다른 샘플을 감지하는 작업이다. 다른 모델을 훈련하기 전에 데이터셋에서 이사치를 제거하는 데 사용하기도 한다.

가우시안 혼합 모델에서, 밀도가 낮은 지역에 있는 모든 샘플은 이상치로 간주된다. 이렇게 하려면 사용할 밀도 임곗값을 정해야한다. 임곗값이 너무 작거나 크면, 정밀도/재현율 트레이드 오프가 발생할 수 있다.

다음은 4$를 밀도 임곗값으로 사용하여 이상치를 구분하는 방법이다.

In [13]:
import numpy as np

densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 4)
anomalies = X[densities < density_threshold]

이와 비슷한 작업으로는 특이치 탐지가 있다. 이 알고리즘은 이상치로 오염되지 않은 깨끗한 데이터셋에서 훈련해야한다.

### 9.2.2 클러스터 개수 선택하기
가우시안 혼합에서는 BIC나 AIC와 같은 이론적 정보 기준을 최소화하는 모델을 찾아 클러스터 개수를 선택한다.

AIC와 BIC는 모두 학습할 파라미터가 많은(클러스터가 많은) 모델에게 벌칙을 가하고 데이터에 잘 학습하는 모델에게 보상을 더한다.

*가능도 함수*

확률과 가능도는 비슷하지만 다르다. 확률 모델이 주어지면 '확률'은 미래 출력 x가 얼마나 그럴듯한지 설명하고, '가능도'는 출력 x를 알고 있을 때 특정 파라미터 값이 얼마나 그럴듯한지 설명한다. 간단히 말해, PDF는 x의 함수이고, 가능도 함수는 theta의 함수이다.

bic() aic()를 사용해 BIC와 AIC를 계산한다.

In [14]:
gm.bic(X)

np.float64(2739.375360080258)

In [15]:
gm.aic(X)

np.float64(2655.9435203375615)

k=3일 때, AIC와 BIC가 모두 가장 작다. 또는, covariance_type 매개변수에 대해 최선의 값을 탐색할 수도 있다.

### 9.2.3 베이즈 가우시안 혼합 모델
최적의 클러스터 개수를 수동으로 찾지 않고 불필요한 클러스터의 가중치를 0으로 만드는 BaysianGaussianMixture 클래스를 사용할 수 있다. 이 알고리즘은 클러스터 개수 n_components를 최적의 클러스터 개수보다 크다고 맏을 만한 값으로 지정해주면, 자동으로 불필요한 클러스터를 제거한다.

In [16]:
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_, 2)



array([0.16, 0.11, 0.21, 0.15, 0.11, 0.14, 0.12, 0.  , 0.  , 0.  ])

알고리즘이 자동으로 7개의 클러스터가 필요하다는 것을 감지했다.

베타 분포는 고정 범위 안에 높인 값을 가진 확률 변수를 모델링할 때 자주 사용된다.

### 9.2.4 이상치 탐지와 특이치 탐지를 위한 다른 알고리즘
사이킷런에는 이상치 탐지와 특이치 탐지 전용으로 사용할 수 있는 몇가지 알고리즘이 구현되어 있다.
- PCA
- Fast_MCD
- 아이솔레이션 포레스트
- LOF
- one-class SVM
