## KMeans Clustering

In [None]:
from sklearn.preprocessing import scale
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd


In [None]:
iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=["sepal_length","sepal_width","petal_length","petal_width"])
iris_df.head()

In [None]:
kmeans = KMeans(n_clusters=3, max_iter=300, random_state=316)
kmeans.fit(iris_df)

In [None]:
print(kmeans.labels_)

In [None]:
iris_df["target"] = iris.target
iris_df["cluster"] = kmeans.labels_
iris_result = iris_df.groupby(["target","cluster"])["sepal_length"].count()
print(iris_result)

### 군집화 평가

#### 실루엣분석(Silhouette analysis)

- 각 군집 간 거리가 얼마나 효율적으로 분리되어 있는지를 평가
- 실루엣 계수(silhouette coefficient): 개별 데이터의 군집화 집표
    - $a(i)$ : 해당 데이터 포인트와 같은 군집 내에 있는 다른 데이터 포인트와의 평균거리 
    - $b(i)$ : 해당 데이터 포인트가 속하지 않는 군집 중 가장 가까운 군집과의 평균거리
    $$ s(i) = \frac{b(i)-a(i)}{\max(a(i),b(i))}, \qquad - \leq s(i) \leq 1  $$
    - 1에 가까울수록 근처 군집과 멀리 떨어져 있음
    - 0에 가까울수록 근처 군집과 가까움
    - 음수는 다른 군집에 할당되어 있음

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score


In [None]:
iris_df["silhouette"] = silhouette_samples(iris.data, iris_df["cluster"])

In [None]:
ave_score = silhouette_score(iris.data,iris_df["cluster"])
print("SAS:{0:.4f}".format(ave_score))

In [None]:
iris_df.head()

In [None]:
iris_df.groupby("cluster")["silhouette"].mean()

## GMM(Gaussian Mixture Model)
$$f(x) = \sum_{k=1}^K w_k f_k (x), \qquad f_k = N(\mu_k , \sigma_k^2) $$

- 개별 정규분포의 평균과 분산 추정
- 각 데이터가 어떤 정규분포에 해당되는지에 대한 확률 추정

In [None]:
from sklearn.mixture import GaussianMixture

In [None]:
gmm = GaussianMixture(n_components=3, random_state=316).fit(iris.data)
iris_df["gmm"] = gmm.predict(iris.data)
iris_df.head()

In [None]:
iris_result = iris_df.groupby(["target"])["gmm"].value_counts()
print(iris_result)

## 기타 군집법

- 평균이동(mean shift) : from sklearn.cluster import MeanShift
- DBSCAN(density based spatial clustering of applications with noise): from sklearn.cluster import DBSCAN
