# 군집 평가(Clustering Evaluation)
- 엘보우(Elbow) 기법(잘 쓰지는 않는다)
    - SSE: 각 데이터의 가장 가까운 군집 중심과의 거리 제곱의 합
- 실루엣(Silhouette) 기법(주로 사용하는 기법)
    - 다른 군집과의 거리는 멀고 동일 군집의 데이터는 가까운 것이 좋음
    - 실루엣 계수의 평균 값이 1에 가까울수록 좋음
    - 개별 군집의 실루엣 계수 평균 값이 전체 평균 값과 비슷할수록 좋음

In [11]:
from sklearn.preprocessing import scale
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score
import pandas as pd 

In [12]:
iris = load_iris()
df = pd.DataFrame(data=iris.data, columns=['sepal_length', 'sepal_width', 'petal_length', 'petal_width'])
kmeans = KMeans(n_clusters=3, max_iter=300).fit(df)
df['cluster'] = kmeans.labels_

score_samples = silhouette_samples(iris.data, df['cluster'])
print(score_samples.shape)

df['silhouette_coeff'] = score_samples
average_score = silhouette_score(iris.data, df['cluster'])
print(average_score)

df.head()

(150,)
0.5528190123564091


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,cluster,silhouette_coeff
0,5.1,3.5,1.4,0.2,1,0.852955
1,4.9,3.0,1.4,0.2,1,0.815495
2,4.7,3.2,1.3,0.2,1,0.829315
3,4.6,3.1,1.5,0.2,1,0.805014
4,5.0,3.6,1.4,0.2,1,0.849302


In [13]:
df.groupby('cluster')['silhouette_coeff'].mean()

cluster
0    0.417320
1    0.798140
2    0.451105
Name: silhouette_coeff, dtype: float64