## 실루엣 분석
- 각 군집간의 거리가 얼마나 효율적으로 분리되어 있는지를 나타내는 지표 : 실루엣 계수

### 붓꽃 데이터 세트를 이용한 군집 평가(실루엣 분석)

In [2]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.cluster import KMeans

# 실루엣 분석(평가방법)
from sklearn.metrics import silhouette_samples
from sklearn.metrics import silhouette_score

In [3]:
iris = load_iris()
#DataFrame 생성
column_names  = ['sepal_length','sepal width','petal_length','petal_width']
iris_df = pd.DataFrame(iris.data, columns=column_names)
iris_df.head()

Unnamed: 0,sepal_length,sepal width,petal_length,petal_width
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [20]:
# 군집화
kmeans = KMeans(n_clusters=3, init='k-means++', max_iter=300, random_state=0)
kmeans.fit(iris_df)

KMeans(n_clusters=3, random_state=0)

In [21]:
# 군집 결과 저장(데이터 프레임에 추가)
iris_df['cluster'] = kmeans.labels_

In [22]:
score_samples = silhouette_samples(iris.data    # 데이터
                                   , iris_df['cluster']  # Kmeans 군집화 데이터결과
                                  )

In [23]:
score_samples.shape

(150,)

In [24]:
iris_df['sil_coef'] = score_samples

In [25]:
iris_df

Unnamed: 0,sepal_length,sepal width,petal_length,petal_width,cluster,sil_coef
0,5.1,3.5,1.4,0.2,0,0.852955
1,4.9,3.0,1.4,0.2,0,0.815495
2,4.7,3.2,1.3,0.2,0,0.829315
3,4.6,3.1,1.5,0.2,0,0.805014
4,5.0,3.6,1.4,0.2,0,0.849302
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2,0.425136
146,6.3,2.5,5.0,1.9,1,0.104171
147,6.5,3.0,5.2,2.0,2,0.314930
148,6.2,3.4,5.4,2.3,2,0.352454


In [26]:
avg_score = silhouette_score(iris_df, iris_df['cluster'])
np.round(avg_score, 5)

0.6079

In [27]:
iris_df.head()

Unnamed: 0,sepal_length,sepal width,petal_length,petal_width,cluster,sil_coef
0,5.1,3.5,1.4,0.2,0,0.852955
1,4.9,3.0,1.4,0.2,0,0.815495
2,4.7,3.2,1.3,0.2,0,0.829315
3,4.6,3.1,1.5,0.2,0,0.805014
4,5.0,3.6,1.4,0.2,0,0.849302


In [29]:
iris_df[iris_df['cluster']==0].mean()

sepal_length    5.00600
sepal width     3.42800
petal_length    1.46200
petal_width     0.24600
cluster         0.00000
sil_coef        0.79814
dtype: float64

In [31]:
np.round(iris_df[iris_df['cluster']==0]['sil_coef'].mean(), 5)

0.79814

In [32]:
np.round(iris_df[iris_df['cluster']==1]['sil_coef'].mean(), 5)

0.41732

In [33]:
np.round(iris_df[iris_df['cluster']==2]['sil_coef'].mean(), 5)

0.45111

In [35]:
iris_df.groupby('cluster')['sil_coef'].mean()

cluster
0    0.798140
1    0.417320
2    0.451105
Name: sil_coef, dtype: float64

- 레이블 0으로 군집화 된 애들은 잘 군집이 되어있지만, 1,2인 경우는 상대적으로 군집도가 떨어진다.
- 즉 이 데이터 상으로는(정답과 관계없이) 3개의 레이블로 군집화하는것이 이치상 맞지 않다. 2개로 군집화가 되는 것이 맞을 것이다.

In [36]:
# 군집화 2개 중심으로 군집화해보기
kmeans = KMeans(n_clusters=2, init='k-means++', max_iter=300, random_state=0)
kmeans.fit(iris_df)

KMeans(n_clusters=2, random_state=0)

In [37]:
iris_df['cluster'] = kmeans.labels_

In [38]:
score_samples = silhouette_samples(iris.data    # 데이터
                                   , iris_df['cluster']  # Kmeans 군집화 데이터결과
                                  )

In [39]:
iris_df['sil_coef'] = score_samples

In [40]:
avg_score = silhouette_score(iris_df, iris_df['cluster'])
np.round(avg_score, 5)

0.69676

In [42]:
iris_df.groupby('cluster')['sil_coef'].mean()

cluster
0    0.809767
1    0.621920
Name: sil_coef, dtype: float64

In [49]:
# 군집화 4개 중심으로 군집화해보기
kmeans = KMeans(n_clusters=4, init='k-means++', max_iter=300, random_state=0)
kmeans.fit(iris_df)

iris_df['cluster'] = kmeans.labels_

score_samples = silhouette_samples(iris.data    # 데이터
                                   , iris_df['cluster']  # Kmeans 군집화 데이터결과
                                  )

iris_df['sil_coef'] = score_samples

avg_score = silhouette_score(iris_df, iris_df['cluster'])
print(np.round(avg_score, 5),'\n')

iris_df.groupby('cluster')['sil_coef'].mean()

0.63977 



cluster
0    0.338776
1    0.759235
2    0.344019
3    0.438901
Name: sil_coef, dtype: float64

4개로 군집화 : 편차가 심해졌고, 좋은 값인 1에서 더 멀어졌다

In [50]:
# 군집화 5개 중심으로 군집화해보기
kmeans = KMeans(n_clusters=5, init='k-means++', max_iter=300, random_state=0)
kmeans.fit(iris_df)

iris_df['cluster'] = kmeans.labels_

score_samples = silhouette_samples(iris.data    # 데이터
                                   , iris_df['cluster']  # Kmeans 군집화 데이터결과
                                  )

iris_df['sil_coef'] = score_samples

avg_score = silhouette_score(iris_df, iris_df['cluster'])
print(np.round(avg_score, 5),'\n')

print(iris_df.groupby('cluster')['sil_coef'].mean())

0.62139 

cluster
0    0.306355
1    0.759235
2    0.438901
3    0.240943
4    0.463660
Name: sil_coef, dtype: float64


### 전체 데이터의 평균 실루엣 계수값이 높다고 해서 반드시 최적의 군집 개수로 군집화가 잘 됐다고 볼수 없다
- 특정 군집 계수값이 매우 높아서 전체 평균을 올리는 효과가 있을수 있다.

In [None]:
# 시각화
from sklearn.datasets import make_blobs


### 실루엣 시각화 참고 코드
https://scikit-learn.org/stable/auto_examples/cluster/plot_kmeans_silhouette_analysis.html?highlight=silhouette%20analysis