## Part 04 머신러닝 - 2장 군집 모형

- 파이썬에서 사이킷런의 서브패키지 ```cluster```로부터 여러 클래스를 이용하면 군집 모형객체를 생성할 수 있음
- 군집 모형의 경우 지도 학습 모형과 유사한 방식으로 ```sklearn.서브패키지명.클래스명```을 통해 **모형객체를 생성**한 후, 모형객체의 메소드 ```fit_predict()```를 통해 **모형에 적합**한 후 **군집을 형성**
- 군집분석
   - 계층적 군집분석 (Hierarchical Clustering)
   - 비계층적 군집분석: k-means 군집분석

<br><br>
<hr>

### 1절: 군집평가
- 군집평가란 군집모형을 통해 형성된 군집이 얼마나 제대로 형성되었는지 평가하는 것을 말함
- 정답 또는 타겟 레이블을 모르는 경우는 주로 실루엣(Sihoutte) 계수,
- 아는 경우에는 랜드지수(RI; Rand Index)와 조정 랜드지수(ARI; Adjusted RI) 등을 지표로 사용함
- 보통 두 함수를 이용하여 실루엣계수를 계산하고 이를 시각화로 표현하여 군집 평가를 진행하지만, 시험에서는 시각화를 지원하지 않으므로 시각화 없이 군집평가하기

<br>

#### **1) 실루엣 계수**

- 실루엣 계수는 사이킷런의 서브패키지 ```metrics``` 내의 함수 ```silhouette_score()```와 ```silhouette_samples()```를 통해 계산할 수 있음
- **silhouette_score()** 는 전체 개체에 대한 실루엣계수의 평균을 계산
- ```sklearn.metrics.silhouette_score(X, y, ...)```
   - **X**: 군집 형성에 사용된 데이터(배열)
   - **y**: 예측된 레이블

<br>

- **silhouette_sample()** 은 각 개체에 대한 개별 실루엣계수를 계산하는 함수
- ```sklearn.metrics.silhouette_sample(X, y, ...)```
   - **X**: 군집 형성에 사용된 데이터(배열)
   - **y**: 예측된 레이블

<br><br>


#### **2) RI와 ARI**

- 랜드지수와 조정 랜드지수는 각각 사이킷런 서브패키지 ```metrics.cluster``` 내의 함수 ```rand_score()```, ```adjusted_rand_score()```를 통해 계산할 수 있음
   - **RI**: ```metrics.rand_score(labels_true, labels_pred)```
   - **ARI**: ```metrics.adjusted_rand_score(labels_true, labels_pred)```


<br>

#### Q. 
임의의 리스트 labels_true와 labels_pred를 생성한 후, 함수 rand_score(), adjust_rand_score()를 통하여 RI와 ARI를 계산하는 파이썬 코드 작성하기

In [1]:
# 임의의 리스트 생성
labels_true = [0, 0, 0, 1, 1, 1, 1, 2, 2]
labels_pred = [0, 0, 1, 1, 1, 1, 2, 2, 2]

In [3]:
# 함수 호출
from sklearn.metrics.cluster import rand_score, adjusted_rand_score

In [4]:
# RI (랜드지수)
ri = rand_score(labels_true, labels_pred)
ri

0.7222222222222222

In [5]:
# ARI (조정 랜드지수)
ari = adjusted_rand_score(labels_true, labels_pred)
ari

0.3076923076923077


<br><br>
<hr>

### 2절: 계층적 군집분석

- 계층적 군집모형은 사이킷런의 ```cluster``` 내 클래스 ```AgglomerativeClustering()```을 통해 모형객체를 생성할 수 있음
- 생성된 모형객체의 메소드 ```fit_predict()```를 통해 군집을 형성할 수 있음
- ```sklearn.cluster.AgglomerativeClustering(n_clusters = 2, linkage = 'ward', ...)```
   - **n_clusters**: 찾을 군집의 수 (default = 2)
   - **linkage**: 사용할 연결법
      - 'ward' (default)
      - 'average'
      - 'complete'
      - 'single'

<br>

#### Q. 
사이킷런 패키지 내 iris 데이터를 호출한 후 클래스 AgglomerativeClustering()을 통해 네 종류의 연결법에 따른 모형객체를 생성하여 각각 군집을 형성하여 예측된 레이블과 정답 레이블을 이용하여 RI와 ARI를 계산하는 코드 작성하기 (단, 군집은 세 가지 형성)

In [6]:
# 클래스 함수 불러오기
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics.cluster import rand_score, adjusted_rand_score

In [20]:
# iris 데이터 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
labels_true = iris.target      # 정답 레이블

In [21]:
# 와드 연결법
agg_ward = AgglomerativeClustering(n_clusters = 3)
labels_pred_ward = agg_ward.fit_predict(data)
labels_pred_ward

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int64)

In [22]:
# 평균 연결법
agg_avg = AgglomerativeClustering(n_clusters = 3, linkage = 'average')
labels_pred_avg = agg_avg.fit_predict(data)
labels_pred_avg

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 2, 2, 2, 2, 0, 2, 2, 2,
       2, 2, 2, 0, 0, 2, 2, 2, 2, 0, 2, 0, 2, 0, 2, 2, 0, 0, 2, 2, 2, 2,
       2, 0, 2, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 2, 0, 2, 2, 0], dtype=int64)

In [23]:
# 최장 연결법
agg_comp = AgglomerativeClustering(n_clusters = 3, linkage = 'complete')
labels_pred_comp = agg_comp.fit_predict(data)
labels_pred_comp

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 2, 0, 2, 0, 2, 0, 2, 2, 2, 2, 0, 2, 0,
       2, 2, 0, 2, 0, 2, 0, 0, 0, 0, 0, 0, 0, 2, 2, 2, 2, 0, 2, 0, 0, 0,
       2, 2, 2, 0, 2, 2, 2, 2, 2, 0, 2, 2, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)

In [24]:
# 최단 연결법
agg_sing = AgglomerativeClustering(n_clusters = 3, linkage = 'single')
labels_pred_sing = agg_sing.fit_predict(data)
labels_pred_sing

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], dtype=int64)

In [25]:
# RI 비교
print("와드 연결법: ", rand_score(labels_true, labels_pred_ward))
print("평균 연결법: ", rand_score(labels_true, labels_pred_avg))
print("최장 연결법: ", rand_score(labels_true, labels_pred_comp))
print("최단 연결법: ", rand_score(labels_true, labels_pred_sing))

와드 연결법:  0.8797315436241611
평균 연결법:  0.8922595078299776
최장 연결법:  0.8367785234899329
최단 연결법:  0.7766442953020134


In [26]:
# ARI 비교
print("와드 연결법: ", adjusted_rand_score(labels_true, labels_pred_ward))
print("평균 연결법: ", adjusted_rand_score(labels_true, labels_pred_avg))
print("최장 연결법: ", adjusted_rand_score(labels_true, labels_pred_comp))
print("최단 연결법: ", adjusted_rand_score(labels_true, labels_pred_sing))

와드 연결법:  0.7311985567707746
평균 연결법:  0.7591987071071522
최장 연결법:  0.6422512518362898
최단 연결법:  0.5637510205230709


<br><br>
<hr>

### 3절: k-means 군집분석

- k-means 군집모형은 사이킷런의 ```cluster``` 내 클래스 ```KMeans()```를 통해 모형객체를 생성할 수 있음
- 이를 통해 생성된 모형객체의 메소드 ```fit_predict()```를 통해 군집 형성
- ```sklearn.cluster.KMeans(n_clusters = 8)```
   - **n_clusters**: 형성할 군집의 수 (default = 8)

<br>

#### Q. 
사이킷런 패키지 내 iris 데이터를 호출한 후 군집의 수(k)가 2~4개일 때 k-mean 모형에 대하여 전체, 레이블별 실루엣계수의 평균을 계산하는 코드 작성하기

In [27]:
# 클래스 함수 불러오기
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, silhouette_samples

In [30]:
# iris 데이터 가져오기
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data

In [31]:
# k = 2일 때 k-means 군집모형으로 군집 형성
kmeans_k2 = KMeans(n_clusters = 2, random_state = 2022)
labels_pred_k2 = kmeans_k2.fit_predict(data)
labels_pred_k2

  super()._check_params_vs_input(X, default_n_init=10)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [32]:
# k = 3일 때 k-means 군집모형으로 군집 형성
kmeans_k3 = KMeans(n_clusters = 3, random_state = 2022)
labels_pred_k3 = kmeans_k3.fit_predict(data)
labels_pred_k3

  super()._check_params_vs_input(X, default_n_init=10)


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 1, 2, 2, 2, 2, 1, 2, 2, 2,
       2, 2, 2, 1, 1, 2, 2, 2, 2, 1, 2, 1, 2, 1, 2, 2, 1, 1, 2, 2, 2, 2,
       2, 1, 2, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 2, 1, 2, 2, 1])

In [33]:
# k = 4일 때 k-means 군집모형으로 군집 형성
kmeans_k4 = KMeans(n_clusters = 4, random_state = 2022)
labels_pred_k4 = kmeans_k4.fit_predict(data)
labels_pred_k4

  super()._check_params_vs_input(X, default_n_init=10)


array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 3, 3, 3, 0, 3, 0, 3, 0, 3, 0, 0, 0, 0, 3, 0, 3,
       0, 0, 3, 0, 3, 0, 3, 3, 3, 3, 3, 3, 3, 0, 0, 0, 0, 3, 0, 3, 3, 3,
       0, 0, 0, 3, 0, 0, 0, 0, 0, 3, 0, 0, 2, 3, 2, 2, 2, 2, 0, 2, 2, 2,
       3, 3, 2, 3, 3, 2, 2, 2, 2, 3, 2, 3, 2, 3, 2, 2, 3, 3, 2, 2, 2, 2,
       2, 3, 3, 2, 2, 2, 3, 2, 2, 2, 3, 2, 2, 2, 3, 3, 2, 3])

In [34]:
# 개체별로 연결법에 따른 실루엣 계수 계산
import pandas as pd   # 데이터프레임 생성해야 함

In [37]:
# k = 2일 때
sil_k2 = silhouette_samples(data, labels_pred_k2)     # 개체별 실루엣계수

In [39]:
# 개체별 예측 레이블과 실루엣계수를 각각 칼럼으로 가지는 df 생성
df_k2 = pd.DataFrame( {'labels': labels_pred_k2, 'silhouette': sil_k2} )
df_k2.head()

Unnamed: 0,labels,silhouette
0,0,0.852225
1,0,0.826916
2,0,0.835426
3,0,0.819249
4,0,0.848731


In [40]:
# 레이블별 실루엣계수 평균
df_k2.groupby('labels')['silhouette'].mean()

labels
0    0.769526
1    0.632701
Name: silhouette, dtype: float64

In [42]:
# 전체 실루엣계수 평균
silhouette_score(data, labels_pred_k2)

0.6810461692117462

In [43]:
# k = 3일 때
sil_k3 = silhouette_samples(data, labels_pred_k3)        # 개체별 실루엣계수

In [44]:
# 개체별 예측 레이블과 실루엣계수를 각각 컬럼으로 가지는 데이터프레임 생성
df_k3 = pd.DataFrame( {'labels': labels_pred_k3, 'silhouette': sil_k3} )

In [45]:
# 레이블별 실루엣계수의 평균
df_k3.groupby('labels')['silhouette'].mean()

labels
0    0.798140
1    0.417320
2    0.451105
Name: silhouette, dtype: float64

In [46]:
# 전체 실루엣계수 평균
silhouette_score(data, labels_pred_k3)

0.5528190123564095

In [47]:
# k = 4일 때
sil_k4 = silhouette_samples(data, labels_pred_k4)     # 개체별 실루엣계수

In [50]:
# 개체별 예측 레이블과 실루엣계수를 각각 칼럼으로 가지는 데이터프레임 생성
df_k4 = pd.DataFrame( {'labels': labels_pred_k4, 'silhouette': sil_k4} )

In [51]:
# 레이블별 실루엣계수의 평균
df_k4.groupby('labels')['silhouette'].mean()

labels
0    0.419518
1    0.763176
2    0.321324
3    0.362998
Name: silhouette, dtype: float64

In [52]:
# 전체 실루엣계수
silhouette_score(data, labels_pred_k4)

0.49805050499728737