In [1]:
# 군집분석
# - 각 데이터의 유사성을 측정하여 다수의 군집을 나누고 군집 간의 차이를 확인하는 분석
# - 비지도 학습의 일종
# 계층적 군집분석
# - 최단연결법, 최장연결법, 중심연결법, 평균연결법, 와드연결법

In [2]:
# 비계층적 군집분석
# K - 평균 군집 알고리즘

In [3]:
# sklearn.cluster.AgglomerativeClustering()
# - n_clusters : 형성할 군집의 수 (default = 8)
# - linkage : 사용할 연결법 (default = 'ward')
#             'average', 'complete', 'single'

In [4]:
# 평가지표 :1에 가까울수록 좋
# rand_score : 랜드지수(Rand Index, RI)
# adjusted_rand_score : 조정랜드지수(Adjusted Rand Indet, ARI)
#                       무작위 군집화에서 생기는 RI 값이 크게 나오는 편이므로 기댓값과 분산을 재조정한 값

In [5]:
from sklearn.cluster import AgglomerativeClustering
from sklearn.metrics.cluster import rand_score, adjusted_rand_score

In [6]:
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data
labels_orgin = iris.target # 평가할 위한 데이터

In [7]:
cluster_sing = AgglomerativeClustering(n_clusters = 3, linkage = 'single')
label_pred_sing = cluster_sing.fit_predict(data)

In [8]:
cluster_com = AgglomerativeClustering(n_clusters=3, linkage='complete')
label_pred_com = cluster_com.fit_predict(data)

In [9]:
cluster_avg = AgglomerativeClustering(n_clusters = 3, linkage = 'average')
label_pred_avg = cluster_avg.fit_predict(data)

In [10]:
cluster_ward = AgglomerativeClustering(n_clusters=3,linkage = 'ward')
label_pred_ward = cluster_ward.fit_predict(data)

In [11]:
print("최단연결법:", rand_score(labels_orgin,label_pred_sing))
print("최장연결법:", rand_score(labels_orgin,label_pred_com))
print("평균연결법:", rand_score(labels_orgin,label_pred_avg))
print("와드연결법:", rand_score(labels_orgin,label_pred_ward))

최단연결법: 0.7766442953020134
최장연결법: 0.8367785234899329
평균연결법: 0.8922595078299776
와드연결법: 0.8797315436241611


In [12]:
print("최단연결법:", adjusted_rand_score(labels_orgin,label_pred_sing))
print("최장연결법:", adjusted_rand_score(labels_orgin,label_pred_com))
print("평균연결법:", adjusted_rand_score(labels_orgin,label_pred_avg))
print("와드연결법:", adjusted_rand_score(labels_orgin,label_pred_ward))

최단연결법: 0.5637510205230709
최장연결법: 0.6422512518362898
평균연결법: 0.7591987071071522
와드연결법: 0.7311985567707746


In [13]:
# K-Means 군집분석
# sklearn.cluster.KMeans()
# n_clusters : 형성할 군집의 수 (default = 2)
# n_init : 초기값 설정 수(default = 10)
# max_iter : 학습 반복 횟수
# algorithm : 알고리즘 종류
#             'auto', 'full', 'elkan'

In [14]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score # 실루엣 갯수

In [15]:
from sklearn.datasets import load_iris
iris = load_iris()
data = iris.data

In [17]:
cluster_k2 = KMeans(n_clusters = 2, max_iter = 300, random_state = 1234, algorithm = 'lloyd')
label_pred_k2 = cluster_k2.fit_predict(data)



In [19]:
cluster_k3 = KMeans(n_clusters =3, max_iter=300, random_state = 1234, algorithm='lloyd')
label_pred_k3 = cluster_k3.fit_predict(data)



In [21]:
cluster_k4 = KMeans(n_clusters = 4, max_iter = 300, random_state = 1234, algorithm = 'lloyd')
label_pred_k4 = cluster_k4.fit_predict(data)



In [22]:
sil_k2 = silhouette_score(data,label_pred_k2)
sil_k3 = silhouette_score(data,label_pred_k3)
sil_k4 = silhouette_score(data,label_pred_k4)
print(sil_k2, sil_k3, sil_k4)

0.6810461692117462 0.551191604619592 0.49535632852884987
