<a href="https://colab.research.google.com/github/berrygayo/CodingDojang/blob/master/%EB%B9%84%EC%A7%80%EB%8F%84%ED%95%99%EC%8A%B5_%EA%B5%B0%EC%A7%91.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 군집
+ 군집은 데이터셋을 클러스터라는 그룹으로 나누는 작업 
+ 한 클러스터 안의 데이터 포인트끼리는 매우 비슷하고 다른 클러스터의 데이터 포인트와는 구분되도록 데이터를 나누는 것이 목

## k-평균 군집 
+ 가장 간단하고 널리 사용하는 군집 알고리즘 
+ 데이터의 어떤 영역을 대표하는 클러스터 중심을 찾는다 

> 두 단계를 반복한다 

1. 데이터 포인트를 가장 가까운 클러스터 중심에 할당 
2. 클러스테 할당된 데이터 포인트의 평균으로 클러스터 중심을 다시 저장 
3. 1,2 반복하고 클러스터에 할당되는 데이터 포인트에 변화가 없을 때 알고리즘이 종료됩니다. 

In [None]:
!pip install mglearn

In [None]:
import mglearn
mglearn.plots.plot_kmeans_algorithm()

# 1. 각 데이터 포인트를 가까운 클러스터에 할당 
#2. 할당한 포인트의 평균값으로 클러스터 중심을 갱싱 

In [None]:
mglearn.plots.plot_kmeans_boundaries()

In [None]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

# 인위적으로 2차원 데이터를 생성합니다
X, y = make_blobs(random_state=1)

# 군집 모델을 만듭니다
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)

In [None]:
# 알고리즘을 적용하면 x에 담긴 각 훈련 데이터 포인트에 클러스터 레이블이 할당된다. 
print(kmeans.labels_)

In [None]:
# predict 메서드를 사용해 새로운 데이터의 클러스터 레이블을 예측할 수 있다. 
# 예측은 각 포인트에 가장 가까운 클러스터 중심을 할당하는 것이며 기존 모델을 변경하지 않는다. 
print(kmeans.predict(X))

In [None]:
import matplotlib.pyplot as plt 
mglearn.discrete_scatter(X[:, 0], X[:, 1], kmeans.labels_, markers='o')
mglearn.discrete_scatter(
    kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], [0, 1, 2],
    markers='^', markeredgewidth=2)
plt.show() # 책에는 없음

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(10, 5))

# 두 개의 클러스터 중심을 사용합니다
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
assignments = kmeans.labels_

mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[0])

# 다섯 개의 클러스터 중심을 사용합니다
kmeans = KMeans(n_clusters=5)
kmeans.fit(X)
assignments = kmeans.labels_

mglearn.discrete_scatter(X[:, 0], X[:, 1], assignments, ax=axes[1])
plt.show() # 책에는 없음

## k-평균 알고리즘이 실패하는 경우 

In [None]:
X_varied, y_varied = make_blobs(n_samples=200,
                                cluster_std=[1.0, 2.5, 0.5],
                                random_state=170)
y_pred = KMeans(n_clusters=3, random_state=0).fit_predict(X_varied)

mglearn.discrete_scatter(X_varied[:, 0], X_varied[:, 1], y_pred)
plt.legend(["클러스터 0", "클러스터 1", "클러스터 2"], loc='best')
plt.xlabel("특성 0")
plt.ylabel("특성 1")
plt.show() # 책에는 없음

In [None]:
import numpy as np 
# 무작위로 클러스터 데이터 생성합니다
X, y = make_blobs(random_state=170, n_samples=600)
rng = np.random.RandomState(74)

# 데이터가 길게 늘어지도록 변경합니다
transformation = rng.normal(size=(2, 2))
X = np.dot(X, transformation)

# 세 개의 클러스터로 데이터에 KMeans 알고리즘을 적용합니다
kmeans = KMeans(n_clusters=3)
kmeans.fit(X)
y_pred = kmeans.predict(X)

# 클러스터 할당과 클러스터 중심을 나타냅니다
mglearn.discrete_scatter(X[:, 0], X[:, 1], kmeans.labels_, markers='o')
mglearn.discrete_scatter(
    kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], [0, 1, 2],
    markers='^', markeredgewidth=2)
plt.xlabel("특성 0")
plt.ylabel("특성 1")
plt.show() # 책에는 없음

In [None]:
# two_moons 데이터를 생성합니다(이번에는 노이즈를 조금만 넣습니다)
from sklearn.datasets import make_moons
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

# 두 개의 클러스터로 데이터에 KMeans 알고리즘을 적용합니다
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)
y_pred = kmeans.predict(X)

# 클러스터 할당과 클러스터 중심을 표시합니다
plt.scatter(X[:, 0], X[:, 1], c=y_pred, cmap=mglearn.cm2, s=60, edgecolors='k')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1],
            marker='^', c=[mglearn.cm2(0), mglearn.cm2(1)], s=100, linewidth=2, edgecolors='k')
plt.xlabel("특성 0")
plt.ylabel("특성 1")

# DBSCAN 
+ 주요 장점은 클러스터의 개수를 미리 지정할 피요가 없다는 점이다.
+ 복잡한 형상도 찾을 수 있으며, 어떤 클래스에도 속하지 않는 포인트를 구분할 수 있다.
+ k-평균 보다는 다소 느리지만 비교적 큰 데이터셋에도 적용할 수 있다.

밀집 지역에 있는 포인트를 핵심 샘플(또는 핵심 포인트)라고 하며 다음과 같이 정의한다. 
DBSCAN에는 두 개의 매개변수 min_samples 와 eps가 있습니다.
한 데이터 포인트에서 eps 거리 안에 데이터가 min_samples 개수만큼 들어 있으면 이 데이터 포인트를 핵심 샘플로 분류합니다.
 eps보다 가까운 핵심 샘플은 DBSCAN에 의해 동일한 클러스터로 합쳐진다.

 > 포인트의 종류는 세가지이다. 
+ 핵심 포인트, 경계 포인트(핵심 포인트에서 eps거리 안에 있는 포인트), 잡음 포인트 

DBSCAN을 한 데이터셋에 여러 번 실행하면 핵심 포인트의 군집은 항상 같ㄷ고 매번 같은 ㅍ인트를 잡음으로 레이블한다. 그러나 경계 포인트는 한 개 이상의 클러스터 핵심 샘플의 이웃일 수 있습니다. 그렇기 때문에 경계 포인트가 어떤 클러스터에 속할지는 포인트를 방문하는 순서에 따라 달라집니다. 보통 경계포인트는 많지 않으며 포인트 순서 때문에 바든 영향도 적어 중요한 이슈는 아닙니다. 


In [None]:
from sklearn.cluster import DBSCAN
X, y = make_blobs(random_state=0, n_samples=12)

dbscan = DBSCAN()
clusters = dbscan.fit_predict(X)
print("클러스터 레이블:\n", clusters)
# 모든 포인트에 잡음 포인트를 의미하는 -1 레이블이 할당되었다.
# 이는 작은 샘플 데이터셋에 적합하지 않ㅇ느 eps와 min_samples 기본값 때문이다. 

In [None]:
# min_samples 와 eps 에 따른 클러스터 할당 
mglearn.plots.plot_dbscan()

> 그래프 해석 

클러스터에 속한 포인트는 색을 칠하고 잡음 포인트는 하얀색으로 남겨두었다.
핵심 샘플은 크게, 경계 포인트는 작게 


In [None]:
# two monn 데이터셋에 적용 
from sklearn.preprocessing import StandardScaler
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

# 평균이 0, 분산이 1이 되도록 데이터의 스케일을 조정합니다
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

dbscan = DBSCAN()
clusters = dbscan.fit_predict(X_scaled)
# 클러스터 할당을 표시합니다
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap=mglearn.cm2, s=60, edgecolors='black')
plt.xlabel("특성 0")
plt.ylabel("특성 1")
plt.show() # 책에는 없음

## 군집 알고리즘의 비교와 평가 

### 타켓값으로 군집 평가하기

+ ARI : 1(최적일 때)과 0(주막위로 분류될 때) 사이의 값을 제공 
+ NMI 


In [None]:
from sklearn.metrics.cluster import adjusted_rand_score
X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

# 평균이 0, 분산이 1이 되도록 데이터의 스케일을 조정합니다
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

fig, axes = plt.subplots(1, 4, figsize=(15, 3),
                         subplot_kw={'xticks': (), 'yticks': ()})

# 사용할 알고리즘 모델을 리스트로 만듭니다
from sklearn.cluster import AgglomerativeClustering
algorithms = [KMeans(n_clusters=2), AgglomerativeClustering(n_clusters=2),
              DBSCAN()]

# 비교를 위해 무작위로 클러스터 할당을 합니다
random_state = np.random.RandomState(seed=0)
random_clusters = random_state.randint(low=0, high=2, size=len(X))

# 무작위 할당한 클러스터를 그립니다
axes[0].scatter(X_scaled[:, 0], X_scaled[:, 1], c=random_clusters,
                cmap=mglearn.cm3, s=60, edgecolors='black')
axes[0].set_title("무작위 할당 - ARI: {:.2f}".format(
        adjusted_rand_score(y, random_clusters)))

for ax, algorithm in zip(axes[1:], algorithms):
    # 클러스터 할당과 클러스터 중심을 그립니다
    clusters = algorithm.fit_predict(X_scaled)
    ax.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters,
               cmap=mglearn.cm3, s=60, edgecolors='black')
    ax.set_title("{} - ARI: {:.2f}".format(algorithm.__class__.__name__,
                                           adjusted_rand_score(y, clusters)))

> 해석 

클러스터를 무작위로 할당했을 때의 ARI 점수는 0이고, DBSCAN은 점수가 1이다.
군집 모델을 평가할 때 흔히 하는 실수가 adjusted_rand_score나 normalized_mutual_info_score 같은 군집용 측정 도구를 사용하지 않고 accuracy_score를 사용하는 것이다. 
정확도를 사용하면 할당된 클러스터의 레이블 이름과 실제 레이블 이름과 맞는지 확인합니다.
그러나 클러스터 레이블은 그 자체로 의미가 있는 것이 아니며 포인트들이 같은 클러스터에 속해 있는가만이 중요하다. 

In [None]:
from sklearn.metrics import accuracy_score

# 포인트가 클러스터로 나뉜 두 가지 경우
clusters1 = [0, 0, 1, 1, 0]
clusters2 = [1, 1, 0, 0, 1]
# 모든 레이블이 달라졌으므로 정확도는 0입니다
# accuracy는 군집에서 사용하지 말 것 ! 
print("정확도: {:.2f}".format(accuracy_score(clusters1, clusters2)))
# 같은 포인트가 클러스터에 모였으므로 ARI는 1입니다
print("ARI: {:.2f}".format(adjusted_rand_score(clusters1, clusters2)))

### 타겟값 없이 군집 평가하기 

+ 실루엣 계수 : 타깃값이 필요 없는 군집용 지표 

In [None]:
from sklearn.metrics.cluster import silhouette_score

X, y = make_moons(n_samples=200, noise=0.05, random_state=0)

# 평균이 0, 분산이 1이 되도록 데이터의 스케일을 조정합니다
scaler = StandardScaler()
scaler.fit(X)
X_scaled = scaler.transform(X)

fig, axes = plt.subplots(1, 4, figsize=(15, 3),
                         subplot_kw={'xticks': (), 'yticks': ()})

# 비교를 위해 무작위로 클러스터 할당을 합니다
random_state = np.random.RandomState(seed=0)
random_clusters = random_state.randint(low=0, high=2, size=len(X))

# 무작위 할당한 클러스터를 그립니다
axes[0].scatter(X_scaled[:, 0], X_scaled[:, 1], c=random_clusters,
                cmap=mglearn.cm3, s=60, edgecolors='black')
axes[0].set_title("무작위 할당: {:.2f}".format(
        silhouette_score(X_scaled, random_clusters)))

algorithms = [KMeans(n_clusters=2), AgglomerativeClustering(n_clusters=2),
              DBSCAN()]

for ax, algorithm in zip(axes[1:], algorithms):
    clusters = algorithm.fit_predict(X_scaled)
    # 클러스터 할당과 클러스터 중심을 그립니다
    ax.scatter(X_scaled[:, 0], X_scaled[:, 1], c=clusters, cmap=mglearn.cm3,
               s=60, edgecolors='black')
    ax.set_title("{} : {:.2f}".format(algorithm.__class__.__name__,
                                      silhouette_score(X_scaled, clusters)))

> 해석 

이 그림에서 볼 수 있듯이 DBSCAN의 결과가 더 낫지만 k-평균 의 실루엣 점수가 더 높다. 
클러스터 평가에 더 적합한 전략은 경고성 기반의 지표입니다.
데이터에 잡음 포인트를 추가하거나 여러 가지 매개변수 설정으로 알고리즘을 실행하고 그 결과를 비교하는 것입니다. 
