---
# ┗(•̀へ •́ )ﾉ Hyun's Machine Learning (Clustering)
---
자 Clustering을 공부해봅시다 (´∇｀)  
## Authored by. Hyun
![미니언즈!](https://post-phinf.pstatic.net/MjAxNzA3MTBfMjIg/MDAxNDk5NjcxOTY1NDQw.Kz07JXiZg6AT6Y4PAZY7ubUNAr7rbDinLwFGuS0OOxcg.WVhpo8yfybUh0qImMGNAo1ucSUPuNOvQyzlO_vKlAlkg.JPEG/%EC%98%81%EC%A7%84%EC%9C%845.jpg?type=w1200)

# 목차

## 1. 차차 정리해봅시다

# Clustering

### Clustering이란....?

- 대표적인 비지도학습. 집단이 주어지지 않은 데이터에 군집을 부여해주는 것
- 군집 내의 분산을 최소화하고 군집 간의 분산을 최대한 유사한 개체로 묶어주는 것!
- 방법은 크게 5개  
`K-means clustering /Hierarchical clustering/ DBSCAN / Gaussian Muxture model (GMM) / KNN clustering`

### K-means clustering

- Centroid 방식을 활용하여 주어진 갯수에 맞게 군집을 나눠준다.
- 각 cluster와의 유클리디안 거리 차이들을 구하고 그 값들의 분산을 최소화하는 방식
- K-means의 한계
 1. sub-optimal solution을 피하기 위해 여러번 시행해야 함
 2. Cluster 갯수를 직접 지정해야 하며, Outlier에 취약하다 (유클리디안 거리여서)
 3. Varying sizes, Different densities, Non-spherical shapes의 경우에 성능이 좋지 않다.

> K-Means Algorithm 
1. 데이터 집합의 Objects 중에서 설정한 Cluster의 개수인 k개의 Centroid를 임으로 선택한다.  
2. 집합 속의 모든 Objects와 앞서 선택한 Centroid와의 거리를 각각 구하고, 가장 가까운 Centroid가 속하는 Cluster에 Objects를 할당한다.  
3. 같은 Cluster로 할당된 Objects들의 중심점을 찾고, 그 점을 새로운 Centroid로 설정한다.  
4. Centroid의 변화가 없을 때까지 2-3 과정을 반복한다.

> K-means++ Algorithm   
1. 첫 initial point c1을 임의로 선택한다.  
2. 이후의 initial point ct는 이전에 선택한 ct-1과의 거리인 d(ct-1, ct)가 큰 점이 높은 확률로 선택되도록 샘플링 확률 분포를 다음과 같이 조절하고, 이 분포에 따라 하나의 점을 선택한다.
3. k 개의 initial points를 선택할 때까지 step 2를 반복한다.
샘플링 확률 분포를 사용함에 따라 ct는 이전에 선택한 점 ct-1과 거리가 먼 점일 가능성이 높다. 한 가지 단점이 있다면, ct-1과 ct+1이 비슷할 수도 있다. (※Ball cut이라는 방법으로 해결 가능.)

> 성능평가
 - K-means는 inertia 값으로 성능을 평가한다.
 - inertia는 K-Means Clustering으로 계산된 SSE 값
 - kmeans.inertia_ 을 통해 값을 구할 수 있으며, 작을수록 좋다.
 - kmeans.score(X) 를 통해서도 성능 파악이 가능한데, 이 값은 inertia의 음의 값이다. (일반적으로 클수록 좋다는 **"greater is better"** rule 때문에 사용된다.)

 > k개의 적절한 군집 수 찾는 방법
 1. Rule of thumb </b>  
가장 간단한 방법으로, 데이터의 수가 n이라고 할 때, 필요한 Cluster의 수는 다음과 같이 계산할 수 있다.  
$$k ≈ \sqrt{n / 2}$$
 2. Elbow method <br>
Cluster의 수를 순차적으로 늘려가면서 결과를 모니터링 한다. 만약 하나의 클러스터를 추가했을 때, 이전보다 훨씬 더 나은 결과를 나타내지 않는다면, 이전의 클러스터의 수를 구하고자 하는 클러스터의 수로 결정한다.  <br>
 <br>
 3. Silhouette Method  
  - Clustering의 품질을 정량적으로 계산해주는 방법이다. i번째 데이터 x(i)에 대한 실루엣 계수 s(i) 값은 아래의 식으로 정의 <br>
 ![silhouette formula](https://static.packt-cdn.com/products/9781788996402/graphics/739fcde8-e95d-4ab2-a2f2-f3fc804a8872.png) <br>
  - a(i)는 Cluster 내부의 데이터 응집도(cohesion)를 나타내는 값으로, x(i)와 동일한 Cluster 내의 나머지 데이터들과의 평균거리이다.
  - b(i)는 Cluster 간의 분리도(separation)를 나타내는 값으로, 데이터 x(i)와 가장 가까운 클러스터 내의 모든 데이터들과의 평균거리이다.
  - 실루엣 계수 값은 1에 가까울 수록 최적화된 Clustering이다.


In [0]:
# K-means in image segmentation 예시
img = plt.imread('./img/img_seg_1.jpg')

X = img.reshape(-1,3)

segmented_imgs = []
n_colors = (20, 15, 10, 5, 3)
for n_clusters in n_colors:
    kmeans = KMeans(n_clusters=n_clusters, random_state=42).fit(X)
    segmented_img = kmeans.cluster_centers_[kmeans.labels_]
    segmented_imgs.append(segmented_img.reshape(img.shape))
    
    
plt.figure(figsize=(10,8))
plt.subplots_adjust(wspace=0.05, hspace=0.1)

plt.subplot(231)
plt.imshow(img)
plt.title("Original image")
plt.axis('off')

for idx, n_clusters in enumerate(n_colors):
    plt.subplot(232 + idx)
    plt.imshow(segmented_imgs[idx])
    plt.title("{} colors".format(n_clusters))
    plt.axis('off')
    
plt.show()

In [0]:
# Silhouette 분석 예시
from __future__ import print_function

from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_samples, silhouette_score

import matplotlib.pyplot as plt
import matplotlib.cm as cm
import numpy as np

X, y = make_blobs(n_samples = 500, n_features = 2, centers = 4, cluster_std = 1.0,
                  center_box = (-10.0, 10.0), shuffle = True, random_state = 1)

range_n_clusters = [2, 3, 4, 5, 6]

for n_clusters in range_n_clusters:
    fig, (ax1, ax2) = plt. subplots(1, 2)
    fig.set_size_inches(18, 7)
    
    ax1.set_xlim([-0.1, 1]) # 실루엣 계수 범위 지정
    ax1.set_ylim([0, len(X) + (n_clusters+1) * 10]) # 실루엣 클러스터 사이의 공간 만들기
    
    kmeans__ = KMeans(n_clusters = n_clusters, random_state = 10)
    kmeans__labels = kmeans__.fit_predict(X)
    
    silhouette_avg = silhouette_score(X, kmeans__labels)
    print("For n_clusters =", n_clusters, "The average silhouette_score is :", silhouette_avg)
    
    sample_silhouette_values = silhouette_samples(X, kmeans__labels)
    
    y_lower = 10
    
    for i in range(n_clusters):
        ith_cluster_silhouette_values = \
            sample_silhouette_values[kmeans__labels == i]
            
        ith_cluster_silhouette_values.sort()
            
        size_cluster_i = ith_cluster_silhouette_values.shape[0]
        y_upper = y_lower + size_cluster_i
            
        color = cm.nipy_spectral(float(i) / n_clusters)
        ax1.fill_betweenx(np.arange(y_lower, y_upper),
                          0, ith_cluster_silhouette_values,
                          facecolor=color, edgecolor=color, alpha=0.7)

        ax1.text(-0.05, y_lower + 0.5 * size_cluster_i, str(i)) # silhouette plots 각각 label 붙이기

        y_lower = y_upper + 10  # 다음 plot을 그리기위해 y_lower 새로 갱신
        
    ax1.set_title("The silhouette plot for the various clusters.")
    ax1.set_xlabel("The silhouette coefficient values")
    ax1.set_ylabel("Cluster label")
    
    ax1.axvline(x = silhouette_avg, color = "r", linestyle="--") # silhouette score 평균값 그리기
    

    # Cluster 보여주기 (2nd plot)
    colors = cm.nipy_spectral(kmeans__labels.astype(float) / n_clusters)
    ax2.scatter(X[:, 0], X[:, 1], marker='.', s=30, lw=0, alpha=0.7,
                c=colors, edgecolor='k')

    kmeans__centers = kmeans__.cluster_centers_ # cluster labeling
    ax2.scatter(kmeans__centers[:, 0], kmeans__centers[:, 1], marker='o',
                c="white", alpha=1, s=200, edgecolor='k') # centroid circle design

    for i, c in enumerate(kmeans__centers):
        ax2.scatter(c[0], c[1], marker='$%d$' % i, alpha=1,
                    s=50, edgecolor='k')

    ax2.set_title("The visualization of the clustered data.")
    ax2.set_xlabel("Feature space for the 1st feature")
    ax2.set_ylabel("Feature space for the 2nd feature")

    plt.suptitle(("Silhouette analysis for KMeans clustering on sample data "
                  "with n_clusters = %d" % n_clusters),
                 fontsize=14, fontweight='bold')

    plt.show()
    

In [0]:
# Elbow 예시
X, y = make_blobs(n_samples = 150, n_features = 2, centers = 3, cluster_std= 0.50, shuffle = True, random_state=0)

def elbow(X):
    sse = []
    for i in range(1,11):
        kmeans_elbow = KMeans(n_clusters = i, init = 'k-means++', random_state = 0)
        kmeans_elbow.fit(X)
        sse.append(kmeans_elbow.inertia_)
        
    plt.plot(range(1,11), sse, 'o-')
    plt.xlabel('Number of Clusters')
    plt.ylabel('SSE(inertia)')
    plt.xticks(np.arange(11))
    
    plt.show()

elbow(X)

In [0]:
# Kmeans 예시 (random, k-means ++)
from sklearn.cluster import KMeans

X, y = make_blobs(n_samples = 1000, centers = 4, cluster_std= 0.60, random_state=0)

k = 6
kmeans_random = KMeans(n_clusters = k, init = 'random', max_iter = 3)
kmeans_plus = KMeans(n_clusters = k, init = 'k-means++', max_iter = 3)
kmeans_random.fit(X)
kmeans_plus.fit(X)

In [0]:
# 성능평가 예시
print("inertia = {:5.2f}, score = {:5.2f}".format(kmeans.inertia_, kmeans.score(X)))

In [0]:
# Kmeans 예시1
from sklearn.cluster import KMeans
import numpy as np
X = np.array([[1, 2], [1, 4], [1, 0],
               [10, 2], [10, 4], [10, 0]])

kmeans = KMeans(n_clusters=2, random_state=0).fit(X)  # 2개의 cluster로 나눠라

kmeans.labels_    # 각 데이터에 대한 클러스터 결과물
# array([1, 1, 1, 0, 0, 0], dtype=int32)

kmeans.predict([[0, 0], [12, 3]])
# array([1, 0], dtype=int32)

kmeans.cluster_centers_
#array([[10.,  2.], [ 1.,  2.]])

In [0]:
# Kmeans 예시2
import pandas as pd
from sklearn.cluster import KMeans

df = pd.DataFrame([
        [2, 1],
        [3, 2],
        [3, 4],
        [5, 5],
        [7, 5],
        [2, 5],
        [8, 9],
        [9, 10],
        [6, 12]
    ], columns=['hour', 'attendance'])

model = KMeans(n_clusters=3)

model.fit(df)

y_predict = model.fit_predict(df)
print(y_predict) 
#[0 0 0 2 2 0 1 1 1]

df['cluster'] = y_predict
print(df)
'''
   hour  attendance  cluster
0     2           1        0
1     3           2        0
2     3           4        0
3     5           5        2
4     7           5        2
5     2           5        0
6     8           9        1
7     9          10        1
8     6          12        1
'''

### Hierarchical clustering

- Connectivity method를 활용하여 Bottom-Up 방식으로 덴드로그램을 그려주고 거기서 주관에 의해서 적절한 군집 갯수를 찾는 방식. 큰 데이터에는 적용하기 힘들다.
- [거리측정 방식](https://datascienceschool.net/view-notebook/094bcb7b86574711a2e8d81f26bce2f5/)

In [0]:
# Hierarchical clustering 예시1 (by.sklearn)
from sklearn.cluster import AgglomerativeClustering

cluster = AgglomerativeClustering(n_clusters=2, affinity='euclidean', linkage='ward')
cluster.fit_predict(X)

print(cluster.labels_)

In [0]:
# Hierarchical clustering 예시2 (실제 data로 응용하는 법)
import scipy.cluster.hierarchy as shc
data = customer_data.iloc[:, 3:5].values    # iloc 의미, 전체 row와 3~4번째 column의 값을 nparray 형식으로 반환

plt.figure(figsize=(10, 7))
plt.title("Customer Dendograms")
dend = shc.dendrogram(shc.linkage(data, method='ward'))    # dendrogram에서 적정 군집 수를 파악하고

from sklearn.cluster import AgglomerativeClustering
cluster = AgglomerativeClustering(n_clusters=5, affinity='euclidean', linkage='ward')    # 그 군집 수를 적용시켜줌
cluster.fit_predict(data)

print(cluster.labels_)

# scatter plot 그리기
plt.figure(figsize=(10, 7))
plt.scatter(data[:,0], data[:,1], c=cluster.labels_, cmap='rainbow')

In [0]:
# Hierarchical clustering 예시3
linked = linkage(X, 'single')

labelList = range(1, 11)

plt.figure(figsize=(10, 7))
dendrogram(linked,
            orientation='top',
            labels=labelList,
            distance_sort='descending',
            show_leaf_counts=True)
plt.show()

### DBSCAN

- Density-Based Spatial Clustering of Applications with Noise  
: 밀도 기반의 클러스터링으로 점이 세밀하게 몰려 있는 것을 기준으로 Clustering을 하는 방법  
: 어느 한 점을 기준으로 일정 반경 이내의 점들을 하나의 Cluster로 인식한다.
: perdict() 기능이 없어서 예측을 위해서는 `KNeightborsClassifier`를 사용

> DBSCAN Algorithm
1. 한 점 P를 기준으로 ε(eps) 반경 내에 점이 지정한 개수(minPts) 이상이 있으면 해당 점 P를 Core Point라고 한다.
2. 앞의 점 P를 Core Point로 하는 Cluster에 속하는 P'중에서 ε(eps) 반경 내에 점이 지정한 개수(minPts)보다 작으면 Border Point라고 한다.
3. 이 외에 ε(eps) 반경을 만족하는 범위에 어떠한 점도 포함하지 않는 점 P"을 Noise Point라고 한다.
4. Core Point와 Border Point와 같이 ε(eps) 반경 내에 서로의 군집에 Points가 속하는 경우에 하나의 Cluster로 할당한다.

> DBSCAN의 장점
1. Cluster 개수를 지정하지 않아도 적절한 Cluster를 찾아준다.
2. 불특정한 모양 분포를 Clustering 할 수 있다. (Density-based)
3. Outlier를 Noise Point로 분류하여 Clustering 성능을 좋게 한다.

> DBSCAN의 단점
1. 입력하는 parameter 값에 따라, 다른 Clustering 결과를 보인다. 
2. 데이터 특성을 모를 경우에 hyper-parameter를 설정하기 어렵다. 
3. Computational Complexity가 Linearithmic Time( O(m log m) )을 따르는데, eps 값이 커짐에 따라 Quadratic Time( O(m2) )을 따르게 되어 복잡도가 증가한다.

> DBSCAN in `python`
- scikit-learn의 cluster 서브 패키지는 DBSCAN Clustering을 위한 DBSCAN Class를 제공한다.
``` python
DBSCAN (eps=0.5, min_samples=5, metric=’euclidean’, metric_params=None, algorithm=’auto’, leaf_size=30, p=None, n_jobs=None)
```
주요 parameter
 1. eps: ε(epsilon)으로 samples 사이의 maximum distance로 Core Point를 지정하기 위한 최대 반경. 
 2. min_samples: Core Point를 기준으로 eps 반경 안에 속하는 samples의 개수.

> 주요 메소드
 1. .labels_ : sample이 지정된 Cluster를 확인. (labeling 이 '-1'로 된 것은 알고리즘에서 anomaly로 지정된 것이다.) 
 2. .core_sample_indices_ : core point로 지정된 것들의 index를 확인. (len()으로 core points 총 개수 확인 가능) 
 3. .components_ : core point의 좌표 확인.

In [0]:
# DBSCAN 예시
from sklearn.datasets import make_moons

X, y = make_moons(n_samples = 1000, noise = .05, random_state = 0)

from sklearn.cluster import DBSCAN

dbscan = DBSCAN(eps = 0.08, min_samples = 5)
dbscan.fit(X)

np.unique(dbscan.labels_)
```
# array([-1,  0,  1], dtype=int64)
```

dbscan.core_sample_indices_[:10]
```
# array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64)
```

dbscan.components_[:10]
```
# array([[ 2.02100097,  0.49017924],
        [ 1.6782009 , -0.20198687],
        [-0.28224484,  0.85878484],
        [-0.02143996,  0.17628146],
        [ 0.50484202, -0.3910431 ],
        [ 1.96953895,  0.36005521],
        [ 0.95659588,  0.2536649 ],
        [ 0.0948788 ,  0.98337847],
        [-0.4416603 ,  0.87203428],
        [ 0.70751638, -0.5126737 ]])
````

## Classifier 예시
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors = 50)
knn.fit(dbscan.components_, dbscan.labels_[dbscan.core_sample_indices_])

# 새로운 데이터 샘플을 임의로 설정
X_new = np.array([[-0.5,0], [0,0.5], [1, -0.1], [2,1]])
knn.predict(X_new)

knn.predict_proba(X_new)
```
# array([[0.2 , 0.8 ],
        [1.  , 0.  ],
        [0.18, 0.82],
        [1.  , 0.  ]])
```

core_mask = np.zeros_like(dbscan.labels_, dtype = bool)
core_mask[dbscan.core_sample_indices_] = True
noise_mask = dbscan.labels_ == -1
border_mask = ~(core_mask | noise_mask)

cores = dbscan.components_
noise = X[noise_mask]
border = X[border_mask]

plt.scatter(cores[:,0], cores[:,1], s = 10, c = dbscan.labels_[core_mask])
plt.scatter(noise[:,0], noise[:,1], c = 'r', marker = 'x', s= 30)
plt.scatter(border[:,0], border[:,1], c = 'b', marker = '*', s = 30)

plt.title("eps = 0.08, min_samples = 5")

# 새로 생성한 데이터를 추가
plt.scatter(X_new[:,0], X_new[:,1], c= "k", marker = "+", s = 400, zorder = 999)

y_dist, y_pred_idx = knn.kneighbors(X_new, n_neighbors=1)
y_pred = dbscan.labels_[dbscan.core_sample_indices_][y_pred_idx]
y_pred[y_dist > 0.2] = -1
y_pred.ravel()

In [0]:
# DBSCAN을 적용한 scatter plot
core_mask = np.zeros_like(dbscan.labels_, dtype = bool)
core_mask[dbscan.core_sample_indices_] = True
noise_mask = dbscan.labels_ == -1
border_mask = ~(core_mask | noise_mask)

cores = dbscan.components_
noise = X[noise_mask]
border = X[border_mask]

plt.scatter(cores[:,0], cores[:,1], s = 10, c = dbscan.labels_[core_mask])
plt.scatter(noise[:,0], noise[:,1], c = 'r', marker = 'x', s= 30)
plt.scatter(border[:,0], border[:,1], c = 'b', marker = '*', s = 30)

plt.title("eps = 0.08, min_samples = 5")

### Gaussian Mixture model (GMM)

- Mixture Model이란, 전체 분포에서 하위 분포가 존재한다고 가정하는 모델이다.
- 데이터가 모수를 가지는 여러 개의 분포로부터 합쳐진 형태라는 것이다.
- 즉, Gaussian Mixture Model은 합쳐진 여러 개의 분포가 Gaussian Distribution의 형태인 것을 말한다.

In [0]:
## GMM 예시
# 분포 만들어주기
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

dist1 = np.random.normal(-0.5, 0.2, 2000)
dist2 = np.random.normal(-0.1, 0.07, 5000)
dist3 = np.random.normal(0.2, 0.13, 10000)

df1 = pd.DataFrame(dist1)
df2 = pd.DataFrame(dist2)
df3 = pd.DataFrame(dist3)
df_merged = pd.concat([df1, df2, df3], ignore_index = True)

df_merged_weights = np.ones_like(df_merged.values)

plt.hist(df_merged.values, bins = 80, weights = df_merged_weights, color = 'tomato')

plt.xlim(-1.3, 1.0)
plt.ylabel('counts')
plt.legend(['Merged Distribution'], loc = "upper left")
plt.show()

# GMM 쓰기
from sklearn.mixture import GaussianMixture
gmm = GaussianMixture(n_components = 3, n_init = 10)
gmm.fit(df_merged)

gmm.weights_

gmm.means_

gmm.covariances_

gmm.converged_

gmm.n_iter_

gmm.predict(df_merged)

# GMM 적용 후 결과 plot으로 나타내기
import scipy.stats as stats

weights = gmm.weights_
means = gmm.means_
covars = gmm.covariances_

# df_merged를 dataframe에서 array로 변환
arr_merged = df_merged.values.flatten()

# 데이터 범위 및 개수
xx = np.linspace(min(arr_merged),max(arr_merged),17000)

pdf_1 = stats.norm(loc = means[0], scale = np.sqrt(covars[0]))
pdf_2 = stats.norm(loc = means[1], scale = np.sqrt(covars[1]))
pdf_3 = stats.norm(loc = means[2], scale = np.sqrt(covars[2]))

n, bins, patches = plt.hist(df_merged.values, bins = 50, normed=True, facecolor='tomato', alpha = .4)
plt.plot(xx,weights[0]*pdf_1.pdf(xx)[0], c='green')
plt.plot(xx,weights[1]*pdf_2.pdf(xx)[0], c='royalblue')
plt.plot(xx,weights[2]*pdf_3.pdf(xx)[0], c='orange')

plt.show()

### KNN clustering

- 패턴 인식에서 분류나 회귀에 사용되는 비모수 방식이다. 
- 데이터의 지역 구조에 민감하다. 쉽게 구현이 되나 계산량이 많다.
- 매우 일관성 있는 결과를 도출해낸다.