In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

In [None]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [3]:
from pyclustering.cluster.gmeans import gmeans

# K-평균 최적화

- 군집의 중심점(centroid) 초기화 문제
- 최적의 군집수 결정 문제 

## 1. 중심점(centriod) 초기화

- 센트로이드 초기화에 따라 알고리즘 수렴의 최적화를 보장하지 못할 수 있다

- 운 나쁜 센트로이드 초기화 때문에 최적이 아닌 솔루션 사례
![image.png](attachment:image.png)

![image.png](attachment:image.png)

- 세번만에 최적으로 보이는 클러스터에 도달함

### 중심점 초기화 방법

: 센트로이드 위치를 근사하게 알 수 있다면 최적의 솔루션을 반환할 수 있다

#### 방법1. 다른 군집 알고리즘을 먼저 실행하여 근사한 센트로이드 위치를 결정

- KMeans 클래스의 `init` 매개변수에 센트로이드 리스트를 담은 넘파이 배열을 지정하고, `n_init`를 1로 설정

#### 방법2. 랜덤 초기화를 다르게 하여 여러 번 알고리즘을 실행하고 가장 좋은 솔루션을 선택

- 랜덤 초기화 횟수 지정
    - KMeans 클래스의 매개변수 `n_init`로 조절
    - n_init 기본값은 10

#### 방법3. K-means++ 초기화 알고리즘 사용

- KMeans 클래스는 `init` 매개변수의 기본값으로 `K-means++`을 사용하고 있음
- 이 방식을 사용하고 싶지 않은 경우 `init` 매개변수를 `'random'`으로 지정

**[참고. K-Means++ ]**

- 데이비드 아서(David Arthur) & 세르게이 바실비츠키(Sergei Vassilvitskii) 2006년 제안
- 다른 센트로이드와 거리가 먼 센트로이드를 선택하는 초기화 단계 제시
- 최적의 솔루션을 찾기 위한 실행 알고리즘의 반복 횟수를 크게 줄일 수 있으므로
- 초기화 단계에 드는 시간이 충분한 가치가 있는 알고리즘

**K-means++ 초기화 알고리즘**
1. 데이터셋에서 무작위로 균등하게 하나의 센트로이드 $c^{(1)}$를 선택한다.
2. $ \frac{D(x^{(i)})^2 } { \sum_{j=1}^m D(x^{(j)})^2 }$  의 확률로 샘플 $x^{(i)}$를 새로운 센트로이드  $c^{(i)}$ 로 선택한다.
    - $ D(x^{(i)})^2 $  : 샘플 $x^{(i)}$와 이미 선택과 가장 가까운 센트로이드와의 거리
    - 이 확률분포는 이미 선택한 센트로이드에서 멀리 떨어진 샘플을 다음 센트로이드로 선택할 가능성을 높임
3. $k$개의 센트로이드가 선택될 때까지 이전 단계를 반복한다

### [실습] 중심점 초기화 지정

#### 5개 클러스터를 갖는 가상데이터

In [None]:
blob_centers = np.array([[0.2, 2.3],[-1.5, 2.3],[-2.8, 1.8],[-2.8, 2.8],[-2.8, 1.3]])
blob_std = np.array([0.4, 0.3, 0.1, 0.1, 0.1])
X, y = make_blobs(n_samples=2000, centers=blob_centers, cluster_std=blob_std, random_state=7)
X.shape

#### 초기화 방법1. 다른 군집알고리즘으로 근사한 중심점을 초기 센트로이드로 사용

#### 초기화 방법2. 랜덤 초기화를 다르게 하여 여러 번 알고리즘을 실행하고 가장 좋은 솔루션을 선택

KMeans() 파라미터 중 max_iter의 값을 변화
- init="random"
- n_init=1
- algorithm="full"
- max_iter = ?

**max_iter 변화시키면서 군집 수행**

#### 초기화 방법3. K-means ++ 초기화 알고리즘 사용

## 2. K-평균의 최적 솔루션 성능 지표

#### 이너셔가 가장 작은 모델이 최적

- 이너셔(inertia) : 각 샘플과 가까운 센트로이드 사이의 평균 제곱 거리


- KMeans 클래스의 `inertia_` 인스턴스 변수에 이너셔값을 저장

### 군집 결과의 이너셔(inertia) 비교

### score() 메서드

- 이너셔의 음수값을 반환
- 사이킷런은 큰 값이 좋은 값이라는 규칙에 따라 이너셔의 음수값을 반환

### 참고. K-평균 속도 개선과 미니배치 k-평균

**KMeans 알고리즘의 속도 개선**
- 2013년 찰스 엘칸(Charles Elkan) 제안
- 삼각부등식을 사용하여 불필요한 거리 계산을 줄임
- 샘플과 센트로이드 사이의 거리를 위한 하한선과 상한선을 유지
- 사이킷런의 KMeans 클래스에서 이 속도 개선 알고리즘 적용
    - `algorithm` 매개변수를 `'full'`로 지정

**미니배치를 사용한 K평균**
- 2010년 데이비드 스컬리(David Sculley) 제안
- 전체 데이터셋을 사용해 반복하지 않고 각 반복마다 미니배치를 사용하여 센트로이드를 조금씩 이동
- 알고리즘 속도를 3배에서 4배 정도 높임
- 메모리에 들어가지 않는 대량의 데이터셋에 군집 알고리즘을 적용할 수 있음
- 사이킷런의 `MiniBatchKMeans` 클래스

- 미니배치 k-평균 알고리즘이 일반 k-평균 알고리즘 보다 훨씬 빠르지만, 이너셔는 일반적으로 조금 더 나쁨

![image-2.png](attachment:image-2.png)

## 3. 최적의 클러스터 개수 찾기

### 방법1. 이너셔가 급격히 작아지는 지점(elbow)의 K 선택

**k=1~10인 KMeans 모델별 이너셔에 대한 그래프 작성**

- 클러스터가 늘어날수록 각 샘플은 가까운 센트로이드에 더 가깝게 되어 이너셔는 더 작아짐

- 엘보(elbow) : 클러스터 개수 k가 커질 때 이너셔가 꺽이는 지점

### 방법2. 실루엣 점수(silhouette score)
: 모든 샘플에 대한 실루엣 계수의 평균

실루엣계수 $ = \frac {(b-a)}{max(a,b)}$
- a : 동일한 클러스터에 있는 다른 샘플까지 평균 거리
    - 클러스터 내부의 평균 거리
- b : 가장 가까운 클러스터까지 평균 거리
    - 가장 가까운 클러스터의 샘플까지 평균거리
    - 가장 가까운 클러스터는 자신이 속한 클러스터는 제외하고 b가 최소인 클러스터
    



![image-2.png](attachment:image-2.png)


실루엣계수 : -1 ~ +1
- +1 에 가까우면 자신의 클러스터 안에 잘 속해 있고 다른 클러스터와는 멀리 떨어져 있음을 나타냄
- 0에 가까우면 클러스터 경계에 위치함을 나타냄
- -1에 가까우면 이 샘플이 잘못된 클러스터에 할당되었음을 의미함

#### 실루엣계수 계산 : silhouette_score() 함수

silhouette_score(샘플, 할당된레이블)

#### 클러스터 개수에 따른 실루엣 점수 비교

#### 실루엣 다이어그램
- 모든 샘플의 실루엣 계수를 할당된 클러스터와 계수값으로 정렬하여 그린 그래프
- 클러스터마다 칼 모양의 그래프가 그려짐
- 그래프의 높이는 클러스터가 포함하고 있는 샘플의 개수
- 그래프의 너비는 클러스터에 포함된 샘플의 정렬된 실루엣 계수를 나타냄
    - 너비가 넓을수록 좋음

In [None]:
### 여러개의 클러스터링 갯수를 List로 입력 받아 
### 각각의 실루엣 계수를 면적으로 시각화한 함수 작성

def visualize_silhouette(cluster_lists, X_features): 
    
    from sklearn.datasets import make_blobs
    from sklearn.cluster import KMeans
    from sklearn.metrics import silhouette_samples, silhouette_score

    import matplotlib.pyplot as plt
    import matplotlib.cm as cm
    import math
    
    # 입력값으로 클러스터링 갯수들을 리스트로 받아서, 
    # 각 갯수별로 클러스터링을 적용하고 실루엣 개수를 구함
    n_cols = len(cluster_lists)
    
    # plt.subplots()으로 리스트에 기재된 클러스터링 수만큼의 sub figures를 가지는 axs 생성 
    fig, axs = plt.subplots(figsize=(4*n_cols, 4), nrows=1, ncols=n_cols)
    
    # 리스트에 기재된 클러스터링 갯수들을 차례로 iteration 수행하면서
    # 실루엣 개수 시각화
    for ind, n_cluster in enumerate(cluster_lists):
        
        # KMeans 클러스터링 수행하고, 
        # 실루엣 스코어와 개별 데이터의 실루엣 값 계산. 
        clusterer = KMeans(n_clusters = n_cluster, max_iter=500, random_state=0)
        cluster_labels = clusterer.fit_predict(X_features)
        
        sil_avg = silhouette_score(X_features, cluster_labels)
        sil_values = silhouette_samples(X_features, cluster_labels)
        
        y_lower = 10
        axs[ind].set_title('Number of Cluster : '+ str(n_cluster)+'\n' \
                          'Silhouette Score :' + str(round(sil_avg,3)) )
        axs[ind].set_xlabel("The silhouette coefficient values")
        axs[ind].set_ylabel("Cluster label")
        axs[ind].set_xlim([-0.1, 1])
        axs[ind].set_ylim([0, len(X_features) + (n_cluster + 1) * 10])
        axs[ind].set_yticks([])  # Clear the yaxis labels / ticks
        axs[ind].set_xticks([0, 0.2, 0.4, 0.6, 0.8, 1])
        
        # 클러스터링 갯수별로 fill_betweenx( )형태의 막대 그래프 표현. 
        for i in range(n_cluster):
            ith_cluster_sil_values = sil_values[cluster_labels==i]
            ith_cluster_sil_values.sort()
            
            size_cluster_i = ith_cluster_sil_values.shape[0]
            y_upper = y_lower + size_cluster_i
            
            color = cm.nipy_spectral(float(i) / n_cluster)
            axs[ind].fill_betweenx(np.arange(y_lower, y_upper), 0, ith_cluster_sil_values, \
                                facecolor=color, edgecolor=color, alpha=0.7)
            axs[ind].text(-0.05, y_lower + 0.5 * size_cluster_i, str(i))
            y_lower = y_upper + 10
            
        axs[ind].axvline(x=sil_avg, color="red", linestyle="--")

- 5개 클러스터 중심의 2000개 2차원 데이터 셋(앞의 샘플데이터)

- 4개의 클러스터 중심의 500개 2차원 데이터 셋에 KMeans 적용한 경우 실루엣 다이어그램  

- iris dataset에 대한 KMeans 적용한 경우 실루엣 다이어그램

-------------------