# K-means algorithm for Gaussian mixture - Test

성공조건: K-means algorithm의 일부분을 구현하여 성공적으로 clustering 수행하기

## Preliminaries

Cell을 실행하여 import 및 helper function을 선언합니다

In [None]:
import sys
import numpy as np
import math
import os
import time
%matplotlib inline
import matplotlib
import matplotlib.pyplot as plt
import sklearn.cluster

def plot_data(X, y, n_clusters, title=''):
    # plot data
    plt.figure()
    for idx in range(n_clusters):
        plt.scatter(X[y == idx, 0], X[y == idx, 1],
                    label='{0}'.format(idx))
    ax = plt.gca()
    ax.set_xlabel("X1")
    ax.set_ylabel("X2")
    plt.legend()
    plt.title(title)
    plt.show()
    plt.close()

def synthesize_data():
    n_clusters = 5
    mean_max = 3
    X = []
    y = []
    true_mu_list = []
    true_sigma_list = []
    for idx in range(n_clusters):
        coord = (int(idx / int(n_clusters**(1/2))), idx % int(n_clusters**(1/2)))
        class_mean = np.random.multivariate_normal(coord, cov=(np.eye(2)*0.03))
        true_mu_list.append(class_mean)
        A = np.random.uniform(-1, 1, (2, 2)) * 0.3
        real_cov = np.dot(A,A.transpose())
        true_sigma_list.append(real_cov)
        X.append(np.random.multivariate_normal(mean=class_mean, cov=real_cov, size=1000))
        y.append(np.full(1000, idx))
    X = np.concatenate(X, axis=0)
    y = np.concatenate(y, axis=0)
    y_true = y
    true_mu_list = np.stack(true_mu_list, axis=0)
    true_sigma_list = np.stack(true_sigma_list, axis=0)
    y_onehot = np.zeros((X.shape[0], n_clusters))
    y_onehot[np.arange(X.shape[0]), y] = 1
    plot_data(X, y_true, n_clusters, 'True clusters')
    return X, n_clusters

# K-Means
K-means clustering은 데이터로부터 K개의 cluster를 얻는 알고리즘으로 다음의 과정으로 진행됩니다.

## 1) Initialization
K개 cluster들의 mean을 초기화합니다. K개의 point들을 무작위로 뽑은 후, 각 point를 각 cluster의 중심으로 설정.

## 2) Cluster assignment
각 데이터 포인트에 대하여 가장 가까운 클러스터 중심을 유클리드 공간에서의 거리를 통해 측정하여, 가장 가까운 클러스터에 배정.

$$ r_{nk}=\begin{cases}
    1, & {\arg\min_{j} \|\mathbf{x}_{n} - \boldsymbol{\mu}_{j}\|_{2}^{2}}\\
    0, & \text{otherwise.}
  \end{cases}$$
  
## 3) Cluster mean update
2)에서 클러스터 소속을 배정한 후, 클러스터 중심을 재계산.

$$
\mu_{k}^{new} = \frac{\sum_{n}^{N} r_{nk}\mathbf{x}_{n}}{\sum_{n}^{N} r_{nk}}
$$

## 4) Termination
3&4 step을 반복하다가, 더 이상 클러스터 배정이 변하지 않는다면 알고리즘이 수렴한 것이니 종료.

**문제: 1~4 step들을 참고하여 k-means를 구현한 후, cluster 수를 {3개, 5개}로 설정한 결과를 plot하세요.**

In [None]:
def kMeans(X, n_clusters, max_iter=10):

    # Initialize cluster means
    cluster_means = X[np.random.choice(np.arange(len(X)), n_clusters), :]

    for i in range(max_iter):
        # --------------------------------------------
        # Your code here

        # ---------------------------------------
        
    return cluster_means , y

# Test K-means algorithm

제대로 clustering이 되는지 확인합니다. (Ground truth와 색 assignment이 달라도 무방합니다.)

In [None]:
def test_kmeans(n_clusters_1, n_clusters_2):
    np.random.seed(41)
    X, n_clusters = synthesize_data()
    cluster_means_1, y_1 = kMeans(X, n_clusters_1)
    cluster_means_2, y_2 = kMeans(X, n_clusters_2)
    plot_data(X, y_1, n_clusters_1, "{} clusters".format(n_clusters_1))
    plot_data(X, y_2, n_clusters_2, "{} clusters".format(n_clusters_2))
    
test_kmeans(n_clusters_1=3, n_clusters_2=5)