In [1]:
from sklearn import datasets
import math
import numpy as np

In [2]:
data = datasets.load_iris().data

# KMeans
------------------------------------------
*KMeans* merupakan suatu teknik dalam melakukan *clustering* yang menggunakan pendekatan *partitioning*. Ide utama dari teknik ini adalah dengan mengelompokkan data ke K *cluster*. Penentuan *cluster* mana untuk data tertentu yaitu dengan cara menghitung jarak data tersebut dengan representasi dari *cluster* (*centroid*). Representasi dari *cluster* berupa rata-rata (*means*) dari data-data anggota *cluster* tersebut. Penghitungan jarak dengan menggunakan *euclidean distance*.

![kmeans](img/kmeans.png "KMeans Clustering")

Dalam notasi *pseudocode*, algoritma *KMeans* adalah sebagai berikut.

```
choose_initial_centroid()
WHILE (any_change_in_cluster) DO
    FOREACH object
        assign_to_cluster(object)
    FOREACH cluster
        update_cluster_means(cluster)
```


# Implementation Class

In [3]:
import numpy as np
import math
import random

class KMeans:
    '''
    Kelas untuk mengakomodasi nilai metode agglomerative clustering
    '''
    # Nilai default parameter
    n_clusters = 2
    init = 'random'
    max_iter = 300
    init_val = []
    
    available_init = ['random', 'manual']
    
    def __init__(self, n_clusters=n_clusters, init=init, init_val=init_val, max_iter=max_iter):
         '''
        Inisiasi kelas. Parameter yang dibutuhkan untuk setiap kelas diinisiasi atau diisi dengan nilai default 
        '''
        if n_clusters <= 0:
            raise Exception('n_clusters must be higher than 0')
        if init not in self.available_init:
            raise Exception('No init method \'' + str(init) + '\'. Available init methods'+ str(self.available_init))
        if (init == 'manual' and len(init_val) != n_clusters):
            raise Exception('init_val length doesn\'t match with n_clusters '+ str(n_clusters))
        self.n_clusters = n_clusters
        self.init = init
        self.max_iter = max_iter
        self.init_val = init_val
    
    def __is_in_array(self, data, arr):
        '''
        Fungsi helper untuk menegecek apakah data berupa array berada pada arr berupa array of array
        '''
        is_exist = False
        arr_idx = 0
        while (not is_exist and arr_idx < len(arr)):
            is_data_equal = True
            data_idx = 0
            while (is_data_equal and data_idx < len(data)):
                if (data[data_idx] != arr[arr_idx][data_idx]):
                    is_data_equal = False
                else:
                    data_idx += 1
            if is_data_equal:
                is_exist = True
            else:
                arr_idx += 1
        return is_exist
        
    def __euclidean_distance(self, data1, data2):
        '''
        Fungsi untuk menghitung euclidean distance di antara dua vector dengan panjang yang sama
        '''
        sum = 0
        if (len(data1) == len(data2)):
            for x1, x2 in zip(data1, data2):
                sum += (x1 - x2)**2
            dist = math.sqrt(sum)
            return dist
        else:
            raise Exception('Length doesn\'t match')
            
    def __get_distance(self, data1, data2):
        '''
        Fungsi untuk menghitung jarak dua vector
        '''
        return self.__euclidean_distance(data1, data2)
        
    def __calculate_distance_matrix(self, data, centroids):
        '''
        Fungsi untuk menghitung distance matrix untuk semua data dengan centroid
        '''
        dist_matrix = []        
        for i in range(len(centroids)):
            dist_curr_centroid = []
            for j in range(len(data)):
                dist = self.__get_distance(centroids[i], data[j])
                dist_curr_centroid.append(dist)
            dist_matrix.append(dist_curr_centroid)
        
        return dist_matrix
    
    def __assign_data_to_cluster(self, dist_matrix):
        '''
        Fungsi untuk mengelompokan data berdasarkan jarak yang diketahui
        '''
        cluster_of_data = []
        for j in range(len(dist_matrix[0])):
            cluster = 0
            min_distance = dist_matrix[0][j]
            for i in range(1,len(dist_matrix)):
                if (dist_matrix[i][j] < min_distance):
                    cluster = i
                    min_distance = dist_matrix[i][j]
            cluster_of_data.append(cluster)
        return cluster_of_data
        
    def __get_centroids(self, data, cluster_of_data):
        '''
        Fungsi untuk menghitung centroid baru
        '''
        centroids = []
        data_per_cluster = []
        # inisiasi
        for n in range(self.n_clusters):
            data_per_cluster.append([])
        # masukkan data ke array tiap cluster
        for idx, data_cluster in enumerate(cluster_of_data):
            data_per_cluster[data_cluster].append(data[idx])
        # hitung means
        for n in range(self.n_clusters):
            if len(data_per_cluster[n]) > 0:
                means_cluster = []
                for column in range(len(data_per_cluster[n][0])):
                    sum_column = 0
                    for d in data_per_cluster[n]:
                        sum_column += d[column]
                    means_column = sum_column / len(data_per_cluster[n])
                    means_cluster.append(means_column)
                centroids.append(means_cluster)
        return centroids
        
    def fit_predict(self, data):
        '''
        Fungsi untuk melakukan clustering secara agglomerative
        '''
        
        cluster_of_data = []
        
        # initiate centroid
        centroids = []
        if (self.init == 'random'):
            # cek keunikan data
            unique_data_idx = []
            unique_data = []
            i = 0
            while (len(unique_data_idx) < self.n_clusters) and (i < len(data)):
                if not self.__is_in_array(data[i], unique_data):
                    unique_data_idx.append(i)
                    unique_data.append(data[i])
                i += 1
                
            if (len(unique_data_idx) < self.n_clusters):
                # jika keunikan data kurang dari n_clusters
                for u in unique_data_idx:
                    curr_centroid = np.copy(data[u])
                    centroids.append(curr_centroid)
                for i in range(self.n_clusters - len(unique_data_idx)):
                    rand_idx = random.randint(-1,len(data)-1)
                    # cek apakah sudah terpilih atau belum
                    while (rand_idx in unique_data_idx):
                        rand_idx = random.randint(-1,len(data)-1)
                    curr_centroid = np.copy(data[rand_idx])
                    centroids.append(curr_centroid)
            else:
                for i in range(self.n_clusters):
                    rand_idx = random.randint(-1,len(data)-1)
                    curr_centroid = np.copy(data[rand_idx])
                    # cek apakah sudah terpilih atau belum
                    while (self.__is_in_array(curr_centroid, centroids)):
                        rand_idx = random.randint(-1,len(data)-1)
                        curr_centroid = np.copy(data[rand_idx])
                    centroids.append(curr_centroid)
        else:
            # self.init == 'manual'
            centroids = self.init_val
        
        iteration = 1
        is_convergen = False
        while (not is_convergen and iteration <= self.max_iter):
            # calculate distance all data to all centroid
            dist_matrix = self.__calculate_distance_matrix(data, centroids)
            # assign all data to cluster
            new_cluster_of_data = self.__assign_data_to_cluster(dist_matrix)
            # convergency checking
            is_convergen = np.array_equal(cluster_of_data, new_cluster_of_data)
            # for next iteration
            if not is_convergen:
                cluster_of_data = np.copy(new_cluster_of_data)
                centroids = self.__get_centroids(data, cluster_of_data)
                iteration += 1
    
        return cluster_of_data

## Experiment

In [4]:
kmeans = MyKMeans(n_clusters=4)
pred_a = kmeans.fit(data[:50])
pred_a

array([0, 1, 1, 1, 0, 3, 1, 0, 2, 1, 3, 1, 1, 2, 3, 3, 3, 0, 3, 3, 0, 0,
       2, 0, 1, 1, 0, 0, 0, 1, 1, 0, 3, 3, 1, 1, 0, 1, 2, 0, 0, 2, 2, 0,
       3, 1, 3, 1, 3, 0])