In [1]:
from sklearn import datasets
import math
import numpy as np
from scipy import stats
import time

# KMedoid (PAM)
------------------------------------------
*KMedoid* merupakan suatu teknik dalam melakukan *clustering* yang menggunakan pendekatan *partitioning*. Ide utama dari teknik ini adalah dengan mengelompokkan data ke K *cluster*. Penentuan *cluster* mana untuk data tertentu yaitu dengan cara menghitung jarak data tersebut dengan representasi dari *cluster* (*centroid*). Representasi dari *cluster* berupa sebuah data (*medoid*) dari data-data anggota *cluster* tersebut. Penghitungan jarak dengan menggunakan *manhattan distance*. *Medoid* akan di-update setiap iterasi dengan cara pemilihan secara random pada cluster tertentu, kemudian dihitung perubahan *error*. *Error* berupa *absolute error*, jika perubahan *error* < 0, maka iterasi akan berlanjut dan *medoid* di-update. 

![kmedoid](img/kmedoid.png "KMedoid Clustering")

Dalam notasi *pseudocode*, algoritma *KMedoid* adalah sebagai berikut.

```
choose_initial_centroid()
REPEAT
    FOREACH object
        assign_to_cluster(object)
    choose_new_centroid()
    calculate_total_error()
    if (total_error < 0)
        swap(old_centroid, new_centroid)
UNTIL no_changes
```


# Implementation Class

In [2]:
import numpy as np
import math
import random

class KMedoid:
    '''
    Kelas untuk mengakomodasi nilai metode KMedoid clustering
    '''
    # Nilai default parameter
    n_clusters = 2
    init = 'random'
    max_iter = 300
    init_val = []
    randomize_cluster = 0
    choosen_cluster = []
    
    available_init = ['random', 'manual']
    
    def __init__(self, n_clusters=n_clusters, init=init, init_val=init_val,
                 max_iter=max_iter, randomize_cluster=randomize_cluster):
        '''
        Inisiasi kelas. Parameter yang dibutuhkan untuk setiap kelas diinisiasi atau diisi dengan nilai default 
        '''
        if n_clusters <= 0:
            raise Exception('n_clusters must be higher than 0')
        if init not in self.available_init:
            raise Exception('No init method \'' + str(init) + '\'. Available init methods'+ str(self.available_init))
        if (init == 'manual' and len(init_val) != n_clusters):
            raise Exception('init_val length doesn\'t match with n_clusters '+ str(n_clusters))
        if (n_clusters-1 < randomize_cluster) or (randomize_cluster < 0):
            raise Exception('randomize_cluster must be between 0 and n_clusters-1')
        self.n_clusters = n_clusters
        self.init = init
        self.max_iter = max_iter
        self.init_val = init_val
        self.randomize_cluster = randomize_cluster
    
    def __is_in_array(self, data, arr):
        '''
        Fungsi helper untuk menegecek apakah data berupa array berada pada arr berupa array of array
        '''
        is_exist = False
        arr_idx = 0
        while (not is_exist and arr_idx < len(arr)):
            is_data_equal = True
            data_idx = 0
            while (is_data_equal and data_idx < len(data)):
                if (data[data_idx] != arr[arr_idx][data_idx]):
                    is_data_equal = False
                else:
                    data_idx += 1
            if is_data_equal:
                is_exist = True
            else:
                arr_idx += 1
        return is_exist
        
    def __manhattan_distance(self, data1, data2):
        '''
        Fungsi untuk menghitung manhattan distance di antara dua vector dengan panjang yang sama
        '''
        sum = 0
        if (len(data1) == len(data2)):
            for x1, x2 in zip(data1, data2):
                sum += abs(x1 - x2)
            return sum
        else:
            raise Exception('Length doesn\'t match')
            
    def __get_distance(self, data1, data2):
        '''
        Fungsi untuk menghitung jarak dua vector
        '''
        return self.__manhattan_distance(data1, data2)
        
    def __calculate_distance_matrix(self, data, centroids):
        '''
        Fungsi untuk menghitung distance matrix untuk semua data dengan centroid
        '''
        dist_matrix = []        
        for i in range(len(centroids)):
            dist_curr_centroid = []
            for j in range(len(data)):
                dist = self.__get_distance(centroids[i], data[j])
                dist_curr_centroid.append(dist)
            dist_matrix.append(dist_curr_centroid)
        
        return dist_matrix
    
    def __assign_data_to_cluster(self, dist_matrix):
        '''
        Fungsi untuk mengelompokan data berdasarkan jarak yang diketahui
        '''
        cluster_of_data = []
        for j in range(len(dist_matrix[0])):
            cluster = 0
            min_distance = dist_matrix[0][j]
            for i in range(1,len(dist_matrix)):
                if (dist_matrix[i][j] < min_distance):
                    cluster = i
                    min_distance = dist_matrix[i][j]
            cluster_of_data.append(cluster)
        return cluster_of_data
    
    def __get_centroids(self, data, cluster_of_data, centroids):
        '''
        Fungsi untuk mendapatkan centroid baru
        '''
        # centroid candidate
        data_of_randomize_cluster = []
        for idx, data_cluster in enumerate(cluster_of_data):
            if data_cluster == self.randomize_cluster:
                data_of_randomize_cluster.append(data[idx])
        
        # choose random
        idx = 0
        stop = False
        while ( not stop and idx < len(data_of_randomize_cluster)
        ):
            new_centroid = np.copy(data_of_randomize_cluster[idx])
            if (
                self.__get_distance(new_centroid, centroids[self.randomize_cluster]) == 0 or 
                self.__is_in_array(new_centroid, self.choosen_cluster)
            ):
                idx += 1
            else:
                stop = True
        
        if not self.__is_in_array(new_centroid, self.choosen_cluster):
            self.choosen_cluster.append(new_centroid)
        
        new_centroids = np.copy(centroids)
        new_centroids[self.randomize_cluster] = new_centroid
        return new_centroids
    
    def __calculate_error(self, data, cluster_of_data, new_cluster_of_data, centroids, new_centroids):
        '''
        Fungsi untuk menghitung total absolute error
        '''
        
        old_error = 0
        new_error = 0
        for n in range(self.n_clusters):
            for idx, val in enumerate(data):
                old_error += self.__get_distance(val, centroids[cluster_of_data[idx]])
                new_error += self.__get_distance(val, new_centroids[new_cluster_of_data[idx]])
        
        return new_error-old_error
        
    def fit_predict(self, data):
        '''
        Fungsi untuk melakukan clustering secara KMedoid
        '''
        
        cluster_of_data = []
        
        # initiate centroid
        centroids = []
        if (self.init == 'random'):
            # cek keunikan data
            unique_data_idx = []
            unique_data = []
            i = 0
            while (len(unique_data_idx) < self.n_clusters) and (i < len(data)):
                if not self.__is_in_array(data[i], unique_data):
                    unique_data_idx.append(i)
                    unique_data.append(data[i])
                i += 1
                
            if (len(unique_data_idx) < self.n_clusters):
                # jika keunikan data kurang dari n_clusters
                for u in unique_data_idx:
                    curr_centroid = np.copy(data[u])
                    centroids.append(curr_centroid)
                for i in range(self.n_clusters - len(unique_data_idx)):
                    rand_idx = random.randint(-1,len(data)-1)
                    # cek apakah sudah terpilih atau belum
                    while (rand_idx in unique_data_idx):
                        rand_idx = random.randint(-1,len(data)-1)
                    curr_centroid = np.copy(data[rand_idx])
                    centroids.append(curr_centroid)
            else:
                for i in range(self.n_clusters):
                    rand_idx = random.randint(-1,len(data)-1)
                    curr_centroid = np.copy(data[rand_idx])
                    # cek apakah sudah terpilih atau belum
                    while (self.__is_in_array(curr_centroid, centroids)):
                        rand_idx = random.randint(-1,len(data)-1)
                        curr_centroid = np.copy(data[rand_idx])
                    centroids.append(curr_centroid)
        else:
            # self.init == 'manual'
            centroids = self.init_val
        
        iteration = 1
        is_convergen = False
        
        while (not is_convergen and iteration <= self.max_iter):
            # calculate distance all data to all centroid
            dist_matrix = self.__calculate_distance_matrix(data, centroids)
            # assign all data to cluster
            cluster_of_data = self.__assign_data_to_cluster(dist_matrix)
            # get new possible centroid
            new_centroids = self.__get_centroids(data, cluster_of_data, centroids)
            # calculate distance all data to all new centroid
            new_dist_matrix = self.__calculate_distance_matrix(data, new_centroids)
            # assign all data to new cluster
            new_cluster_of_data = self.__assign_data_to_cluster(new_dist_matrix)
            # convergency checking
            if (self.__calculate_error(data, cluster_of_data, new_cluster_of_data, centroids, new_centroids) >= 0):
                is_convergen = True
            
            # for next iteration
            if not is_convergen:
                cluster_of_data = np.copy(new_cluster_of_data)
                centroids = np.copy(new_centroids)
                iteration += 1
                
        return np.array(cluster_of_data)

## Experiments

Berikut ini merupakan hasil eksperimen implementasi KMedoid (PAM) untuk clustering data iris

In [3]:
def purity(cluster_pred, label):
    data_per_cluster = [[] for i in range(len(set(cluster_pred)))]
    for i,x in enumerate(cluster_pred):
        data_per_cluster[x].append(label[i])

    sum = 0
    for clust in data_per_cluster:
        sum += stats.mode(clust)[1][0]

    return sum/len(cluster_pred)

In [4]:
iris = datasets.load_iris()
data = iris.data
label = iris.target

#### Clustering dengan k=4, randomize_cluster=0

Pada percobaan ini, dipilih nilai k=4 dan randomize_cluster=0, artinya cluster yang akan dirandom centroidnya untuk setiap iterasi adalah cluster pertama. Hasil clustering dan *purity*-nya dapat dilihat pada *output* dari eksekusi *code*.

In [5]:
kmedoid = KMedoid(n_clusters=4, randomize_cluster=0)
start = time.time()
pred = kmedoid.fit_predict(data)

print("---- Time taken: {} s ----".format(time.time() - start))
print("Cluster prediction:")
print(pred)
print("Purity: {}".format(purity(pred, label)))


---- Time taken: 0.005999326705932617 s ----
Cluster prediction:
[0 0 0 0 0 3 0 0 0 0 0 0 0 0 0 3 3 0 3 3 0 3 0 0 0 0 0 0 0 0 0 0 3 0 0 0 0
 0 0 0 0 0 0 0 3 0 3 0 0 0 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 2 1 2 1 1 1 1 2 1 1 1 1
 1 1 2 1 1 1 1 1 2 1 2 1 2 1 1 2 2 1 1 1 1 1 2 2 1 1 1 2 1 1 1 2 1 1 1 1 1
 1 2]
Purity: 0.8933333333333333


#### Clustering dengan k=4, randomize_cluster=1

Pada percobaan ini, dipilih nilai k=4 dan randomize_cluster=1, artinya cluster yang akan dirandom centroidnya untuk setiap iterasi adalah cluster kedua. Hasil clustering dan *purity*-nya dapat dilihat pada *output* dari eksekusi *code*.

In [6]:
kmedoid = KMedoid(n_clusters=4, randomize_cluster=1)
start = time.time()
pred = kmedoid.fit_predict(data)

print("---- Time taken: {} s ----".format(time.time() - start))
print("Cluster prediction:")
print(pred)
print("Purity: {}".format(purity(pred, label)))


---- Time taken: 0.00672602653503418 s ----
Cluster prediction:
[1 1 0 0 1 1 0 1 0 1 1 1 0 0 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 0 0 1 1 1 1 1 1
 1 0 1 1 0 0 1 1 0 1 0 1 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 3 2 3 2 2 2 2 3 3 3 2 2
 3 2 3 2 2 2 2 2 3 2 3 2 3 2 2 3 3 2 3 3 2 2 3 3 2 2 2 3 2 2 2 3 2 2 2 3 2
 2 2]
Purity: 0.8733333333333333


#### Clustering dengan k=4, randomize_cluster=2

Pada percobaan ini, dipilih nilai k=4 dan randomize_cluster=2, artinya cluster yang akan dirandom centroidnya untuk setiap iterasi adalah cluster ketiga. Hasil clustering dan *purity*-nya dapat dilihat pada *output* dari eksekusi *code*.

In [7]:
kmedoid = KMedoid(n_clusters=4, randomize_cluster=2)
start = time.time()
pred = kmedoid.fit_predict(data)

print("---- Time taken: {} s ----".format(time.time() - start))
print("Cluster prediction:")
print(pred)
print("Purity: {}".format(purity(pred, label)))


---- Time taken: 0.007439851760864258 s ----
Cluster prediction:
[2 2 2 2 2 2 1 2 2 2 2 2 2 1 1 2 1 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 1 2 2 2 2 2 2 2 3 3 3 0 3 0 3 0 3 0 0 0 0 0 0 3 0 0 0 0 3 0 3 0
 0 3 3 3 0 0 0 0 0 3 0 3 3 0 0 0 0 0 0 0 0 0 0 0 0 0 3 3 3 3 3 3 0 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3]
Purity: 0.8933333333333333


#### Clustering dengan k=4, randomize_cluster=3

Pada percobaan ini, dipilih nilai k=4 dan randomize_cluster=0, artinya cluster yang akan dirandom centroidnya untuk setiap iterasi adalah cluster keempat. Hasil clustering dan *purity*-nya dapat dilihat pada *output* dari eksekusi *code*.

In [8]:
kmedoid = KMedoid(n_clusters=4, randomize_cluster=3)
start = time.time()
pred = kmedoid.fit_predict(data)

print("---- Time taken: {} s ----".format(time.time() - start))
print("Cluster prediction:")
print(pred)
print("Purity: {}".format(purity(pred, label)))


---- Time taken: 0.019479751586914062 s ----
Cluster prediction:
[0 1 1 1 0 0 1 1 1 1 0 1 1 1 0 0 0 0 0 0 0 0 1 1 1 1 1 0 0 1 1 0 0 0 1 1 0
 1 1 0 0 1 1 0 0 1 0 1 0 1 3 3 3 3 3 3 3 1 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 1 3 3 3 3 1 3 2 3 2 2 2 2 3 2 2 2 3
 3 2 3 3 3 2 2 2 3 2 3 2 3 2 2 3 3 2 2 2 2 2 3 3 2 2 2 3 2 2 2 3 2 2 2 3 3
 3 3]
Purity: 0.8466666666666667


## Hasil dan Analisis

Dari keempat eksperimen di atas, dapat ditarik kesimpulan bahwa untuk dataset iris, metode *KMeans (PAM)* dapat diterapkan untuk melakukan *clustering*. Pemilihan nilai randomize_cluster=0 dan randomize_cluster=2 menghasilkan *cluster* dengan *purity* tertinggi, yaitu 0.893. Keempat percobaan diatas menghasilkan *purity* yang berbeda meskipun nilai k sama, yaitu k=4. Hal ini dikarenakan inisiasi centroid yang random membuat hasil yang tidak sama serta pemilihan centroid mana yang akan di-random untuk setiap iterasinnya juga mempengaruhi hasil.