#### Dhany Septiandhika Pratama / A11.2019.11750

# Klastering dengan K-Means

### Import library scikit learn dan matplotlib

In [None]:
from sklearn import datasets
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from scipy.spatial.distance import cdist
import matplotlib.pyplot as plt

In [None]:
iris = datasets.load_iris()
features = iris.data
plt.scatter(features[:,0], features[:,1])
plt.show()

#### Membaca data input. Sebagai ilustrasi, dataset yang digunakan di dalam program ini adalah data iris yang bersumber kepada data yang dipublikasikan oleh Fisher (Fisher, 1950). Data tersebut dapat didownload dari website UCI Machine Learning Repository. Hasil visualisasi scatter data iris bisa dilihat pada gambar diatas

In [None]:
scaler = StandardScaler()
features_standardized = scaler.fit_transform(features)

In [None]:
from sklearn.metrics import silhouette_samples, silhouette_score
wcss = []
for i in range(1, 11):
    kmeans = KMeans(n_clusters = i, init = 'k-means++',
                   max_iter = 300, n_init = 10, random_state = 0)
    kmeans.fit(features)
    wcss.append(kmeans.inertia_)
plt.plot(range(1, 11), wcss)
plt.title('Elbow Method')
plt.xlabel('Number of clusters')
plt.ylabel('WCSS')
plt.show()

#### Membuat klastering dan mencari nilai k yang paling optimal, dengan menggunakan elbow method. Tampilan hasil elbow method seperti terlihat pada gambar diatas.

In [None]:
kmeans = KMeans(n_clusters = 4, init = 'k-means++', max_iter = 300, n_init = 10, random_state = 0)
pred_y = kmeans.fit_predict(features)
plt.scatter(features[:,0], features[:,1])
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], s = 300, c = 'yellow')
plt.show()

### Proses clustering, hasil visualisasi dapat dilihat pada gambar diatas

# Implementasi Python dengan dataset txt

In [None]:
# Import Library yang dibutuhkan
import numpy as np
from matplotlib import pyplot as plt
from matplotlib.pyplot import cm
import time
import itertools

In [None]:
# baca datset dari file
datasetPath = "E:\dataku.txt"
dataset = np.loadtxt(datasetPath, delimiter = " ")

In [None]:
# mendefinisikan parameter kmeans klustering
k = 2 # jumlah klaster yang diinginkan
iterationCounter = 0 # counter untuk iterasi
input = dataset # input data
# fungsi untuk inisialisasi titik pusat klaster (random)
def initCentroid(dataIn, k):
    result = dataIn[np.random.choice(dataIn.shape[0], k, replace = False)]
    return result

#### Pertama kali kita harus import library yang dibutuhkan seperti numpy, matplotlib, dll. Kemudian baca dataset dari file (dataku.txt => berisi 400 data dalam bentuk teks). Setelah itu mendefinisikan parameter K-Means. Buat fungsi untuk inisialisasi titik pusat klister secara random.

In [None]:
# fungsi untuk plot hasil klaster per iterasi
def plotClusterResult(listClusterMembers, centroid, iteration, converged):
    n = listClusterMembers.__len__()
    color = iter(cm.rainbow(np.linspace(0, 1, n)))
    plt.figure("result")
    plt.clf()
    plt.title("iteration-" + iteration)
    marker = itertools.cycle(('.', '*', '^', 'x', '+'))
    for i in range(n):
        col = next(color)
        memberCluster = np.asmatrix(listClusterMembers[i])
        plt.scatter(np.ravel(memberCluster[:, 0]), np.ravel(memberCluster[:,1]),
                    marker=marker.__next__(), s=100, c=col, label="klaster-"+str(i+1))
    for i in range(n):
        plt.scatter((centroid[i, 0]), (centroid[i, 1]), marker=marker.__next__(), 
                    c=col, label="centroid-" + str(i+1))
    if(converged == 0):
        plt.legend()
        plt.ion()
        plt.show()
        plt.pause(0.1)
    if(converged == 1):
        plt.legend()
        plt.show(block = True)

In [None]:
# fungsi utama algoritma kmeans
def kMeans(data, centroidInit):
    nCluster = k #banyaknya klaster
    global iterationCounter
    centroidInit = np.matrix(centroidInit)
    # looping hingga konvergen
    while(True):
        iterationCounter +=1
        euclideanMatrixAllCluster = np.ndarray(shape=(data.shape[0],0))
        # ulangi proses untuk semua klaster
        for i in range (0, nCluster):
            centroidRepeated = np.repeat(centroidInit[i,:], data.shape[0], axis=0)
            deltaMatrix = abs(np.subtract(data, centroidRepeated))
            # hitung jarak Eulidean
            euclideanMatrix=np.sqrt(np.square(deltaMatrix).sum(axis=1))
            euclideanMatrixAllCluster = \
                np.concatenate((euclideanMatrixAllCluster,euclideanMatrix),axis=1)
        # tempatkan data ke klaster yang jarak Eulideannya paling dekat
        clusterMatrix = np.ravel(np.argmin(np.matrix(euclideanMatrixAllCluster),axis=1))
        listClusterMember = [[]for i in range(k)]
        for i in range(0, data.shape[0]):
            listClusterMember[np.asscalar(clusterMatrix[i])].append(data[i,:])
        # hitung titik pusat klaster terbaru
        newCentroid =np.ndarray(shape=(0, centroidInit.shape[1]))
        for i in range (0, nCluster):
            memberCluster = np.asmatrix(listClusterMember[i])
            centroidCluster = memberCluster.mean(axis=0)
            newCentroid = np.concatenate((newCentroid, centroidCluster), axis=0)
        print("iter: ",iterationCounter)
        print("centroid: ",newCentroid)
        # break dari loop jika sudah konvergen
        if((centroidInit == newCentroid).all()):
            break
        # update titik pusat klaster dengan nilai yang baru
        centroidInit = newCentroid
        # plot hasil klaster per iterasi
        plotClusterResult(listClusterMember, centroidInit, str(iterationCounter),0)
        time.sleep(1) # diberi jeda 1 detik agar hasil plot klaster nyaman dilihat
    return listClusterMember, centroidInit

In [None]:
# panggil fungsi inisialisasi klaster
centroidInit = initCentroid(input, k)
# panggil semua fungsi kmeans
clusterResults, centroid = kMeans(input, centroidInit)
# plot hasil final klaster setelah konvergen
plotClusterResult(clusterResults, centroid, str(iterationCounter) + "(converged)", 1)

### Import library scikit learn, numpy, pandas dan matplotlib

In [None]:
# Import Library yang akan digunakan
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans

#### Siapkan 20 record data, kemudian simpan dengan nama konsumen.csv Kemudian, memanggil library yang dibutuhkan. 

In [None]:
# menyiapkan data dan memanggil dataset
dataset = pd.read_csv('konsumen.csv')
dataset.keys()

#### Memanggil dataset konsumen.csv

In [None]:
dataku = pd.DataFrame(dataset)
dataku.head()

#### Untuk menampilkan 5 baris data pertama dari dataset

In [None]:
# Konversi dataset ke data array
X = np.asarray(dataset)
print(X)

#### Hasil konversinya seperti tampil pada gambar diatas

In [None]:
# Menampilkan data array kedalam scatter plot
plt.scatter(X[:,0], X[:,1], label='True Position')
plt.xlabel('Gaji')
plt.ylabel('pengeluaran')
plt.title('grafik penyebaran data konsumen')
plt.show

#### Menampilkan data Array ke dalam Scatter Plot. Untuk visualisasi data, berikut adalah perintah untuk menampilkan data array. Hasil visualisasi penyebaran data konsumen seperti terlihat pada gambar diatas.

In [None]:
# mengaktifkan kmeans dengan jumlah k=2
kmeans = KMeans(n_clusters=2)
kmeans.fit(X)

#### Mengaktifkan K-Means dari Sklearn. Untuk langkah selanjutnya, perlu dilakukan konversi dataset ke dalam tipe data array, dan kemudian melakukan fitting data dengan kode program sebagai berikut.

In [None]:
# menampilkan nilai centroid yang digenerate oleh algoritma
print(kmeans.cluster_centers_)

#### Menampilkan nilai Centroid. Untuk menampilkan nilai centroid atau titik pusat klaster yang degenerate oleh algoritma dapat menggunakan kode diatas dan hasil dapat dilihat diatas.

In [None]:
plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap="rainbow")
plt.xlabel('Gaji')
plt.ylabel('pengeluaran')
plt.title('Grafik hasil klastering data gaji dan pengeluaran konsumen')
plt.show

#### Visualisasi Hasil. Untuk menampilkan scatter plot dari data-data setelah dilakukan klasterisasi oleh algoritma kmeans. Dan visualisasi hasil klaster dapat dilihat pada gambar grafik diatas.

In [None]:
plt.scatter(X[:,0], X[:,1], c=kmeans.labels_, cmap="rainbow")
plt.scatter(kmeans.cluster_centers_[:,0], kmeans.cluster_centers_[:,1], color='black')
plt.xlabel('Gaji')
plt.ylabel('pengeluaran')
plt.title('Grafik hasil klastering data gaji dan pengeluaran konsumen')
plt.show

#### menampilkan hasil centroid dari masing masing klaster dan visualisasinya dapat dilihat pada gambar diatas.