<a href="https://colab.research.google.com/github/cassiejc/24-8-2023/blob/master/Copy_of_Modul_3_Praktikum_Machine_Learning.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Unsupervised Learning**



# **Tujuan**
* Praktikan mampu memahami konsep dasar dari unsupervised learning dan perbedaannya dengan supervised learning
* Praktikan mampu melakukan clustering dengan K-Means dan Hierarchical Clustering
* Praktikan mampu meneramkan dimensionality reduction dengan PCA

# **Pengantar**

Berbeda dengan supervised learning di modul sebelumnya, data pada unsupervised learning tidak memiliki label (unlabeled data). Algoritma unsupervised learning akan menemukan pola atau struktur dalam sebuah data sehingga data tersebut akan dikelompokkan berdasarkan jenis/tipe yang mirip. Karena tidak adanya label pada data, unsupervised learning lebih tidak akurat jika dibandingkan dengan supervised learning

Terdapat 2 tipe unsupervised learning:
1. Clustering: Memisahkan data ke dalam kelompok yang serupa berdasarkan karakteristik yang sama
2. Dimensionality reduction: Mengurangi jumlah fitur dalam data dengan tetap mempertahankan informasi penting


# **Clustering**

Clustering pada unlabeled data dapat dilakukan dengan modul `sklearn.cluster`

Ada berbagai macam algoritma yang digunakan dalam Clustering. Berikut merupakan contoh clustering dengan algoritma yang bermacam-macam di scikit-learn.

![cluster_outcome_algorithm.png](https://drive.google.com/uc?export=view&id=1E80myu0A0XeepF5S6vl-nUpNjBJzEU0Q)

In [1]:
# Supress Warnings
import warnings
warnings.filterwarnings('ignore')

##**Import Library dan Dataset**

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

Pada modul ini, dataset yang digunakan adalah dataset mengenai customer mall. Dataset tersebut dapat di-download melalui link berikut

[Mall_Customers.csv](https://drive.google.com/file/d/1_UYfw50xFZmiMa8qAePLDbmh4vY_nBln/view?usp=sharing)

Dataset yang sudah di-download dapat di-upload langsung ke workspace Google Colab atau bisa di-upload ke google drive.

File dataset menggunakan csv yang bisa dibaca dengan library pandas dan fungsi `read_csv('path_atau_nama_file')`

In [4]:
df1 = pd.read_csv('Mall_Customers.csv')

##**Eksplorasi Dataset**

In [5]:
df1.head()

Unnamed: 0,CustomerID,Gender,Age,Annual Income (k$),Spending Score (1-100)
0,1,Male,19,15,39
1,2,Male,21,15,81
2,3,Female,20,16,6
3,4,Female,23,16,77
4,5,Female,31,17,40


In [6]:
df1.shape

(200, 5)

In [7]:
df1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 5 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   CustomerID              200 non-null    int64 
 1   Gender                  200 non-null    object
 2   Age                     200 non-null    int64 
 3   Annual Income (k$)      200 non-null    int64 
 4   Spending Score (1-100)  200 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 7.9+ KB


In [8]:
df1.isna().sum()

Unnamed: 0,0
CustomerID,0
Gender,0
Age,0
Annual Income (k$),0
Spending Score (1-100),0


Dari eksplorasi dataset tadi, didapat ada 1 categorical features, yaitu gender dan 3 numerical features, yaitu age, annual income, dan spending score. Algoritma clustering pada dasarnya dirancang untuk bekerja dengan data numerik, tetapi categorical features juga bisa diolah hanya saja features tersebut harus ditransformasi menjadi bentuk angka biner atau angka yang melambangkan kategori yang ada. Misalnya, dalam kolom gender, female bisa ditransformasi menjadi 0 dan male menjadi 1

Namun, pada modul ini, kita akan fokus pada numerical features, sehingga kita akan drop kolom Gender dan CostumerID.

In [None]:
df1.drop([FIXME,FIXME], axis='columns', inplace=True)

Dataframe setelah kedua kolom tersebut di-drop

In [None]:
df1.head()

##**K-Means**

K-means clustering adalah pendekatan untuk membagi satu dataset menjadi K-clusters yang berbeda. K-Means merupakan centroid-based algorithm dan distance-based algorithm dimana kita menghitung jarak untuk menempatkan sebuah poin ke sebuah cluster

![cluster_outcome_algorithm.png](https://drive.google.com/uc?export=view&id=1iFjjUzKZNrX31a-MaelxNURSG7NvfRkP)

Cara kerja algoritma K-Means:
1. Mencari nilai k, yang bisa didapat dengan dua cara, yaitu Elbow Method atau Shillouette Score Method
2. k titik dipilih secara acak dari data sebagai centroid awal untuk setiap cluster
3. Setiap data kemudian ditempatkan ke dalam cluster yang memiliki centroid terdekat
4. Setelah semua data telah diatribusikan ke cluster, posisi centroid diperbarui dengan menghitung rata-rata dari semua data dalam setiap cluster
5. Langkah 3 dan 4 diulangi sampai tidak ada perubahan dalam penempatan cluster atau posisi centroid. Ini menandakan bahwa algoritma telah mencapai local optimum


###**Mencari Nilai k dengan Elbow Method dan Silhouette Score Method**

Nilai k dapat dicari dengan **Elbow Method** atau **Shillouette Score Method**.

**Elbow Method** merupakan plotting dari sum of squared error yang terjadi di dalam cluster untuk berbagai nilai k. Jika plot ini menyerupai lengan dengan siku (elbow), maka nilai k yang menyerupai siku tersebut dipilih.

**Silhouette Score Method** mengevaluasi kualitas cluster berdasarkan seberapa baik data poin dikelompokkan dengan data poin lain yang mirip satu sama lain. Skor ini dihitung menggunakan formula jarak antar data poin dan nilai k dengan skor tertinggi dipilih untuk pemodelan.

Karena fitur yang tersisa ada 3, maka kita akan mendapatkan 3 kombinasi pasangan fitur untuk dilakukan clustering, yaitu
1. Age dan Annual Income
2. Age dan Spending Score
3. Annual Income dan Spending Score

###**Age dan Annual Income**

Membuat dataframe baru yang terdiri dari kolom age dan annual income. Sesuaikan nama kolomnya dengan nama kolom dataset

In [None]:
age_ann = df1[[FIXME,FIXME]]

Mencari nilai k dengan elbow method dan silhouette score

In [None]:
#import library KMeans dan silhouette score
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score

#untuk menyimpan nilai sum square error dan silhouette score
elbow_age_ann = []
sil_score_age_ann = []
fig, axs = plt.subplots(1, 2, figsize=(20, 5))

#Elbow method
for i in range(1,11):
    '''
    Fungsi KMeans digunakan untuk membuat model clustering dengan menentukan
    jumlah cluster (n_clusters), metode inisialisasi centroid (init),
    dan parameter acak (random_state). Setelah model dibuat, model perlu
    disesuaikan/dilatih dengan dataset menggunakan fungsi `fit(data)`.
    Kemudian simpan nilai total sum of squared errors (SSE) menggunakan `inertia_`
    ke dalam array
    '''
    kmeans = FIXME(n_clusters = i, init = 'k-means++', random_state = 0)
    kmeans.FIXME(FIXME)
    elbow_age_ann.append(kmeans.FIXME)

#Tampilkan grafik
plt.subplot(1,2,1)
#Tampilkan nilai inertia_ (SSE) yang disimpan di elbow_age_ann
plt.plot(range(1,11), FIXME)
plt.title('The Elbow Method')
plt.xlabel('k : no of clusters')
plt.ylabel('sum of squared error')

#Silhouette score
for i in range(2, 11):
    '''
    Seperti pada langkah sebelumnya, buat model KMeans dan latih (fit) model
    tersebut pada data age_ann. Setelah proses fitting selesai, panggil atribut
    labels_ untuk mendapatkan label cluster yang diberikan pada setiap data
    point. Label ini menunjukkan cluster mana yang dimiliki oleh masing-masing
    data. Kemudian, fungsi silhouette_score() digunakan untuk menghitung
    Silhouette Score, yang memerlukan dua parameter, yaitu data dan label.
    Setelah menghitung Silhouette Score, simpan nilai tersebut ke dalam array
    sil_score_age_ann.
    '''
    kmeans = FIXME(n_clusters=i, init='k-means++', random_state=0)
    kmeans.FIXME(FIXME)
    labels = kmeans.FIXME
    silhouette_avg = silhouette_score(FIXME, FIXME)
    sil_score_age_ann.append(FIXME)

plt.subplot(1,2,2)
#Tampilkan nilai silhouette score yang disimpan di sil_score_age_ann
plt.plot(range(2,11), FIXME)
plt.title('Silhouette Score Method')
plt.xlabel('k : no of clusters')
plt.ylabel('Silhouette Score')
plt.show()

Pada elbow method dapat dilihat pada k = 4 grafik terlihat seperti siku, lalu pada silhouette score method nilai tertinggi adalah k = 4. Oleh karena itu, berdasarkan kedua method tersebut, kita memilih k = 4

In [None]:
'''
n_clusters merupakan nilai k yang didapat dari elbow dan shillouette score method.
Fungsi fit_predict merupakan metode dalam KMeans yang menggabungkan fit dan predict
dimana fit merupakan metode model mempelajari data dan menentukan posisi centroid
cluster dan predict menetapkan label cluster untuk setiap data point dalam dataset.
Model yang telah dibuat akan digunakan untuk melakukan fitting dan prediksi
data sekaligus. Kemudian koordinat centroid untuk setiap cluster settelah model
dilatih dapat diakses di atribut cluster_centers_.
'''
KM_age_ann = KMeans(n_clusters= FIXME, init='k-means++', random_state=0)
KM_age_ann_labels = FIXME.fit_predict(FIXME)
KM_age_ann_centroids = FIXME.cluster_centers_

Melakukan plotting hasil clustering

In [None]:
#Plot centroid
plt.scatter(KM_age_ann_centroids[:,0], KM_age_ann_centroids[:,1], marker="X", color='black')
#Plot clustering
scatter = plt.scatter(x='Age', y='Annual Income (k$)', c=KM_age_ann_labels, cmap='Spectral', data=age_ann)
#Menambahkan legend
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3'])
plt.title('Clusters of Customers')
plt.xlabel('Age')
plt.ylabel('Annual Income (k$)')
plt.show()

Menghitung jumlah data di setiap cluster

In [None]:
age_ann_copy = age_ann.copy()
age_ann_copy.loc[:, 'Cluster'] = KM_age_ann_labels
km_age_ann_sz = age_ann_copy.groupby('Cluster').size().to_frame().rename(columns = {0:'KM_size'})
km_age_ann_sz

###**Age dan Spending Score**

Membuat dataframe baru yang terdiri dari kolom age dan spending score. Sesuaikan nama kolomnya dengan nama kolom dataset

In [None]:
age_spend = df1[[FIXME,FIXME]]

Mencari nilai k dengan elbow method dan silhouette score

In [None]:
#untuk menyimpan nilai sum square error dan silhouette score
elbow_age_spend = []
sil_score_age_spend = []
fig, axs = plt.subplots(1, 2, figsize=(20, 5))

#Elbow method
for i in range(1,11):
    '''
    Sama seperti tahapan sebelumnya dengan data yang berbeda
    '''
    kmeans = FIXME(n_clusters = i, init = 'k-means++', random_state = 0)
    kmeans.FIXME(FIXME)
    elbow_age_spend.append(kmeans.FIXME)

plt.subplot(1,2,1)
#Tampilkan nilai inertia_ (SSE) yang disimpan di elbow_age_spend
plt.plot(range(1,11), FIXME)
plt.title('The Elbow Method')
plt.xlabel('k : no of clusters')
plt.ylabel('sum of squared error')

#Silhouette score
for i in range(2, 11):
    '''
    Sama seperti tahapan sebelumnya dengan data yang berbeda
    '''
    kmeans = FIXME(n_clusters=i, init='k-means++', random_state=0)
    kmeans.FIXME(FIXME)
    labels = kmeans.FIXME
    silhouette_avg = silhouette_score(FIXME, FIXME)
    sil_score_age_spend.append(FIXME)

plt.subplot(1,2,2)
#Tampilkan nilai silhouette score yang disimpan di sil_score_age_spend
plt.plot(range(2,11), FIXME)
plt.title('Silhouette Score Method')
plt.xlabel('k : no of clusters')
plt.ylabel('Silhouette Score')
plt.show()

Pada elbow method dapat dilihat pada k = 4 grafik terlihat seperti siku, lalu pada silhouette score method nilai tertinggi adalah k = 4. Oleh karena itu, berdasarkan kedua method tersebut, kita memilih k = 4

In [None]:
'''
Sama seperti tahapan sebelumnya dengan data yang berbeda
'''
KM_age_spend = KMeans(n_clusters= FIXME, init='k-means++', random_state=0)
KM_age_spend_labels = FIXME.fit_predict(FIXME)
KM_age_spend_centroids = FIXME.cluster_centers_

Melakukan plotting hasil clustering

In [None]:
#Plot centroid
plt.scatter(KM_age_spend_centroids[:,0], KM_age_spend_centroids[:,1], marker="X", color='black')
#Plot clustering
scatter = plt.scatter(x='Age', y='Spending Score (1-100)', c=KM_age_spend_labels, cmap='Spectral', data=age_spend)
#Menambahkan legend
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3'])
plt.title('Clusters of Customers')
plt.xlabel('Age')
plt.ylabel('Spending Score (1-100)')
plt.show()

Menghitung jumlah data di setiap cluster

In [None]:
age_spend_copy = age_spend.copy()
age_spend_copy.loc[:, 'Cluster'] = KM_age_spend_labels
km_age_spend_sz = age_spend_copy.groupby('Cluster').size().to_frame().rename(columns = {0:'KM_size'})
km_age_spend_sz

###**Annual Income dan Spending Score**

Membuat dataframe baru yang terdiri dari kolom annual income dan spending score

In [None]:
ann_spend = df1[[FIXME,FIXME]]

Mencari nilai k dengan elbow method dan silhouette score

In [None]:
#untuk menyimpan nilai sum square error dan silhouette score
elbow_ann_spend = []
sil_score_ann_spend = []
fig, axs = plt.subplots(1, 2, figsize=(20, 5))

#Elbow method
for i in range(1,11):
    '''
    Sama seperti tahapan sebelumnya dengan data yang berbeda
    '''
    kmeans = FIXME(n_clusters = i, init = 'k-means++', random_state = 0)
    kmeans.FIXME(FIXME)
    elbow_ann_spend.append(kmeans.FIXME)

plt.subplot(1,2,1)
#Tampilkan nilai inertia_ (SSE) yang disimpan di elbow_ann_spend
plt.plot(range(1,11), FIXME)
plt.title('The Elbow Method')
plt.xlabel('k : no of clusters')
plt.ylabel('sum of squared error')

#Silhouette score
for i in range(2, 11):
    '''
    Sama seperti tahapan sebelumnya dengan data yang berbeda
    '''
    kmeans = FIXME(n_clusters=i, init='k-means++', random_state=0)
    kmeans.FIXME(FIXME)
    labels = kmeans.FIXME
    silhouette_avg = silhouette_score(FIXME, FIXME)
    sil_score_ann_spend.append(FIXME)

plt.subplot(1,2,2)
#Tampilkan nilai silhouette score yang disimpan di sil_score_ann_spend
plt.plot(range(2,11), FIXME)
plt.title('Silhouette Score Method')
plt.xlabel('k : no of clusters')
plt.ylabel('Silhouette Score')
plt.show()

Pada elbow method dapat dilihat pada k = 5 grafik terlihat seperti siku, lalu pada silhouette score method nilai tertinggi adalah k = 5. Oleh karena itu, berdasarkan kedua method tersebut, kita memilih k = 5

In [None]:
'''
Sama seperti tahapan sebelumnya dengan data yang berbeda
'''
KM_ann_spend = KMeans(n_clusters= FIXME, init='k-means++', random_state=0)
KM_ann_spend_labels = FIXME.fit_predict(FIXME)
KM_ann_spend_centroids = FIXME.cluster_centers_

Melakukan plotting hasil clustering

In [None]:
#Plot centroid
plt.scatter(KM_ann_spend_centroids[:,0], KM_ann_spend_centroids[:,1], marker="X", color='black')
#Plot clustering
scatter = plt.scatter(x='Annual Income (k$)', y='Spending Score (1-100)', c=KM_ann_spend_labels, cmap='Spectral', data=ann_spend)
#Menambahkan legend
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4'])
plt.title('Clusters of Customers')
plt.xlabel('Annual Income (k$)')
plt.ylabel('Spending Score (1-100)')
plt.show()

Menghitung jumlah data di setiap cluster

In [None]:
ann_spend_copy = ann_spend.copy()
ann_spend_copy.loc[:, 'Cluster'] = KM_ann_spend_labels
km_ann_spend_sz = ann_spend_copy.groupby('Cluster').size().to_frame().rename(columns = {0:'KM_size'})
km_ann_spend_sz

Dari ketiga plot di atas, plot antara spending score dan annual income dengan umur customer tidak memiliki cluster yang pasti dan cenderung homogen, sedangkan plot antara annual income dan spending score dapat disimpulkan sebagai 5 cluster, yaitu:
1. Customers dengan low annual income and high spending score
2. Customers dengan medium annual income and medium spending score
3. Customers dengan high annual income and low spending score
4. Customers dengan high annual income and high spending score
5. Customers dengan low annual income and low spending score

Dapat dilihat dari tabel, cluster terbanyak adalah cluster 1, yaitu customers dengan medium annual income and medium spending score


#**Dimensionality Reduction**

Dimensionality reduction merupakan sebuah teknik untuk mengurangi jumlah fitur dalam dataset dengan tetap mempertahankan infomrasi penting yang ada. Dengan kata lain, dimensionality reduction mengubah data dengan dimensi yang besar ke dimensi yang lebih kecil dengan tetap mempertahakan esensi dari data asli. Data dengan dimensi besar yang dimaksud adalah data dengan jumlah fitur yang banyak.

Curse of dimensionality merupakan masalah yang umum ditemui dalam machine learning, dimana performa model memburuk seiring bertambanya fitur. Hal ini terjadi karena kompleksitas model meningkat seriring dengan jumlah fitur. Selain itu, data dengan dimensi yang besa juga dapat menyebabkan overfitting, yaitu model terlalu fit ke data training dan tidak generalize ke data baru

Dimensionality reduction dapat membantu mengatasi masalah ini dengan mengurangi kompleksitas dari model dan meningkatkan performanya

Beberapa metode yang digunakan dalam dimensionality reduction, yaitu:
1. Principal Component Analysis (PCA)
2. Linear Discriminant Analysis (LDA)
3. Generalized Discriminant Analysis (GDA)

Pada modul ini, kita akan membahas PCA

###**Principal Component Analysis (PCA)**
PCA mencoba mencari transformasi yang paling optimal sehingga varians data di ruang dimensi yang lebih rendah dapat dipertahankan sebanyak mungkin

Tahapan di PCA:
1. Membuat matriks kovariansi dari data
2. Menghitung vektor-vektor eigen dari matriks tersebut
3. Vektor-vektor eigen yang sesuai dengan nilai eigen terbesar digunakan untuk merekonstruksi sebagian besar varians data asli

Dengan demikian, kita hanya memiliki sedikit vektor eigen, dan mungkin tetap ada data yang hilang dalam proses tersebut. Namun, varians yang paling penting seharusnya tetap ada karena vektor eigen yang tersisa

Kita akan mengimport library yang dibutuhkan

In [None]:
from sklearn.decomposition import PCA

Dataset yang digunakan tetap sama. yaitu `Mall_Customers.csv`. Oleh karena itu, kita akan meng-copy df1 yang telah dihilangkan categorical featuresnya

In [None]:
df2 = df1.copy(deep = True)
df2.head()

PCA membutuhkan input `n_components`. Dalam kasus ini, kita akan menggunakan `n_components = 2` agar hasil PCA dapat divisualisasikan dengan mudah dalam bidang dua dimensi. Dengan mengurangi dimensi data menjadi dua, kita dapat memplot hasil PCA dalam bentuk scatter plot di mana sumbu x dan y mewakili dua principal components yang paling signifikan

Setelah n_components ditentukan, kita akn menggunakan metode `fit_transform` untuk menghitung komponen-komponen utama dari data dan mengurangi dimensi data menjadi jumlah komponen utama yang diinginkan

In [None]:
#fitur yang akan digunakan
features = ['Age', 'Annual Income (k$)', 'Spending Score (1-100)']
#PCA
pca = PCA(n_components=FIXME)
pca_features = pca.FIXME(df2[FIXME])

df_pca = pd.DataFrame(data=pca_features, columns=['PC1', 'PC2'])

Setelah dilakukan PCA pada data, kita akan melakukan clustering. Sebelumnya, kita menggunakan algoritma K-Means untuk pengelompokan. Kali ini, kita akan mencoba menggunakan hierarchical clustering

##**Hierarchical Clustering**

Hierarchial clustering merupakan algoritma pengelompokkan data yang dilakukan dengan membuat suatu bagain hirartki (dendogram) dengan tujuan menunjukkan kemiripan antar data. Hierarchial clustering terbagi menjadi dua jenis, yaitu
1. Agglomerative clustering: Pengelompokkan datanya menggunakan bottom-up manner, yaitu dimulai dengan menganggap setiap data sebagai suatu cluster kecil (leaf) yang hanya memiliki satu anggota saja, lalu pada tahap selanjutnya dua cluster yang memiliki kemiripan akan dikelompokkan menjadi satu cluster yang lebih besar (nodes). Proses ini akan dilakukan terus menerus hingga semua data menjadi satu cluster besar (root)
2. Divisive hierarchical clustering: Pengelompokkan datanya menggunakan top-down manner, yaitu dimulai dengan menganggap satu set data sebagai satu cluster besar (root), lalu dalam setiap iterasinya setiap data yang memiliki karakteristik yang berbeda akan dipecah menjadi dua cluster yang lebih kecil (nodes) dan proses akan terus berjalan hingga setiap data menjadi satu cluster kecil (leaf) yang hanya memiliki satu anggota saja

In [None]:
import scipy.cluster.hierarchy as shc
from sklearn.cluster import AgglomerativeClustering

**Mencari Jumlah Cluster dengan Dendogram**

Dendogram merupakan diagram yang menunjukkan struktur hirarki dari pengelompokkan data. Dalam dendrogram, setiap titik data diwakili oleh garis horizontal, dan hubungan antar titik data direpresentasikan oleh cabang vertikal. Cabang vertikal tersebut beragam panjangnya, menunjukkan tingkat kedekatan antar data. Jarak atau tingkat kedekatan ini sering kali diukur dengan metrik tertentu, seperti jarak Euclidean atau metrik lainnya


![dendogram.png](https://drive.google.com/uc?export=view&id=1jmt6zDQLWIsQi-J2aDe44eq_qQDsYona)

Semakin panjang garis antar data maka semakin berbeda antar data/cluster tersebut, dan semakin pendek garis antar data maka semakin mirip antar data/cluster tersebut. Cluster dapat dihasilkan dengan memotong bagan hirarki pada level tertentu. Pemotongan ini biasanya dilakukan pada tingkat di mana garis vertikal sangat panjang, menunjukkan bahwa titik data di kedua sisi garis tersebut cukup berbeda sehingga dapat dianggap sebagai cluster yang berbeda


Untuk menentukan clusternya, kita buat dulu dendogram dari dataframe PCA yang tadi kita buat, yaitu df_pca. Kita akan menghitung matriks linkage dari data tersebut dengan metode `ward`. Linkage adalah metode yang digunakan untuk menghitung jarak antara cluster saat menggabungkan atau memisahkan cluster, sedangkan ward adalah salah satu metode yang digunakan dalam perhitungan linkage. Pada metode ini, di tiap iterasinya akan dibentuk cluster-cluster yang kemudian dihitung nilai within sum of square tiap cluster (WSS). WSS dapat diartikan sebagai jumlah dari jarak tiap observasi ke nilai tengah cluster. Cluster-cluster yang menghasilkan within sum of square terkecil akan diambil kemudian digabungkan hingga membentuk satu dendrogram utuh. Gunakan dataset hasil PCA



In [None]:
plt.figure(figsize=(16,6))
dendrogram = shc.dendrogram(shc.linkage(FIXME, method = FIXME))
plt.title('Dendrogram')
plt.xlabel('Customers')
plt.ylabel('Euclidean distances')
plt.show()

Kita menambahkan garis horizontal yang memotong dendogram untuk melihat berapa jumlah clusternya. Karena garis vertikal di sekitar nilai 150 cukup panjang, dapat disimpulkan bahwa data tersebut sudah cukup berbeda sehingga bisa dianggap cluster terpisah. Oleh karena itu, kita akan memotong dendogram di 150

In [None]:
plt.figure(figsize=(16,6))
dendrogram = shc.dendrogram(shc.linkage(df_pca, method = 'ward'))
plt.axhline(y = FIXME, color = 'black', linestyle = 'dashdot')
plt.title('Dendrogram')
plt.xlabel('Customers')
plt.ylabel('Euclidean distances')
plt.show()

Setelah dilakukan pemotongan, dapat dilihat jumlah cluster pada grafik di atas, lalu kita akan menggunakan hierarchial clustering jenis agglomerative untuk melakukan clustering. Agglomerative clustering memerlukan 2 input:
1. n_clusters: Jumlah cluster yang akan dibentuk
2. linkage: metode linkage apa yang akan digunakan

Sama seperti saat membuat dendogram, kita akan menggunakan metode ward

In [None]:
hc_pca = AgglomerativeClustering(n_clusters = FIXME, linkage = FIXME)
hc_pca_labels = hc_pca.fit_predict(FIXME)

In [None]:
#Plot clustering
scatter = plt.scatter(x='PC1', y='PC2', c=hc_pca_labels, cmap='rainbow', data=df_pca)
#Menambahkan legend
plt.legend(handles=scatter.legend_elements()[0], labels=['Cluster 0', 'Cluster 1', 'Cluster 2', 'Cluster 3', 'Cluster 4'])
plt.title('Clusters of Customers')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

Menghitung jumlah data di setiap cluster

In [None]:
df_pca_copy = df_pca.copy()
df_pca_copy.loc[:, 'Cluster'] = hc_pca_labels
pca_sz = df_pca_copy.groupby('Cluster').size().to_frame().rename(columns = {0:'HC_size'})
pca_sz

#**Tugas**

Dengan dataset yang sama, yaitu
[Mall_Customers.csv](https://drive.google.com/file/d/1_UYfw50xFZmiMa8qAePLDbmh4vY_nBln/view?usp=sharing) gunakan 2 algoritma unsupervised learning untuk melakukan clustering dan berikan penjelasan mengenai hasil clusteringnya!