<a href="https://colab.research.google.com/github/MasDiptha12/Machine-Learning/blob/main/UTS/Clustering_Models/Clustering_Models_Grouping_Similar_Data_Points.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. Pengumpulan & Pembersihan Data

Langkah pertama adalah mengimpor dan membersihkan data. Pembersihan ini meliputi penanganan missing values, duplikasi data, dan pembersihan kolom yang tidak relevan. Pada langkah ini, menambahkan encoding='ISO-8859-1' di pd.read_csv() untuk menghindari UnicodeDecodeError.

In [2]:
# Import libraries yang diperlukan
import pandas as pd

# Mengimpor dataset yang telah diupload ke Google Colab dengan encoding yang sesuai
data = pd.read_csv('/content/UTSClustering.csv', encoding='ISO-8859-1')

# Menampilkan beberapa baris pertama untuk memastikan data terimpor dengan benar
data.head()

# Menghapus baris yang memiliki nilai kosong
data_cleaned = data.dropna()

# Menghapus kolom duplikat
data_cleaned = data_cleaned.loc[:, ~data_cleaned.columns.duplicated()]

# Menghapus kolom yang tidak relevan (misalnya kolom 'Time' jika tidak digunakan dalam clustering)
data_cleaned = data_cleaned.drop(columns=['Time'], errors='ignore')

# Menampilkan informasi data setelah pembersihan
data_cleaned.info()

<class 'pandas.core.frame.DataFrame'>
Index: 406829 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    406829 non-null  object 
 1   StockCode    406829 non-null  object 
 2   Description  406829 non-null  object 
 3   Quantity     406829 non-null  int64  
 4   InvoiceDate  406829 non-null  object 
 5   UnitPrice    406829 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      406829 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 27.9+ MB


# 2. Feature Selection

Pada langkah ini, kita akan memilih fitur yang relevan dengan algoritma clustering yang akan digunakan. Dalam dataset ini, kita akan menggunakan kolom yang relevan seperti Quantity, UnitPrice, dan CustomerID karena kolom lain seperti InvoiceNo, StockCode, Description, dan Country mungkin tidak relevan untuk clustering numerik.

In [3]:
# Memilih fitur yang relevan untuk clustering
data_cleaned = data_cleaned[['Quantity', 'UnitPrice', 'CustomerID']]

# Memeriksa apakah ada nilai yang hilang setelah pemilihan fitur
data_cleaned.isnull().sum()

# Menghapus baris dengan nilai kosong (jika ada)
data_cleaned = data_cleaned.dropna()

# Menampilkan data setelah seleksi fitur
data_cleaned.head()

Unnamed: 0,Quantity,UnitPrice,CustomerID
0,6,2.55,17850.0
1,6,3.39,17850.0
2,8,2.75,17850.0
3,6,3.39,17850.0
4,6,3.39,17850.0


# 3. Feature Engineering

Pada tahap ini, kita akan melakukan transformasi data untuk mempersiapkan fitur-fitur yang digunakan dalam algoritma clustering. Dalam hal ini, kita akan melakukan standardisasi fitur agar semua fitur berada dalam skala yang sama.

In [4]:
from sklearn.preprocessing import StandardScaler

# Inisialisasi StandardScaler untuk standardisasi data
scaler = StandardScaler()

# Menstandardisasi fitur
data_scaled = scaler.fit_transform(data_cleaned)

# Menampilkan beberapa baris data setelah distandardisasi
import pandas as pd
pd.DataFrame(data_scaled, columns=data_cleaned.columns).head()

Unnamed: 0,Quantity,UnitPrice,CustomerID
0,-0.024373,-0.013135,1.49528
1,-0.024373,-0.001017,1.49528
2,-0.016331,-0.01025,1.49528
3,-0.024373,-0.001017,1.49528
4,-0.024373,-0.001017,1.49528


# 4. Model Clustering

Pada langkah ini, kita akan menerapkan beberapa algoritma clustering untuk dataset yang telah diproses, seperti KMeans, Agglomerative Clustering, DBSCAN, Gaussian Mixture, dan Spectral Clustering.

In [5]:
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN, SpectralClustering
from sklearn.mixture import GaussianMixture

### KMeans Clustering

In [6]:
# KMeans Clustering
kmeans_model = KMeans(n_clusters=3, random_state=42)
kmeans_labels = kmeans_model.fit_predict(data_scaled)

print("Hasil clustering dengan KMeans:")
print(kmeans_labels)

Hasil clustering dengan KMeans:
[0 0 0 ... 1 1 1]


### Agglomerative Clustering

In [None]:
# Agglomerative Clustering
agglo_model = AgglomerativeClustering(n_clusters=3)
agglo_labels = agglo_model.fit_predict(data_scaled)

print("Hasil clustering dengan Agglomerative Clustering:")
print(agglo_labels)

### DBSCAN

In [None]:
# DBSCAN Clustering
dbscan_model = DBSCAN()
dbscan_labels = dbscan_model.fit_predict(data_scaled)

print("Hasil clustering dengan DBSCAN:")
print(dbscan_labels)

### Gaussian Mixture

In [7]:
# Gaussian Mixture Model
gmm_model = GaussianMixture(n_components=3, random_state=42)
gmm_labels = gmm_model.fit_predict(data_scaled)

print("Hasil clustering dengan Gaussian Mixture:")
print(gmm_labels)

Hasil clustering dengan Gaussian Mixture:
[0 0 0 ... 0 0 0]


### Spectral Clustering

In [None]:
# Spectral Clustering
spectral_model = SpectralClustering(n_clusters=3, random_state=42, affinity='nearest_neighbors')
spectral_labels = spectral_model.fit_predict(data_scaled)

print("Hasil clustering dengan Spectral Clustering:")
print(spectral_labels)

---

### Catatan : Untuk Agglomerative Clustering dan DBSCAN dilewati dan tidak dijalankan karena menyebabkan crash pada Google Collab. Sedangkan untuk Spectral Clustering dapat dijalankan, namun memakan waktu yang sangat lama sehingga untuk Output tidak dapat saya tunjukkan saat pengumpulan tugas UTS ini karena sudah mendekati deadline pengumpulan

---

# 5. Evaluasi

Kita akan mengevaluasi setiap model secara terpisah, menggunakan tiga metrik:
- Silhouette Score – Semakin tinggi, semakin baik (maks: 1)
- Davies-Bouldin Index – Semakin rendah, semakin baik
- Calinski-Harabasz Score – Semakin tinggi, semakin baik

---

### Catatan : Dikarenakan Agglomerative dan DBSCAN membuat Google Collab saya crash, dan Spectral memakan waktu yang lama, oleh karena itu untuk tahap selanjutnya saya hanya akan menampilkan pengolahan data model KMeans dan Gaussian. Program akan tetap saya taruh pada Collab, namun tidak akan dijalankan

---

### Evaluasi KMeans

In [10]:
from sklearn.metrics import silhouette_score, davies_bouldin_score, calinski_harabasz_score

In [None]:
print("=== Evaluasi KMeans ===")
print("Silhouette Score:", silhouette_score(data_scaled, kmeans_labels))
print("Davies-Bouldin Index:", davies_bouldin_score(data_scaled, kmeans_labels))
print("Calinski-Harabasz Score:", calinski_harabasz_score(data_scaled, kmeans_labels))

### Evaluasi Agglomerative

In [None]:
print("=== Evaluasi Agglomerative ===")
print("Silhouette Score:", silhouette_score(data_scaled, agglo_labels))
print("Davies-Bouldin Index:", davies_bouldin_score(data_scaled, agglo_labels))
print("Calinski-Harabasz Score:", calinski_harabasz_score(data_scaled, agglo_labels))

### Evaluasi DBSCAN

In [None]:
print("=== Evaluasi DBSCAN ===")
if len(set(dbscan_labels)) > 1:
    print("Silhouette Score:", silhouette_score(data_scaled, dbscan_labels))
    print("Davies-Bouldin Index:", davies_bouldin_score(data_scaled, dbscan_labels))
    print("Calinski-Harabasz Score:", calinski_harabasz_score(data_scaled, dbscan_labels))
else:
    print("Clustering tidak valid (semua -1 / noise)")

### Evaluasi Gaussian

In [None]:
print("=== Evaluasi Gaussian Mixture ===")
print("Silhouette Score:", silhouette_score(data_scaled, gmm_labels))
print("Davies-Bouldin Index:", davies_bouldin_score(data_scaled, gmm_labels))
print("Calinski-Harabasz Score:", calinski_harabasz_score(data_scaled, gmm_labels))

### Evaluasi Spectral Claustering

In [None]:
print("=== Evaluasi Spectral Clustering ===")
print("Silhouette Score:", silhouette_score(data_scaled, spectral_labels))
print("Davies-Bouldin Index:", davies_bouldin_score(data_scaled, spectral_labels))
print("Calinski-Harabasz Score:", calinski_harabasz_score(data_scaled, spectral_labels))

# 6. Visualisasi

Akan ditampilkan:
- Silhouette Plot
- Cluster Scatter Plot (menggunakan dua fitur pertama)

### KMeans


In [None]:
plot_silhouette(data_scaled, kmeans_labels, "Silhouette Plot - KMeans")

plt.figure(figsize=(6, 5))
sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=kmeans_labels, palette='Set1')
plt.title("Cluster Scatter Plot - KMeans")
plt.show()

### Agglomerative

In [None]:
plot_silhouette(data_scaled, agglo_labels, "Silhouette Plot - Agglomerative")

plt.figure(figsize=(6, 5))
sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=agglo_labels, palette='Set2')
plt.title("Cluster Scatter Plot - Agglomerative")
plt.show()

### DBSCAN

In [None]:
if len(set(dbscan_labels)) > 1:
    plot_silhouette(data_scaled, dbscan_labels, "Silhouette Plot - DBSCAN")

plt.figure(figsize=(6, 5))
sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=dbscan_labels, palette='Set3')
plt.title("Cluster Scatter Plot - DBSCAN")
plt.show()

### Gausian

In [None]:
plot_silhouette(data_scaled, gmm_labels, "Silhouette Plot - GMM")

plt.figure(figsize=(6, 5))
sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=gmm_labels, palette='Dark2')
plt.title("Cluster Scatter Plot - Gaussian Mixture")
plt.show()

### Spectral

In [None]:
plot_silhouette(data_scaled, spectral_labels, "Silhouette Plot - Spectral Clustering")

plt.figure(figsize=(6, 5))
sns.scatterplot(x=data_scaled[:, 0], y=data_scaled[:, 1], hue=spectral_labels, palette='coolwarm')
plt.title("Cluster Scatter Plot - Spectral Clustering")
plt.show()

---
### Catatan : dikarenakan waktu yang sudah mepet deadline, maka saya tidak dapat memberikan hasil output dari evaluasi dan visualisasi
---

---

# Penjelasan dan Model Matematis dari Metode Clustering

<br>

## 1. **KMeans Clustering**

**Penjelasan:**  
KMeans adalah algoritma clustering partisi yang mencoba memisahkan data ke dalam $k$ cluster. Algoritma ini meminimalkan total jarak kuadrat antara tiap titik data dan centroid cluster-nya.

**Model Matematis:**  
Tujuan utama dari KMeans adalah meminimalkan fungsi objektif berikut:

$$
J = \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2
$$

- $k$: jumlah cluster  
- $C_i$: himpunan data dalam cluster ke-$i$  
- $\mu_i$: centroid dari cluster $C_i$  
- $x$: vektor data

<br>

## 2. **Agglomerative Clustering**

**Penjelasan:**  
Agglomerative Clustering adalah metode hierarchical clustering bottom-up. Setiap titik data dianggap sebagai satu cluster, dan pada tiap iterasi dua cluster terdekat digabung berdasarkan linkage criterion.

**Model Matematis:**  
Jarak antar cluster dapat didefinisikan sebagai:

- **Single linkage**:
  $$
  D(C_i, C_j) = \min_{x \in C_i, y \in C_j} \|x - y\|
  $$

- **Complete linkage**:
  $$
  D(C_i, C_j) = \max_{x \in C_i, y \in C_j} \|x - y\|
  $$

- **Average linkage**:
  $$
  D(C_i, C_j) = \frac{1}{|C_i||C_j|} \sum_{x \in C_i} \sum_{y \in C_j} \|x - y\|
  $$

- $D(C_i, C_j)$: jarak antar cluster  
- $x, y$: data point  
- $|C_i|$: jumlah anggota dalam cluster $C_i$

<br>

## 3. **DBSCAN (Density-Based Spatial Clustering)**

**Penjelasan:**  
DBSCAN membentuk cluster berdasarkan kepadatan data. Titik yang memiliki cukup banyak tetangga dalam radius tertentu dianggap sebagai bagian dari cluster, sedangkan lainnya adalah outlier (noise).

**Model Matematis:**  
Titik $x$ disebut **core point** jika:

$$
|\{y \in D \mid \|x - y\| \leq \varepsilon\}| \geq \text{MinPts}
$$

- $\varepsilon$: radius pencarian (eps)  
- $\text{MinPts}$: jumlah minimum tetangga  
- $D$: himpunan seluruh data  

<br>

## 4. **Gaussian Mixture Model (GMM)**

**Penjelasan:**  
GMM mengasumsikan bahwa data berasal dari campuran distribusi Gaussian dan menggunakan metode probabilistik (Expectation-Maximization) untuk menentukan parameter distribusi tersebut.

**Model Matematis:**  
Fungsi densitas probabilitas campuran Gaussian:

$$
p(x) = \sum_{i=1}^{k} \pi_i \cdot \mathcal{N}(x \mid \mu_i, \Sigma_i)
$$

- $\pi_i$: bobot campuran Gaussian ke-$i$, dengan $\sum \pi_i = 1$  
- $\mu_i$, $\Sigma_i$: mean dan kovarian dari Gaussian ke-$i$  
- $\mathcal{N}(x \mid \mu_i, \Sigma_i)$: distribusi normal multivariat

<br>

## 5. **Spectral Clustering**

**Penjelasan:**  
Spectral Clustering membangun graf dari data dan menggunakan spektrum (eigenvalue) dari matriks Laplacian graf tersebut untuk mereduksi dimensi, lalu melakukan clustering (biasanya KMeans) pada hasilnya.

**Model Matematis:**  

1. Bangun **Affinity Matrix** $A$:  
   $$
   A_{ij} = \exp\left(-\frac{\|x_i - x_j\|^2}{2\sigma^2}\right)
   $$

2. Bangun **Degree Matrix** $D$:  
   $$
   D_{ii} = \sum_j A_{ij}
   $$

3. Hitung **Laplacian Matrix** $L$:  
   $$
   L = D - A
   $$

4. Lakukan dekomposisi eigen terhadap $L$, ambil $k$ eigenvector pertama untuk digunakan dalam clustering.

---



---
# Penjelasan Model Terbaik

Evaluasi dilakukan menggunakan tiga metrik utama: **Silhouette Score**, **Davies-Bouldin Index**, dan **Calinski-Harabasz Score**. Ketiganya memberikan gambaran yang saling melengkapi mengenai kualitas klasterisasi.

<br>

### 1. Silhouette Score
Silhouette Score mengukur seberapa baik sebuah titik berada dalam klasternya dibandingkan dengan klaster lain. Nilainya berada pada rentang $[-1, 1]$.

$$
S(i) = \frac{b(i) - a(i)}{\max\{a(i), b(i)\}}
$$

- $a(i)$: rata-rata jarak antara titik $i$ dan semua titik lain dalam klaster yang sama.
- $b(i)$: jarak minimum antara titik $i$ dan semua titik dalam klaster lain.

Semakin tinggi nilai $S(i)$, semakin baik kualitas klasterisasi.

<br>

### 2. Davies-Bouldin Index
Indeks ini mengukur seberapa mirip klaster satu dengan yang lainnya. Nilai yang lebih rendah menunjukkan klaster yang lebih terpisah dan kompak.

$$
DBI = \frac{1}{k} \sum_{i=1}^{k} \max_{j \neq i} \left( \frac{\sigma_i + \sigma_j}{d_{ij}} \right)
$$

- $k$: jumlah klaster
- $\sigma_i$: rata-rata jarak antara titik-titik dalam klaster $i$ dengan centroid-nya
- $d_{ij}$: jarak antara centroid klaster $i$ dan $j$

Semakin kecil DBI, semakin baik hasil klasterisasi.

<br>

### 3. Calinski-Harabasz Score
Skor ini merupakan rasio antara dispersi antar-klaster dengan intra-klaster. Nilai yang lebih besar mengindikasikan pemisahan klaster yang lebih baik.

$$
CH = \frac{tr(B_k)}{tr(W_k)} \cdot \frac{n - k}{k - 1}
$$

- $tr(B_k)$: trace dari matriks antar-klaster
- $tr(W_k)$: trace dari matriks dalam-klaster
- $n$: jumlah total sampel
- $k$: jumlah klaster

Semakin tinggi skor Calinski-Harabasz, semakin baik pemisahan antar klaster.

<br>

## Kesimpulan Model Terbaik

Model terbaik ditentukan berdasarkan:
- **Silhouette Score** tertinggi,
- **Davies-Bouldin Index** terendah,
- **Calinski-Harabasz Score** tertinggi.

---
