# Tugas Praktik Clustering (Wine Dataset)

Kelompok:
- Rayhan Fadhlurrahman (24523223)
- Naufal Ahmad Fauzi (24523168)

Notebook ini berisi praktik clustering menggunakan K-Means, Hierarchical Clustering, dan DBSCAN pada Wine Dataset.

## 1. Persiapan dan Preprocessing
Dataset Wine memiliki 13 fitur numerik. Seluruh fitur distandardisasi agar setiap algoritma clustering bekerja secara adil.

In [None]:

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, AgglomerativeClustering, DBSCAN
from sklearn.metrics import silhouette_score
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.decomposition import PCA
from sklearn.datasets import load_wine

data = load_wine()
df = pd.DataFrame(data.data, columns=data.feature_names)

scaler = StandardScaler()
X_scaled = scaler.fit_transform(df)


## 2. K-Means Clustering
Jumlah cluster ditentukan menggunakan Elbow Method, kemudian dievaluasi dengan Silhouette Score.

In [None]:

inertia = []
K = range(2, 11)
for k in K:
    km = KMeans(n_clusters=k, random_state=42)
    km.fit(X_scaled)
    inertia.append(km.inertia_)

plt.plot(K, inertia, marker='o')
plt.xlabel('Jumlah Cluster')
plt.ylabel('Inertia')
plt.title('Elbow Method')
plt.show()

kmeans = KMeans(n_clusters=3, random_state=42)
labels_km = kmeans.fit_predict(X_scaled)
print("Silhouette Score K-Means:", silhouette_score(X_scaled, labels_km))


Visualisasi K-Means menggunakan PCA (2 dimensi):

In [None]:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

plt.scatter(X_pca[:,0], X_pca[:,1], c=labels_km)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('K-Means Clustering (PCA)')
plt.show()


## 3. Hierarchical Clustering
Dendrogram digunakan untuk melihat struktur penggabungan data.

In [None]:

linked = linkage(X_scaled, method='ward')
plt.figure(figsize=(10,5))
dendrogram(linked)
plt.title('Dendrogram')
plt.show()

hc = AgglomerativeClustering(n_clusters=3, linkage='ward')
labels_hc = hc.fit_predict(X_scaled)
print("Silhouette Score Hierarchical:", silhouette_score(X_scaled, labels_hc))


Visualisasi Hierarchical Clustering menggunakan PCA:

In [None]:

plt.scatter(X_pca[:,0], X_pca[:,1], c=labels_hc)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('Hierarchical Clustering (PCA)')
plt.show()


## 4. DBSCAN
DBSCAN digunakan untuk mendeteksi cluster berbasis kepadatan dan kemungkinan noise.

In [None]:

dbscan = DBSCAN(eps=1.5, min_samples=5)
labels_db = dbscan.fit_predict(X_scaled)

unique_labels = set(labels_db)
if len(unique_labels) > 2:
    print("Silhouette Score DBSCAN:", silhouette_score(X_scaled, labels_db))
else:
    print("DBSCAN menghasilkan banyak noise atau cluster terbatas")


Visualisasi DBSCAN menggunakan PCA:

In [None]:

plt.scatter(X_pca[:,0], X_pca[:,1], c=labels_db)
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.title('DBSCAN Clustering (PCA)')
plt.show()


## 5. Kesimpulan
- K-Means menghasilkan cluster yang paling stabil berdasarkan evaluasi.
- Hierarchical Clustering memberikan hasil serupa dengan tambahan interpretasi melalui dendrogram.
- DBSCAN kurang optimal pada data berdimensi tinggi dan sensitif terhadap parameter.

Pemilihan algoritma clustering harus disesuaikan dengan karakteristik data.