# Chapter 9: Unsupervised Learning Techniques

Notebook ini merupakan hasil reproduksi dan penjelasan teori dari **Bab 9 - Unsupervised Learning Techniques** dari buku *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Edition)* oleh Aurélien Géron.

📌 Bab ini membahas teknik-teknik pembelajaran tanpa label, seperti clustering, DBSCAN, dan dimensionality reduction untuk eksplorasi data.

---


## Ringkasan Teori Bab 9: Unsupervised Learning Techniques

### 1. Unsupervised Learning

Berbeda dengan supervised learning, di sini kita **tidak memiliki label**. Tujuannya adalah mengidentifikasi struktur, pola, atau grup dalam data.

Contoh aplikasi:
- Clustering pelanggan
- Deteksi anomali
- Segmentasi gambar
- Reduksi dimensi

---

### 2. Clustering

Clustering adalah proses pengelompokan instance berdasarkan kemiripan.

#### KMeans Clustering
- Algoritma iteratif yang meminimalkan jarak antar instance dan centroid cluster.
- Diperlukan: jumlah cluster ($k$)
- Langkah:
  1. Inisialisasi $k$ centroid
  2. Assign instance ke centroid terdekat
  3. Update centroid
  4. Ulangi hingga konvergen

```python
from sklearn.cluster import KMeans
```

---

### 3. Evaluasi Clustering

Beberapa metrik evaluasi:
- **Inertia**: total jarak kuadrat dari setiap titik ke centroidnya
- **Silhouette Score**: mengukur seberapa baik objek dikelompokkan

---

### 4. DBSCAN

Density-Based Spatial Clustering of Applications with Noise.

- Tidak memerlukan jumlah cluster sebelumnya
- Menemukan cluster berdasarkan **kepadatan lokal**
- Dapat mendeteksi outlier
- Parameter penting:
  - `eps`: radius maksimum
  - `min_samples`: minimal tetangga untuk membentuk cluster

```python
from sklearn.cluster import DBSCAN
```

---

### 5. Perbandingan KMeans vs. DBSCAN

| Aspek | KMeans | DBSCAN |
|-------|--------|--------|
| Jumlah cluster | Harus ditentukan | Tidak perlu |
| Bentuk cluster | Cenderung bulat | Fleksibel |
| Outlier | Tidak ditangani | Bisa mendeteksi |
| Kecepatan | Cepat | Lebih lambat pada data besar |

---

### 6. Clustering + Dimensionality Reduction

PCA atau t-SNE dapat digunakan untuk **visualisasi** hasil clustering dalam 2D atau 3D.

---

### 7. Teknik Lain:
- Gaussian Mixture Model (GMM)
- Agglomerative Clustering
- Spectral Clustering

Masing-masing memiliki pendekatan unik untuk membentuk dan mendeteksi cluster.

---


## Implementasi KMeans Clustering

Gunakan dataset `make_blobs` untuk membentuk cluster, lalu visualisasikan hasilnya.


In [None]:
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

X_blob, _ = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)
kmeans = KMeans(n_clusters=4, random_state=42)
y_kmeans = kmeans.fit_predict(X_blob)

plt.figure(figsize=(8, 6))
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_kmeans, s=50, cmap='viridis')
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], c='red', marker='X', s=200, label='Centroids')
plt.title("KMeans Clustering Result")
plt.legend()
plt.grid(True)
plt.show()

### Penjelasan Visualisasi KMeans
- Titik-titik berwarna adalah data yang telah diklasifikasikan oleh KMeans ke dalam 4 cluster.
- Titik merah berbentuk 'X' adalah centroid dari masing-masing cluster.
- KMeans bekerja dengan mencoba meminimalkan jarak total ke centroid terdekat.

---


## Evaluasi KMeans: Inertia dan Silhouette Score

In [None]:
from sklearn.metrics import silhouette_score

print("Inertia:", kmeans.inertia_)
print("Silhouette Score:", silhouette_score(X_blob, y_kmeans))

## Implementasi DBSCAN

Clustering berbasis kepadatan menggunakan `DBSCAN`.


In [None]:
from sklearn.cluster import DBSCAN
import numpy as np

dbscan = DBSCAN(eps=0.3, min_samples=5)
y_db = dbscan.fit_predict(X_blob)

plt.figure(figsize=(8, 6))
plt.scatter(X_blob[:, 0], X_blob[:, 1], c=y_db, cmap="plasma", s=50)
plt.title("DBSCAN Clustering Result")
plt.grid(True)
plt.show()

### Penjelasan Visualisasi DBSCAN
- DBSCAN tidak memerlukan jumlah cluster.
- Warna berbeda menunjukkan cluster yang ditemukan.
- Nilai `-1` (biasanya hitam) berarti data tersebut dianggap outlier.
- DBSCAN berguna saat cluster berbentuk tidak teratur dan ingin menghindari asumsi jumlah cluster.

---


## Clustering + PCA untuk Visualisasi

PCA dapat membantu menyederhanakan data untuk keperluan visualisasi.


In [None]:
from sklearn.decomposition import PCA

pca_2d = PCA(n_components=2)
X_pca = pca_2d.fit_transform(X_blob)

plt.figure(figsize=(8, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y_kmeans, cmap="viridis", s=50)
plt.title("KMeans Cluster Visualized in 2D PCA Space")
plt.grid(True)
plt.show()

### Penjelasan Visualisasi PCA + Clustering
- PCA mengurangi data berdimensi tinggi ke 2D agar bisa divisualisasikan.
- Kita tetap bisa mempertahankan informasi cluster dari KMeans atau DBSCAN.

---
