<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_9_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 9 - Unsupervised Learning Techniques

##  Pendahuluan

Unsupervised Learning adalah pendekatan Machine Learning di mana **data tidak memiliki label target**. Tujuannya adalah menemukan struktur tersembunyi, pola, atau representasi dari data.

Contoh:
- Segmentasi pelanggan
- Pengurangan dimensi
- Deteksi anomali
- Generative modeling

---

##  Clustering

Clustering adalah teknik untuk mengelompokkan instance yang serupa menjadi **cluster**.

---

## 🔹 K-Means Clustering

Salah satu algoritma clustering paling populer.

###  Tujuan
Meminimalkan **Within-Cluster Sum of Squares (WCSS)**:

\[
$J = \sum_{i=1}^{k} \sum_{x \in C_i} \|x - \mu_i\|^2$
\]

- \($ C_i $\): cluster ke-i
- \($ \mu_i $\): centroid dari cluster ke-i

###  K-Means++
Inisialisasi centroid yang lebih cerdas untuk menghindari konvergensi lokal.

###  Evaluasi:
- **Inertia**: total WCSS
- **Silhouette Score**:

\[
$s = \frac{b - a}{\max(a, b)}$
\]

- \($ a $\): rata-rata jarak intra-cluster
- \($ b $\): rata-rata jarak ke cluster terdekat lainnya

---

## 🔸 K-Means Batasan

- Harus menentukan jumlah cluster \($ k $\)
- Tidak cocok untuk cluster non-sferis
- Sensitif terhadap outlier

---

##  DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Clustering berbasis **kepadatan** yang dapat mengenali cluster arbitrer dan outlier.

### 🔹 Parameter
- \($ \varepsilon $\): radius pencarian (eps)
- \($ minPts $\): jumlah minimum titik dalam radius untuk membentuk cluster

### 🔸 Definisi:
- **Core point**: memiliki ≥ `minPts` dalam radius \($ \varepsilon $\)
- **Border point**: dalam radius dari core, tapi < `minPts`
- **Noise point**: tidak termasuk dua di atas

###  Kelebihan:
- Tidak perlu jumlah cluster
- Deteksi outlier secara alami
- Cocok untuk data berbentuk kompleks

---

##  Hierarchical Clustering

Membangun **dendrogram** secara bottom-up (agglomerative) atau top-down (divisive).

### 🔸 Agglomerative Clustering
- Awalnya: setiap titik adalah cluster sendiri
- Gabungkan cluster terdekat secara iteratif

### 🔹 Linkage Criteria:
- **Single linkage**: jarak minimum antar titik
- **Complete linkage**: jarak maksimum
- **Average linkage**: rata-rata semua jarak

Dapat dipotong pada tinggi tertentu untuk menghasilkan jumlah cluster.

---

##  Gaussian Mixture Models (GMM)

Model probabilistik yang mengasumsikan data dihasilkan dari beberapa distribusi Gaussian.

### 🔸 Fungsi Distribusi Gaussian Multivariat:

\[
$p(x) = \frac{1}{(2\pi)^{n/2} |\Sigma|^{1/2}} \exp\left( -\frac{1}{2} (x - \mu)^T \Sigma^{-1} (x - \mu) \right)$
\]

- \($ \mu $\): mean vektor
- \($ \Sigma $\): covariance matrix

###  Fungsi Tujuan:
Modelkan campuran distribusi Gaussian dengan bobot \( \pi_k \):

\[
$p(x) = \sum_{k=1}^{K} \pi_k \cdot \mathcal{N}(x | \mu_k, \Sigma_k)$
\]

###  EM Algorithm:
1. **E-step**: hitung probabilitas setiap data berasal dari masing-masing komponen
2. **M-step**: update parameter distribusi

---

##  Model Selection

Gunakan **Bayesian Information Criterion (BIC)** atau **Akaike Information Criterion (AIC)** untuk memilih jumlah cluster dalam GMM:

- **AIC**: penalti kompleksitas ringan
- **BIC**: penalti kompleksitas berat

---

##  Anomaly Detection

Clustering dan density estimation seperti GMM dapat digunakan untuk:
- Deteksi titik yang **memiliki probabilitas rendah**
- Menandai data sebagai outlier

---

##  Model-Based Clustering vs Distance-Based

| Metode          | Cocok Untuk                   | Sensitivitas |
|-----------------|-------------------------------|---------------|
| K-Means         | Cluster sferis, jarak Euclidean | Outlier tinggi |
| DBSCAN          | Cluster arbitrer & noise      | Parameter eps |
| GMM             | Overlap cluster, probabilistik | Estimasi kompleks |

---

##  Kesimpulan

- Clustering mengungkap struktur tersembunyi dari data tanpa label
- K-Means cocok untuk bentuk sferis dan cepat
- DBSCAN mengenali bentuk kompleks dan outlier
- GMM memberikan probabilitas dan fleksibilitas tinggi
- Evaluasi model penting untuk validasi dan seleksi

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
