<a href="https://colab.research.google.com/github/hamdansyaif/DeepLearning/blob/main/Hands-On-ML2/Chapter-08/Analisis_Chapter_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


---

# 📘 **Rekap Teori & Analisis Lengkap – Chapter 8: Dimensionality Reduction**

---

## 🚩 **Tujuan Reduksi Dimensi**

Reduksi dimensi dilakukan untuk:

* 🔧 Menurunkan kompleksitas data
* 💾 Mengurangi kebutuhan penyimpanan
* ⚡ Meningkatkan performa model
* 👁️‍🗨️ Memvisualisasikan data tinggi ke dimensi rendah

---

## 🔷 **1. Manual PCA via SVD (Singular Value Decomposition)**

### 📌 *Teori:*

* PCA mencari arah (vektor) baru yang menjelaskan varian data terbesar.
* Langkah:

  1. Center data (mean=0)
  2. Gunakan SVD → hasilkan Vᵀ (eigenvektor)
  3. Proyeksikan data ke beberapa vektor utama

### 📦 *Kode:*

* Dataset 3D buatan → `np.linalg.svd`
* Ambil `Vt.T[:, :2]` → proyeksi ke 2D

### 🧠 *Analisis:*

* MSE rekonstruksi rendah → PCA efektif
* Komponen utama (PC1 & PC2) berhasil menangkap mayoritas informasi
* Visualisasi menunjukkan arah PC1 dan PC2 pada data 3D (✔️ visual fig 8–2 & fig 8–3)

---

## 🔶 **2. PCA dengan Scikit-Learn**

### 📌 *Teori:*

* `PCA(n_components=k)` otomatis:

  * Center data
  * Gunakan SVD internal
  * Transform dan inverse transform data

### 📦 *Kode:*

```python
pca = PCA(n_components=2)
X_2d = pca.fit_transform(X_centered)
```

### 🧠 *Analisis:*

* Korelasi tinggi dengan versi manual (±1)
* Lebih efisien dan bisa langsung `.inverse_transform` untuk rekonstruksi
* Cocok untuk pipeline produksi

---

## 📈 **3. Explained Variance & Elbow Curve**

### 📌 *Teori:*

* `explained_variance_ratio_` menunjukkan proporsi varian yang dijelaskan tiap PC
* `np.cumsum(...)` digunakan untuk menentukan jumlah komponen optimal

### 📦 *Kode:*

* Elbow plot visual
* Cari jumlah komponen ≥ 95% variansi → `argmax(cumsum >= 0.95) + 1`

### 🧠 *Analisis:*

* Threshold 95% sering digunakan sebagai titik optimal
* PCA ≈ lossy compression, tapi tetap menjaga struktur penting

---

## 🔤 **4. PCA pada Dataset MNIST (784 ➜ \~150 komponen)**

### 📌 *Teori:*

* Dataset gambar bisa direpresentasikan dalam dimensi lebih rendah tanpa kehilangan makna visual
* PCA cocok untuk kompresi dan persiapan klasifikasi/clustering

### 📦 *Kode:*

* `PCA(n_components=...)` → reduksi MNIST
* `inverse_transform` → bandingkan gambar asli vs hasil kompresi

### 🧠 *Analisis:*

* Gambar masih dapat dikenali
* \~150 komponen cukup menjelaskan ≥95% informasi

---

## 🧿 **5. Visualisasi PCA 2D MNIST**

### 📌 *Teori:*

* PCA bisa digunakan untuk visualisasi distribusi data dalam 2D

### 📦 *Kode:*

* Scatter plot tiap digit → `plt.scatter(X_pca[:,0], X_pca[:,1])`

### 🧠 *Analisis:*

* Terlihat ada klaster digit meskipun sebagian overlap
* PCA linear → tidak selalu memisahkan klaster dengan jelas

---

## ♻️ **6. Incremental PCA (Mini-Batch)**

### 📌 *Teori:*

* Cocok untuk dataset besar (streaming atau tidak muat RAM)
* Dilatih secara batch dengan `.partial_fit()`

### 📦 *Kode:*

```python
ipca = IncrementalPCA(n_components=..., batch_size=...)
ipca.partial_fit(X_batch)
```

### 🧠 *Analisis:*

* Rekonstruksi mirip dengan PCA biasa
* Efisien untuk big data / edge devices

---

## 📦 **7. Simulasi Incremental PCA untuk Dataset Besar**

### 📌 *Teori:*

* Gunakan generator/data chunk untuk simulasi data besar
* Proses batch-by-batch untuk PCA streaming

### 📦 *Kode:*

* `make_classification()` + `data_generator()` + `partial_fit`
* Visualisasi explained variance dan proyeksi 2D (sample batch)

### 🧠 *Analisis:*

* Incremental PCA tetap bisa menjaga variansi dominan
* Visualisasi 2D tetap menunjukkan distribusi yang masuk akal

---

## 🌐 **8. t-SNE (Non-Linear Projection)**

### 📌 *Teori:*

* Menjaga hubungan **lokal** antar data
* Cocok untuk **visualisasi klaster non-linear**
* Tidak bisa `.transform()` data baru

### 📦 *Kode:*

```python
TSNE(n_components=2, perplexity=30, max_iter=1000).fit_transform(X)
```

### 🧠 *Analisis:*

* Klaster digit MNIST sangat jelas → cocok untuk interpretasi visual
* Performa lambat, hanya untuk visualisasi

---

## 🌀 **9. LLE (Locally Linear Embedding)**

### 📌 *Teori:*

* Menjaga representasi lokal via kombinasi linier tetangga
* Berguna untuk data di manifold non-linear (misalnya permukaan melengkung)

### 📦 *Kode:*

```python
LocallyLinearEmbedding(n_components=2, n_neighbors=10).fit_transform(X)
```

### 🧠 *Analisis:*

* Struktur manifold terlihat
* Tidak bisa `.transform()` → bukan untuk prediksi

---

# ✅ **Kesimpulan Akhir – Kapan Pakai Apa**

| Teknik          | Gunakan Saat...                      | Bisa Transform Baru? | Visualisasi Bagus? |
| --------------- | ------------------------------------ | -------------------- | ------------------ |
| PCA             | Linear, cepat, umum digunakan        | ✅                    | ✅ (terbatas)       |
| Incremental PCA | Dataset sangat besar / batch-wise    | ✅                    | ✅ (opsional)       |
| t-SNE           | Ingin lihat klaster secara visual    | ❌                    | ✅✅                 |
| LLE             | Data punya struktur lokal non-linear | ❌                    | ✅                  |

---