# Chapter 8: Dimensionality Reduction

Notebook ini merupakan hasil reproduksi dan penjelasan teori dari **Bab 8 - Dimensionality Reduction** dari buku *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Edition)* oleh AurÃ©lien GÃ©ron.

ðŸ“Œ Fokus bab ini adalah memahami alasan dan cara mereduksi dimensi data, serta penggunaan teknik populer seperti PCA dan LLE.

---


## Ringkasan Teori Bab 8: Dimensionality Reduction

### 1. Apa Itu Dimensionality Reduction?

Dimensionality Reduction adalah proses mengurangi jumlah fitur dalam dataset, tanpa kehilangan terlalu banyak informasi penting.

Alasan mengapa dilakukan:
- Mempercepat training
- Mengurangi overfitting
- Memvisualisasikan data (misalnya 2D atau 3D)
- Menghilangkan redundansi atau noise

---

### 2. Proyeksi vs. Manifold Learning

- **Proyeksi**: Mereduksi dimensi dengan memproyeksikan data ke ruang berdimensi lebih rendah.
- **Manifold Learning**: Mengasumsikan data berada pada manifold berdimensi lebih rendah, dan mencoba memetakan struktur tersebut.

---

### 3. Principal Component Analysis (PCA)

PCA menemukan arah (komponen utama) dengan varians terbesar. Komponen ini digunakan untuk merepresentasikan data.

Langkah-langkah PCA:
1. Pusatkan data (zero mean)
2. Hitung covariance matrix
3. Temukan eigenvectors (principal components)
4. Proyeksikan data ke komponen utama

**Scikit-learn:**
```python
from sklearn.decomposition import PCA
```

---

### 4. Menentukan Jumlah Komponen

Gunakan atribut `explained_variance_ratio_` dari PCA untuk menentukan jumlah komponen yang mempertahankan persentase informasi (varians) tertentu.

---

### 5. Incremental PCA

Untuk dataset besar, PCA dapat dilakukan secara bertahap (batch-wise) menggunakan `IncrementalPCA`.

---

### 6. Kernel PCA

Digunakan untuk menangkap struktur non-linear dalam data dengan kernel trick.

```python
from sklearn.decomposition import KernelPCA
```

---

### 7. Local Linear Embedding (LLE)

Teknik **manifold learning** yang menjaga hubungan linear lokal antar titik data.

LLE mempertahankan **koefisien linear** antar tetangga saat mereduksi dimensi.

---

### 8. Perbandingan Singkat Teknik
| Teknik | Cocok Untuk | Karakteristik |
|-------|-------------|----------------|
| PCA | Data linear | Cepat dan umum |
| Kernel PCA | Non-linear | Lebih fleksibel |
| LLE | Non-linear manifold | Menjaga hubungan lokal |
| t-SNE | Visualisasi | Tidak cocok untuk prediksi |

---


## Implementasi PCA dan Visualisasi 2D

Contoh menggunakan PCA untuk mereduksi dimensi dataset iris dari 4D ke 2D.


In [None]:
from sklearn.decomposition import PCA
from sklearn.datasets import load_iris
import matplotlib.pyplot as plt

iris = load_iris()
X = iris.data
y = iris.target

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.figure(figsize=(8, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap="viridis", edgecolor="k")
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("PCA: Iris Dataset Reduced to 2D")
plt.colorbar(label="Target Class")
plt.grid(True)
plt.show()

## Penjelasan Visualisasi PCA

- Setiap titik mewakili satu instance dari dataset iris.
- Warna menunjukkan kelas target (setosa, versicolor, virginica).
- PCA mencari dua arah terbaik (principal components) yang mempertahankan informasi sebanyak mungkin dari fitur asli.


## Implementasi Kernel PCA

Menggunakan kernel RBF (Gaussian) untuk mengungkap struktur non-linear.


In [None]:
from sklearn.decomposition import KernelPCA

kpca = KernelPCA(n_components=2, kernel="rbf", gamma=0.1)
X_kpca = kpca.fit_transform(X)

plt.figure(figsize=(8, 6))
plt.scatter(X_kpca[:, 0], X_kpca[:, 1], c=y, cmap="plasma", edgecolor="k")
plt.xlabel("KPCA 1")
plt.ylabel("KPCA 2")
plt.title("Kernel PCA with RBF Kernel")
plt.colorbar(label="Target Class")
plt.grid(True)
plt.show()

## Penjelasan Visualisasi Kernel PCA

- Kernel PCA mampu mengungkap pola yang tidak dapat ditemukan oleh PCA biasa.
- Dengan kernel RBF, kita menangkap struktur yang melengkung dan non-linear.
- Cocok untuk dataset di mana hubungan antar fitur tidak linier.


## Implementasi LLE (Local Linear Embedding)

Menjaga hubungan lokal tetangga dalam ruang berdimensi lebih rendah.


In [None]:
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_lle = lle.fit_transform(X)

plt.figure(figsize=(8, 6))
plt.scatter(X_lle[:, 0], X_lle[:, 1], c=y, cmap="coolwarm", edgecolor="k")
plt.xlabel("LLE 1")
plt.ylabel("LLE 2")
plt.title("Local Linear Embedding (LLE)")
plt.colorbar(label="Target Class")
plt.grid(True)
plt.show()

## Penjelasan Visualisasi LLE

- LLE memproyeksikan data ke 2D sambil mempertahankan hubungan lokal.
- Cocok untuk manifold learning, terutama untuk data dengan struktur kompleks.
- Titik-titik dari kelas yang sama cenderung berkumpul meskipun bentuknya tidak linear.
