<a href="https://colab.research.google.com/github/fadhilahmad11/Hands-on-Machine-Learning-with-Scikit-Learn-TensorFlow-Tugas-Machine-LearningW8-W16/blob/main/Chapter_08_Dimensionality_Reduction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Laporan Chapter 8: Dimensionality Reduction

## 1. Pendahuluan
Dimensionality reduction adalah proses menyederhanakan jumlah fitur dalam dataset sambil tetap mempertahankan informasi yang paling penting. Ini penting karena:
- Mempercepat proses pelatihan model
- Mengurangi risiko overfitting
- Mempermudah visualisasi data
Namun, proses ini juga dapat menyebabkan hilangnya informasi.

## 2. Curse of Dimensionality
Masalah utama dalam data berdimensi tinggi adalah jarak antar titik menjadi semakin besar, yang membuat model kesulitan untuk membuat prediksi yang akurat. Fenomena ini dikenal sebagai curse of dimensionality. Misalnya, di ruang 1 juta dimensi, jarak rata-rata antara dua titik bisa mencapai lebih dari 400 unit, meskipun mereka berada dalam hypercube berdimensi 1x1.

## 3. Pendekatan Utama
Terdapat dua pendekatan utama dalam dimensionality reduction:
- **Projection**: Memproyeksikan data ke subruang berdimensi lebih rendah
- **Manifold Learning**: Mengasumsikan data berada di permukaan berdimensi rendah dalam ruang berdimensi tinggi (contohnya: Swiss roll)

## 4. Principal Component Analysis (PCA)
PCA adalah algoritma dimensionality reduction paling populer. Tujuannya adalah mencari sumbu (komponen utama) yang mempertahankan variansi data paling besar.

### a. Proyeksi ke Hyperplane
```python
X_centered = X - X.mean(axis=0)
U, s, Vt = np.linalg.svd(X_centered)
c1 = Vt.T[:, 0]  # Komponen utama pertama
c2 = Vt.T[:, 1]  # Komponen utama kedua
```

### b. Proyeksi ke d Dimensi
```python
W2 = Vt.T[:, :2]
X2D = X_centered.dot(W2)
```

### c. PCA dengan Scikit-Learn
```python
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X2D = pca.fit_transform(X)
```

### d. Menentukan Dimensi Berdasarkan Variansi
```python
pca = PCA()
pca.fit(X)
cumsum = np.cumsum(pca.explained_variance_ratio_)
d = np.argmax(cumsum >= 0.95) + 1
```
Atau langsung:
```python
pca = PCA(n_components=0.95)
X_reduced = pca.fit_transform(X)
```

## 5. Kernel PCA
```python
from sklearn.decomposition import KernelPCA
rbf_pca = KernelPCA(n_components=2, kernel="rbf", gamma=0.04)
X_reduced = rbf_pca.fit_transform(X)
```

## 6. Incremental PCA dan Randomized PCA
Penjelasan tambahan:
- **Incremental PCA** cocok untuk dataset besar.
- **Randomized PCA** berguna saat membutuhkan estimasi cepat dari komponen utama.

## 7. LLE (Locally Linear Embedding)
```python
from sklearn.manifold import LocallyLinearEmbedding
lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_reduced = lle.fit_transform(X)
```

## 8. Teknik Lain
- **t-SNE**: Fokus menjaga kedekatan lokal.
- **MDS**: Menjaga jarak antar titik asli.
- **Isomap**: Gunakan jarak geodesik.
- **Random Projection** dan **LDA** juga termasuk teknik populer lainnya.

## 9. Aplikasi pada MNIST
```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.decomposition import PCA
from sklearn.datasets import fetch_openml

mnist = fetch_openml('mnist_784', version=1)
X, y = mnist["data"], mnist["target"]

pca = PCA(n_components=0.95)
X_reduced = pca.fit_transform(X)
clf = RandomForestClassifier()
clf.fit(X_reduced[:60000], y[:60000])
print(clf.score(X_reduced[60000:], y[60000:]))
```