<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_8_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Dimensionality Reduction**

## Mengapa Perlu Mengurangi Dimensi?
Banyak permasalahan Machine Learning melibatkan ratusan hingga jutaan fitur. Hal ini dapat menyebabkan:

* Proses pelatihan menjadi lambat

* Risiko overfitting meningkat

* Akurasi generalisasi menurun

Tujuan utama dari reduksi dimensi meliputi:

* Mempercepat proses pelatihan

* Mengurangi noise

* Memungkinkan visualisasi dalam 2D/3D

* Kompresi data

## The Curse of Dimensionality
Fenomena yang tidak intuitif dalam ruang berdimensi tinggi, antara lain:

* Titik-titik data menjadi jarang tersebar

* Rata-rata jarak antar titik meningkat drastis

* Semakin tinggi dimensi, semakin tidak andal hasil prediksi

Contoh:

* Di ruang berdimensi satu juta, jarak rata-rata antar titik dapat mencapai ~408,25

* Dibutuhkan jumlah data yang eksponensial untuk mempertahankan kepadatan data yang memadai

## Dua Pendekatan Utama
### Projection
Sering kali, data berada dalam subruang berdimensi lebih rendah. Oleh karena itu, kita dapat:

* Mengidentifikasi subruang tersebut

* Memproyeksikan data secara ortogonal ke dalamnya

Namun, pendekatan ini kurang efektif untuk manifold non-linier (misalnya: Swiss Roll).

### Manifold Learning
Asumsi manifold menyatakan bahwa data dunia nyata cenderung terletak pada manifold berdimensi rendah di dalam ruang berdimensi tinggi.

Contoh:

* MNIST: angka tulisan tangan membentuk jalur kontinu dalam ruang fitur

* Swiss Roll: struktur lokalnya dua dimensi, tetapi terlipat dalam ruang tiga dimensi

## PCA – Principal Component Analysis
### Tujuan
Menemukan subruang yang mempertahankan variansi data sebanyak mungkin.

### Langkah-langkah PCA
### 1. Singular Value Decomposition (SVD)

\[
$X = U \Sigma V^T$
\]

- \($ V $\): matriks komponen utama (PC)
- \($ X $\): data yang sudah di-center-kan

### 2. Proyeksi ke Subruang

\[
$X_{proj} = X \cdot W_d$
\]

- \($ W_d $\): d kolom pertama dari \($ V $\)

## Explained Variance Ratio (EVR)

\[
$\text{EVR}_k = \frac{\text{Var}(PC_k)}{\text{Total Variance}}$
\]

Jumlah dimensi dipilih berdasarkan seberapa besar rasio variansi yang ingin dipertahankan (misalnya 95%).

## PCA untuk Kompresi
* Mengurangi dimensi memungkinkan penyimpanan data yang lebih efisien

* Contoh: MNIST dikompresi dari 784 menjadi 154 fitur, mempertahankan 95% variansi

* Data dapat direkonstruksi kembali dengan:

\[
$X_{recovered} = X_{proj} \cdot W_d^T$
\]

Rekonstruksi ini disebut sebagai reconstruction pre-image.

## Incremental PCA
Digunakan ketika dataset terlalu besar untuk dimuat seluruhnya ke dalam memori:

* Diproses secara batch

* Cocok untuk skenario online learning

## Kernel PCA
Melakukan PCA dalam ruang berdimensi tinggi menggunakan trik kernel.

### Kernel yang Umum Digunakan:
* Linear

* RBF (Gaussian)

* Sigmoid

Pemilihan kernel terbaik tidak dapat ditentukan secara pasti — disarankan menggunakan Grid Search berdasarkan performa model supervised (misalnya klasifikasi).

## LLE – Locally Linear Embedding
### Langkah 1: Rekonstruksi Lokal
\[
$W = \arg \min_W \sum_{i=1}^m \left\| x_i - \sum_j w_{ij} x_j \right\|^2$
\]

Syarat:
- \($ w_{ij} = 0 $\) jika \($ x_j $\) bukan tetangga terdekat dari \($ x_i $\)
- \($ \sum_j w_{ij} = 1 $\)

### Langkah 2: Mapping ke Ruang Rendah

\[
$Z = \arg \min_Z \sum_{i=1}^m \left\| z_i - \sum_j w_{ij} z_j \right\|^2$
\]

* Hubungan lokal antar titik tetap dipertahankan

* Cocok untuk data dengan struktur manifold yang terlipat

## Teknik Lain dalam Reduksi Dimensi
### Random Projections
* Proyeksi acak ke dimensi yang lebih rendah

* Jarak antar data tetap dipertahankan berdasarkan Johnson–Lindenstrauss Lemma

## Multidimensional Scaling (MDS)
* Mempertahankan jarak antar instance

## Isomap
* Memperluas MDS dengan mempertimbangkan jarak geodesik

## t-SNE
* Mempertahankan struktur lokal (misalnya: klaster)

* Sangat efektif untuk visualisasi data berdimensi tinggi

## LDA – Linear Discriminant Analysis
* Digunakan dalam klasifikasi

* Memproyeksikan data ke dimensi yang memisahkan kelas dengan optimal

# **Kesimpulan**
Reduksi dimensi membantu mempercepat pelatihan model dan memungkinkan visualisasi data. PCA sangat efektif untuk kompresi dan reduksi linier, sementara teknik seperti Kernel PCA dan LLE lebih cocok untuk menangani struktur data non-linier. Pemilihan metode reduksi dimensi harus disesuaikan dengan jenis dataset dan tujuan analisis, baik untuk kompresi, visualisasi, maupun preprocessing sebelum pelatihan model.

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.