# Chapter 8: Dimensionality Reduction

Pada banyak permasalahan Machine Learning di dunia nyata, data yang digunakan memiliki **jumlah fitur yang sangat besar**, bahkan bisa mencapai ribuan atau jutaan dimensi.

Dimensionality Reduction merupakan sekumpulan teknik yang bertujuan untuk **mengurangi jumlah fitur** tanpa kehilangan terlalu banyak informasi penting.

Chapter ini membahas mengapa dimensionality reduction diperlukan, apa saja pendekatan utamanya, serta algoritma populer seperti **PCA, Kernel PCA, dan LLE**.

Dimensionality reduction memiliki beberapa manfaat utama:
- mempercepat proses training model,
- mengurangi risiko overfitting,
- mengatasi masalah *curse of dimensionality*,
- serta mempermudah visualisasi data berdimensi tinggi.

Namun, teknik ini juga memiliki trade-off karena dapat menyebabkan **kehilangan informasi**.

## 1. The Curse of Dimensionality

Istilah **curse of dimensionality** mengacu pada berbagai fenomena yang muncul ketika jumlah dimensi data menjadi sangat besar.

Dalam ruang berdimensi tinggi, intuisi manusia sering kali gagal karena sifat geometris ruang tersebut sangat berbeda dibandingkan ruang 2D atau 3D yang biasa kita bayangkan.

### 1.1 Sparsity in High-Dimensional Space

Ketika jumlah dimensi meningkat:
- data menjadi sangat **jarang (sparse)**,
- jarak antar titik data cenderung semakin besar,
- instance baru sering kali jauh dari semua data training.

Akibatnya, model Machine Learning menjadi lebih sulit untuk melakukan generalisasi yang baik.

Sebagai contoh intuitif:
- pada ruang 2D, sebagian besar titik berada di bagian tengah,
- tetapi pada ruang berdimensi sangat tinggi, sebagian besar titik berada **sangat dekat dengan batas ruang**.

Fenomena ini membuat banyak algoritma Machine Learning menjadi tidak stabil dan rentan terhadap overfitting.

### 1.2 Dampak Curse of Dimensionality

Beberapa dampak utama curse of dimensionality antara lain:
- kebutuhan data training meningkat secara eksponensial,
- model menjadi lebih kompleks dan sulit dilatih,
- performa prediksi menurun karena ekstrapolasi yang berlebihan.

Oleh karena itu, dimensionality reduction sering kali menjadi solusi praktis untuk membuat masalah Machine Learning lebih terkelola.

## 2. Main Approaches for Dimensionality Reduction

Secara umum, teknik dimensionality reduction dapat dibagi menjadi dua pendekatan utama:
- **Projection** (proyeksi ke ruang berdimensi lebih rendah),
- **Manifold Learning** (pembelajaran struktur manifold data).

Kedua pendekatan ini memiliki tujuan yang sama, yaitu mengurangi dimensi data, tetapi berangkat dari asumsi yang berbeda tentang struktur data.

### 2.1 Projection

Pendekatan **projection** berasumsi bahwa data berdimensi tinggi sebenarnya terletak dekat dengan sebuah **subspace berdimensi lebih rendah**.

Dengan kata lain, meskipun data memiliki banyak fitur, sebagian besar variansnya dapat dijelaskan oleh kombinasi linier dari beberapa fitur saja.

Sebagai contoh:
- data 3D yang sebenarnya hampir berada pada sebuah bidang 2D,
- data 100D yang sebenarnya efektif berada pada subspace 10D.

Teknik projection bertujuan untuk menemukan subspace tersebut dan memproyeksikan data ke dalamnya.

Pendekatan ini sangat efektif ketika:
- fitur-fitur saling berkorelasi,
- terdapat redundansi informasi,
- struktur data relatif linier.

Algoritma paling populer dalam kategori ini adalah **Principal Component Analysis (PCA)**.

### 2.2 Manifold Learning

Berbeda dengan projection, **manifold learning** berasumsi bahwa data berdimensi tinggi terletak pada sebuah **manifold non-linear** berdimensi lebih rendah.

Manifold dapat dipahami sebagai permukaan melengkung yang tertanam di ruang berdimensi tinggi.

Sebagai ilustrasi:
- permukaan kertas yang dilipat dan diletakkan di ruang 3D,
- data wajah dengan berbagai pose dan ekspresi.

Meskipun data terlihat kompleks di ruang asli, struktur intrinsiknya mungkin sederhana jika dilihat pada manifold yang tepat.

Manifold learning berfokus pada:
- menjaga hubungan lokal antar titik data,
- mempertahankan struktur geometris non-linear,
- menghasilkan representasi berdimensi rendah yang lebih bermakna.

Contoh algoritma manifold learning antara lain **Locally Linear Embedding (LLE)** dan **t-SNE**.

### 2.3 Kapan Menggunakan Projection atau Manifold Learning?

Secara umum:
- **Projection** cocok untuk preprocessing sebelum training model Machine Learning,
- **Manifold learning** sering digunakan untuk visualisasi dan eksplorasi data.

Manifold learning jarang digunakan sebagai preprocessing untuk training karena sering kali tidak mempertahankan jarak global dengan baik.

## 3. Principal Component Analysis (PCA)

**Principal Component Analysis (PCA)** merupakan teknik dimensionality reduction paling populer dan paling banyak digunakan.

PCA termasuk dalam pendekatan **projection**, dan bertujuan untuk memproyeksikan data ke subspace berdimensi lebih rendah dengan **kehilangan informasi seminimal mungkin**.

### 3.1 Intuisi Dasar PCA

Ide utama PCA adalah mencari **arah (axis)** di mana data memiliki **variansi terbesar**.

Arah ini disebut sebagai **principal components**.

Dengan memproyeksikan data ke beberapa principal components pertama, kita dapat mempertahankan sebagian besar informasi penting dari data.

Secara intuitif:
- principal component pertama adalah arah dengan variansi terbesar,
- principal component kedua adalah arah dengan variansi terbesar kedua dan ortogonal terhadap yang pertama,
- dan seterusnya.

PCA selalu menghasilkan sumbu-sumbu baru yang **saling ortogonal**.

### 3.2 Preserving Variance

Tujuan utama PCA bukan memaksimalkan akurasi klasifikasi atau regresi secara langsung, melainkan **memaksimalkan variansi yang dipertahankan** pada ruang berdimensi lebih rendah.

Dengan mempertahankan variansi yang besar, PCA berharap struktur penting dalam data tetap terjaga.

Sebagai contoh:
- jika 95% variansi data dapat dijelaskan oleh 2 komponen utama,
- maka memproyeksikan data ke 2 dimensi tersebut biasanya sudah cukup representatif.

Sisa variansi sering kali dianggap sebagai noise.

### 3.3 PCA vs Feature Selection

Penting untuk membedakan PCA dengan **feature selection**:

- PCA membuat fitur baru berupa kombinasi linier dari fitur asli,
- feature selection hanya memilih subset fitur asli.

Akibatnya, hasil PCA sering kali lebih sulit diinterpretasikan, tetapi lebih efektif dalam mengurangi dimensi.

### 3.4 Keterbatasan PCA

Meskipun sangat berguna, PCA memiliki beberapa keterbatasan:
- hanya mampu menangkap hubungan linier,
- sensitif terhadap skala fitur,
- tidak mempertimbangkan label (unsupervised).

Oleh karena itu, **standardisasi fitur** biasanya dilakukan sebelum menerapkan PCA.

## 4. PCA with NumPy and Scikit-Learn

Setelah memahami intuisi PCA, langkah berikutnya adalah melihat bagaimana PCA diimplementasikan secara praktis.

Pada bagian ini, kita akan menerapkan PCA menggunakan:
- pendekatan manual dengan NumPy (untuk memahami mekanismenya),
- implementasi resmi PCA dari Scikit-Learn (untuk penggunaan praktis).

### 4.1 PCA dengan NumPy (Pendekatan Konseptual)

Secara matematis, PCA dapat dihitung menggunakan **Singular Value Decomposition (SVD)**.

Langkah umumnya adalah:
1. menstandarisasi data,
2. menghitung SVD,
3. memilih beberapa komponen utama,
4. memproyeksikan data ke ruang baru.

In [None]:
import numpy as np

# contoh data sederhana
X = np.array([[1, 2], [3, 4], [5, 6]])

# centering data
X_centered = X - X.mean(axis=0)

# Singular Value Decomposition
U, S, Vt = np.linalg.svd(X_centered)

Vt

Matriks `Vt` berisi **principal components**, yaitu arah baru tempat data memiliki variansi terbesar.

Baris pertama dari `Vt` merupakan principal component pertama, diikuti oleh komponen berikutnya.

### 4.2 Projecting Data onto Principal Components

Setelah principal components diperoleh, data dapat diproyeksikan ke subspace berdimensi lebih rendah.

In [None]:
# memilih 1 komponen utama
W2 = Vt[:1].T

# proyeksi data
X_pca = X_centered.dot(W2)
X_pca

Hasil proyeksi ini menunjukkan representasi data dalam satu dimensi yang mempertahankan variansi terbesar.

### 4.3 PCA dengan Scikit-Learn

Dalam praktik nyata, kita jarang mengimplementasikan PCA secara manual.

Scikit-Learn menyediakan class `PCA` yang efisien dan mudah digunakan.

In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca_sklearn = pca.fit_transform(X)
X_pca_sklearn

Implementasi PCA dari Scikit-Learn secara internal menggunakan SVD, tetapi menyediakan antarmuka yang jauh lebih praktis.

Hasil proyeksi konsisten dengan pendekatan manual menggunakan NumPy.

## 5. Choosing the Right Number of Dimensions

Salah satu keputusan penting dalam menggunakan PCA adalah menentukan **berapa banyak principal components** yang harus dipertahankan.

Terlalu sedikit komponen dapat menyebabkan hilangnya informasi penting, sedangkan terlalu banyak komponen dapat mengurangi manfaat dimensionality reduction.

### 5.1 Explained Variance Ratio

PCA menyediakan metrik bernama **explained variance ratio**, yang menunjukkan proporsi variansi data yang dijelaskan oleh setiap principal component.

Dengan melihat nilai ini, kita dapat menilai seberapa besar kontribusi masing-masing komponen terhadap keseluruhan variansi data.

In [None]:
pca = PCA()
pca.fit(X)

pca.explained_variance_ratio_

Array di atas menunjukkan berapa persen variansi yang dijelaskan oleh setiap principal component, mulai dari yang paling penting.

Biasanya, beberapa komponen pertama sudah menjelaskan sebagian besar variansi data.

### 5.2 Cumulative Explained Variance

Untuk menentukan jumlah komponen yang optimal, kita sering melihat **cumulative explained variance**, yaitu akumulasi variansi yang dijelaskan oleh beberapa komponen pertama.

In [None]:
np.cumsum(pca.explained_variance_ratio_)

Sebagai contoh:
- jika 95% variansi tercapai dengan 2 komponen,
- maka mempertahankan 2 komponen tersebut sering kali sudah cukup.

Pendekatan ini umum digunakan dalam praktik.

### 5.3 Choosing Components Automatically

Scikit-Learn memungkinkan kita memilih jumlah komponen berdasarkan target explained variance secara langsung.

In [None]:
pca_95 = PCA(n_components=0.95)
X_reduced = pca_95.fit_transform(X)

X_reduced.shape

Dengan pendekatan ini, PCA secara otomatis memilih jumlah komponen minimum yang mempertahankan setidaknya 95% variansi data.

Pendekatan ini sangat praktis ketika jumlah fitur awal sangat besar.

## 6. PCA Variants

Ketika dataset menjadi sangat besar, PCA standar dapat menjadi mahal secara komputasi.

Untuk mengatasi hal ini, tersedia beberapa **varian PCA** yang dirancang agar lebih efisien dan skalabel, yaitu **Randomized PCA** dan **Incremental PCA**.

### 6.1 Randomized PCA

Randomized PCA menggunakan pendekatan probabilistik untuk memperkirakan principal components.

Pendekatan ini sangat cepat dan cocok digunakan ketika:
- jumlah fitur sangat besar,
- hanya beberapa komponen utama yang dibutuhkan.

Dalam banyak kasus, Randomized PCA menghasilkan hasil yang hampir sama dengan PCA standar, tetapi dengan waktu komputasi yang jauh lebih singkat.

Scikit-Learn secara otomatis menggunakan Randomized PCA ketika:
- jumlah komponen jauh lebih kecil dari jumlah fitur,
- solver diatur ke `svd_solver="randomized"`.

In [None]:
pca_randomized = PCA(n_components=2, svd_solver="randomized", random_state=42)
X_pca_randomized = pca_randomized.fit_transform(X)
X_pca_randomized

Hasil Randomized PCA ini secara praktis sangat mirip dengan PCA standar, terutama ketika jumlah komponen yang diambil relatif kecil.

### 6.2 Incremental PCA

**Incremental PCA** dirancang untuk menangani dataset yang **tidak muat di memori**.

Algoritma ini memproses data secara bertahap (mini-batch), sehingga cocok untuk data streaming atau dataset berukuran sangat besar.

Incremental PCA bekerja dengan:
- memproses sebagian data dalam satu waktu,
- memperbarui principal components secara bertahap,
- tanpa perlu memuat seluruh dataset sekaligus.

In [None]:
from sklearn.decomposition import IncrementalPCA

inc_pca = IncrementalPCA(n_components=2)

for batch in np.array_split(X, 3):
    inc_pca.partial_fit(batch)

X_pca_incremental = inc_pca.transform(X)
X_pca_incremental

Incremental PCA memungkinkan PCA diterapkan pada dataset besar tanpa mengorbankan terlalu banyak akurasi.

Pendekatan ini sangat berguna dalam sistem Machine Learning berskala besar.

## 7. Kernel PCA

PCA standar hanya mampu menangkap hubungan **linier** antar fitur.

Ketika struktur data bersifat non-linear, PCA biasa sering gagal merepresentasikan data dengan baik.

**Kernel PCA** mengatasi keterbatasan ini dengan memanfaatkan *kernel trick* untuk melakukan PCA pada ruang fitur berdimensi lebih tinggi secara implisit.

### 7.1 Intuisi Kernel Trick

Alih-alih memproyeksikan data secara eksplisit ke ruang berdimensi tinggi, kernel trick menghitung **kemiripan antar titik data** menggunakan fungsi kernel.

Dengan cara ini, hubungan non-linear di ruang asli dapat menjadi linier di ruang fitur hasil transformasi kernel.

Beberapa kernel yang umum digunakan dalam Kernel PCA:
- **Linear**: setara dengan PCA biasa,
- **Polynomial**: menangkap hubungan polinomial,
- **RBF (Gaussian)**: sangat fleksibel untuk pola non-linear kompleks,
- **Sigmoid**: mirip dengan fungsi aktivasi pada neural network.

### 7.2 Kernel PCA dengan Scikit-Learn

Scikit-Learn menyediakan implementasi Kernel PCA melalui class `KernelPCA`.

In [None]:
from sklearn.decomposition import KernelPCA

kpca = KernelPCA(n_components=2, kernel="rbf", gamma=0.04)
X_kpca = kpca.fit_transform(X)
X_kpca

Pada contoh di atas, kernel RBF digunakan untuk menangkap struktur non-linear pada data.

Parameter `gamma` mengontrol lebar kernel dan sangat mempengaruhi hasil transformasi.

### 7.3 Kernel PCA sebagai Preprocessing

Kernel PCA sering digunakan sebagai tahap preprocessing sebelum algoritma Machine Learning lain, seperti SVM atau Logistic Regression.

Namun, karena transformasi kernel bersifat non-linear dan tidak selalu invertible, interpretasi fitur hasil Kernel PCA menjadi lebih sulit dibandingkan PCA biasa.

## 8. Locally Linear Embedding (LLE)

**Locally Linear Embedding (LLE)** merupakan salah satu algoritma **manifold learning** yang bertujuan menemukan representasi berdimensi rendah dari data berdimensi tinggi dengan mempertahankan **struktur lokal**.

Berbeda dengan PCA yang bersifat linier, LLE dirancang untuk menangani struktur data **non-linear**.

### 8.1 Intuisi Dasar LLE

Ide utama LLE adalah asumsi bahwa setiap titik data dapat direpresentasikan sebagai **kombinasi linier dari tetangga terdekatnya**.

Jika hubungan lokal ini dapat dipertahankan dalam ruang berdimensi rendah, maka struktur manifold data juga akan tetap terjaga.

Secara garis besar, algoritma LLE bekerja dalam tiga tahap:
1. untuk setiap titik data, mencari *k-nearest neighbors*,
2. menghitung bobot yang merekonstruksi setiap titik dari tetangganya,
3. mencari embedding berdimensi rendah yang mempertahankan bobot tersebut.

Dengan cara ini, LLE fokus pada **hubungan lokal**, bukan jarak global.

### 8.2 Karakteristik LLE

Beberapa karakteristik penting dari LLE antara lain:
- sangat efektif untuk visualisasi data berdimensi tinggi,
- mampu menangkap struktur manifold non-linear,
- sensitif terhadap noise dan pemilihan jumlah tetangga (`n_neighbors`).

Karena fokus pada struktur lokal, LLE jarang digunakan sebagai preprocessing untuk training model Machine Learning.

### 8.3 LLE dengan Scikit-Learn

Scikit-Learn menyediakan implementasi LLE melalui class `LocallyLinearEmbedding`.

In [None]:
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_lle = lle.fit_transform(X)
X_lle

Hasil embedding LLE di atas menunjukkan representasi data dalam dua dimensi yang mempertahankan hubungan lokal antar titik.

Teknik ini sering digunakan untuk eksplorasi dan visualisasi struktur data kompleks.

## 9. Other Dimensionality Reduction Techniques

Selain PCA dan LLE, terdapat berbagai teknik dimensionality reduction lain yang sering digunakan dalam praktik, tergantung pada tujuan dan karakteristik data.

### 9.1 Multidimensional Scaling (MDS)

**Multidimensional Scaling (MDS)** bertujuan untuk merepresentasikan data dalam ruang berdimensi rendah dengan mempertahankan **jarak antar titik data**.

MDS sering digunakan untuk visualisasi data, terutama ketika informasi jarak antar instance sangat penting.

### 9.2 t-SNE (t-Distributed Stochastic Neighbor Embedding)

**t-SNE** merupakan teknik manifold learning yang sangat populer untuk visualisasi data berdimensi tinggi.

Algoritma ini sangat baik dalam mempertahankan struktur lokal, sehingga sering digunakan untuk memvisualisasikan clustering data.

Namun, t-SNE:
- mahal secara komputasi,
- tidak cocok sebagai preprocessing sebelum training model,
- hasilnya sensitif terhadap hyperparameter.

### 9.3 Isomap

**Isomap** merupakan metode manifold learning yang mempertahankan **jarak geodesik** antar titik data pada manifold.

Isomap cocok untuk data dengan struktur non-linear yang relatif halus, tetapi kurang robust terhadap noise.

Secara umum, teknik manifold learning seperti LLE, Isomap, dan t-SNE lebih sering digunakan untuk **eksplorasi dan visualisasi data** dibandingkan sebagai tahap preprocessing Machine Learning.

## Closing Summary (Chapter 8)

Chapter 8 membahas berbagai teknik **Dimensionality Reduction** yang bertujuan mengurangi kompleksitas data tanpa kehilangan terlalu banyak informasi penting.

Konsep utama yang dipelajari meliputi:
- curse of dimensionality dan dampaknya,
- pendekatan projection dan manifold learning,
- Principal Component Analysis (PCA) dan variannya,
- Kernel PCA untuk struktur non-linear,
- serta teknik manifold learning seperti LLE.

Dimensionality reduction merupakan alat penting dalam Machine Learning modern, baik untuk meningkatkan efisiensi model maupun untuk memahami struktur data kompleks.

Pemahaman chapter ini menjadi fondasi untuk mempelajari topik lanjutan seperti **unsupervised learning**, **clustering**, dan **representation learning** pada chapter berikutnya.