# Chapter 8: Dimensionality Reduction

Dalam berbagai permasalahan Machine Learning, dataset sering kali memiliki jumlah fitur yang sangat besar. Kondisi ini menimbulkan tantangan serius, baik dari sisi komputasi maupun kualitas model.

Dimensionality Reduction merupakan kumpulan teknik yang bertujuan mengurangi jumlah fitur tanpa menghilangkan terlalu banyak informasi penting. Teknik ini membantu mempercepat proses training, menurunkan risiko overfitting, serta mempermudah visualisasi data berdimensi tinggi.


## 1. The Curse of Dimensionality

Curse of dimensionality menggambarkan berbagai permasalahan yang muncul ketika jumlah dimensi data meningkat secara signifikan. Dalam ruang berdimensi tinggi, perilaku data menjadi sangat berbeda dibandingkan ruang dua atau tiga dimensi.


### 1.1 Sparsity in High-Dimensional Space

Ketika dimensi bertambah, data menjadi semakin jarang (sparse), jarak antar titik meningkat, dan instance baru sering kali jauh dari seluruh data training. Kondisi ini menyulitkan model dalam melakukan generalisasi.


### 1.2 Dampak Curse of Dimensionality

Beberapa dampak utama curse of dimensionality antara lain meningkatnya kebutuhan data training, kompleksitas model yang tinggi, serta penurunan performa prediksi.


## 2. Main Approaches for Dimensionality Reduction

Secara umum, dimensionality reduction dibagi menjadi dua pendekatan utama, yaitu projection dan manifold learning. Keduanya memiliki tujuan yang sama, tetapi menggunakan asumsi struktur data yang berbeda.


### 2.2 Manifold Learning

Manifold learning berasumsi bahwa data terletak pada manifold non-linear berdimensi rendah. Pendekatan ini berfokus pada pelestarian hubungan lokal antar titik data.


### 2.3 Kapan Menggunakan Projection atau Manifold Learning?

Projection umumnya digunakan sebagai preprocessing sebelum training model, sedangkan manifold learning lebih sering dimanfaatkan untuk visualisasi data.


## 3. Principal Component Analysis (PCA)

Principal Component Analysis (PCA) merupakan salah satu teknik dimensionality reduction yang paling banyak digunakan dalam bidang machine learning dan data science. PCA bertujuan untuk mereduksi jumlah dimensi data dengan cara mentransformasikan fitur-fitur asli ke dalam sekumpulan fitur baru yang saling ortogonal dan tersusun berdasarkan besarnya variansi yang mampu dijelaskan.

Berbeda dengan feature selection yang hanya memilih sebagian fitur, PCA melakukan transformasi linier terhadap seluruh fitur sehingga menghasilkan representasi data yang lebih ringkas namun tetap mempertahankan informasi penting. Teknik ini sangat berguna ketika data memiliki banyak fitur yang saling berkorelasi.



### 3.1 Intuisi Dasar PCA

Intuisi utama di balik PCA adalah mencari arah baru dalam ruang fitur di mana data memiliki penyebaran (variansi) terbesar. Arah ini disebut sebagai principal component pertama. Selanjutnya, PCA mencari arah kedua yang ortogonal terhadap arah pertama dan memiliki variansi terbesar berikutnya, dan seterusnya.

Dengan memproyeksikan data ke beberapa principal components pertama, sebagian besar struktur dan pola data tetap dapat dipertahankan meskipun jumlah dimensi berkurang secara signifikan. Hal ini membuat PCA sangat efektif untuk visualisasi data berdimensi tinggi serta sebagai preprocessing sebelum pelatihan model machine learning.


### 3.2 Preserving Variance

Salah satu tujuan utama PCA adalah mempertahankan sebanyak mungkin variansi data saat proses reduksi dimensi dilakukan. Variansi yang tinggi umumnya diasosiasikan dengan informasi yang relevan, sedangkan variansi yang rendah sering kali berkaitan dengan noise.

Dengan memilih sejumlah principal components yang menjelaskan proporsi variansi tertentu (misalnya 90% atau 95%), PCA memastikan bahwa sebagian besar informasi penting dari data asli masih tersimpan dalam representasi berdimensi lebih rendah.


### 3.3 PCA vs Feature Selection

PCA dan feature selection sering dianggap serupa, padahal keduanya memiliki pendekatan yang berbeda secara fundamental.

Feature selection mempertahankan fitur asli dan hanya memilih subset yang dianggap paling relevan. Sebaliknya, PCA menciptakan fitur baru berupa kombinasi linier dari fitur asli. Akibatnya, PCA cenderung menghasilkan representasi yang lebih efisien, tetapi dengan konsekuensi berkurangnya interpretabilitas fitur.


### 3.4 Keterbatasan PCA

Meskipun sangat populer, PCA memiliki beberapa keterbatasan yang perlu diperhatikan. PCA hanya mampu menangkap hubungan linier antar fitur dan tidak efektif untuk pola non-linier. Selain itu, PCA sensitif terhadap skala fitur sehingga standardisasi data menjadi langkah penting sebelum penerapan PCA.

PCA juga merupakan metode unsupervised, sehingga tidak mempertimbangkan label target dalam proses reduksi dimensi.


## 4. PCA with NumPy and Scikit-Learn

Untuk memahami PCA secara menyeluruh, penting untuk melihat bagaimana PCA bekerja secara matematis dan bagaimana penerapannya secara praktis menggunakan library machine learning.


### 4.1 PCA dengan NumPy (Pendekatan Konseptual)

Secara matematis, PCA dapat dihitung menggunakan Singular Value Decomposition (SVD). Langkah ini melibatkan dekomposisi matriks data yang telah dicenter sehingga menghasilkan principal components sebagai vektor eigen.


In [None]:
import numpy as np

X = np.array([[2.5, 2.4],
              [0.5, 0.7],
              [2.2, 2.9],
              [1.9, 2.2],
              [3.1, 3.0]])

X_centered = X - X.mean(axis=0)

U, S, Vt = np.linalg.svd(X_centered)

Vt


Matriks Vt berisi principal components, di mana komponen pertama menunjukkan arah dengan variansi terbesar dalam data.


### 4.2 Projecting Data onto Principal Components

Setelah principal components diperoleh, data dapat diproyeksikan ke ruang berdimensi lebih rendah dengan mengalikan data terpusat dengan vektor komponen utama yang dipilih.


In [None]:
W = Vt[:1].T
X_pca = X_centered.dot(W)
X_pca


### 4.3 PCA dengan Scikit-Learn

Dalam praktik nyata, PCA umumnya diimplementasikan menggunakan Scikit-Learn karena lebih efisien dan stabil untuk dataset berukuran besar.


In [None]:
from sklearn.decomposition import PCA

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)
X_pca


Hasil proyeksi ini merepresentasikan data dalam satu dimensi yang mempertahankan sebagian besar variansi.


## 5. Choosing the Right Number of Dimensions

Menentukan jumlah komponen utama merupakan keputusan penting. Jumlah komponen yang terlalu sedikit dapat menghilangkan informasi penting, sedangkan terlalu banyak mengurangi manfaat dimensionality reduction.


### 5.1 Explained Variance Ratio

Explained variance ratio menunjukkan proporsi variansi yang dijelaskan oleh masing-masing principal component.


In [None]:
pca = PCA()
pca.fit(X)

pca.explained_variance_ratio_


### 5.2 Cumulative Explained Variance

Cumulative explained variance membantu menentukan jumlah komponen minimum yang diperlukan untuk mempertahankan proporsi variansi tertentu.


In [None]:
np.cumsum(pca.explained_variance_ratio_)


### 5.3 Choosing Components Automatically

Scikit-Learn memungkinkan pemilihan jumlah komponen secara otomatis berdasarkan target variansi yang ingin dipertahankan.


In [None]:
pca_95 = PCA(n_components=0.95)
X_reduced = pca_95.fit_transform(X)

X_reduced.shape


## 6. PCA Variants

Untuk dataset besar, tersedia varian PCA yang lebih efisien seperti Randomized PCA dan Incremental PCA.


In [None]:
pca_randomized = PCA(n_components=2, svd_solver="randomized", random_state=42)
X_pca_randomized = pca_randomized.fit_transform(X)
X_pca_randomized


In [None]:
from sklearn.decomposition import IncrementalPCA

inc_pca = IncrementalPCA(n_components=2)

for batch in np.array_split(X, 3):
    inc_pca.partial_fit(batch)

X_pca_incremental = inc_pca.transform(X)
X_pca_incremental


## 7. Kernel PCA

Principal Component Analysis (PCA) standar hanya mampu menangkap hubungan linier antar fitur. Pada banyak dataset dunia nyata, struktur data bersifat non-linear sehingga PCA biasa kurang efektif.

Kernel PCA memperluas PCA dengan memanfaatkan *kernel trick*, sehingga PCA dapat diterapkan pada ruang fitur berdimensi lebih tinggi secara implisit tanpa perlu menghitung transformasi tersebut secara eksplisit.


### 7.1 Intuisi Kernel Trick

Kernel trick memungkinkan algoritma linier bekerja pada data non-linear dengan cara menghitung kesamaan antar titik data menggunakan fungsi kernel.

Alih-alih memetakan data secara eksplisit ke ruang berdimensi tinggi, kernel menghitung produk dalam ruang fitur tersebut secara langsung.

Dengan pendekatan ini, hubungan non-linear di ruang asli dapat menjadi linier di ruang fitur hasil transformasi kernel.


Beberapa fungsi kernel yang umum digunakan dalam Kernel PCA antara lain:

- Linear: setara dengan PCA standar
- Polynomial: menangkap hubungan polinomial
- RBF (Gaussian): sangat fleksibel untuk pola non-linear kompleks
- Sigmoid: memiliki kemiripan dengan fungsi aktivasi pada neural network


In [None]:
from sklearn.decomposition import KernelPCA

kpca = KernelPCA(n_components=2, kernel="rbf", gamma=0.04)
X_kpca = kpca.fit_transform(X)
X_kpca


### 7.2 Kernel PCA dengan Scikit-Learn

Scikit-Learn menyediakan implementasi Kernel PCA melalui class `KernelPCA`. Implementasi ini memungkinkan penggunaan berbagai kernel dan dapat disesuaikan dengan karakteristik data.

Parameter `gamma` pada kernel RBF mengontrol lebar kernel dan memiliki pengaruh besar terhadap hasil transformasi.


### 7.3 Kernel PCA sebagai Preprocessing

Kernel PCA sering digunakan sebagai tahap preprocessing sebelum algoritma Machine Learning lain seperti Support Vector Machine atau Logistic Regression.

Namun, karena transformasi kernel bersifat non-linear dan tidak selalu dapat diinversi, interpretasi fitur hasil Kernel PCA menjadi lebih sulit dibandingkan PCA standar.


## 8. Locally Linear Embedding (LLE)

Locally Linear Embedding (LLE) merupakan algoritma dimensionality reduction berbasis manifold learning yang dirancang untuk mempertahankan struktur lokal data.

Berbeda dengan PCA yang bersifat linier, LLE mampu menangani struktur non-linear dengan lebih baik.


### 8.1 Intuisi Dasar LLE

LLE berasumsi bahwa setiap titik data dapat direpresentasikan sebagai kombinasi linier dari tetangga terdekatnya.

Jika hubungan lokal ini dapat dipertahankan dalam ruang berdimensi lebih rendah, maka struktur manifold data juga tetap terjaga.


Secara umum, algoritma LLE bekerja melalui tiga tahap utama:

1. Menentukan tetangga terdekat (k-nearest neighbors) untuk setiap titik data
2. Menghitung bobot rekonstruksi setiap titik dari tetangganya
3. Mencari embedding berdimensi rendah yang mempertahankan bobot tersebut


### 8.2 Karakteristik LLE

Beberapa karakteristik penting dari LLE meliputi:

- Sangat efektif untuk visualisasi data berdimensi tinggi
- Mampu menangkap struktur manifold non-linear
- Sensitif terhadap noise dan pemilihan jumlah tetangga

Karena fokus pada struktur lokal, LLE jarang digunakan sebagai preprocessing sebelum training model Machine Learning.


In [None]:
from sklearn.manifold import LocallyLinearEmbedding

lle = LocallyLinearEmbedding(n_components=2, n_neighbors=10)
X_lle = lle.fit_transform(X)
X_lle


## 9. Other Dimensionality Reduction Techniques

Selain PCA dan LLE, terdapat berbagai teknik dimensionality reduction lain yang sering digunakan, terutama untuk eksplorasi dan visualisasi data berdimensi tinggi.


### 9.1 Multidimensional Scaling (MDS)

Multidimensional Scaling (MDS) bertujuan merepresentasikan data dalam ruang berdimensi rendah dengan mempertahankan jarak antar titik data.

MDS sering digunakan ketika informasi jarak antar instance memiliki peran penting dalam analisis data.


### 9.2 t-SNE (t-Distributed Stochastic Neighbor Embedding)

t-SNE merupakan teknik manifold learning yang sangat populer untuk visualisasi data berdimensi tinggi.

Algoritma ini sangat baik dalam mempertahankan struktur lokal dan sering digunakan untuk memvisualisasikan clustering data.

Namun, t-SNE memiliki beberapa keterbatasan, seperti mahal secara komputasi dan sensitif terhadap hyperparameter.


### 9.3 Isomap

Isomap merupakan metode manifold learning yang mempertahankan jarak geodesik antar titik data pada manifold.

Metode ini cocok untuk data dengan struktur non-linear yang relatif halus, tetapi kurang robust terhadap noise.


## Closing Summary (Chapter 8)

Chapter ini membahas berbagai teknik dimensionality reduction yang bertujuan mengurangi kompleksitas data tanpa menghilangkan terlalu banyak informasi penting.

Topik utama yang dipelajari meliputi curse of dimensionality, PCA dan variannya, Kernel PCA, serta metode manifold learning seperti LLE, MDS, t-SNE, dan Isomap.

Pemahaman dimensionality reduction sangat penting dalam Machine Learning modern, baik untuk meningkatkan efisiensi model maupun untuk memahami struktur data kompleks.
