<a href="https://colab.research.google.com/github/KrituneX/Hands-on-Machine-Learning-with-Scikit-Learn-Keras-TensorFlow/blob/main/Chapter_8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Ringkasan Chapter 8: Dimensionality Reduction
## Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow (2nd Ed.)

### 1. Konsep Dasar Reduksi Dimensi
- Reduksi dimensi adalah teknik yang digunakan untuk mengurangi jumlah fitur dalam dataset sambil mempertahankan informasi penting.
- **Tujuan Utama**:
  - Mengatasi *curse of dimensionality*, di mana model menjadi kurang efektif saat jumlah fitur meningkat.
  - Mempercepat komputasi dan mengurangi waktu pelatihan model.
  - Memudahkan visualisasi data, terutama saat mereduksi ke 2D atau 3D.
  - Menghilangkan noise dan redundansi dalam data, yang dapat meningkatkan akurasi model.
- **Contoh Aplikasi**: Pengenalan wajah, pemrosesan gambar, analisis teks, dan pengolahan sinyal.

### 2. Principal Component Analysis (PCA)
- PCA adalah metode reduksi dimensi yang paling populer dan banyak digunakan dalam analisis data.
- **Prinsip Kerja**:
  - PCA mengubah data ke dalam sistem koordinat baru, di mana sumbu baru (komponen utama) adalah arah varians maksimum dalam data.
  - Dengan memilih beberapa komponen utama teratas, kita dapat mereduksi dimensi data sambil mempertahankan sebagian besar informasi.
- **Langkah-langkah PCA**:
  1. **Standarisasi Data**: Mengubah data sehingga memiliki rata-rata 0 dan deviasi standar 1. Ini penting agar semua fitur memiliki skala yang sama.
  2. **Hitung Matriks Kovarians**: Matriks ini menunjukkan seberapa variabel fitur berhubungan satu sama lain. Matriks kovarians \( Cov(X) \) dapat dihitung dengan rumus:
    
  $$ Cov(X) = \frac{1}{n-1} (X - \bar{X})^T (X - \bar{X}) $$
  
  3. **Hitung Eigenvalue dan Eigenvector**: Eigenvalue menunjukkan seberapa besar varians yang dijelaskan oleh masing-masing komponen, sedangkan eigenvector menunjukkan arah komponen tersebut.
  4. **Pilih Komponen Utama**: Memilih beberapa eigenvector teratas berdasarkan eigenvalue untuk membentuk ruang fitur baru. Komponen utama yang dipilih adalah yang menjelaskan varians terbesar.
  5. **Transformasi Data**: Mengalikan data asli dengan komponen utama untuk mendapatkan data yang direduksi. Transformasi ini dapat dinyatakan dengan rumus:
     $$ Z = XW $$
     Di mana \( Z \) adalah data yang direduksi, \( X \) adalah data asli, dan \( W \) adalah matriks komponen utama.
- **Kelebihan PCA**:
  - Mengurangi kompleksitas model dan meningkatkan kecepatan pelatihan.
  - Membantu dalam visualisasi data yang kompleks.
- **Kekurangan PCA**:
  - PCA hanya efektif jika data memiliki struktur linier. Untuk data non-linear, metode lain seperti t-SNE atau UMAP mungkin lebih cocok.

### 3. Contoh Kode PCA
- Berikut adalah contoh implementasi PCA menggunakan scikit-learn untuk mereduksi dimensi dataset Iris.


In [None]:
from sklearn.datasets import load_iris
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Memuat dataset Iris
iris = load_iris()
X = iris.data
y = iris.target

# Menggunakan PCA untuk mereduksi dimensi menjadi 2
pca = PCA(n_components=2)
X_reduced = pca.fit_transform(X)

# Visualisasi hasil reduksi dimensi
plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_reduced[:, 0], X_reduced[:, 1], c=y, cmap='viridis')
plt.title('PCA - Iris Dataset')
plt.xlabel('Komponen Utama 1')
plt.ylabel('Komponen Utama 2')
plt.colorbar(scatter, label='Kelas')
plt.show()

### 4. T-SNE (t-Distributed Stochastic Neighbor Embedding)
- T-SNE adalah metode lain untuk reduksi dimensi yang lebih baik untuk visualisasi data non-linear.
- **Prinsip Kerja**:
  - T-SNE mengubah data ke dalam ruang dimensi yang lebih rendah dengan menjaga struktur lokal data. Ini sangat berguna untuk visualisasi dataset yang kompleks.
- **Kelebihan**:
  - Menjaga struktur lokal data, sehingga sangat baik untuk visualisasi.
- **Kekurangan**:
  - Lebih lambat dibandingkan PCA dan tidak cocok untuk dataset besar.
- **Rumus**: T-SNE menggunakan probabilitas untuk menghitung jarak antara titik data dalam dimensi tinggi dan rendah.

### 5. Contoh Kode T-SNE
- Berikut adalah contoh implementasi T-SNE menggunakan scikit-learn untuk mereduksi dimensi dataset Iris.


In [None]:
from sklearn.manifold import TSNE

# Menggunakan T-SNE untuk mereduksi dimensi menjadi 2
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)

# Visualisasi hasil reduksi dimensi
plt.figure(figsize=(8, 6))
scatter = plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='viridis')
plt.title('T-SNE - Iris Dataset')
plt.xlabel('Dimensi 1')
plt.ylabel('Dimensi 2')
plt.colorbar(scatter, label='Kelas')
plt.show()

### 6. Catatan Penting
- **Keunggulan**: Reduksi dimensi dapat membantu dalam mempercepat algoritma pembelajaran mesin dan meningkatkan akurasi dengan menghilangkan noise.
- **Kelemahan**: Beberapa informasi mungkin hilang selama proses reduksi, yang dapat mempengaruhi hasil model.
- **Penggunaan**: Sangat berguna dalam analisis data eksploratif, visualisasi, dan preprocessing sebelum pelatihan model.
- **Tips**: Saat menggunakan teknik reduksi dimensi, penting untuk memahami karakteristik data dan memilih metode yang sesuai. PCA lebih baik untuk data linier, sedangkan T-SNE lebih baik untuk data non-linear.