# Tugas Praktik Dimensionality Reduction (PCA & t-SNE)

Kelompok:
- Rayhan Fadhlurrahman (24523223)
- Naufal Ahmad Fauzi (24523168)

Kasus penggunaan: Visualisasi data berdimensi tinggi untuk eksplorasi cluster.

## 1. Kasus Penggunaan

**Masalah yang dihadapi:**
Dataset memiliki banyak fitur sehingga sulit divisualisasikan secara langsung.

**Mengapa dimensionality reduction dibutuhkan:**
Dimensionality reduction digunakan untuk menurunkan dimensi data ke 2D agar pola dan cluster dapat diamati secara visual.

In [None]:

import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE
from sklearn.datasets import load_wine

data = load_wine()
X = data.data
y = data.target

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)


Dataset distandardisasi karena PCA dan t-SNE sensitif terhadap skala fitur. Standardisasi memastikan setiap fitur memiliki kontribusi yang seimbang.

In [None]:

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)

plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y)
plt.xlabel("PC1")
plt.ylabel("PC2")
plt.title("Visualisasi PCA (2D)")
plt.show()

print("Explained Variance Ratio:", pca.explained_variance_ratio_)


**Makna hasil PCA:**
- PC1 dan PC2 merupakan kombinasi linier dari fitur asli.
- Explained variance ratio menunjukkan proporsi informasi yang dipertahankan.
- PCA mempertahankan struktur global data.

In [None]:

tsne = TSNE(n_components=2, random_state=42, perplexity=30)
X_tsne = tsne.fit_transform(X_scaled)

plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y)
plt.xlabel("Dimensi 1")
plt.ylabel("Dimensi 2")
plt.title("Visualisasi t-SNE (2D)")
plt.show()


**Makna hasil t-SNE:**
- t-SNE menekankan struktur lokal data.
- Data yang mirip dikelompokkan lebih rapat.
- Cluster terlihat lebih jelas dibandingkan PCA.

## 5. Analisis Perbandingan

- PCA cocok untuk preprocessing dan analisis global karena stabil dan interpretatif.
- t-SNE lebih efektif untuk eksplorasi visual dan pemisahan cluster.
- Untuk kasus ini, t-SNE lebih sesuai untuk visualisasi cluster.