# Chapter 9: Unsupervised Learning Techniques

Meskipun sebagian besar aplikasi Machine Learning saat ini berbasis *supervised learning*, sebagian besar data yang tersedia di dunia ini tidak berlabel. Bab ini membahas **Unsupervised Learning**, sebuah cabang ML di mana algoritma belajar dari data tanpa label.

Kita akan mengeksplorasi beberapa tugas dan algoritma *unsupervised learning* yang paling umum:
* **Clustering:** Mengelompokkan *instance* yang mirip ke dalam *cluster*.
* **Anomaly Detection:** Belajar seperti apa data "normal" dan kemudian menggunakannya untuk mendeteksi *instance* yang tidak normal (*outlier*).
* **Density Estimation:** Memperkirakan fungsi kepadatan probabilitas (PDF) dari proses acak yang menghasilkan dataset.

## Clustering

**Clustering** adalah tugas mengidentifikasi *instance* yang mirip dan menugaskannya ke dalam *cluster*, atau grup *instance* yang serupa. Ini adalah alat yang hebat untuk analisis data, segmentasi pelanggan, sistem rekomendasi, dan banyak lagi.

Tidak seperti klasifikasi, clustering adalah tugas yang tidak diawasi (*unsupervised*).

### K-Means

K-Means adalah algoritma sederhana yang mampu mengelompokkan dataset dengan sangat cepat dan efisien. Algoritma ini mencoba menemukan pusat setiap *cluster* (disebut *centroid*) dan menugaskan setiap *instance* ke *cluster* terdekat.

Kelemahan utamanya adalah kita harus menentukan jumlah *cluster* (`k`) di awal dan K-Means tidak bekerja dengan baik pada *cluster* dengan ukuran, kepadatan, atau bentuk yang tidak bulat.

In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

# Membuat dataset blobs
X, y = make_blobs(n_samples=1000, centers=5, random_state=42)

# Melatih model K-Means
kmeans = KMeans(n_clusters=5, random_state=42)
y_pred = kmeans.fit_predict(X)

print("Centroids:")
print(kmeans.cluster_centers_)

### DBSCAN

**DBSCAN (Density-Based Spatial Clustering of Applications with Noise)** mendefinisikan *cluster* sebagai wilayah kontinu dengan kepadatan tinggi.

Cara kerjanya:
1. Untuk setiap *instance*, algoritma menghitung berapa banyak *instance* lain yang berada dalam jarak kecil `eps` (epsilon).
2. Jika sebuah *instance* memiliki setidaknya `min_samples` tetangga (termasuk dirinya sendiri), ia dianggap sebagai *core instance*.
3. Semua *instance* di lingkungan *core instance* termasuk dalam *cluster* yang sama.
4. Setiap *instance* yang bukan *core instance* dan tidak memiliki tetangga *core instance* dianggap sebagai anomali.

Algoritma ini mampu menemukan *cluster* dengan bentuk apa pun dan tangguh terhadap *outlier*.

In [None]:
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.05, random_state=42)

dbscan = DBSCAN(eps=0.2, min_samples=5)
dbscan.fit(X)

## Gaussian Mixtures

**Gaussian Mixture Model (GMM)** adalah model probabilistik yang mengasumsikan bahwa *instance* dihasilkan dari campuran beberapa distribusi Gaussian yang parameternya tidak diketahui. Semua *instance* yang dihasilkan dari satu distribusi Gaussian membentuk sebuah *cluster* yang biasanya terlihat seperti elipsoid.

Model ini dapat digunakan untuk estimasi kepadatan, *clustering*, dan deteksi anomali.

In [None]:
from sklearn.mixture import GaussianMixture

# Menggunakan dataset blobs dari contoh K-Means
X, y = make_blobs(n_samples=1000, centers=5, random_state=42)

gm = GaussianMixture(n_components=5, n_init=10, random_state=42)
gm.fit(X)

print("Bobot cluster:", gm.weights_)
print("Pusat cluster (means):", gm.means_)

### Menggunakan GMM untuk Deteksi Anomali dan Pemilihan Jumlah Cluster

* **Anomaly Detection:** Setiap *instance* yang terletak di wilayah dengan kepadatan rendah dapat dianggap sebagai anomali. Kita dapat menentukan ambang batas kepadatan untuk menandai *outlier*.

* **Memilih Jumlah Cluster:** Tidak seperti K-Means, kita tidak bisa menggunakan metrik seperti *inertia*. Sebagai gantinya, kita dapat mencoba menemukan model yang meminimalkan kriteria informasi teoretis seperti **Bayesian Information Criterion (BIC)** atau **Akaike Information Criterion (AIC)**. Model dengan BIC/AIC terendah seringkali merupakan pilihan terbaik.