# Chapter 9: Unsupervised Learning Techniques

Pada chapter ini, kita akan mempelajari **unsupervised learning**, yaitu pendekatan Machine Learning yang bekerja dengan **data tanpa label**.

Berbeda dengan supervised learning yang menggunakan pasangan data `(X, y)`, pada unsupervised learning kita hanya memiliki data input `X` tanpa informasi target yang jelas.

## 1. Pengantar Unsupervised Learning

Sebagian besar data di dunia nyata sebenarnya **tidak berlabel**.

Contohnya:
- data perilaku pengguna website,
- data transaksi pelanggan,
- data sensor industri,
- data gambar atau suara dalam jumlah besar.

Memberi label pada data-data tersebut sering kali mahal, memakan waktu, dan membutuhkan keahlian khusus.

Unsupervised learning bertujuan untuk **menemukan struktur tersembunyi** di dalam data tanpa bantuan label.

Pendekatan ini sangat penting karena memungkinkan model belajar langsung dari pola alami data.

Yann LeCun pernah menyatakan bahwa:

> *Jika kecerdasan adalah sebuah kue, maka unsupervised learning adalah kuenya, supervised learning adalah icing-nya, dan reinforcement learning adalah ceri di atasnya.*

Pernyataan ini menekankan bahwa unsupervised learning merupakan fondasi utama dalam pengembangan kecerdasan buatan.

## 2. Tugas Utama dalam Unsupervised Learning

Pada chapter ini, kita akan membahas beberapa tugas utama dalam unsupervised learning, yaitu:

- **Clustering**: mengelompokkan data berdasarkan kemiripan,
- **Anomaly Detection**: mendeteksi data yang menyimpang dari pola normal,
- **Density Estimation**: memperkirakan distribusi probabilitas data.

Masing-masing tugas ini memiliki aplikasi nyata yang sangat luas.

## 3. Hubungan dengan Chapter Sebelumnya

Pada **Chapter 8**, kita telah mempelajari dimensionality reduction, yang merupakan salah satu bentuk unsupervised learning.

Chapter 9 memperluas konsep tersebut dengan membahas teknik unsupervised learning lainnya yang lebih berfokus pada:
- pengelompokan data,
- pemahaman struktur data,
- serta deteksi pola tidak normal.

## 4. Clustering

**Clustering** adalah tugas utama dalam unsupervised learning yang bertujuan untuk **mengelompokkan data** ke dalam beberapa grup (cluster) berdasarkan tingkat kemiripan.

Tidak seperti klasifikasi, pada clustering:
- tidak ada label awal,
- jumlah dan bentuk cluster tidak selalu diketahui,
- evaluasi hasil sering kali bersifat subjektif atau kontekstual.

### 4.1 Intuisi Clustering

Intuisi dasar clustering adalah:
- data dalam satu cluster **lebih mirip satu sama lain**,
- data dari cluster yang berbeda **lebih tidak mirip**.

Kemiripan biasanya diukur menggunakan metrik jarak, seperti **Euclidean distance**, tetapi dapat juga menggunakan metrik lain tergantung konteks data.

Sebagai ilustrasi:
- pelanggan dengan pola belanja yang mirip dikelompokkan bersama,
- dokumen dengan topik serupa masuk ke cluster yang sama,
- titik data yang saling berdekatan di ruang fitur dianggap satu kelompok.

### 4.2 Use Cases Clustering

Clustering digunakan secara luas dalam berbagai aplikasi, antara lain:
- **Customer segmentation** dalam bisnis dan pemasaran,
- **Document clustering** untuk pengelompokan berita atau artikel,
- **Image segmentation** dalam pengolahan citra,
- **Bioinformatics** untuk analisis ekspresi gen,
- **Anomaly detection** sebagai tahap awal eksplorasi data.

Dalam banyak kasus, clustering bukanlah tujuan akhir, melainkan:
- alat eksplorasi data,
- fitur tambahan untuk model supervised,
- atau dasar pengambilan keputusan lebih lanjut.

### 4.3 Tantangan dalam Clustering

Beberapa tantangan utama dalam clustering meliputi:
- menentukan jumlah cluster yang tepat,
- memilih metrik jarak yang sesuai,
- menangani data berdimensi tinggi,
- mengevaluasi kualitas cluster tanpa label.

Karena itu, tidak ada satu algoritma clustering yang cocok untuk semua kasus.

## 5. K-Means Clustering

**K-Means** merupakan algoritma clustering yang paling populer dan paling sederhana.

Tujuan K-Means adalah membagi data ke dalam **K cluster** sedemikian rupa sehingga jarak antara setiap titik data dengan pusat cluster-nya (centroid) menjadi sekecil mungkin.

### 5.1 Intuisi Dasar K-Means

Secara intuitif, K-Means bekerja dengan cara:
1. memilih K titik awal sebagai centroid,
2. menetapkan setiap data ke centroid terdekat,
3. menghitung ulang posisi centroid sebagai rata-rata titik dalam cluster,
4. mengulangi langkah 2 dan 3 hingga konvergen.

Proses ini bertujuan untuk meminimalkan **within-cluster variance**.

### 5.2 Fungsi Objektif K-Means

Secara matematis, K-Means meminimalkan fungsi objektif berikut:

\n\n\( J = \sum_{i=1}^{K} \sum_{x \in C_i} ||x - \mu_i||^2 \)

di mana:
- \(C_i\) adalah cluster ke-i,
- \(\mu_i\) adalah centroid cluster ke-i.

Fungsi ini dikenal sebagai **inertia** atau **distortion**.

### 5.3 K-Means dengan Scikit-Learn

Scikit-Learn menyediakan implementasi K-Means melalui class `KMeans`.

In [None]:
from sklearn.cluster import KMeans

X_blobs, y_blobs = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X_blobs)

Setelah training, kita dapat mengakses posisi centroid dan label cluster hasil K-Means.

In [None]:
kmeans.cluster_centers_

In [None]:
kmeans.labels_[:10]

Hasil di atas menunjukkan bahwa setiap data telah ditetapkan ke salah satu dari 4 cluster.

K-Means bekerja sangat baik pada data dengan cluster berbentuk bulat dan ukuran yang relatif seragam.

## 6. Evaluating K-Means: Inertia

Untuk mengevaluasi hasil K-Means, metrik yang paling umum digunakan adalah **inertia**.

Inertia mengukur seberapa dekat setiap titik data dengan centroid cluster-nya masing-masing.

Semakin kecil nilai inertia, semakin kompak cluster yang dihasilkan.

Namun, nilai inertia **selalu menurun** ketika jumlah cluster (K) ditambah.

Oleh karena itu, inertia tidak dapat digunakan sendiri untuk menentukan jumlah cluster yang optimal.

### 6.1 The Elbow Method

Salah satu pendekatan populer untuk memilih jumlah cluster adalah **Elbow Method**.

Metode ini mencari titik di mana penurunan inertia mulai melambat secara signifikan, menyerupai bentuk siku (*elbow*).

In [None]:
inertias = []
for k in range(1, 10):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_blobs)
    inertias.append(kmeans.inertia_)

inertias

Dengan memplot nilai inertia terhadap jumlah cluster, kita dapat mengamati titik elbow secara visual.

Namun, dalam praktik, elbow tidak selalu jelas terlihat.

## 7. Initialization of Centroids

K-Means sangat sensitif terhadap pemilihan centroid awal.

Inisialisasi yang buruk dapat menyebabkan:
- konvergensi ke solusi lokal yang buruk,
- waktu training yang lebih lama.

### 7.1 K-Means++

**K-Means++** merupakan metode inisialisasi centroid yang dirancang untuk mengatasi masalah ini.

Metode ini memilih centroid awal secara bertahap dengan memastikan centroid tersebar sejauh mungkin satu sama lain.

Secara default, Scikit-Learn menggunakan K-Means++.

## 8. Limitations of K-Means

Meskipun populer, K-Means memiliki beberapa keterbatasan penting:
- harus menentukan jumlah cluster di awal,
- sensitif terhadap outlier,
- hanya efektif untuk cluster berbentuk bulat dan berukuran serupa,
- tidak cocok untuk cluster dengan densitas berbeda.

Karena keterbatasan ini, algoritma clustering lain sering kali lebih sesuai untuk data kompleks.

## 9. K-Means for Image Segmentation

Selain untuk clustering data numerik, **K-Means** juga sering digunakan untuk **image segmentation**, yaitu proses membagi gambar menjadi beberapa region berdasarkan kemiripan warna atau fitur piksel.

Pada image segmentation, setiap piksel diperlakukan sebagai sebuah data point, dan fitur yang digunakan biasanya adalah nilai warna (misalnya RGB).

### 9.1 Intuisi Image Segmentation dengan K-Means

Intuisi dasarnya adalah:
- piksel dengan warna yang mirip akan dikelompokkan ke dalam cluster yang sama,
- setiap cluster merepresentasikan satu region warna dominan,
- gambar hasil segmentasi akan memiliki jumlah warna yang lebih sedikit.

Pendekatan ini sering digunakan untuk kompresi gambar dan analisis visual sederhana.

### 9.2 Contoh Implementasi Konseptual

Sebagai ilustrasi sederhana, misalkan kita memiliki sebuah gambar dengan banyak warna.

Dengan menerapkan K-Means pada nilai RGB piksel, kita dapat mengelompokkan piksel-piksel tersebut ke dalam K cluster warna.

In [None]:
from sklearn.cluster import KMeans

# contoh data piksel (RGB) sederhana
pixels = np.array([
    [255, 0, 0],
    [254, 0, 0],
    [0, 255, 0],
    [0, 254, 0],
    [0, 0, 255],
    [0, 0, 254]
])

kmeans_img = KMeans(n_clusters=3, random_state=42)
kmeans_img.fit(pixels)

kmeans_img.cluster_centers_

Centroid hasil clustering merepresentasikan **warna dominan** dari setiap cluster.

Setiap piksel kemudian dapat digantikan dengan warna centroid cluster-nya masing-masing.

### 9.3 Kelebihan dan Kekurangan

Kelebihan K-Means untuk image segmentation:
- sederhana dan cepat,
- mudah diimplementasikan,
- efektif untuk gambar dengan warna yang relatif jelas.

Namun, pendekatan ini memiliki keterbatasan:
- tidak mempertimbangkan posisi spasial piksel,
- sensitif terhadap noise,
- hasil sangat bergantung pada jumlah cluster K.

## 10. Gaussian Mixture Models (GMM)

Selain K-Means, pendekatan populer lain untuk clustering adalah **Gaussian Mixture Models (GMM)**.

GMM mengasumsikan bahwa data dihasilkan dari campuran beberapa distribusi Gaussian dengan parameter yang berbeda.

### 10.1 Intuisi Gaussian Mixture Models

Berbeda dengan K-Means yang menetapkan setiap data ke satu cluster secara tegas (*hard assignment*),
GMM melakukan **soft assignment**, yaitu setiap data memiliki probabilitas untuk berada di setiap cluster.

Pendekatan ini lebih fleksibel dan mampu menangkap cluster dengan bentuk elips dan ukuran yang berbeda.

Secara konseptual, GMM memodelkan data sebagai:
- kombinasi beberapa distribusi Gaussian,
- masing-masing Gaussian merepresentasikan satu cluster,
- parameter yang dipelajari meliputi mean, covariance, dan weight.

### 10.2 Expectation-Maximization (EM) Algorithm

GMM dilatih menggunakan algoritma **Expectation-Maximization (EM)**.

Algoritma EM bekerja secara iteratif melalui dua langkah:
- **Expectation (E-step)**: menghitung probabilitas setiap data berasal dari masing-masing Gaussian,
- **Maximization (M-step)**: memperbarui parameter Gaussian untuk memaksimalkan likelihood.

Proses ini diulang hingga konvergen.

### 10.3 GMM dengan Scikit-Learn

Scikit-Learn menyediakan implementasi GMM melalui class `GaussianMixture`.

In [None]:
from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=4, random_state=42)
gmm.fit(X_blobs)

gmm.means_

Mean dari masing-masing Gaussian merepresentasikan pusat cluster hasil GMM.

In [None]:
gmm.predict(X_blobs[:10])

Prediksi GMM memberikan label cluster berdasarkan Gaussian dengan probabilitas tertinggi.

Namun, kita juga dapat mengakses probabilitas keanggotaan setiap cluster.

In [None]:
gmm.predict_proba(X_blobs[:5])

Soft assignment ini membuat GMM lebih ekspresif dibandingkan K-Means, terutama ketika cluster saling tumpang tindih.

## 11. Selecting the Number of Clusters

Menentukan jumlah cluster yang tepat merupakan salah satu tantangan utama dalam unsupervised learning.

Pada Gaussian Mixture Models (GMM), pemilihan jumlah cluster dapat dilakukan secara lebih sistematis menggunakan **kriteria informasi**, seperti **AIC** dan **BIC**.

### 11.1 Akaike Information Criterion (AIC)

**Akaike Information Criterion (AIC)** mengukur kualitas model dengan mempertimbangkan dua hal:
- seberapa baik model menjelaskan data (likelihood),
- kompleksitas model (jumlah parameter).

Model dengan nilai AIC **lebih kecil** dianggap lebih baik.

### 11.2 Bayesian Information Criterion (BIC)

**Bayesian Information Criterion (BIC)** mirip dengan AIC, tetapi memberikan penalti yang **lebih kuat** terhadap kompleksitas model.

Akibatnya, BIC cenderung memilih model yang lebih sederhana dibandingkan AIC.

Secara praktik:
- AIC lebih toleran terhadap model kompleks,
- BIC lebih konservatif dan sering menghasilkan jumlah cluster yang lebih kecil.

### 11.3 Menggunakan AIC dan BIC pada GMM

Scikit-Learn menyediakan metode `aic()` dan `bic()` untuk mengevaluasi model GMM dengan jumlah komponen yang berbeda.

In [None]:
aics = []
bics = []

for k in range(1, 10):
    gmm = GaussianMixture(n_components=k, random_state=42)
    gmm.fit(X_blobs)
    aics.append(gmm.aic(X_blobs))
    bics.append(gmm.bic(X_blobs))

aics, bics

Dengan memplot nilai AIC dan BIC terhadap jumlah komponen, kita dapat memilih jumlah cluster yang meminimalkan kriteria tersebut.

Pendekatan ini lebih objektif dibandingkan metode visual seperti elbow method pada K-Means.

## 12. Anomaly Detection

**Anomaly detection** bertujuan untuk mengidentifikasi data yang menyimpang secara signifikan dari pola umum.

Data anomali sering kali merepresentasikan kejadian penting, seperti:
- transaksi penipuan,
- kegagalan sistem,
- aktivitas mencurigakan,
- atau kesalahan pengukuran.

### 12.1 Tantangan dalam Anomaly Detection

Beberapa tantangan utama dalam anomaly detection antara lain:
- anomali jarang terjadi,
- definisi anomali sering bergantung pada konteks,
- data biasanya tidak berlabel.

Karena itu, banyak teknik anomaly detection bersifat unsupervised.

## 12.2 Isolation Forest

**Isolation Forest** mendeteksi anomali dengan cara mengisolasi instance data.

Intuisi utamanya adalah bahwa anomali:
- lebih jarang,
- lebih berbeda dari data normal,
- sehingga lebih mudah diisolasi dengan sedikit split.

Isolation Forest membangun banyak pohon acak.

Instance yang terisolasi lebih cepat (kedalaman pohon lebih kecil) dianggap sebagai anomali.

In [None]:
from sklearn.ensemble import IsolationForest

iso_forest = IsolationForest(contamination=0.05, random_state=42)
iso_forest.fit(X_blobs)

iso_forest.predict(X_blobs[:10])

Output bernilai `-1` menunjukkan data dianggap sebagai anomali, sedangkan `1` menunjukkan data normal.

## 12.3 Local Outlier Factor (LOF)

**Local Outlier Factor (LOF)** mendeteksi anomali dengan membandingkan kepadatan lokal sebuah titik data terhadap tetangganya.

Jika kepadatan lokal suatu titik jauh lebih rendah dibandingkan tetangganya, titik tersebut dianggap sebagai outlier.

In [None]:
from sklearn.neighbors import LocalOutlierFactor

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.05)
y_pred_lof = lof.fit_predict(X_blobs)

y_pred_lof[:10]

LOF sangat efektif untuk mendeteksi outlier yang hanya menyimpang secara lokal, tetapi kurang cocok untuk prediksi pada data baru.

## 13. Novelty Detection

**Novelty detection** bertujuan untuk mendeteksi data baru yang berbeda secara signifikan dari data yang dianggap normal.

Berbeda dengan anomaly detection yang dapat dilatih menggunakan data yang mengandung anomali, novelty detection **diasumsikan hanya dilatih pada data normal**.

Perbedaan utama:
- **Anomaly detection**: data training dapat mengandung outlier,
- **Novelty detection**: data training diharapkan bersih dari outlier.

Novelty detection umum digunakan dalam sistem monitoring dan quality control.

## 13.1 One-Class Support Vector Machine (One-Class SVM)

**One-Class SVM** merupakan algoritma populer untuk novelty detection.

Tujuan One-Class SVM adalah mempelajari batas (boundary) yang mencakup sebagian besar data normal dan mengklasifikasikan data di luar batas tersebut sebagai anomali.

One-Class SVM bekerja dengan:
- memproyeksikan data ke ruang fitur berdimensi tinggi menggunakan kernel,
- mencari hyperplane yang memisahkan data normal dari titik asal,
- memaksimalkan margin dari data normal.

Pendekatan ini mirip dengan SVM, tetapi tanpa kelas negatif eksplisit.

### 13.2 One-Class SVM dengan Scikit-Learn

Scikit-Learn menyediakan implementasi One-Class SVM melalui class `OneClassSVM`.

In [None]:
from sklearn.svm import OneClassSVM

one_class_svm = OneClassSVM(kernel="rbf", gamma=0.1, nu=0.05)
one_class_svm.fit(X_blobs)

one_class_svm.predict(X_blobs[:10])

Output bernilai `-1` menunjukkan data dianggap sebagai novelty (tidak normal), sedangkan `1` menunjukkan data normal.

Parameter penting pada One-Class SVM:
- `nu`: perkiraan proporsi outlier,
- `gamma`: menentukan kompleksitas boundary.

Pemilihan parameter yang tepat sangat krusial untuk performa model.

## 14. Density Estimation

**Density estimation** bertujuan untuk memperkirakan **distribusi probabilitas** yang mendasari data.

Dengan mengetahui distribusi data, kita dapat:
- mendeteksi anomali (data dengan probabilitas sangat rendah),
- melakukan sampling data baru,
- memahami struktur global data.

## 14.1 Kernel Density Estimation (KDE)

**Kernel Density Estimation (KDE)** merupakan metode non-parametrik untuk memperkirakan fungsi densitas probabilitas.

Berbeda dengan GMM yang mengasumsikan bentuk distribusi tertentu (Gaussian), KDE tidak membuat asumsi bentuk distribusi data.

Intuisi KDE:
- setiap titik data dianggap sebagai pusat sebuah *kernel* (misalnya Gaussian),
- densitas total diperoleh dengan menjumlahkan kontribusi kernel dari seluruh titik data.

Hasilnya adalah estimasi distribusi yang halus.

### 14.2 Parameter Bandwidth

Parameter terpenting dalam KDE adalah **bandwidth**.

- bandwidth kecil → distribusi sangat detail (risiko overfitting),
- bandwidth besar → distribusi terlalu halus (risiko underfitting).

Pemilihan bandwidth yang tepat sangat krusial.

### 14.3 KDE dengan Scikit-Learn

Scikit-Learn menyediakan implementasi KDE melalui class `KernelDensity`.

In [None]:
from sklearn.neighbors import KernelDensity

kde = KernelDensity(kernel="gaussian", bandwidth=0.5)
kde.fit(X_blobs)

log_density = kde.score_samples(X_blobs[:10])
log_density

Metode `score_samples()` mengembalikan **log-density** dari setiap data point.

Nilai log-density yang sangat kecil (negatif besar) dapat mengindikasikan anomali.

## 15. Semi-Supervised Learning

**Semi-supervised learning** berada di antara supervised dan unsupervised learning.

Pendekatan ini digunakan ketika:
- sebagian kecil data memiliki label,
- sebagian besar data tidak berlabel.

Kondisi ini sangat umum di dunia nyata karena proses pelabelan data sering kali mahal dan memakan waktu.

### 15.1 Intuisi Semi-Supervised Learning

Ide utama semi-supervised learning adalah memanfaatkan **struktur alami data tidak berlabel** untuk membantu proses pembelajaran.

Dengan asumsi bahwa data dengan struktur atau kedekatan yang mirip cenderung memiliki label yang sama, model dapat memperluas informasi dari data berlabel ke data tidak berlabel.

Pendekatan ini sering kali memberikan performa yang jauh lebih baik dibandingkan:
- supervised learning dengan data berlabel yang sangat sedikit,
- unsupervised learning murni tanpa memanfaatkan label sama sekali.

## 15.2 Label Propagation

**Label Propagation** adalah salah satu algoritma semi-supervised learning yang populer.

Algoritma ini menyebarkan (*propagate*) label dari data berlabel ke data tidak berlabel berdasarkan kemiripan antar data.

Intuisi Label Propagation:
- data yang saling berdekatan kemungkinan besar memiliki label yang sama,
- label menyebar melalui graf kemiripan data,
- proses diulang hingga label stabil.

Pendekatan ini sangat efektif ketika data membentuk cluster yang jelas.

### 15.3 Label Propagation dengan Scikit-Learn

Scikit-Learn menyediakan implementasi Label Propagation melalui class `LabelPropagation` dan `LabelSpreading`.

In [None]:
from sklearn.semi_supervised import LabelPropagation

# contoh sederhana: sebagian label dihilangkan
y_semi = np.copy(y_blobs)
rng = np.random.RandomState(42)
unlabeled_indices = rng.choice(len(y_semi), size=200, replace=False)
y_semi[unlabeled_indices] = -1

label_prop = LabelPropagation()
label_prop.fit(X_blobs, y_semi)

label_prop.transduction_[:10]

Hasil `transduction_` menunjukkan label hasil propagasi untuk seluruh data.

Pendekatan ini memungkinkan kita memanfaatkan data tidak berlabel secara efektif, terutama ketika struktur cluster data cukup jelas.

## Closing Summary (Chapter 9)

Chapter 9 membahas berbagai **teknik unsupervised learning** yang memungkinkan model Machine Learning belajar langsung dari data tanpa label.

Berbeda dengan supervised learning, fokus utama unsupervised learning adalah **menemukan struktur tersembunyi** di dalam data.

Konsep dan teknik utama yang dipelajari dalam chapter ini meliputi:
- **Clustering**, dengan algoritma seperti K-Means dan Gaussian Mixture Models (GMM),
- metode evaluasi dan pemilihan jumlah cluster (Elbow Method, AIC, dan BIC),
- **Anomaly Detection** menggunakan Isolation Forest dan Local Outlier Factor (LOF),
- **Novelty Detection** dengan One-Class SVM,
- **Density Estimation** menggunakan Kernel Density Estimation (KDE),
- serta **Semi-Supervised Learning** melalui Label Propagation.

Melalui berbagai contoh dan algoritma, chapter ini menunjukkan bahwa:
- tidak ada satu algoritma unsupervised learning yang cocok untuk semua kasus,
- pemilihan metode sangat bergantung pada struktur data dan tujuan analisis,
- interpretasi hasil sering kali memerlukan pemahaman konteks data.

Unsupervised learning sering digunakan sebagai tahap eksplorasi awal, preprocessing, atau pendukung sistem yang lebih kompleks.