# Chapter 9: Unsupervised Learning Techniques

Chapter ini membahas **Unsupervised Learning**, yaitu pendekatan Machine Learning yang bekerja tanpa label target. Berbeda dengan supervised learning yang membutuhkan pasangan data (X, y), pada unsupervised learning model hanya menerima data input dan diminta untuk menemukan struktur, pola, atau keteraturan yang tersembunyi di dalamnya.

Dalam praktik nyata, sebagian besar data yang tersedia tidak memiliki label. Proses pelabelan sering kali mahal, memakan waktu, dan membutuhkan keahlian khusus. Oleh karena itu, unsupervised learning memainkan peran fundamental dalam analisis data modern.

Pendekatan ini banyak digunakan untuk eksplorasi data, preprocessing, serta sebagai fondasi bagi metode Machine Learning yang lebih kompleks.


## 1. Pengantar Unsupervised Learning

Unsupervised learning bertujuan untuk mengekstraksi informasi bermakna dari data tanpa supervisi eksplisit. Model tidak mengetahui jawaban yang benar, melainkan belajar langsung dari pola alami yang muncul pada data.

Contoh data yang umum dianalisis dengan unsupervised learning meliputi:
- data perilaku pengguna,
- data transaksi pelanggan,
- data sensor industri,
- kumpulan dokumen teks,
- data citra dan audio berskala besar.

Pendekatan ini memungkinkan sistem memahami struktur data secara mandiri dan sering digunakan sebagai tahap awal sebelum model supervised learning.


## 2. Tugas Utama dalam Unsupervised Learning

Unsupervised learning mencakup beberapa tugas utama, antara lain:

- **Clustering**, yaitu pengelompokan data berdasarkan tingkat kemiripan.
- **Anomaly Detection**, yaitu identifikasi data yang menyimpang dari pola normal.
- **Density Estimation**, yaitu pemodelan distribusi probabilitas data.

Masing-masing tugas memiliki aplikasi luas dalam bidang bisnis, keamanan, kesehatan, dan analisis data eksploratif.


## 3. Hubungan dengan Chapter Sebelumnya

Pada Chapter 8 telah dibahas teknik **Dimensionality Reduction**, yang juga termasuk kategori unsupervised learning. Teknik tersebut berfokus pada penyederhanaan data berdimensi tinggi.

Chapter 9 memperluas konsep tersebut dengan membahas teknik unsupervised learning yang berfokus pada pengelompokan data, deteksi penyimpangan, dan pemahaman struktur distribusi data.


## 4. Clustering

Clustering merupakan salah satu tugas utama dalam unsupervised learning yang bertujuan membagi data ke dalam beberapa kelompok (cluster) berdasarkan kemiripan.

Tidak seperti klasifikasi:
- tidak ada label awal,
- jumlah cluster sering kali tidak diketahui,
- evaluasi hasil bersifat kontekstual dan eksploratif.


### 4.1 Intuisi Clustering

Intuisi dasar clustering adalah bahwa data dalam satu cluster memiliki kemiripan yang lebih tinggi dibandingkan dengan data di cluster lain.

Kemiripan biasanya diukur menggunakan metrik jarak seperti Euclidean distance, meskipun metrik lain dapat digunakan sesuai dengan karakteristik data.


### 4.2 Use Cases Clustering

Clustering digunakan secara luas dalam berbagai aplikasi, antara lain:
- segmentasi pelanggan,
- pengelompokan dokumen,
- analisis citra,
- bioinformatika,
- eksplorasi data awal.

Sering kali clustering digunakan bukan sebagai tujuan akhir, melainkan sebagai alat bantu analisis.


### 4.3 Tantangan dalam Clustering

Beberapa tantangan utama dalam clustering meliputi:
- pemilihan jumlah cluster yang tepat,
- sensitivitas terhadap noise dan outlier,
- kesulitan evaluasi tanpa label,
- performa menurun pada data berdimensi tinggi.


## 5. K-Means Clustering

K-Means merupakan algoritma clustering yang paling populer karena sederhana dan efisien. Tujuan K-Means adalah meminimalkan jarak antara setiap data dan pusat cluster (centroid) terdekatnya.


### 5.1 Intuisi Dasar K-Means

Algoritma K-Means bekerja secara iteratif melalui langkah berikut:
1. Menentukan jumlah cluster K.
2. Menginisialisasi centroid awal.
3. Menetapkan setiap data ke centroid terdekat.
4. Memperbarui centroid sebagai rata-rata data dalam cluster.
5. Mengulangi proses hingga konvergen.


### 5.2 Fungsi Objektif K-Means

Secara matematis, K-Means meminimalkan total jarak kuadrat antara setiap titik data dan centroid cluster-nya. Nilai ini dikenal sebagai **inertia**.


In [None]:
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs

X_blobs, y_blobs = make_blobs(
    n_samples=300,
    centers=4,
    cluster_std=0.60,
    random_state=0
)

kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X_blobs)

kmeans.cluster_centers_


### 5.3 K-Means dengan Scikit-Learn

Setelah model dilatih, setiap data akan memiliki label cluster yang menunjukkan keanggotaan cluster masing-masing.


In [None]:
from sklearn.cluster import KMeans

X_blobs, y_blobs = make_blobs(n_samples=300, centers=4, cluster_std=0.60, random_state=0)

kmeans = KMeans(n_clusters=4, random_state=42)
kmeans.fit(X_blobs)


Setelah training, kita dapat mengakses posisi centroid dan label cluster hasil K-Means.

In [None]:
kmeans.cluster_centers_

In [None]:
kmeans.labels_[:10]

## 6. Evaluating K-Means: Inertia

Inertia mengukur seberapa rapat cluster yang dihasilkan. Nilai inertia yang kecil menunjukkan cluster yang lebih kompak, tetapi inertia selalu menurun ketika jumlah cluster bertambah.


### 6.1 The Elbow Method

Elbow Method digunakan untuk menentukan jumlah cluster optimal dengan mencari titik di mana penurunan inertia mulai melambat.


In [None]:
inertias = []

for k in range(1, 10):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X_blobs)
    inertias.append(kmeans.inertia_)

inertias


## 7. Initialization of Centroids

Pemilihan centroid awal sangat memengaruhi hasil K-Means. Inisialisasi yang buruk dapat menyebabkan solusi lokal yang tidak optimal.


### 7.1 K-Means++

K-Means++ merupakan metode inisialisasi centroid yang memilih titik awal secara strategis agar tersebar dengan baik. Metode ini digunakan secara default pada Scikit-Learn.


## 8. Limitations of K-Means

Keterbatasan K-Means meliputi:
- harus menentukan jumlah cluster di awal,
- sensitif terhadap outlier,
- tidak cocok untuk cluster non-bulat,
- tidak mempertimbangkan perbedaan densitas.


## 9. K-Means for Image Segmentation

K-Means dapat digunakan untuk segmentasi citra dengan mengelompokkan piksel berdasarkan kemiripan warna.



Selain digunakan untuk data numerik umum, algoritma K-Means juga dapat dimanfaatkan dalam bidang pengolahan citra, khususnya untuk **image segmentation**. Pada konteks ini, setiap piksel dianggap sebagai sebuah titik data, biasanya direpresentasikan oleh nilai warna (RGB).

Tujuan image segmentation adalah membagi citra menjadi beberapa wilayah homogen sehingga objek atau pola tertentu dapat lebih mudah dianalisis.


### 9.1 Intuisi Image Segmentation dengan K-Means

Intuisi dasar segmentasi citra menggunakan K-Means adalah mengelompokkan piksel yang memiliki kemiripan warna ke dalam satu cluster yang sama. Setiap cluster merepresentasikan satu segmen citra.

Dengan cara ini, jumlah warna pada citra dapat direduksi secara signifikan tanpa menghilangkan struktur visual utama.


### 9.2 Contoh Implementasi Konseptual

Secara konseptual, proses segmentasi citra dengan K-Means dilakukan melalui langkah berikut:
1. Mengubah citra menjadi matriks dua dimensi (piksel Ã— fitur warna).
2. Menentukan jumlah cluster K.
3. Melatih K-Means menggunakan data piksel.
4. Mengganti warna setiap piksel dengan warna centroid cluster-nya.


In [None]:


from sklearn.cluster import KMeans

# contoh data piksel (RGB) sederhana
pixels = np.array([
    [255, 0, 0],
    [254, 0, 0],
    [0, 255, 0],
    [0, 254, 0],
    [0, 0, 255],
    [0, 0, 254]
])

kmeans_img = KMeans(n_clusters=3, random_state=42)
kmeans_img.fit(pixels)

kmeans_img.cluster_centers_



### 9.3 Kelebihan dan Kekurangan

**Kelebihan:**
- Implementasi sederhana
- Efisien untuk citra berukuran sedang
- Mengurangi kompleksitas warna

**Kekurangan:**
- Harus menentukan jumlah cluster
- Sensitif terhadap noise
- Tidak mempertimbangkan hubungan spasial antar piksel


In [None]:
import numpy as np

pixels = np.array([
    [255, 0, 0],
    [254, 0, 0],
    [0, 255, 0],
    [0, 254, 0],
    [0, 0, 255],
    [0, 0, 254]
])

kmeans_img = KMeans(n_clusters=3, random_state=42)
kmeans_img.fit(pixels)

kmeans_img.cluster_centers_


## 10. Gaussian Mixture Models (GMM)

Gaussian Mixture Models merupakan pendekatan clustering probabilistik yang mengasumsikan bahwa data dihasilkan dari kombinasi beberapa distribusi Gaussian.

Berbeda dengan K-Means yang menggunakan assignment keras (hard assignment), GMM memberikan probabilitas keanggotaan untuk setiap cluster.


### 10.1 Intuisi Gaussian Mixture Models

Pada GMM, setiap cluster direpresentasikan oleh sebuah distribusi Gaussian dengan parameter mean dan covariance tertentu. Setiap titik data memiliki probabilitas untuk berasal dari masing-masing distribusi tersebut.


### 10.2 Expectation-Maximization (EM) Algorithm

GMM dilatih menggunakan algoritma Expectation-Maximization (EM), yang bekerja secara iteratif:
- **E-step**: Menghitung probabilitas keanggotaan cluster.
- **M-step**: Memperbarui parameter distribusi Gaussian.


### 10.3 GMM dengan Scikit-Learn

Setelah model GMM dilatih, setiap data dapat diberi label berdasarkan probabilitas tertinggi.


In [None]:
from sklearn.mixture import GaussianMixture

gmm = GaussianMixture(n_components=4, random_state=42)
gmm.fit(X_blobs)

gmm.means_


Mean dari masing-masing Gaussian merepresentasikan pusat cluster hasil GMM.

In [None]:
gmm.predict(X_blobs[:10])

Prediksi GMM memberikan label cluster berdasarkan Gaussian dengan probabilitas tertinggi.

Namun, kita juga dapat mengakses probabilitas keanggotaan setiap cluster.

In [None]:
gmm.predict_proba(X_blobs[:5])

Soft assignment ini membuat GMM lebih ekspresif dibandingkan K-Means, terutama ketika cluster saling tumpang tindih.

## 11. Selecting the Number of Clusters

Menentukan jumlah cluster yang optimal merupakan tantangan penting dalam clustering probabilistik. GMM menyediakan kriteria statistik untuk membantu pemilihan model.


### 11.1 Akaike Information Criterion (AIC)

AIC mengukur kualitas model dengan mempertimbangkan trade-off antara goodness-of-fit dan kompleksitas model.


### 11.2 Bayesian Information Criterion (BIC)

BIC mirip dengan AIC tetapi memberikan penalti yang lebih besar terhadap model yang kompleks.


### 11.3 Menggunakan AIC dan BIC pada GMM

Model terbaik biasanya ditentukan berdasarkan nilai AIC atau BIC terendah.


Scikit-Learn menyediakan metode aic() dan bic() untuk mengevaluasi model GMM dengan jumlah komponen yang berbeda.

In [None]:
aics = []
bics = []

for k in range(1, 10):
    gmm = GaussianMixture(n_components=k, random_state=42)
    gmm.fit(X_blobs)
    aics.append(gmm.aic(X_blobs))
    bics.append(gmm.bic(X_blobs))

aics, bics



Dengan memplot nilai AIC dan BIC terhadap jumlah komponen, kita dapat memilih jumlah cluster yang meminimalkan kriteria tersebut.

## 12. Anomaly Detection

Anomaly detection bertujuan mengidentifikasi data yang menyimpang secara signifikan dari pola umum.


### 12.1 Tantangan dalam Anomaly Detection

Tantangan utama meliputi:
- ketidakseimbangan data,
- definisi anomali yang ambigu,
- perubahan distribusi data.


In [None]:
from sklearn.ensemble import IsolationForest

iso_forest = IsolationForest(random_state=42)
iso_forest.fit(X_blobs)

iso_forest.predict(X_blobs)[:10]


### 12.2 Isolation Forest

Isolation Forest mendeteksi anomali dengan mengisolasi data melalui struktur pohon acak.


### 12.3 Local Outlier Factor (LOF)

LOF mengukur kepadatan lokal suatu titik dibandingkan dengan tetangganya.


In [None]:
from sklearn.neighbors import LocalOutlierFactor

lof = LocalOutlierFactor()
lof.fit_predict(X_blobs)[:10]


## 13. Novelty Detection

Novelty Detection merupakan pendekatan dalam unsupervised learning yang bertujuan untuk mendeteksi data baru yang berbeda secara signifikan dari data yang dianggap normal.

Berbeda dengan anomaly detection, novelty detection diasumsikan **dilatih hanya menggunakan data normal**, tanpa mengandung outlier selama proses training.

Pendekatan ini banyak digunakan pada sistem monitoring dan quality control, di mana model dilatih pada kondisi normal dan digunakan untuk mendeteksi penyimpangan di masa depan.


### 13.1 One-Class Support Vector Machine (One-Class SVM)

One-Class Support Vector Machine merupakan algoritma populer untuk melakukan novelty detection.

Tujuan utama One-Class SVM adalah mempelajari batas (decision boundary) yang mencakup sebagian besar data normal, kemudian mengklasifikasikan data baru yang berada di luar batas tersebut sebagai novelty.

Secara intuitif:
- Data normal membentuk satu kelompok besar
- Model mencari hyperplane yang memisahkan data tersebut dari titik asal
- Data yang berada jauh dari distribusi normal dianggap sebagai data baru atau tidak wajar

Pendekatan ini mirip dengan Support Vector Machine klasik, tetapi tanpa kelas negatif eksplisit.


### 13.2 One-Class SVM dengan Scikit-Learn

Scikit-Learn menyediakan implementasi One-Class SVM melalui class `OneClassSVM`.

Model ini menggunakan kernel (sering kali RBF) untuk menangkap pola non-linear pada data normal.


In [None]:
from sklearn.svm import OneClassSVM

one_class_svm = OneClassSVM(kernel="rbf", gamma=0.1, nu=0.05)
one_class_svm.fit(X_blobs)

one_class_svm.predict(X_blobs[:10])


Output model berupa:
- Nilai **1** untuk data yang dianggap normal
- Nilai **-1** untuk data yang dianggap sebagai novelty

Parameter penting:
- `nu` mengontrol perkiraan proporsi data abnormal
- `gamma` menentukan kompleksitas boundary model

Pemilihan parameter yang tidak tepat dapat menyebabkan overfitting atau underfitting.


### 13.3 Perbedaan Novelty Detection dan Anomaly Detection

Meskipun sering disamakan, novelty detection dan anomaly detection memiliki perbedaan mendasar.

**Anomaly Detection:**
- Data training dapat mengandung outlier
- Fokus pada mendeteksi penyimpangan dalam dataset yang ada
- Contoh: deteksi penipuan transaksi

**Novelty Detection:**
- Data training diasumsikan bersih (tanpa outlier)
- Fokus pada mendeteksi data baru yang berbeda
- Contoh: sistem quality control manufaktur

Perbedaan asumsi ini sangat penting dalam pemilihan metode yang tepat.


## 14. Density Estimation

Density estimation merupakan salah satu tugas penting dalam unsupervised learning yang bertujuan untuk memperkirakan distribusi probabilitas dari data.

Dengan memahami distribusi data, kita dapat:
- mendeteksi anomali,
- menghasilkan data sintetis,
- memahami pola global data,
- serta melakukan analisis probabilistik.

Pendekatan ini sering digunakan sebagai dasar anomaly detection dan novelty detection.


### 14.1 Kernel Density Estimation (KDE)

Kernel Density Estimation (KDE) adalah metode non-parametrik untuk memperkirakan fungsi densitas probabilitas dari data.

Berbeda dengan Gaussian Mixture Models (GMM) yang mengasumsikan bentuk distribusi tertentu, KDE tidak mengasumsikan bentuk distribusi data.

Intuisi KDE adalah:
- setiap titik data dianggap sebagai pusat kernel,
- kernel yang umum digunakan adalah Gaussian,
- densitas total merupakan penjumlahan kontribusi semua kernel.

Pendekatan ini menghasilkan estimasi distribusi yang lebih halus dan fleksibel.


### 14.2 Parameter Bandwidth

Parameter terpenting dalam KDE adalah bandwidth, yang menentukan lebar kernel.

Bandwidth sangat memengaruhi hasil estimasi densitas:
- bandwidth kecil menghasilkan distribusi yang sangat detail (berisiko overfitting),
- bandwidth besar menghasilkan distribusi yang terlalu halus (berisiko underfitting).

Pemilihan bandwidth yang tepat sangat krusial untuk menghasilkan estimasi distribusi yang akurat dan bermakna.

Dalam praktik, bandwidth sering ditentukan melalui:
- eksperimen manual,
- cross-validation,
- atau aturan heuristik tertentu.


### 14.3 KDE dengan Scikit-Learn

Scikit-Learn menyediakan implementasi Kernel Density Estimation melalui class KernelDensity.

Class ini memungkinkan kita memilih jenis kernel dan nilai bandwidth sesuai kebutuhan data.

Metode score_samples() digunakan untuk menghitung log-density dari setiap data point.


In [None]:
from sklearn.neighbors import KernelDensity

kde = KernelDensity(kernel="gaussian", bandwidth=0.5)
kde.fit(X_blobs)

log_density = kde.score_samples(X_blobs[:10])
log_density


Nilai yang dihasilkan merupakan log-density, yaitu logaritma dari estimasi densitas probabilitas.

Interpretasi hasil:
- nilai log-density yang sangat kecil (negatif besar) menunjukkan data berada di area jarang,
- nilai ini sering digunakan sebagai indikator anomali,
- semakin rendah densitas, semakin besar kemungkinan data tersebut menyimpang dari pola umum.

Karena sifatnya yang fleksibel, KDE sering digunakan sebagai alat eksplorasi dan anomaly detection berbasis probabilitas.


## 15. Semi-Supervised Learning

Semi-supervised learning merupakan pendekatan pembelajaran mesin yang berada di antara supervised learning dan unsupervised learning.

Pendekatan ini digunakan ketika hanya sebagian kecil data yang memiliki label, sementara sebagian besar data lainnya tidak berlabel.

Kondisi ini sangat umum di dunia nyata karena proses pelabelan data sering kali:
- mahal secara biaya,
- memakan waktu,
- membutuhkan keahlian khusus.

Semi-supervised learning bertujuan untuk memanfaatkan struktur alami data tidak berlabel agar proses pembelajaran menjadi lebih efektif dibandingkan hanya mengandalkan data berlabel yang terbatas.


### 15.1 Intuisi Semi-Supervised Learning

Intuisi utama semi-supervised learning didasarkan pada asumsi bahwa data tidak berlabel mengandung informasi struktural yang sangat berharga.

Beberapa asumsi penting dalam semi-supervised learning antara lain:
- Data yang saling berdekatan cenderung memiliki label yang sama
- Data membentuk cluster alami di ruang fitur
- Batas keputusan sebaiknya melewati area dengan kepadatan data rendah

Dengan memanfaatkan asumsi tersebut, model dapat:
- mempelajari pola dari data berlabel,
- memperluas informasi tersebut ke data tidak berlabel,
- meningkatkan performa prediksi secara keseluruhan.

Dalam banyak kasus, semi-supervised learning menghasilkan performa yang jauh lebih baik dibandingkan supervised learning murni dengan jumlah label yang sangat terbatas.


### 15.2 Label Propagation

Label Propagation merupakan salah satu algoritma semi-supervised learning yang paling populer.

Algoritma ini bekerja dengan menyebarkan label dari data berlabel ke data tidak berlabel berdasarkan kemiripan antar data.

Konsep utama Label Propagation adalah:
- membangun graf kemiripan antar data,
- mengasumsikan bahwa node yang saling terhubung kuat memiliki label yang sama,
- menyebarkan label melalui graf hingga mencapai kondisi stabil.

Proses ini bersifat iteratif dan berhenti ketika label tidak lagi berubah secara signifikan.

Label Propagation sangat efektif ketika:
- data membentuk cluster yang jelas,
- hubungan antar data dapat direpresentasikan dengan baik menggunakan graf,
- jumlah data tidak berlabel jauh lebih banyak dibandingkan data berlabel.


### 15.3 Label Propagation dengan Scikit-Learn

Scikit-Learn menyediakan implementasi Label Propagation melalui class `LabelPropagation` dan `LabelSpreading`.

Pada contoh berikut, sebagian label data sengaja dihilangkan untuk mensimulasikan skenario semi-supervised learning.


In [None]:
from sklearn.semi_supervised import LabelPropagation
import numpy as np

# mensimulasikan data semi-supervised
y_semi = np.copy(y_blobs)

rng = np.random.RandomState(42)
unlabeled_indices = rng.choice(len(y_semi), size=200, replace=False)
y_semi[unlabeled_indices] = -1

label_prop = LabelPropagation()
label_prop.fit(X_blobs, y_semi)

label_prop.transduction_[:10]


## Closing Summary (Chapter 9)

Chapter ini membahas konsep dan teknik utama dalam unsupervised learning, termasuk clustering dengan K-Means, evaluasi cluster, serta penerapannya dalam berbagai konteks.

Unsupervised learning merupakan fondasi penting dalam analisis data modern karena memungkinkan pemahaman struktur data tanpa ketergantungan pada label.
