### Teknik *Unsupervised Learning*

* **Clustering (Pengelompokan)**: Tujuannya adalah mengelompokkan *instance* yang serupa. Aplikasi *clustering* sangat luas, termasuk analisis data, segmentasi pelanggan, sistem rekomendasi, mesin pencari, segmentasi gambar, *semi-supervised learning*, dan *dimensionality reduction*. Beberapa algoritma *clustering* yang populer adalah K-Means dan DBSCAN.
* **Anomaly Detection (Deteksi Anomali)**: Tujuannya adalah mempelajari seperti apa data "normal" dan kemudian menggunakannya untuk mengidentifikasi *instance* yang tidak normal, seperti produk cacat atau tren baru dalam *time series*. *Density estimation* sering digunakan untuk deteksi anomali, di mana *instance* di daerah dengan kepadatan sangat rendah kemungkinan besar adalah anomali.
* **Density Estimation (Estimasi Kepadatan)**: Tugas ini adalah mengestimasi fungsi kepadatan probabilitas (PDF) dari proses acak yang menghasilkan *dataset*. Selain deteksi anomali, estimasi kepadatan juga berguna untuk analisis dan visualisasi data.

### Clustering

*Clustering* adalah tugas mengidentifikasi *instance* yang serupa dan menetapkannya ke dalam *cluster* atau kelompok. Setiap *instance* diberi kelompok, tetapi tidak seperti klasifikasi, *clustering* adalah tugas tanpa pengawasan.

#### K-Means

Algoritma K-Means adalah algoritma sederhana yang cepat dan efisien untuk mengelompokkan *dataset* yang memiliki struktur berbentuk gumpalan (*blob*).

**Cara Kerja K-Means**:
1.  **Inisialisasi Centroid**: Centroid ditempatkan secara acak (misalnya, dengan memilih $k$ *instance* secara acak dan menggunakan lokasinya sebagai centroid).
2.  **Penetapan *Instance***: Setiap *instance* diberi label ke *cluster* yang centroidnya paling dekat.
3.  **Pembaruan Centroid**: Centroid diperbarui dengan menghitung rata-rata *instance* untuk setiap *cluster*.
4.  **Iterasi**: Langkah 2 dan 3 diulang sampai centroid berhenti bergerak.

Algoritma ini dijamin akan konvergen dalam jumlah langkah yang terbatas.
Meskipun K-Means cepat dan skalabel, ia memiliki beberapa kelemahan:
* Perlu menjalankan algoritma beberapa kali untuk menghindari solusi suboptimal.
* Perlu menentukan jumlah *cluster* ($k$) di awal.
* Tidak bekerja dengan baik jika *cluster* memiliki ukuran yang bervariasi, kepadatan yang berbeda, atau bentuk non-sferis.
* Penting untuk melakukan penskalaan fitur input sebelum menjalankan K-Means untuk menghindari *cluster* yang sangat meregang dan kinerja yang buruk.

**Kode K-Means (dasar)**:
```python
from sklearn.cluster import KMeans
k = 5
kmeans = KMeans(n_clusters=k)
y_pred = kmeans.fit_predict(X)
```
Kode ini menginisialisasi model K-Means dengan 5 *cluster* dan kemudian melatihnya pada data `X`, mengembalikan label *cluster* yang diprediksi untuk setiap *instance*.

**Centroid Initialization Methods**:
Secara *default*, kelas `KMeans` menggunakan metode inisialisasi K-Means++. K-Means++ adalah langkah inisialisasi yang lebih cerdas yang cenderung memilih centroid yang berjauhan satu sama lain, mengurangi kemungkinan konvergensi ke solusi suboptimal.
* **Inersia**: Metrik kinerja yang digunakan untuk memilih solusi terbaik di antara beberapa inisialisasi acak adalah inersia model, yaitu rata-rata kuadrat jarak antara setiap *instance* dan centroid terdekatnya. Nilai inersia yang lebih rendah menunjukkan model yang lebih baik.
* **`n_init`**: Parameter ini mengontrol berapa kali algoritma dijalankan dengan inisialisasi acak yang berbeda. Secara *default*, nilainya adalah 10, dan Scikit-Learn akan menyimpan solusi dengan inersia terendah.

**Accelerated K-Means and Mini-batch K-Means**:
* **Accelerated K-Means**: Mempercepat algoritma dengan menghindari banyak perhitungan jarak yang tidak perlu, memanfaatkan ketidaksetaraan segitiga. Ini adalah algoritma yang digunakan oleh kelas `KMeans` secara *default*.
* **Mini-batch K-Means**: Menggunakan *mini-batch* data pada setiap iterasi daripada seluruh *dataset*. Ini mempercepat algoritma secara signifikan dan memungkinkan pengelompokan *dataset* besar yang tidak muat dalam memori. Meskipun lebih cepat, inersianya umumnya sedikit lebih buruk dibandingkan K-Means reguler, terutama seiring dengan bertambahnya jumlah *cluster*.

**Menemukan Jumlah *Cluster* Optimal ($k$)**:
* **Elbow Method**: Memplot inersia sebagai fungsi $k$. Titik "siku" (*elbow*) pada kurva, di mana penurunan inersia melambat secara signifikan, seringkali merupakan pilihan yang baik untuk $k$.
* **Silhouette Score**: Rata-rata koefisien siluet di semua *instance*. Koefisien siluet untuk suatu *instance* dihitung sebagai $(b-a)/\max(a,b)$, di mana $a$ adalah jarak rata-rata ke *instance* lain dalam *cluster* yang sama, dan $b$ adalah jarak rata-rata ke *cluster* terdekat berikutnya. Nilai mendekati +1 menunjukkan *instance* yang terkelompok dengan baik, 0 berarti dekat batas *cluster*, dan -1 berarti mungkin salah ditetapkan. Skor siluet yang lebih tinggi menunjukkan *clustering* yang lebih baik.

#### DBSCAN

DBSCAN (*Density-Based Spatial Clustering of Applications with Noise*) mendefinisikan *cluster* sebagai wilayah kontinu dengan kepadatan tinggi.
* **Epsilon ($\epsilon$) Neighborhood**: Untuk setiap *instance*, algoritma menghitung berapa banyak *instance* yang terletak dalam jarak kecil $\epsilon$ darinya.
* **Core Instance**: Sebuah *instance* dianggap sebagai *core instance* jika memiliki setidaknya `min_samples` *instance* di dalam $\epsilon$-*neighborhood*-nya (termasuk dirinya sendiri).
* **Cluster Formation**: Semua *instance* di sekitar *core instance* termasuk dalam *cluster* yang sama. Urutan *core instance* yang berdekatan membentuk *cluster* tunggal.
* **Anomali**: Setiap *instance* yang bukan *core instance* dan tidak memiliki *core instance* di sekitarnya dianggap sebagai anomali.

Algoritma ini bekerja dengan baik jika semua *cluster* cukup padat dan dipisahkan dengan baik oleh wilayah berdensitas rendah. DBSCAN dapat mengidentifikasi *cluster* dengan bentuk arbitrer dan kuat terhadap *outlier*. Namun, jika kepadatan sangat bervariasi di seluruh *cluster*, mungkin sulit untuk menangkap semua *cluster* dengan benar.

**Kode DBSCAN**:
```python
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

X, y = make_moons(n_samples=1000, noise=0.05)
dbscan = DBSCAN(eps=0.05, min_samples=5)
dbscan.fit(X)
```
Kode ini membuat *dataset* berbentuk bulan dan kemudian menerapkan DBSCAN dengan parameter `eps` (radius *neighborhood*) dan `min_samples` (jumlah *instance* minimum dalam *neighborhood* agar menjadi *core instance*).

DBSCAN tidak memiliki metode `predict()` untuk *instance* baru, tetapi Anda dapat melatih pengklasifikasi (misalnya, `KNeighborsClassifier`) pada *core instance* untuk memprediksi *cluster* *instance* baru.

#### Algoritma Clustering Lainnya

* **Agglomerative Clustering**: Membangun hierarki *cluster* dari bawah ke atas, secara bertahap menggabungkan pasangan *cluster* terdekat. Skalabel untuk jumlah *instance* atau *cluster* yang besar, terutama dengan matriks konektivitas.
* **BIRCH (*Balanced Iterative Reducing and Clustering using Hierarchies*)**: Dirancang untuk *dataset* yang sangat besar, dapat lebih cepat dari K-Means *batch* dengan hasil serupa jika jumlah fitur tidak terlalu besar (<20).
* **Mean-Shift**: Menemukan *local density maximum* dan mengelompokkan *instance* yang lingkarannya menyatu di tempat yang sama. Dapat menemukan sejumlah *cluster* dengan bentuk apa pun, tetapi kompleksitas komputasinya $O(m^2)$ membuatnya tidak cocok untuk *dataset* besar.
* **Affinity Propagation**: Menggunakan sistem pemungutan suara di mana *instance* memilih *instance* serupa sebagai perwakilan mereka. Kompleksitas komputasinya juga $O(m^2)$.
* **Spectral Clustering**: Mengambil matriks kesamaan antar *instance*, membuat *embedding* berdimensi rendah, lalu menggunakan algoritma *clustering* lain (misalnya, K-Means) di ruang berdimensi rendah ini. Tidak skalabel untuk jumlah *instance* yang besar dan tidak bekerja dengan baik ketika *cluster* memiliki ukuran yang sangat berbeda.

### Gaussian Mixtures

*Gaussian Mixture Model* (GMM) adalah model probabilistik yang mengasumsikan bahwa *instance* dihasilkan dari campuran beberapa distribusi Gaussian dengan parameter yang tidak diketahui. Setiap *cluster* dalam GMM dapat memiliki bentuk, ukuran, kepadatan, dan orientasi elipsoidal yang berbeda.

**Cara Kerja GMM**:
GMM menggunakan algoritma *Expectation-Maximization* (EM). EM mirip dengan K-Means:
1.  **Inisialisasi Parameter Cluster**: Parameter *cluster* (bobot, rata-rata, dan matriks kovariansi) diinisialisasi secara acak.
2.  **Expectation Step (Langkah E)**: Algoritma mengestimasi probabilitas setiap *instance* termasuk dalam setiap *cluster* (berdasarkan parameter *cluster* saat ini). Probabilitas ini disebut "tanggung jawab" *cluster* terhadap *instance*.
3.  **Maximization Step (Langkah M)**: Setiap *cluster* diperbarui menggunakan semua *instance* dalam *dataset*, dengan setiap *instance* diberi bobot berdasarkan probabilitas estimasi bahwa ia termasuk dalam *cluster* tersebut.
4.  **Iterasi**: Langkah E dan M diulang sampai konvergensi.

Seperti K-Means, EM dapat konvergen ke solusi yang buruk, sehingga perlu dijalankan beberapa kali (parameter `n_init` di kelas `GaussianMixture` secara *default* adalah 1, tetapi disarankan untuk mengaturnya ke nilai yang lebih tinggi seperti 10).

**Kode GMM**:
```python
from sklearn.mixture import GaussianMixture
gm = GaussianMixture(n_components=3, n_init=10)
gm.fit(X)
```
Kode ini melatih model GMM dengan 3 komponen Gaussian dan 10 inisialisasi.

**Parameter yang Diestimasi**:
* `gm.weights_`: Bobot relatif setiap *cluster*.
* `gm.means_`: Rata-rata (pusat) setiap distribusi Gaussian.
* `gm.covariances_`: Matriks kovariansi setiap distribusi Gaussian, yang mendefinisikan bentuk, ukuran, dan orientasi elipsoidal *cluster*.

**Constraint pada Matriks Kovariansi**:
Anda dapat membatasi bentuk dan orientasi *cluster* dengan mengatur parameter `covariance_type`:
* `"spherical"`: Semua *cluster* harus berbentuk sferis dengan diameter yang berbeda.
* `"diag"`: *Cluster* dapat berbentuk elipsoidal, tetapi sumbunya harus sejajar dengan sumbu koordinat (matriks kovariansi diagonal).
* `"tied"`: Semua *cluster* memiliki bentuk, ukuran, dan orientasi elipsoidal yang sama (berbagi matriks kovariansi yang sama).
* `"full"` (default): Setiap *cluster* dapat memiliki bentuk, ukuran, dan orientasi apa pun (memiliki matriks kovariansi yang tidak dibatasi sendiri).

#### Anomaly Detection Menggunakan Gaussian Mixtures

*Instance* yang terletak di wilayah berdensitas rendah dapat dianggap anomali. Anda dapat menggunakan metode `score_samples()` untuk mendapatkan log PDF dari setiap *instance*. Semakin besar skor, semakin tinggi kepadatannya. Dengan menentukan ambang batas kepadatan, *instance* di bawah ambang batas tersebut dapat ditandai sebagai anomali.

**Kode Deteksi Anomali**:
```python
densities = gm.score_samples(X)
density_threshold = np.percentile(densities, 4) # Misalnya, 4% anomali
anomalies = X[densities < density_threshold]
```
Kode ini menghitung kepadatan untuk setiap *instance*, lalu menetapkan ambang batas pada persentil ke-4 dari kepadatan, menandai *instance* di bawah ambang batas tersebut sebagai anomali.

#### Selecting the Number of Clusters (untuk GMM)

Untuk GMM, inersia dan *silhouette score* tidak dapat diandalkan karena GMM menangani *cluster* yang tidak sferis atau memiliki ukuran yang berbeda. Sebagai gantinya, Anda dapat memilih model yang meminimalkan kriteria informasi teoretis seperti *Bayesian Information Criterion* (BIC) atau *Akaike Information Criterion* (AIC).

* $BIC = \log(m)p - 2 \log(\hat{L})$
* $AIC = 2p - 2 \log(\hat{L})$

Di mana:
* $m$ adalah jumlah *instance*.
* $p$ adalah jumlah parameter yang dipelajari oleh model.
* $\hat{L}$ adalah nilai maksimum fungsi *likelihood* model.

BIC dan AIC memberikan penalti untuk model dengan lebih banyak parameter dan penghargaan untuk model yang cocok dengan data dengan baik. Nilai BIC atau AIC terendah menunjukkan jumlah *cluster* yang optimal.

#### Bayesian Gaussian Mixture Models

Kelas `BayesianGaussianMixture` dapat memberikan bobot nol (atau mendekati nol) kepada *cluster* yang tidak diperlukan. Anda dapat mengatur `n_components` ke nilai yang Anda yakini lebih besar dari jumlah *cluster* optimal, dan algoritma akan menghilangkan *cluster* yang tidak perlu secara otomatis. Dalam model ini, parameter *cluster* diperlakukan sebagai variabel acak laten, bukan parameter model tetap.

**Kode Bayesian GMM**:
```python
from sklearn.mixture import BayesianGaussianMixture
bgm = BayesianGaussianMixture(n_components=10, n_init=10)
bgm.fit(X)
np.round(bgm.weights_, 2)
```
Kode ini melatih Bayesian GMM dengan asumsi maksimal 10 komponen, dan kemudian mencetak bobot *cluster* yang terestimasi. Bobot yang mendekati nol menunjukkan *cluster* yang tidak digunakan oleh model.

### Anomaly and Novelty Detection Lainnya

* **PCA (*Principal Component Analysis*)**: Anomali cenderung memiliki kesalahan rekonstruksi yang jauh lebih besar dibandingkan *instance* normal setelah reduksi dimensi dan rekonstruksi.
* **Fast-MCD (*Minimum Covariance Determinant*)**: Diimplementasikan oleh kelas `EllipticEnvelope`, berguna untuk deteksi *outlier*, terutama untuk membersihkan *dataset*. Diasumsikan *instance* normal berasal dari distribusi Gaussian tunggal, dan algoritma mengabaikan *outlier* saat mengestimasi parameter Gaussian.
* **Isolation Forest**: Algoritma efisien untuk deteksi *outlier*, terutama di *dataset* berdimensi tinggi. Membangun *Random Forest* di mana *Decision Tree* dibuat secara acak, dan anomali cenderung terisolasi dalam langkah yang lebih sedikit.
* **Local Outlier Factor (LOF)**: Membandingkan kepadatan *instance* di sekitar *instance* tertentu dengan kepadatan di sekitar tetangganya. Anomali seringkali lebih terisolasi.
* **One-class SVM**: Lebih cocok untuk deteksi kebaruan (*novelty detection*). Algoritma ini mencoba memisahkan *instance* dalam ruang berdimensi tinggi dari titik asal, sehingga menghasilkan wilayah kecil yang mencakup semua *instance* normal. *Instance* baru yang tidak masuk dalam wilayah ini adalah anomali.

### Menggunakan Clustering

* **Image Segmentation**: Mengelompokkan piksel berdasarkan warna untuk mengurangi jumlah warna dalam gambar atau mengidentifikasi kontur objek.
* **Preprocessing**: *Clustering* dapat digunakan untuk reduksi dimensi sebelum algoritma *supervised learning*. Misalnya, mengganti gambar dengan jaraknya ke sejumlah *cluster* dapat meningkatkan kinerja pengklasifikasi secara signifikan.
* **Semi-Supervised Learning**: Dalam skenario dengan banyak *instance* tanpa label dan sedikit *instance* berlabel, *clustering* dapat digunakan untuk:
    * Mengidentifikasi *instance* representatif (paling dekat dengan centroid *cluster*) dan memberi label secara manual hanya pada *instance* tersebut.
    * *Label Propagation*: Menyebarkan label dari *instance* representatif ke semua *instance* lain dalam *cluster* yang sama. Dapat ditingkatkan dengan hanya menyebarkan label ke *instance* yang paling dekat dengan centroid untuk menghindari kesalahan pelabelan di dekat batas *cluster*.

### Active Learning

*Active learning* adalah ketika seorang ahli manusia berinteraksi dengan algoritma pembelajaran, memberikan label untuk *instance* tertentu ketika algoritma memintanya. Salah satu strategi umumnya adalah *uncertainty sampling*:
1.  Model dilatih pada *instance* berlabel yang telah dikumpulkan.
2.  Model memprediksi semua *instance* tanpa label.
3.  *Instance* yang paling tidak pasti diprediksi oleh model (probabilitas estimasi terendah) diberikan kepada ahli untuk dilabeli.
4.  Proses ini diulang sampai peningkatan kinerja tidak sebanding dengan upaya pelabelan.