<a href="https://colab.research.google.com/github/muhiqbalalamin/DeepLearning-UAS/blob/main/Chapter_5_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Support Vector Machines**

## Pendahuluan

Support Vector Machines (SVM) merupakan model Machine Learning yang kuat dan fleksibel. SVM dapat digunakan untuk:

* Klasifikasi linier dan non-linier

* Regresi

* Deteksi outlier

SVM sangat cocok digunakan pada dataset kecil hingga menengah yang memiliki pola kompleks.

## Klasifikasi SVM Linier
Tujuan utama dari SVM adalah menemukan sebuah hyperplane (bidang keputusan) yang mampu memisahkan kelas dengan margin selebar mungkin.

### Konsep “Large Margin Classification”
SVM mencari batas keputusan yang:

* Memisahkan dua kelas data secara jelas

* Memiliki jarak maksimum terhadap titik data terdekat dari masing-masing kelas (support vectors)

## Support Vectors
Support vectors adalah titik-titik data yang terletak pada batas margin dan menjadi penentu posisi hyperplane.
Penambahan data baru di luar margin tidak memengaruhi posisi model atau batas keputusan.

## Sensitivitas terhadap Skala Fitur
SVM sangat sensitif terhadap skala fitur karena proses optimisasi berusaha memaksimalkan margin. Oleh karena itu, normalisasi atau standarisasi fitur (feature scaling) sangat penting dilakukan sebelum pelatihan model.

## Klasifikasi Hard Margin vs Soft Margin
### Hard Margin
* Tidak mengizinkan adanya kesalahan klasifikasi

* Hanya dapat digunakan jika data dapat dipisahkan secara linier sempurna

* Sangat rentan terhadap outlier

### Soft Margin
* Mengizinkan adanya pelanggaran terhadap margin dalam batas tertentu

* Tujuan utamanya adalah menyeimbangkan antara lebar margin dan jumlah kesalahan klasifikasi

### Fungsi Objektif Soft Margin

\[
$\min_{w, b, \zeta} \left[ \frac{1}{2} \|w\|^2 + C \sum_{i=1}^m \zeta_i \right]$
\]

dengan syarat:

\[
$t_i(w^\top x_i + b) \geq 1 - \zeta_i, \quad \zeta_i \geq 0$
\]

- \($ C $\): hyperparameter yang mengatur trade-off

## Fungsi Kerugian (Loss Function)
### Hinge Loss
\[
$L(t) = \max(0, 1 - t)$
\]

* Nilai hinge loss = 0 jika data diklasifikasikan dengan benar dan cukup jauh dari batas

* Nilai kerugian meningkat secara linear ketika prediksi salah atau terlalu dekat dengan batas keputusan

## Kernel Trick
### Tujuan
Mengatasi masalah klasifikasi non-linier dengan mentransformasikan fitur ke ruang berdimensi lebih tinggi, kemudian menerapkan SVM linier di ruang tersebut.

### Fungsi Kernel
Fungsi kernel menghitung:


\[
$K(a, b) = \phi(a)^\top \phi(b)$
\]

Tanpa perlu menghitung \($ \phi(x) $\) secara eksplisit.

### Kernel Populer:

- **Linear**: \($ K(a, b) = a^\top b $\)
- **Polynomial**: \($ K(a, b) = (\gamma a^\top b + r)^d $\)
- **Gaussian RBF**: \($ K(a, b) = \exp(-\gamma \|a - b\|^2) $\)

## Kompleksitas Komputasi
| Kelas          | Kompleksitas Waktu   | Kernel | Scaling Wajib | Out-of-core |
|----------------|----------------------|--------|----------------|--------------|
| `LinearSVC`    | \($ O(m \cdot n) $\)   | ❌     | ✅              | ❌           |
| `SGDClassifier`| \($ O(m \cdot n) $\)   | ❌     | ✅              | ✅           |
| `SVC`          | \($ O(m^2 \cdot n) $\) s/d \($ O(m^3 \cdot n) $\) | ✅ | ✅ | ❌ |

- \($ m $\): jumlah instance
- \($ n $\): jumlah fitur

## Kernelized SVM dan Dual Problem
Untuk menerapkan kernel, SVM menggunakan bentuk dual dari optimisasi.

### Fungsi Objektif Dual
\[
$\min_\alpha \left[ \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j t_i t_j K(x_i, x_j) - \sum_{i=1}^m \alpha_i \right]$
\]

dengan syarat \($ \alpha_i \geq 0 $\)

### Solusi Primal dari Dual
\[
$w = \sum_{i=1}^{m} \alpha_i t_i x_i$
\]

\[
$b = \frac{1}{n_s} \sum_{i \in SV} \left( t_i - \sum_{j=1}^{m} \alpha_j t_j K(x_j, x_i) \right)$
\]

## Prediksi Menggunakan Kernelized SVM
\[
$f(x) = \sum_{i \in SV} \alpha_i t_i K(x_i, x) + b$
\]

Prediksi hanya melibatkan support vectors, sehingga lebih efisien dibandingkan menggunakan seluruh data.

## SVM untuk Regresi (SVR)
### Tujuan
Menyesuaikan garis (atau kurva) sedemikian rupa sehingga sebagian besar data berada di dalam margin toleransi yang telah ditentukan.

### Fungsi Objektif SVR
\[
$\min_{w, b} \left[ \frac{1}{2} \|w\|^2 + C \sum \text{pelanggaran margin} \right]$
\]

- Margin tidak boleh dilewati kecuali dibayar dengan penalti
- Hyperparameter \($ \epsilon $\) mengatur lebar margin

## Online SVM
Untuk versi SVM linier yang dapat belajar secara online, digunakan SGDClassifier dengan hinge loss.

Fungsi kerugian:

\[
$J(w, b) = \frac{1}{2} w^\top w + C \sum_{i=1}^{m} \max(0, 1 - t_i (w^\top x_i + b))$
\]


# **Kesimpulan**
Support Vector Machine (SVM) adalah metode yang dirancang untuk menemukan hyperplane dengan margin terluas guna memisahkan kelas secara optimal. Titik-titik data yang disebut support vectors menjadi elemen kunci dalam proses pelatihan karena secara langsung memengaruhi posisi dan orientasi hyperplane. Dengan menggunakan teknik kernel trick, SVM dapat menangani klasifikasi non-linier tanpa perlu menambahkan fitur secara eksplisit, sehingga memungkinkan pemrosesan data yang kompleks secara efisien. Model ini sangat cocok diterapkan pada dataset berukuran kecil hingga menengah dengan pola yang tidak linier. Selain itu, konsep SVM juga dapat diperluas untuk menyelesaikan masalah regresi melalui pendekatan Support Vector Regression (SVR), yang mempertahankan prinsip margin lebar sambil mengakomodasi prediksi nilai kontinu.

# **Referensi**
Géron, A. (2019). Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow. O'Reilly Media.