<a href="https://colab.research.google.com/github/Bagito999/Deep-Learning/blob/main/Chapter_5_Teori.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#  Chapter 5 - Support Vector Machines

##  Pendahuluan

**Support Vector Machines (SVMs)** adalah model Machine Learning yang kuat dan fleksibel, mampu menangani:
- Klasifikasi linear dan non-linear
- Regresi
- Deteksi outlier

SVM sangat cocok untuk dataset kecil hingga menengah dengan pola yang kompleks.

---

##  Linear SVM Classification

Tujuan utama dari SVM adalah menemukan **hyperplane** (garis keputusan) yang **memisahkan kelas dengan margin selebar mungkin**.

### 🔹 Konsep "Large Margin Classification"
SVM mencari batas keputusan yang:
- Memisahkan dua kelas
- **Jarak maksimum** terhadap data terdekat (support vectors)

---

##  Support Vectors

**Support Vectors** adalah titik data yang berada pada batas margin. Hanya titik-titik ini yang mempengaruhi posisi hyperplane.

Menambahkan data di luar margin tidak memengaruhi model.

---

##  Sensitivitas terhadap Skala Fitur

SVM sensitif terhadap skala karena algoritma mencoba memaksimalkan margin. **Feature scaling (standarisasi)** sangat penting.

---

##  Hard vs Soft Margin Classification

### 🔸 Hard Margin
- Tidak mengizinkan kesalahan klasifikasi
- Hanya bisa digunakan jika data **sepenuhnya terpisah secara linear**
- Sangat **sensitif terhadap outlier**

### 🔸 Soft Margin
- Mengizinkan pelanggaran margin secara terbatas
- Tujuan: **keseimbangan antara lebar margin dan error**

###  Fungsi Objektif Soft Margin

\[
$\min_{w, b, \zeta} \left[ \frac{1}{2} \|w\|^2 + C \sum_{i=1}^m \zeta_i \right]$
\]

dengan:

\[
$t_i(w^\top x_i + b) \geq 1 - \zeta_i, \quad \zeta_i \geq 0$
\]

- \($ C $\): hyperparameter yang mengatur trade-off

---

##  Fungsi Kerugian (Loss Function)

### 🔹 Hinge Loss

\[
$L(t) = \max(0, 1 - t)$
\]

- Hinge loss = 0 jika data diklasifikasikan benar dan cukup jauh dari batas
- Meningkat linear jika prediksi salah

---

##  Kernel Trick

###  Tujuan:
Menyelesaikan masalah non-linear dengan **mentransformasikan fitur ke ruang berdimensi lebih tinggi**, lalu menggunakan SVM linear.

### 🔹 Kernel Function

Fungsi kernel menghitung:

\[
$K(a, b) = \phi(a)^\top \phi(b)$
\]

Tanpa perlu menghitung \($ \phi(x) $\) secara eksplisit.

### 🔸 Kernel Populer:

- **Linear**: \($ K(a, b) = a^\top b $\)
- **Polynomial**: \($ K(a, b) = (\gamma a^\top b + r)^d $\)
- **Gaussian RBF**: \($ K(a, b) = \exp(-\gamma \|a - b\|^2) $\)

---

## 📉 Kompleksitas Komputasi

| Kelas          | Kompleksitas Waktu   | Kernel | Scaling Wajib | Out-of-core |
|----------------|----------------------|--------|----------------|--------------|
| `LinearSVC`    | \($ O(m \cdot n) $\)   | ❌     | ✅              | ❌           |
| `SGDClassifier`| \($ O(m \cdot n) $\)   | ❌     | ✅              | ✅           |
| `SVC`          | \($ O(m^2 \cdot n) $\) s/d \($ O(m^3 \cdot n) $\) | ✅ | ✅ | ❌ |

- \($ m $\): jumlah instance
- \($ n $\): jumlah fitur

---

##  Kernelized SVM dan Dual Problem

Untuk kernelisasi, kita gunakan **dual form** dari optimisasi SVM:

### 🔹 Dual Form Objective

\[
$\min_\alpha \left[ \frac{1}{2} \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j t_i t_j K(x_i, x_j) - \sum_{i=1}^m \alpha_i \right]$
\]

Dengan \($ \alpha_i \geq 0 $\)

### 🔸 Solusi Primal dari Dual

\[
$w = \sum_{i=1}^{m} \alpha_i t_i x_i$
\]
\[
$b = \frac{1}{n_s} \sum_{i \in SV} \left( t_i - \sum_{j=1}^{m} \alpha_j t_j K(x_j, x_i) \right)$
\]

---

##  Prediksi dengan Kernelized SVM

\[
$f(x) = \sum_{i \in SV} \alpha_i t_i K(x_i, x) + b$
\]

Hanya melibatkan **support vectors**, bukan seluruh dataset.

---

##  SVM untuk Regresi (SVR)

### 🔸 Tujuan:
Menyesuaikan garis (atau kurva) yang sebanyak mungkin instance-nya berada di dalam margin.

### 🔹 Fungsi Objektif SVR:

\[
$\min_{w, b} \left[ \frac{1}{2} \|w\|^2 + C \sum \text{pelanggaran margin} \right]$
\]

- Margin tidak boleh dilewati kecuali dibayar dengan penalti
- Hyperparameter \($ \epsilon $\) mengatur lebar margin

---

##  Online SVM

Untuk SVM linear, bisa gunakan **SGDClassifier** dengan loss hinge.

Fungsi kerugiannya:

\[
$J(w, b) = \frac{1}{2} w^\top w + C \sum_{i=1}^{m} \max(0, 1 - t_i (w^\top x_i + b))$
\]

---

##  Kesimpulan

- SVM mencari hyperplane dengan **margin terluas**
- **Support vectors** adalah inti dari pembelajaran SVM
- Kernel trick memungkinkan klasifikasi non-linear tanpa eksplisit menambah fitur
- Cocok untuk dataset kecil/menengah, kompleks, dan non-linear
- SVR memperluas konsep SVM ke tugas regresi

---

##  Referensi

Géron, A. (2019). *Hands-On Machine Learning with Scikit-Learn, Keras, and TensorFlow*. O'Reilly Media.
