## 🧠 I. SVM là gì?

**Support Vector Machine (SVM)** là một thuật toán học có giám sát dùng cho:

* **Phân loại** (Classification) là chủ yếu
* **Hồi quy** (Regression) → gọi là SVR

Mục tiêu:
👉 Tìm **siêu phẳng (hyperplane)** phân chia hai lớp **tốt nhất** – tức là **có khoảng cách (margin) lớn nhất** đến các điểm gần nhất của hai lớp.


## 📏 II. Ý tưởng chính

### ✈️ Trong không gian 2D:

* SVM tìm **đường thẳng** phân chia 2 lớp
* Khoảng cách từ đường đó đến các điểm gần nhất (support vectors) là **maximum margin**

![SVM idea](https://upload.wikimedia.org/wikipedia/commons/2/2a/SVM_margin.png)
(*Nguồn: Wikipedia*)


## 🧮 III. Công thức toán học (Classification)

Mục tiêu là tìm $\mathbf{w}, b$ sao cho:

$$
y_i(\mathbf{w}^\top \mathbf{x}_i + b) \geq 1
$$

→ Tối ưu hoá hàm mất mát:

$$
\min_{\mathbf{w}, b} \frac{1}{2} \|\mathbf{w}\|^2
$$

Nếu không phân chia được hoàn hảo → thêm **Soft Margin**:

$$
\min_{\mathbf{w}, b, \xi} \frac{1}{2} \|\mathbf{w}\|^2 + C \sum_{i=1}^{n} \xi_i
$$

* $\xi_i$: sai số cho phép
* $C$: tham số điều chỉnh độ "cứng mềm" của margin


## 🌀 IV. Kernel Trick – Biến hình không gian

Khi dữ liệu không tuyến tính, SVM dùng **kernel trick** để:

* Biến dữ liệu sang không gian cao hơn → **có thể tuyến tính trong không gian mới**

| Kernel             | Công thức                     | Khi nào dùng          |
| ------------------ | ----------------------------- | --------------------- |
| **Linear**         | $x^\top x'$                   | Dữ liệu tuyến tính    |
| **Polynomial**     | $(x^\top x' + c)^d$           | Dữ liệu có đường cong |
| **RBF (Gaussian)** | $\exp(-\gamma \|x - x'\|^2)$  | Phổ biến nhất         |
| **Sigmoid**        | $\tanh(\alpha x^\top x' + c)$ | Ít dùng hơn           |


## ⚙️ V. Tham số chính

| Tham số  | Ý nghĩa                                                   |
| -------- | --------------------------------------------------------- |
| `C`      | Trade-off giữa margin lớn và lỗi nhỏ                      |
| `kernel` | Chọn loại kernel (linear, rbf, poly...)                   |
| `gamma`  | Với RBF kernel, xác định độ “hẹp” vùng ảnh hưởng của điểm |
| `degree` | Bậc đa thức với polynomial kernel                         |


## 🧪 VI. Code ví dụ với `scikit-learn`

```python
from sklearn.svm import SVC
from sklearn.datasets import load_iris
from sklearn.metrics import classification_report

X, y = load_iris(return_X_y=True)
model = SVC(kernel='rbf', C=1.0, gamma='scale')  # hoặc kernel='linear'
model.fit(X, y)

y_pred = model.predict(X)
print(classification_report(y, y_pred))
```


## 📊 VII. Ưu & Nhược điểm

| Ưu điểm                                             | Nhược điểm                         |
| --------------------------------------------------- | ---------------------------------- |
| Hoạt động tốt với **biên rõ**                       | Không tốt với **nhiễu & outliers** |
| Có thể phân loại **phi tuyến** qua kernel           | Chậm với dữ liệu lớn               |
| Tốt với **feature ít, sample nhiều**                | Khó chọn kernel và tham số         |
| Hạn chế overfitting tốt (nếu C và kernel chọn đúng) | Không trực quan như tree           |


## 🔄 VIII. SVM Regression (SVR)

Dự đoán giá trị thay vì nhãn:

* Không cần dự đoán chính xác 100%, chỉ cần nằm trong một khoảng sai số $\epsilon$

```python
from sklearn.svm import SVR

svr = SVR(kernel='rbf', C=1.0, epsilon=0.2)
svr.fit(X_train, y_train)
```


## 🧠 IX. Kết luận

| Mục       | Nội dung                                     |
| --------- | -------------------------------------------- |
| Loại      | Supervised – phân loại/hồi quy               |
| Mục tiêu  | Tối đa hóa margin                            |
| Tốt khi   | Dữ liệu có biên rõ, ít nhiễu                 |
| Cần lưu ý | Chọn kernel và tham số đúng                  |
| Mở rộng   | SVM + PCA, One-vs-All để phân loại nhiều lớp |
