# Support Vector Machine Notes

Những ghi chép cá nhân khi học về thuật toán Support Vector Machines

## Một số khái niệm

### Functional margin là gì

Trong SVM, siêu phẳng được xác định bởi các tham số $(w,b)$. Với một training example $x^{(i)},y^{(i)}$, **functional margin** được định nghĩa như sau.

$$\hat{\gamma}^{(i)}=y^{(i)}(w^Tx+b)$$

Khi trị tuyệt đối của khoảng cách từ training example tới siêu phẳng càng lớn thì độ tin cậy của dự đoán càng cao. Chú ý $y^{(i)}$ nhận giá trị trong tập $\{1,-1\}$.

### Bài toán tối ưu hoá trong trường hợp dữ liệu có thể phân chia tuyến tính được

Trường hợp này được gọi là **hard margin**.

$$\text{Minimize }\quad \|\vec{w}\|\quad \text{subject to}\quad y_i(\vec{w}\cdot\vec{x_i} - b) \ge 1\quad \text{for}\quad i = 1,\,\ldots,\,n$$

### Bài toán tối ưu hoá trong trường hợp dữ liệu không phân chia tuyến tính được

Để mở rộng SVM với dữ liệu không thể phân chia tuyến tính được, *hinge loss function* được đưa ra.

$$\max\left(0, 1-y_i(\vec{w}\cdot\vec{x_i} + b)\right)$$

Trong trường hợp này, ta cần cực tiểu hoá hàm sau đây:

$$\left[\frac 1 n \sum_{i=1}^n \max\left(0, 1 - y_i(w\cdot x_i + b)\right) \right] + \lambda\lVert w \rVert^2. \qquad(1)$$

Dạng bài toán tối ưu với trường hợp lề mềm:

$$\text{minimize } \frac 1 n \sum_{i=1}^n \zeta_i + \lambda\|w\|^2$$
$$\text{subject to } y_i(x_i \cdot w + b) \geq 1 - \zeta_i \,\text{ and }\,\zeta_i \geq 0,\,\text{for all }i.$$

Trong đó $\zeta_i = \max\left(0, 1 - y_i(w\cdot x_i + b)\right)$

### Ý nghĩa của tham số $\lambda$

Tham số $\lambda$ xác định độ ưu tiên giữa đảm bảo lề đủ rộng (mô hình tổng quát hơn trên dữ liệu *unseen*), và và **training examples** nằm ở nửa mặt phẳng tương ứng với nhãn của nó (mô hình *fit* với dữ liệu huấn luyện).
Nếu tham số $\lambda$ nhỏ, thuật toán SVM sẽ ưu tiên việc *fit* dữ liệu, do đó mô hình học được có thể không được tổng quát cho lắm (trường hợp này được gọi là **overfitting**). Ngược lại nếu $\lambda$ lớn, thuật toán ưu tiên việc đảm bảo lề đủ rộng, do đó mô hình có thể không được fit với dữ liệu huấn luyện (trường hợp này được gọi là **underfitting**).

Trong các SVM library, tham số $C$ tương đương với $1/\lambda$. Do đó nếu muốn mô hình fit với dữ liệu huấn luyện, chúng ta sẽ chọn $C$ có giá lớn; ngược lại nếu muốn lề đủ rộng (mô hình tổng quát hơn), chúng ta sẽ chọn $C$ có giá trị nhỏ hơn.

### Support Vectors là gì

Là những điểm nằm trên lề (margin) của hyperplane. Những điểm này thoả mãn hai phương trình sau đây:

$$\vec{w}\vec{x} - b = 1$$

hoặc:

$$\vec{w}\vec{x} - b = -1$$

## Những chú ý khi sử dụng SVM (SVM Best Practices)

### Chọn tham số trong SVM

Trích từ slide bài giảng trên Machine Learning Course (Coursera). Tham số $C=\frac{1}{\lambda}$, trong đó $\lambda$ là regularization parameter (đã học trong các bài giảng trước). Khi giá trị $C$ càng lớn, tức là $\lambda$ càng nhỏ, mô hình sẽ **fit** dữ liệu tốt hơn, nhưng dễ bị **overfit**, do đó ta nói mô hình "lower bias, high variance". Ngược lại khi $C$ càng nhỏ, tức là $\lambda$ càng lớn, mô hình sẽ **fit** dữ liệu kém hơn, nhưng dễ bị **underfit**, do đó ta nói mô hình có đặc điểm "higher bias, low variance".

<img src="SVM_Parameters.png" alt="Drawing" style="width:700px;"/>

### SVM Practical usage and tips

Copy trên [Website của sklearn](http://scikit-learn.org/stable/modules/svm.html#tips-on-practical-use).

<img src="Practical_usage.png" alt="Drawing" style="width:700px;"/>

## Thư viện SVM trong python

- [sklearn.svm.SVC](http://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html#sklearn.svm.SVC) - python wrapper của thư viện [libsvm](https://www.csie.ntu.edu.tw/~cjlin/libsvm/). Tốc độ khá chậm.
- [sklearn.svm.LinearSVC](http://scikit-learn.org/stable/modules/generated/sklearn.svm.LinearSVC.html) - dựa trên thư viên [LibLinear](https://www.csie.ntu.edu.tw/~cjlin/liblinear/). SVM với linear kernel, tốc độ khá nhanh, thích hợp khi học trên dữ liệu lớn.

## Tài liệu tham khảo

- [Support-vector-machines.org](http://www.support-vector-machines.org/)
- [http://www.kernel-machines.org](http://www.kernel-machines.org/)
- [Bài viết trên Wikipedia](https://en.wikipedia.org/wiki/Support_vector_machine) về support vector machines.
- [The Simplified SMO algorithm](http://cs229.stanford.edu/materials/smo.pdf)
- Platt. [Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines](http://research.microsoft.com/pubs/69644/tr-98-14.pdf)
- Bài viết trên Wikipedia về Sequential Minimal Optimization algorithm: [https://en.wikipedia.org/wiki/Sequential_minimal_optimization](https://en.wikipedia.org/wiki/Sequential_minimal_optimization)
- [SVM Lecture Notes](http://cs229.stanford.edu/notes/cs229-notes3.pdf) của khoá học CS229.