# 支持向量机

* 支持向量机（support vector machines，SVM）是一种二类分类模型
* 它的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机
* 支持向量机还包括核技巧，这使它成为实质上的非线性分类器
* 支持向量机的学习策略就是间隔最大化，可形式化为一个求解凸二次规划（convex quadratic programming）的问题
* 支持向量机的学习算法是求解凸二次规划的最优化算法

# 支持向量机

* 当训练数据线性可分时，通过硬间隔最大化（hard margin maximization），学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机
* 当训练数据近似线性可分时，通过软间隔最大化（soft margin maximization），也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机
* 当训练数据线性不可分时，通过使用核技巧（kernel trick）及软间隔最大化，学习非线性支持向量机

# 支持向量机

通过使用核函数可以学习非线性支持向量机，等价于隐式地在高维的特征空间中学习线性支持向量机

## 线性可分支持向量机与硬间隔最大化

### 线性可分支持向量机

* 假设给定一个特征空间上的训练数据集

  \begin{equation*}
  T=\{(x_1,y_1),(x_2,y_2),\dotsc,(x_N,y_N)\}
  \end{equation*}
  
  $y_i\in\mathcal{Y}=\{+1,-1\}$
  
* 当其$y_i=+1$时，称$x_i$为正例；当$y_i=-1$时，称$x_i$为负例

* 再假设训练数据集是线性可分的

### 线性可分支持向量机

* 学习的目标是在特征空间中找到一个分离超平面，能将实例分到不同的类
* 分离超平面对应于方程$w\cdot x+b=0$
* 分离超平面将特征空间划分为两部分，一部分是正类，一部分是负类
* 法向量指向的一侧为正类，另一侧为负类

### 线性可分支持向量机

* 感知机利用误分类最小的策略，求得分离超平面，不过这时的解有无穷多个
* 线性可分支持向量机利用间隔最大化求最优分离超平面，这时，解是唯一的

### 线性可分支持向量机

* 分类决策函数$f(x)=\mathrm{sign}(w^*\cdot x+b^*)$
* (Source - Wikipedia)
    * $H_1$不能把类别分开
    * $H_2$可以，但只有很小的间隔
    * $H_3$以最大间隔将它们分开

<center><img src="img/SVM_Separating_Hyperplanes.svg" width="40%"></center>

### 函数间隔和几何间隔

* 一般来说，一个点距离分离超平面的远近可以表示分类预测的确信程度
* 函数间隔：
    * 样本点$(x_i,y_i)$：$\hat{\gamma}_i=y_i(w\cdot x_i+b)$
    * 训练数据集$T$：$\hat{\gamma}=\min_{i=1,\dots,N}\hat{\gamma}_i$
* 只要成比例地改变$w$和$b$，例如将它们改为$2w$和$2b$，超平面并没有改变，但函数间隔却成为原来的2倍
* 规范化，$\|w\|=1$，使得间隔是确定的
* 几何间隔（geometric margin）
  
  \begin{align*}
  \gamma_i&=y_i\biggl(\frac{w}{\|w\|}\cdot x_i+\frac{b}{\|w\|}\biggr)\\
  \gamma &= \min_{i=1,\dots,N}\gamma_i
  \end{align*}

### 函数间隔和几何间隔

* 超平面$(w,b)$关于样本点$(x_i,y_i)$的几何间隔一般是实例点到超平面的带符号的距离（signed distance）
* 当样本点被超平面正确分类时就是实例点到超平面的距离
* 如果超平面参数$w$和$b$成比例地改变（超平面没有改变），函数间隔也按此比例改变，而几何间隔不变

### 间隔最大化

* 支持向量机学习的基本想法是求解能够正确划分训练数据集并且几何间隔最大的分离超平面
* 对线性可分的训练数据集而言，线性可分分离超平面有无穷多个（等价于感知机），但是几何间隔最大的分离超平面是唯一的

### 间隔最大化

间隔最大化的直观解释是：

* 对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类
* 也就是说，不仅将正负实例点分开，而且对最难分的实例点（离超平面最近的点）也有足够大的确信度将它们分开
* 这样的超平面应该对未知的新实例有很好的分类预测能力

### 间隔最大化

**最大间隔分离超平面**

\begin{align*}
\max_{w,b}&\quad \gamma\\
\mathrm{s.t.}&\quad y_i\biggl(\frac{w}{\|w\|}\cdot x_i+\frac{b}{\|w\|}\biggr)\ge \gamma,\quad i=1,2,\dotsc,N
\end{align*}

改写为：

\begin{align*}
\max_{w,b}&\quad \frac{\hat{\gamma}}{\|w\|}\\
\mathrm{s.t.}&\quad y_i(w\cdot x_i+b)\ge \hat{\gamma},\quad i=1,2,\dotsc,N
\end{align*}

### 间隔最大化

**最大间隔分离超平面**

* 函数间隔$\hat{\gamma}$的取值并不影响最优化问题的解
* 事实上，假设将$w$和$b$按比例改变为$\lambda w$和$\lambda b$，这时函数间隔成为$\lambda \hat{\gamma}$
* 函数间隔的这一改变对上面最优化问题的不等式约束没有影响，对目标函数的优化也没有影响

\begin{align*}
\min_{w,b}&\quad \frac{1}{2}\|w\|^2\\
\mathrm{s.t.}&\quad y_i(w\cdot x_i+b)-1\ge 0,\quad i=1,2,\dotsc,N
\end{align*}

### 间隔最大化

**最大间隔分离超平面**

凸二次规划（convex quadratic programming）问题

* 当目标函数是二次函数且约束函数是仿射函数

### 间隔最大化

**支持向量和间隔边界**

* 在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量（support vector）
  
  \begin{equation*}
  y_i(w\cdot x_i+b)-1=0
  \end{equation*}
  
* 对$y_i=+1$的正例点，支持向量在超平面$H_1:w\cdot x+b=1$
* 对$y_i=-1$的正例点，支持向量在超平面$H_2:w\cdot x+b=-1$
* Source - Wikipedia

<center><img src="img/Svm_max_sep_hyperplane_with_margin.png" width="30%"></center>

### 间隔最大化

**支持向量和间隔边界**

* 在决定分离超平面时只有支持向量起作用，而其他实例点并不起作用
    * 如果移动支持向量将改变所求的解
    * 但是如果在间隔边界以外移动其他实例点，甚至去掉这些点，则解是不会改变的
* 支持向量的个数一般很少，所以支持向量机由很少的“重要的”训练样本确定