# 支持向量机（SVM）
## 线性可分支持向量机与硬间隔最大化
### 线性可分支持向量机
**学习的目标**是在特征空间中找到一个分离超平面，能将实例分到不同类。分离超平面对应于方程$w\cdot x+b=0$,由法向量w与截距b决定，可用（w,b）表示。在训练集线性可分时，存在无穷多个超平面。线性可分支持向量机利用间隔最大化求最优分离超平面，此时，解是唯一的。

**线性可分支持向量机**给定线性可分训练数据集，通过间隔最大化或等价的求解相应的凸二次规划问题学习得到的分离超平面为
$$
w^*\cdot x+b^*=0
$$
以及相应的分类决策函数
$$
f(x)=sign(w^*\cdot x+b^*)
$$
称为线性可分支持向量机

### 函数间隔与几何间隔
在超平面$w\cdot x+b=0$确定的情况下，$|w\cdot x+b|$能够表示点x到超平面的距离，而$w\cdot x+b$的符号与y的符号可以表示分类正确与否，因此可以用$y(w\cdot x+b)$表示分类的正确性与确信度。

**函数间隔**对于给定的训练数据集T和超平面(w, b)，定义超平面(w, b)关于样本点$(x_i, y_i)$的函数间隔为
$$
\hat{\gamma_i}=y_i(w\cdot x_i+b)
$$
定义超平面(w ,b)关于训练数据集T的函数间隔为超平面(w, b)关于T中所有样本点$(x_i, y_i)$的函数间隔最小值，即
$$
\hat{\gamma}=\min_{i=1,2,\cdots,N}\hat{\gamma_i}
$$


在选择超平面时，只要成倍改变w，b，超平面并没有改变但函数间隔会成倍增加，因此，我们需要对超平面法向量w进行某些约束，如规范化$\bracevert\bracevert w\bracevert\bracevert=1$,使得间隔是确定的，这时函数间隔称为几何间隔。

**几何间隔**对于给定的训练数据集T和超平面(w, b)，定义超平面(w, b)关于样本点$(x_i, y_i)$的几何间隔为
$$
\hat{\gamma_i}=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})
$$
定义超平面(w ,b)关于训练数据集T的函数间隔为超平面(w, b)关于T中所有样本点$(x_i, y_i)$的函数间隔最小值，即
$$
\hat{\gamma}=\min_{i=1,2,\cdots,N}\hat{\gamma_i}
$$


### 间隔最大化
间隔最大化的直观解释是：对训练数据集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类，也就是说，不仅将正负实例点分开，而且对最难分的实例点也有足够大的确信度将它们分开。

#### 最大间隔分离超平面
这个问题可以表示为下面的约束最优化问题：
$$
\max_{w,b}\quad\gamma\\
s.t.\quad y_i\left(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||}\right)\ge\gamma, \quad i=1,2,\cdots,N
$$
也可以表达为
$$
\max_{w,b}\quad\frac{\hat{\gamma}}{||w||}\\
s.t.\quad y_i(w\cdot x_i+b)\ge\hat{\gamma},\quad i=1,2,\cdots,N
$$
函数间隔$\hat{\gamma}$的取值并不影响最优化问题的解，假设将w和b按比例改变为$\lambda w$和$\lambda b$，这时函数间隔为$\lambda\hat{\gamma}$,也就是说函数间隔的大小并不影响问题的约束，因此，不妨取$\hat{\gamma}=1$。同时，注意到最大化$\frac{1}{||w||}$等价于最小化$\frac{1}{2}||w||^2$，于是得到如下最优化问题
$$
\min_{w,b}\quad\frac{1}{2}||w||^2\\
s.t.\quad y_i(w\cdot x_i+b)-1\ge 0,\quad i=1,2,\cdots,N
$$
这是一个凸二次规划问题。

**最大间隔法**

输入：线性可分数据集$T=\{(x_1,y_1), (x_2,y_2),\cdots,(x_N,y_N)\}$

输出：最大间隔分离超平面和分类决策函数。

(1)构造并求解约束最优化问题：
$$
\min_{w,b}\quad\frac{1}{2}||w||^2\\
s.t.\quad y_i(w\cdot x_i+b)-1\ge 0,\quad i=1,2,\cdots,N
$$
求得最优解$w^*, b^*$。

(2)由此得到分离超平面：
$$
w^*\cdot x+b^*=0
$$
分类决策函数
$$
f(x)=sign(w^*\cdot x+b^*)
$$

#### 支持向量与决策边界
在线性可分的情况下，训练数据集的样本点中与超平面距离最近的样本点的实例称为**支持向量**。

在决定分离超平面时，只有支持向量起作用，而其他实例点并不起作用。

### 对偶问题
**拉格朗日函数**对于优化问题
$$
\min_uf(u)\\
s.t.g_i(u)\le 0,\quad i=1,2,\cdots,m\\
h_j(u)=0,\quad j=1,2,\cdots,n
$$
定义其拉格朗日函数为
$$
L(u,\alpha,\beta):=f(u)+\sum_{i=1}^m\alpha_ig_i(u)+\sum_{j=1}^n\beta_jh_j(u)
$$
其中$\alpha_i\ge0$

则优化问题等价于
$$
\min_u\max_{\alpha,\beta}L(u,\alpha,\beta)\\
s.t.\alpha_i\ge0,\quad i=1,2,\cdots,m
$$
**KKT条件**上式描述的优化问题在最值处必须满足如下条件

(1)主问题可行：$g_i(u)\le0,h_i(u)=0$

(2)对偶问题可行：$\alpha\ge0$

(3)互补松弛:$\alpha_ig_i(u)=0$

**对偶问题**优化问题的对偶问题定义为：
$$
\max_{\alpha,\beta}\min_uL(u,\alpha,\beta)\\
s.t.\alpha_i\ge0,\quad i=1,2,\cdots,m
$$

###  学习的对偶算法
我们可以得到优化问题的拉格朗日函数为
$$
L(w, b, \alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^N\alpha_i(1-y_i(w\cdot x_i+b))\\
=\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\alpha_i
$$
这个问题的对偶问题是
$$
\max_\alpha\min_{w, b}L(w, b, \alpha)
$$

(1)求$\min_{w, b}L(w, b, \alpha)$
$$
\nabla_wL(w, b, \alpha)=w-\sum_{i=1}^N\alpha_iy_ix_i=0\\
\nabla_bL(w, b, \alpha)=\sum_{i=1}^N\alpha_iy_i=0
$$
得
$$
w=\sum_{i=1}^N\alpha_iy_ix_i\\
\sum_{i=1}^N\alpha_iy_i=0
$$
将结果代入得
$$
L(w, b, \alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i
$$

(2)求对$\alpha$的极大
$$
\max_\alpha-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i\\
s.t.\sum_{i=1}^N\alpha_iy_i=0\\
\alpha_i\ge0,\quad i=1,2,\cdots,N
$$
**算法**
输入：线性可分数据集$T=\{(x_1,y_1), (x_2,y_2),\cdots,(x_N,y_N)\}$

输出：最大间隔分离超平面和分类决策函数。

(1)构造并解决约束最优化问题
$$
\min_\alpha\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i\\
s.t.\sum_{i=1}^N\alpha_iy_i=0\\
\alpha_i\ge0,\quad i=1,2,\cdots,N
$$
(2)计算
$$
w^* = \sum_{i=1}^N\alpha_i^*y_ix_i
$$
并选择$\alpha^*$的一个正分量$\alpha_j^*>0$来计算
$$
b^*=\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)
$$
(3)得到分离超平面
$$
w^*\cdot x+b^*=0
$$
分类决策函数
$$
f(x)=sign(w^*\cdot x+b^*)
$$
