- 支持向量机的学习算法是求解凸二次规划的最优化算法。

核函数表示将输入从输入空间映射到特征空间得到的特征向量之间的内积，通过使用核函数可以学习非线性支持向量机，等价于隐式地在高位的特征空间中学习线性支持向量机。这样的方法称为核技巧。

### 线性可分支持向量机
- 给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为$$w^*\cdot x + b^*=0$$
以及相应的分类决策函数$$f(x)=sign(w^*\cdot x + b^*)$$
称为线性可分支持向量机。

$|w\cdot x + b|$能够相对地表示点$x$距离超平面的远近，而$w\cdot x + b$的符号与类标记$y$的符号是否一致能够表示分类是否正确。所以可用量$y(w\cdot x + b)$来表示分类的正确性及确信度。

- 对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b)$关于样本点$(x_i,y_i)$的**函数间隔**为：$$\hat{\gamma}_i=y_i(w\cdot x_i + b)$$
定义超平面$(w,b)$关于训练数据集$T$的函数间隔为超平面$(w,b)$关于$T$中所有样本点$(x_i,y_i)$的函数间隔之最小值，即$$\hat{\gamma}=\underset{i=1,\cdots,N}{min}\hat{\gamma}_i$$

对分离超平面的法向量$w$加某些约束，如规范化，$||w||=1$，使得间隔是确定的。

- 对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b))$关于样本点$(x_i,y_i)$的**几何间隔**为：$$\gamma_i=y_i(\frac{w}{||w||}\cdot x_i + \frac{b}{||w||})$$
定义超平面$(w,b)$关于训练数据集$T$的几何间隔为超平面$(w,b)$关于$T$中所有样本点$(x_i,y_i)$的几何间隔之最小值，即
$$\gamma = \underset{i=1,\cdots,N}{min}\gamma _i$$

#### 最大间隔法（maximum margin method）
> 支持向量机学习的基本思想：求解能够正确划分训练数据集并且几何间隔最大的分离超平面。

最大间隔分离超平面的约束最优化问题为：
$$\begin{matrix}
\underset{w,b}{max}\ \gamma\\ 
s.t.\ y_i(\frac{w}{||w||}\cdot x_i + \frac{b}{||w||})\geq \gamma,\ i=1,2,\cdots, N
\end{matrix}$$

考虑几何间隔与函数间隔的关系，上述公式可改写成：
$$\begin{matrix}
\underset{w,b}{max}\ \frac{\hat{\gamma}}{||w||}\\ 
s.t.\ y_i(w\cdot x_i + b)\geq \hat{\gamma},\ i=1,2,\cdots, N
\end{matrix}$$

由于函数间隔$\hat{\gamma}$的取值并不影响最优化问题的解，假设$w$和$b$按比例变为$\lambda w$和$\lambda b$，此时函数间隔成为$\lambda \hat{\gamma}$。这一改变对上面最优化问题的不等式约束没有影响。因此，取$\hat{\gamma}=1$，线性可分支持向量机的最优化问题为：
$$\begin{matrix}
\underset{w,b}{min}\ \frac{1}{2}||w||^2\\ 
s.t.\ y_i(w\cdot x_i + b)-1\geq 0,\ i=1,2,\cdots, N
\end{matrix}$$

_____
- 支持向量（support vector）：在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例。支持向量是使约束条件等号成立的点，即
$$y_i(w\cdot x_i +b) - 1 = 0$$

#### 对偶算法
优点：1）对偶问题往往更容易求解；2）自然引入核函数，进而推广到非线性分类问题。

______
1. 首先引进拉格朗日乘子$\alpha_i \geq 0,\ i=1,2,\cdots,N$，定义拉格朗日函数为：
$$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N\alpha_iy_i(w\cdot x_i+b)+\sum_{i=1}^N\alpha_i$$
原始问题的对偶问题是极大极小问题：
$$\underset{\alpha}{max}\ \underset{w,b}{min}L(w,b,\alpha)$$

2. 求$\underset{w,b}{min}L(w,b,\alpha)$

将拉格朗日函数$L(w,b,\alpha)$分别对$w,b$求偏导数，并令其等于0。得：
$$w=\sum_{i=1}^N\alpha_iy_ix_i$$
$$\sum_{i=1}^N\alpha_iy_i=0$$
将上式代回拉格朗日函数，得：
$$\underset{w,b}{min}L(w,b,\alpha)=-\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i$$

3. 求$\underset{w,b}{min}L(w,b,\alpha)$对$\alpha$的极大，即是对偶问题，并将目标函数由极大转换成求极小，得：
$$\underset{\alpha}{min}\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$$
$$s.t.\ \sum_{i=1}^N\alpha_iy_i=0$$
$$\alpha_i\geq 0,\ i=1,2,\cdots,N$$

设$\alpha^*=(\alpha_1^*,\alpha_2^*,\cdots,\alpha_l^*)^T$是上述对偶问题的解，则存在下标$j$，使得$\alpha_j^*>0$，并可按下式求得原始最优化问题的解$w^*,b^*$：
$$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$$
$$b^*=y_j-\sum_{i=1}^N\alpha_i^*y_i(x_i\cdot x_j)$$

4. 由此得，分离超平面为：
$$\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*=0$$
分类决策函数，即线性可分支持向量机的对偶形式可写成：
$$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_i(x\cdot x_i)+b^*)$$

在线性可分支持向量机中，$w^*$和$b^*$只依赖于训练数据中对应于$\alpha_i^*>0$的样本点$(x_i,y_i)$，因此，将训练数据中对应于$\alpha_i^*>0$的实例点称为支持向量，有
$$y_i(w^*\cdot x_i+b^*)-1=0$$

### 线性支持向量机
> 线性不可分意味着某些样本点$(x_i,y_i)$不能满足函数间隔小于等于$1$的约束条件。为了解决这个问题，可以对每个样本点引进一个松弛变量$\xi_i\geq 0$，使函数间隔加上松弛变量大于等于$1$。此时，约束条件变为：
$$y_i(w\cdot x_i + b)\geq 1-\xi_i$$

同时，对每个松弛变量$\xi_i$，支付一个代价$\xi_i$，此时，线性支持向量机的学习问题变成如下凸二次规划问题：
$$\underset{w,b,\xi}{min}\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$$
$$s.t.\ y_i(w\cdot x_i+b)\geq 1-\xi_i,\ i=1,2,\cdots,N$$
$$\xi_i\geq 0,\ i=1,2,\cdots,N$$
其中，$C>0$称为惩罚参数，$C$值大时对误分类的惩罚增大。

软间隔的支持向量$x_i$或者在间隔边界上，或者在间隔边界与分离超平面之间，或者在分离超平面误分一侧。
1. 若$\alpha_i^*<C$，$\xi_i=0$，支持向量$x_i$恰好落在间隔边界上；
2. 若$\alpha_i^*=C$，$0<\xi_i<1$，则分类正确，$x_i$在间隔边界与分离超平面之间；
3. 若$\alpha_i^*=C$，$\xi_i=1$，则$x_i$在分离超平面上；
4. 若$\alpha_i^*=C$，$\xi_i>1$，则$x_i$位于分离超平面误分一侧。

### 非线性支持向量机
> 用线性分类方法求解非线性分类问题的步骤：1）首先使用一个变换将原空间的数据映射到新空间；2）然后在新空间里用线性分类学习方法从训练数据中学习分类模型。

在对偶问题的目标函数中的内积$x_i\cdot x_j$可以用核函数$K(x_i,x_j)=\phi(x_i)\cdot \phi(x_j)$来代替。此时对偶问题的目标函数变为：
$$W(\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$$
分类决策函数变为：
$$f(x)=sign(\sum_{i=1}^N\alpha_i^*y_iK(x_i,x)+b^*)$$
等价于经过映射函数$\phi$将原来的输入空间变换到一个新的特征空间。

在核函数$K(x,z)$给定的条件下，可以利用解线性分类问题的方法求解非线性分类问题的支持向量机。学习是隐式地在特征空间中进行的，不需要显式地定义特征空间和映射函数。

______
#### 常用核函数
1. 多项式核函数（polynomial kernel function）$$K(x,z)=(x\cdot z +1)^p$$
2. 高斯核函数（Gaussian kernel function）$$K(x,z)=exp(-\frac{||x-z||^2}{2\sigma^2})$$
对应的支持向量机是高斯径向基函数（radial basis function）分类器
3. 字符串核函数（string kernel function）

______
### 序列最小最优化算法（SMO，sequential minimal optimization）
求解如下的凸二次规划的对偶问题：
$$\underset{\alpha}{min}\ \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$$
$$s.t.\ \sum_{i=1}^N\alpha_iy_i=0$$
$$0\leq \alpha_i \leq C,\ i=1,2,\cdots,N$$

> 基本思路：如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。因为KKT条件是该最优化问题的充分必要条件。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解。如此，SMO算法将原问题不断分解为子问题求解，进而达到求解原问题的目的。