支持向量机的学习策略是间隔最大化，可形式化为求解凸二次规划的问题（即约束型最小二乘的求解），也等价于正则化的合页损失函数的最小化问题，下面我们通过一步步推导，来了解SVM。

### 最大间隔

用一对平行的边界将正负样本分隔开，其中线就是超平面。
<img src="./imgs/img01.jpg" width = "200" height = "200" />

假设中线的法向量是w，选定边界上的任一正样本为u，由图知$w \cdot u > C$（C为原点到超平面的距离），若$C = -b$，则$w \cdot u + b > 0$；

若边界到超平面的距离为1，则对于所有正样本有$w \cdot u+b>=1$；对于所有负样本$w \cdot u+b<=-1$，连接边界上的两个正负样本，做差可得到一个向量，将且点乘w的单位向量，即可得到两个边界距离。

令正负样本的标签分别为$y=1$和$y=-1$，则无论正负样本都有$y(w \cdot x+b)-1>=0$

白板过程如下
<img src="./imgs/img02.png" width = "200" height = "200" />
最大化margin，相当于$min\parallel{w} \parallel$，相当于$min\frac{1}{2}\left \|{w}\right \|^{2}$

于是得到下面线性可分支持向量机的最优化问题

$min_{w,b}\frac{1}{2}\left \|{w}\right \|^{2}$，

$s.t.$ $y_{i}(w^{T} \cdot x_{i}+b)-1\geq 0, i=1,2...N$

这个带约束求极值问题是支持向量机的基本型。

#### 什么是拉格朗日乘子法？

基本的拉格朗日乘子法就是求函数f(x1,x2,...)在约束条件g(x1,x2,...)=0下的极值的方法。

其主要思想是将约束条件函数与原函数联立，从而求出使原函数取得极值的各个变量的解。

1.需要求极值的目标函数为

$minf(x)$，且$g(x) \le 0$

2.定义一个新函数

$λ \ge 0$，$L(x, λ) = f(x) + λ \cdot g(x)$

3.用偏导数方法列方程

$\frac{\partial{L}}{\partial{x}}=0$

$\frac{\partial{L}}{\partial{λ}}=0$

4.求出x、λ的值，带入目标函数即可求出极值。

#### 对偶算法
为了求解上述的线性可分最优化问题，将它作为原始最优化问题，应用拉格朗日对偶性，通过求解对偶问题得到原始问题的最优解。这是线性可分支持向量机的对偶算法。那为何要这样做呢？
    
    1.对偶问题更容易求解
    2.自然引入核函数，进而推广到非线性问题
   
$min_{w,b}\frac{1}{2}\left \|{w}\right \|^{2}$，$s.t.$ $y_{i}(w^{T} \cdot \Phi(x_{i})+b)\geq 1, i=1,2...N$

应用拉格朗日乘子法得

$L(w,b,α)=\frac{1}{2}\left \|{w}\right \|^{2}-\sum_{i=1}^n α_{i}(y_{i}(w^{T}\cdot \Phi(x_{i})+b)-1)$

原问题是极小极大问题

$min_{w,b}max_{α}L(w,b,α)$

原始问题的对偶问题，是极大极小问题

$max_{α}min_{w,b}L(w,b,α)$

对偶问题具体如何由极小极大问题转化为极大极小问题，后面会在介绍拉格朗日部分给出更为详细的解释。

$L=\frac{1}{2}\left \|{w}\right \|^{2}-\sum_{i=1}^n α_{i}(y_{i}(w\cdot x_{i}+b)-1)-----①$

令$\frac{\partial L}{\partial w} = w-\sum_{i=1}^n α_{i}y_{i}x_{i}=0$

=> $w = \sum_{i=1}^n α_{i}y_{i}x_{i}-----②$

令$\frac{\partial L}{\partial b} = -\sum_{i=1}^{n}α_{i}y_{i}$

$=>\sum_{i=1}^{n}α_{i}y_{i}=0-----③$

将②③带入①得，目标函数为

$L=max_{α}\sum_{i=1}^n α_{i}-\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^nα_{i}α_{j}y_{i}y_{j}x_{i}x_{j}$

$s.t. \sum_{i=1}^{n}α_{i}y_{i}=0$

$α_{i}\ge 0, i=1,2,3,...n$

添加负号，目标函数转化为

$L=min_{α}\frac{1}{2}\sum_{i=1}^n\sum_{j=1}^nα_{i}α_{j}y_{i}y_{j}x_{i}x_{j}-\sum_{i=1}^n α_{i}$

$s.t. \sum_{i=1}^{n}α_{i}y_{i}=0$

$α_{i}\ge 0, i=1,2,3,...n$

此时，可求得最优解$α^{*}$(在样本很少很少的情况下，假设已知x、y，此时可通过求驻点的方式，得到α值)

已知，所有样本满足$y=wx+b$，则此时可求出w、b

$w^{*}=\sum_{i=1}^{n}α_{i}y_{i}x_{i}$

$b^{*}=y_{j}-\sum_{i=1}^{n}α_{i}y_{i}(x_{i}x_{j})$



求得分离超平面

$w^{*}x + b^{*}=0$

分类决策函数

$f(x)=sign(w^{*}x + b^{*})$

### 软间隔最大化

若数据线性不可分，则增加松弛因子$\xi \ge 0$，使函数间隔加上松弛变量大于等于1，这样约束条件变成

$y_{i}(w\cdot x_{i}+b)\ge 1-\xi\$

目标函数：
$min_{w,b}\frac{1}{2}\parallel{w} \parallel^{2}+C\sum_{i=1}^{N}\xi_{i}$

这里C>0，称为惩罚参数，C越大对误分类的惩罚增加，C减小对误分类的惩罚减小。这意味着，C越大，模型泛化能力降低，过度带宽度越窄。

### 损失函数
<img src="./imgs/img05.png" width = "200" height = "200" />
SVM的损失函数为hige loss，因为类似一个合着的书页，所以又叫合页损失

$L(y(w\cdot x+b))=[1-y(w\cdot x+b]_{+}$，下标+表示

$[z]_{+}\left\{
             \begin{array}{lr}
             z, z>0\\
             0, z\le 0 &  
             \end{array}
\right.$