## 支持向量机 SVM

输入空间 $\to$ 特征空间

求解能够正确划分训练数据集并且**几何间隔最大**的分离超平面。

支持向量机，面向**数据**的一个分类算法，确定**分类超平面**，从而将不同的数据分隔开。

- 线性可分支持向量机
  当训练数据**线性可分**时，通过**硬间隔最大化**，学习一个线性的分类器，即线性可分支持向量机，又称为硬间隔支持向量机
- 线性支持向量机
  当训练数据**近似线性可分**时，通过**软间隔最大化**，也学习一个线性的分类器，即线性支持向量机，又称为软间隔支持向量机
- 非线性支持向量机
  当训练数据**线性不可分**时，通过使用**核技巧**及**软间隔最大化**，学习非线性支持向量机。

支持向量机目前只适合小批量样本的任务，无法适应百万甚至上亿样本的任务。

对于任意线性可分的两组点,它们在SVM分类的超平面上的投影
都是线性不可分的。

**最佳超平面**: 以最大间隔把两类样本分开的超平面

#### 原问题 
- 任意超平面：
$$
w^T x + b = 0
$$

- 距离公式：
$$
d = \frac{\vert w^T x + b\rvert}{\lVert w \rVert}
$$
其中，$\lVert w \rVert=\sqrt{w_1^2 + \cdots + w_n^2}$

对于标记 $y=1$ 和 $y=-1$ 的数据点
$$
\begin{cases}
\frac{\vert w^T x + b\rvert}{\lVert w \rVert} \geq d & y = 1\\[5pt]
\frac{\vert w^T x + b\rvert}{\lVert w \rVert} \leq -d & y = -1
\end{cases}
$$
移项
$$
\begin{cases}
w^T x + b \geq d\lVert w \rVert & y = 1\\[5pt]
w^T x + b \leq -d\lVert w \rVert & y = -1
\end{cases}
$$
其中，$\lVert w \rVert$ 是系数，所以可以调整 $w$ 使得 $d\lVert w \rVert \equiv 1$。合并一下
$$
\vert w^T x + b \vert = y(w^T x + b) \geq 1
$$
于是
$$
d = \frac{\vert w^T x + b\rvert}{\lVert w \rVert} = \frac{y(w^T x + b)}{\lVert w \rVert}
$$
因此，目标函数
$$
\max~d = \max~2 \frac{1}{\lVert w \rVert}
$$
再转换一下
$$
\max~d^2 = \min~\frac{1}{d^2} = \min~ \frac{1}{2}\lVert w \rVert^2
$$
最终，**最优化问题**
$$
\begin{aligned}
\min_{w, b}~ \quad &\frac{1}{2}\lVert w \rVert^2 \\
s.t.~ \quad &y_i(w^Tx_i + b) -1 \geq 0
\end{aligned}
$$
得到**分类决策函数**
$$
f(x) = \text{sign}~({w^*}^Tx + b^{*})
$$

#### 存在性及唯一性

#### 对偶问题
> 优点：
- 对偶问题更容易求解
- 引入核函数，从而推广到非线性分类问题
$$
 L(w,b,\alpha) = \frac{1}{2}\lVert w \rVert^2 -
 \sum_{i=1}^n\alpha_iy_i(w^Tx_i + b) + \sum_{i=1}^n \alpha_i
$$
原问题等价于
$$
\max_\alpha~\min_{w,b}~L(w,b,\alpha)
$$
1. 求 $\min_{w,b}~L(w,b,\alpha)$
   $$
   \min_{w,b}~L(w,b,\alpha) = -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot y_i) + \sum_{i=1}^N \alpha_i
   $$
2. 求 $\min_{w,b}~L(w,b,\alpha)$ 对 $\alpha$ 的极大  
   等价于 $\min~(-\min_{w,b}~L(w,b,\alpha))$ 即
   $$
   \begin{aligned}
   \min~\quad&\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_j(x_i\cdot y_i) - \sum_{i=1}^N \alpha_i \\
   s.t.~\quad& \sum_{i=1}^n\alpha_iy_i=0\\
   &\alpha_i \geq 0, \quad i = 1, 2, \dots, n
   \end{aligned}
   $$
3. 解得 $\alpha^{*}$, 则
   $$
   \begin{aligned}
   w^{*} &= \sum_{i=1}^n \alpha_i^{*}y_ix_i\\ 
   b^{*} &= y_j - \sum_{i=1}^n \alpha_i^{*}y_i(x_i\cdot x_j)
   \end{aligned}
   $$
4. 最终，分类决策函数
   $$
   f(x) = \text{sign}\left( \sum_{i=1}^n \alpha_i^{*}y_i(x\cdot x_i) + b^{*} \right)
   $$
### 算法只与少数支持向量有关
KKT 互补条件
$$
\alpha_i^{*}\left[y_i(w^{*}\cdot x_i + b^*)-1\right] = 0, \quad i = 1, 2, \cdots, n
$$