In [13]:
%matplotlib inline
import matplotlib.pyplot as plt
from sklearn import datasets, svm, metrics

digits = datasets.load_digits()

n_samples = len(digits.images)

# 1797*8*8 => 1797*64*1
data = digits.images.reshape(n_samples, -1)

# SVC分类器
classifier = svm.SVC(gamma=0.001)

# 用前半部分做训练集
classifier.fit(data[:n_samples / 2], digits.target[:n_samples / 2])

expected = digits.target[n_samples / 2:]

# 用后半部分做测试集
predicted = classifier.predict(data[n_samples / 2:])

# 测试误差
print metrics.confusion_matrix(expected, predicted)

[[87  0  0  0  1  0  0  0  0  0]
 [ 0 88  1  0  0  0  0  0  1  1]
 [ 0  0 85  1  0  0  0  0  0  0]
 [ 0  0  0 79  0  3  0  4  5  0]
 [ 0  0  0  0 88  0  0  0  0  4]
 [ 0  0  0  0  0 88  1  0  0  2]
 [ 0  1  0  0  0  0 90  0  0  0]
 [ 0  0  0  0  0  1  0 88  0  0]
 [ 0  0  0  0  0  0  0  0 88  0]
 [ 0  0  0  1  0  1  0  0  0 90]]


## 线性可分支持向量机
### 函数间隔

定义：
对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b)$关于样本点$(x_i,y_i)$的函数间隔为
$$ \widehat{\gamma}_i = y_i(w\cdot x_i + b) $$
定义超平面$(w,b)$关于训练数据集$T$的函数间隔为超平面$(w,b)$关于$T$中所有样本点$(x_i,y_i)$的函数间隔之最小值，即
$$ \widehat{\gamma} = \mathop {\min} \limits_{i=1,\cdots,N}\widehat{\gamma}_i $$
函数间隔可以表示分类预测的正确性及确信度

### 几何间隔
对于给定的训练数据集$T$和超平面$(w,b)$，定义超平面$(w,b)$关于样本点$(x_i, y_i)$的几何间隔为
$$ \gamma_i = y_i\left( \frac{w}{\|w\|}x_i + \frac{b}{\|w\|} \right)  $$
超平面$(w,b)$关于数据集的几何间隔为
$$ \gamma = \mathop {\min} \limits_{i=1,\cdots,N} \gamma_i $$

函数间隔和几何间隔的关系为
$$ \gamma_i = \frac{\widehat{\gamma}_i}{\|w\|}\\
\gamma = \frac{\widehat{\gamma}}{\|w\|}
$$

当$\|w\|=1$时，函数间隔和几何间隔相等



间隔最大化

1. 最大间隔分离超平面
$$ 
\begin{align*}  \\
& \mathop {\max}\limits_{w,b}  \quad  \gamma \\
& s.t. \quad  y_i\left( \frac{w}{\|w\|}x_i + \frac{b}{\|w\|} \right) \ge \gamma, i=1,2,\cdots,N \\
\end{align*}
$$

转化为凸二次规划
$$ 
\begin{align*}  \\
& \mathop {\max}\limits_{w,b} \quad \frac{1}{2}\|w\|^2 \\
& s.t. \quad  y_i\left( {w}x_i + {b} \right) -1 \ge 0, i=1,2,\cdots,N \\
\end{align*}
$$

线性可分训练集的最大间隔分离超平面存在且唯一

2. 支持向量
在线性可分情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量机。即满足下式的点
$$ y_i(w\cdot x_i + b) -1 =0 $$

仿射函数

$f(x)$称为仿射函数，如果它满足
$$ f(x) = a\cdot x+b, a\in R^n, b\in R, x \in R^n $$

## 对偶算法
构造拉格朗日函数
$$ L(w,b,\alpha) = \frac{1}{2}\|w\|^2 - \sum_{i=1}^{N}{\alpha_iy_i(wx_i+b)} + \sum_{i=1}^{N}\alpha_i $$
其中，$\alpha_i \ge 0, i=1,2,\cdots, N,\alpha=(\alpha_1,\alpha_2, \cdots, \alpha_N)^T$
，$\alpha$为拉格朗日乘子
原始问题可以转化为
$$ \mathop{max} \limits_{\alpha} \mathop{min} \limits_{w,b} L(w,b,\alpha) $$