# 支持向量机
普通的分类思想希望找出一个超平面对训练集直接划分，SVM在此之上加入了间隔的概念（或者说街道）——SVM可以视为在类别之间拟合可能的**最宽的街道（平行的虚线所示）**。因此这也叫作大间隔分类（large margin classification），如下图
![](https://s2.ax1x.com/2020/02/12/1HypdI.png)

并且，SVM分类为软间隔分类，也就是说数据点(也叫作实例)可以位于SVM生成的街道之上，相对而言硬间隔不允许数据点出现在街道上。**我们的分类目标是：尽可能在保持街道宽阔和限制间隔违例（即位于街道之上，甚至在错误的一边的实例）之间找到良好的平衡，这就是软间隔分类。**

在Scikit-Learn的SVM类中，可以通过超参数C来控制这个平衡：C值越小，则街道越宽，但是间隔违例也会越多。
- 高C值， 分类器的间隔违例较少， 但是间隔也较小。
- 低C值， 间隔大了很多， 但是位于街道上的实例也更多。 

![](https://s2.ax1x.com/2020/02/12/1Hyg0A.png)

In [None]:
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

In [None]:
import matplotlib.pyplot as plt 

## Sklearn三大模型 - Transformer、Estimator、Pipeline
在Sklearn当中有三大模型：Transformer 转换器、Estimator 估计器、Pipeline 管道
### Transformer 转换器 (StandardScaler，MinMaxScaler)
### Estimator 估计器（LinearRegression、LogisticRegression、LASSO、Ridge）
所有的机器学习算法模型，都被称为估计器。
### Pipeline 管道
Pipeline可以将许多算法模型串联起来，比如将特征提取、归一化、分类等组织在一起形成一个典型的机器学习问题工作流。主要带来两点好处：
- 直接调用fit和predict方法来对pipeline中的所有算法模型进行训练和预测。
- 可以结合grid search对参数进行选择。

管道： 输入→□→□→□→■→ 输出
□：Transformer ； ■：Estimator ；
Transformer放在管道前几个模型中，而Estimator 只能放到管道的最后一个模型中。

## SVM分类鸢尾花

In [3]:
iris = datasets.load_iris()
X = iris["data"][:, (2, 3)] # petal length, petal width
y = (iris["target"] == 2).astype(np.float64)
#鸢尾花数据集有四个feature：花萼长度,花萼宽度,花瓣长度,花瓣宽度，这里只取后两个
svm_clf = Pipeline((
        ("scaler",StandardScaler()),
        ("linear_svc",LinearSVC(C=1,loss="hinge")),
))
svm_clf.fit(X, y)

Pipeline(memory=None,
         steps=[('scaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('linear_svc',
                 LinearSVC(C=1, class_weight=None, dual=True,
                           fit_intercept=True, intercept_scaling=1,
                           loss='hinge', max_iter=1000, multi_class='ovr',
                           penalty='l2', random_state=None, tol=0.0001,
                           verbose=0))],
         verbose=False)

In [None]:
plt.figure(figsize=(10,6))
plt.scatter(X[:,0],X[:,1])

你会发现有一些点正好就在街道的边界线上。这些点是拟合的关键支持点，被称为支持向量，支持向量机算法也因此得名。在 Scikit-Learn 里面，支持向量的坐标存放在分类器的 support_vectors_ 属性中：