** <font size=4>支持向量机SVM</font>  ** 

Ref:  
1. Gavin Hackeling, Mastering Machine Learning with scikit-learn, 2014
2. https://www.zhihu.com/question/21094489
3. http://blog.csdn.net/macyang/article/details/38782399/
4. http://www.cnblogs.com/steven-yang/p/5658362.html

什么是SVM：
1. Support Vector Machine: 一个普通的SVM就是一条直线罢了，用来完美划分linearly separable的两类。
2. 但这又不是一条普通的直线，这是无数条可以分类的直线当中最完美的，因为它恰好在两个类的中间，距离两个类的点都一样远。所谓的Support vector就是这些离分界线最近的“点”
3. 如果是高维的点，SVM的分界线就是平面或者超平面。
4. 另外，分类的那条线不一定是直线，还有可能是曲线，我们通过某些函数来转换，就可以转化成刚才的哪种多维的分类问题，这个就是核函数的思想。

核心思想：
1. SVM的目的是要找到一个线性分类的最佳超平面 f(x)=xwT+b=0。求 w 和 b。
2. 首先通过两个分类的最近点，找到f(x)的约束条件。
3. 有了约束条件，就可以通过拉格朗日乘子法和KKT条件来求解，这时，问题变成了求拉格朗日乘子αi 和 b。
4. 对于异常点的情况，加入松弛变量ξ来处理。
5. 使用SMO来求拉格朗日乘子αi和b。这时，我们会发现有些αi=0，这些点就可以不用在分类器中考虑了。
6. 不用求w了，可以使用拉格朗日乘子αi和b作为分类器的参数。
7. 非线性分类的问题：映射到高维度、使用核函数。

In [1]:
# 例子：MNIST数据集分类
from sklearn.datasets import fetch_mldata
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import scale
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report

import warnings
warnings.filterwarnings('ignore')

mnist = fetch_mldata('mnist', data_home = r'D:\Code\GitHub\notebook\datasets\mnist')
X, y = mnist.data, mnist.target
X = X/255*2 - 1
X_train, X_test, y_train, y_test = train_test_split(X, y)

pipeline = Pipeline([
    ('clf', SVC(kernel='rbf', gamma=0.01, C=100))
])
parameters = {
    'clf__gamma': (0.005, 0.01, 0.1),
    'clf__C': (1, 3, 10),
}

grid_search = GridSearchCV(pipeline, parameters, n_jobs=2, verbose=1, scoring='accuracy')
grid_search.fit(X_train[:2000], y_train[:2000])
print('Best score: %0.3f' %grid_search.best_score_)
print('Best parameters set:')
best_parameters = grid_search.best_estimator_.get_params()
for param_name in sorted(parameters.keys()):
    print('\t%s: %r' % (param_name, best_parameters[param_name]))
predictions = grid_search.predict(X_test)
print(classification_report(y_test, predictions))

Fitting 3 folds for each of 9 candidates, totalling 27 fits


[Parallel(n_jobs=2)]: Done  27 out of  27 | elapsed:  3.4min finished


Best score: 0.945
Best parameters set:
	clf__C: 3
	clf__gamma: 0.005
             precision    recall  f1-score   support

        0.0       0.97      0.97      0.97      1722
        1.0       0.97      0.98      0.97      1965
        2.0       0.94      0.94      0.94      1724
        3.0       0.93      0.91      0.92      1751
        4.0       0.94      0.94      0.94      1700
        5.0       0.93      0.93      0.93      1620
        6.0       0.95      0.97      0.96      1693
        7.0       0.96      0.95      0.95      1841
        8.0       0.94      0.92      0.93      1742
        9.0       0.91      0.93      0.92      1742

avg / total       0.95      0.95      0.95     17500

