In [9]:
#SVM，寻找两个足以正确分类的样本，两样本的中间平面即决策边界。
#硬边界分类，对异常值敏感，只对线性可分有效。
#软边际分类，允许一部分样本在边际之内，使得边际内的样本足够少，而边际宽度足够广
#超参数C可调节边际宽度，C越大边际宽度越窄，越容易出现过拟合

import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris=datasets.load_iris()
X=iris['data'][:,(2,3)]
y=(iris['target']==2).astype(np.float64)
m=len(y)
C=1
svm_clf=Pipeline([('scaler',StandardScaler()),
                 ('linear_svc',LinearSVC(C=1,loss='hinge'))])
svm_clf.fit(X,y)
svm_clf.predict([[5,6]])
#SVM 直接分类，不返回概率。

from sklearn.svm import SVC
svc_clf=Pipeline([('scaler',StandardScaler()),('SVC',SVC(kernel='linear',C=1))])
svc_clf.fit(X,y)
svc_clf.predict([[5,7]])

from sklearn.linear_model import SGDClassifier
sgd_clf=Pipeline([('scaler',StandardScaler()),
                  ('SGD',SGDClassifier(loss='hinge',alpha=1/(m*C)))])
sgd_clf.fit(X,y)
sgd_clf.predict([[5,8]])

#Nonlinear SVM classification
#如何确定是否为非线性可分与不可分？
from sklearn.datasets import make_moons
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import PolynomialFeatures
poly_svm=Pipeline([('poly_features',PolynomialFeatures(degree=3)),
                   ('scaler',StandardScaler()),
                   ('svm_clf',LinearSVC(C=10,loss='hinge'))
                  ])
poly_svm.fit(X,y)
print(poly_svm.predict([[5,8]]),'nonlinear')

#Polynomial Kernel

#增加多项式特征易于执行，适用于各种机器学习算法。但如果多项式阶数过低易造成过欠拟合，
#过高易造成过拟合。
#核技术可以在增加阶数的同时不增加特征数
from sklearn.svm SVC
poly_kernel_svm=Pipeline([
    ('scaler',StandardScaler()),
    ('svm_clf',SVC(kernel='poly',degree=3,coef0=1,C=5))
])
poly_kernel_svm.fit(X,y)

#增加相似性特征，即增加一个衡量所有样本与标准样本之间的相似性的函数，如Gaussian Radial Basic
#Function 高斯径向基函数,钟型函数，0~1，1为完全相似
#选择径向基基函数最简单的方法即在每一个样本的位置上都选一个landmark。
#另一种方法是将m个样本n个特征的数据集变换为M个样本m个特征的数据集。
#高斯RBF与SVM结合并不会真的增加很多特征。
rbf_kernerl_svm=Pipeline([
    ('scaler',StandardScaler()),
    ('svm_clf',SVC(kernerl='rbf',gamma=5,C=0.001))
])
#C为误差项惩罚系数，gamma为径向基函数的系数
rbf_kernel_svm

#gamma越大，钟型曲线更窄，则样本的影响范围越小，决策边界也因而更不规则。
#因此gamma是一个正则化参数，越大越容易overfitting，越小越容易underfitting

#其他核函数
#string subsequence kernel 基于Levenshtein 距离
#LinearSVC比SVC更快，所以首选线性核，尤其是当数据集非常大的时候。
#当数据比较小的时候，首选Gaussian RBF。

#计算复杂度
#LinearSVC 基于liblinear library A Dual Coordinate Method for Large-scale Linear SVM
#LinearSVC /SGDClassifier的时间复杂度O(m*n)
#SVC基于libsvm library,时间复杂度在O(m^2*n)和O(m^3*n)




[1.] nonlinear




In [10]:
#SVM Regression
#SVM回归则希望支持向量见的超平面空间包含尽量多的样本，并且限制超平面间的距离在一个参数ε.
#SVM Regression 是epsilon-敏感的

#线性SVM回归
from  sklearn.svm import LinearSVR
svm_reg=LinearSVR(epsilon=1.5)
svm_reg.fit(X,y)

#量化行程相似度：起点-终点：里程-转弯数-速度-停车次数-无监督聚类
#C越大，正则化程度越小
from sklearn.svm import SVR
svm_poly_reg=SVR(kernerl='poly',degree=2,C=100,epsilon=0.1)
svm_poly_reg.fit(X,y)

#SVM 也可用于异常检测


#### RBF
$\phi \gamma (\boldsymbol{x},l)=exp(-\gamma||\boldsymbol{x}-l||^2)$
其中，$l$为landmark。若landmark为0,1，则$x_2=exp(00.3\times 1^2),x_3=exp(-0.3\times 2^2)$

#### Online SVMs
$J(\boldsymbol{w},b)=\frac{1}{2}\boldsymbol{w}^T\cdot \boldsymbol{w}+C\sum_{i=1}^m{(0,1-t^{(i)}(\boldsymbol{w}^T\cdot \boldsymbol{x}^{(i)}+b))}$后一项即hinge损失函数。