In [1]:
# svm分类器的决策边界不仅分离了两个类，并且尽可能的远离了最近的实例，也叫作最大间隔分类。
# 间隔边缘的实例决定了间隔的宽度，称为支持向量
# SVM对特征的缩放很敏感
# 软间隔分类，在保持间隔宽度和间隔违例之间找到平衡，
# 在scikit-learn中通过C参数调整，C越小，间隔违例就越多，泛化能力可能会更好。
import numpy as np
from sklearn import datasets
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import LinearSVC

iris = datasets.load_iris()
X = iris['data'][:,(2,3)]
y = (iris['target'] == 2).astype(np.float64)

svm_clf = Pipeline([
    ('scaler',StandardScaler()),
    ('linear_svc', LinearSVC(C=1, loss='hinge')),
])
svm_clf.fit(X,y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('linear_svc', LinearSVC(C=1, loss='hinge'))])

In [2]:
svm_clf.predict([[5.5,1.7]])

array([1.])

In [3]:
# 非线性SVM分类
# 可以通过增加特征维度使得数据集变得线性可分
# SVm可以使用核技巧，达到添加了很多维度的效果，但不是真正的添加，不存在数量爆炸的组合特征
from sklearn.svm import SVC
ploy_kernel_svm_clf=Pipeline([
    ('scaler',StandardScaler()),
    ('svm_clf',SVC(kernel='poly',degree=3,coef0=1, C=5))
])
ploy_kernel_svm_clf.fit(X,y)

Pipeline(steps=[('scaler', StandardScaler()),
                ('svm_clf', SVC(C=5, coef0=1, kernel='poly'))])

In [4]:
# SVm回归
from sklearn.svm import LinearSVR
svm_reg = LinearSVR(epsilon=1.5)
svm_reg.fit(X,y)

LinearSVR(epsilon=1.5)

In [5]:
# 决策树
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

iris = load_iris()
X = iris.data[:,2:]
y = iris.target

tree_clf = DecisionTreeClassifier(max_depth=2)
tree_clf.fit(X,y)

DecisionTreeClassifier(max_depth=2)

In [6]:
from sklearn.tree import DecisionTreeRegressor
tree_reg = DecisionTreeRegressor(max_depth=2)
tree_reg.fit(X,y)
# 决策树具有不稳定性，对训练集旋转敏感，细节敏感，同个训练集上可能会得到不同的模型。

DecisionTreeRegressor(max_depth=2)