# 非线性SVM分类

In [None]:
##keep
import numpy as np
import matplotlib.pyplot as plt

## 生成数据集

In [None]:
##keep
from sklearn import datasets
X, y = datasets.make_moons(n_samples = 100, noise = 0.15, random_state = 42)

## 自定义绘制数据集函数

In [None]:
##keep
def plot_dataset(X, y, axes):
    plt.plot(X[:, 0][y == 0], X[:, 1][y == 0], 'bs')
    plt.plot(X[:, 0][y == 1], X[:, 1][y == 1], 'g^')
    plt.axis(axes)
    plt.grid(True, which = 'both')
    plt.xlabel('$x_1$', fontsize = 16)
    plt.ylabel('$x_2$', fontsize = 16, rotation = 0)

## 绘制生成的数据集
作图范围:
```
[-1.5, 2.5, -1, 1.5]
```

## 添加多项式特征
构建由以下三个Estimator组成的管道：
1. PolynomialFeatures,最高三次。
2. StandardScaler
3. SVC(线性核)

## 自定义绘制分界线的函数

In [None]:
##keep
def plot_predictions(clf, axes):
    x0s = np.linspace(axes[0], axes[1], 100)
    x1s = np.linspace(axes[2], axes[3], 100)
    x0, x1 = np.meshgrid(x0s, x1s)
    X = np.c_[x0.ravel(), x1.ravel()]
    y_pred = clf.predict(X).reshape(x0.shape)
    y_decision = clf.decision_function(X).reshape(x0.shape)
    plt.contourf(x0, x1, y_pred, cmap=plt.cm.brg, alpha=0.2)
    plt.contourf(x0, x1, y_decision, cmap=plt.cm.brg, alpha=0.1)

## 画出添加多项式特征后的预测曲线图

In [None]:
##keep
plot_predictions(ply_svc, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])

## 使用多项式核
使用多项式核的结果与添加多个多项式特征的效果一样，而且不存在数量爆炸的组合特征。  
polynomial: $(\gamma \langle x, x'\rangle + r)^d$. d is specified by keyword degree, r by coef0.

构建以下两个Estimator组成的管道：
1. StandardScaler
2. SVC(poly核，最高三次，coef0=1,C=5)

## 绘制使用多项式核的预测曲线图

In [None]:
##keep
plot_predictions(poly_kernel_svc, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])

## 使用次数为10的多项式核，比较两者曲线图的差别
d=10, coef0 = 100, C = 5

In [None]:
##keep
plot_predictions(poly_kernel_svc_10, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])

## 使用高斯RBF内核
通过相似函数添加相似特征。  
rbf: $\exp(-\gamma \|x-x'\|^2)$. $\gamma$ is specified by keyword gamma, must be greater than 0.

构建由以下两个Estimator组成的管道：
1. StandardScaler
2. SVC(rbf核,gamma=5,C=0.001)

In [None]:
##keep
plot_predictions(rbf_svc, [-1.5, 2.5, -1, 1.5])
plot_dataset(X, y, [-1.5, 2.5, -1, 1.5])