# 第二题：支持向量机的软间隔

实验内容：

1. 了解分离超平面、间隔超平面与支持向量的绘制
2. 调整C的值，绘制分离超平面、间隔超平面和支持向量
3. 简述引入软间隔的原因，以及C值对SVM的影响

## 1. 导入模型

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.svm import SVC

## 2. 制造数据集

In [None]:
np.random.seed(2)
X = np.r_[np.random.randn(20, 2) - [0, 2], np.random.randn(20, 2) + [0, 2]]
Y = [0] * 20 + [1] * 20

我们把数据$X$的第一列，记为$x_1$，第二列记为$x_2$

可视化

In [None]:
def plot_data(X, Y):
    # 新建一个 8 × 8 的图
    plt.figure(figsize = (8, 8))

    # 绘制散点图
    plt.scatter(X[:, 0], X[:, 1], c = Y, cmap = plt.cm.Paired, edgecolors = 'k')

    # 设置横纵坐标标签
    plt.xlabel('x1')
    plt.ylabel('x2')

    # 设定图的范围
    plt.xlim((-4, 4))
    plt.ylim((-4, 4))

In [None]:
plot_data(X, Y)

## 3. 训练模型

这里我们使用线性核函数，C设定为100

In [None]:
# 创建模型
clf = SVC(kernel = 'linear', C = 100, random_state = 32)

# 训练模型
clf.fit(X, Y)

## 4. 绘制超平面

In [None]:
def compute_hyperplane(model, x1):
    '''
    计算二维平面上的分离超平面，
    我们通过w0，w1，b以及x1计算出x2，只不过这里的x1是一个ndarray，x2也是一个ndarray
    '''
    w0 = model.coef_[0][0]
    w1 = model.coef_[0][1]
    b = model.intercept_[0]
    
    # YOUR CODE HERE
    x2 = -(w0 * x1 + b) / w1
    
    return x2

In [None]:
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
plt.plot(x1, x2, '-', color = 'red')

## 5. 绘制间隔

In [None]:
def compute_margin(model, x1):
    '''
    计算二维平面上的间隔超平面，
    我们通过w0，w1，b以及x1计算出x2，只不过这里的x1是一个ndarray，x2也是一个ndarray
    '''
    x2 = compute_hyperplane(model, x1)
    w1 = model.coef_[0][1]
    # YOUR CODE HERE
    x2_up = x2 + 1 / w1
    # YOUR CODE HERE
    x2_down = x2 - 1 / w1
    
    return x2_up, x2_down

In [None]:
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
x2_up, x2_down = compute_margin(clf, x1)
plt.plot(x1, x2, '-', color = 'red')
plt.plot(x1, x2_up, 'k--')
plt.plot(x1, x2_down, 'k--')

## 6. 标出支持向量

模型的support_vectors_属性包含了支持向量

In [None]:
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
x2_up, x2_down = compute_margin(clf, x1)
plt.plot(x1, x2, '-', color = 'red')
plt.plot(x1, x2_up, 'k--')
plt.plot(x1, x2_down, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s = 200, facecolors = 'none', edgecolors = 'red')

# 作业1：请你使用线性核，调整C的值，绘制数据集，SVM分离超平面，间隔超平面以及支持向量

## 1. C = 10

In [None]:
# YOUR CODE HERE
clf = SVC(kernel='linear', C=10, random_state=32)
clf.fit(X, Y)
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
x2_up, x2_down = compute_margin(clf, x1)
plt.plot(x1, x2, '-', color='red')
plt.plot(x1, x2_up, 'k--')
plt.plot(x1, x2_down, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=200, facecolors='none', edgecolors='red')
plt.title(f'C = 10')
plt.show()

## 2. C = 1

In [None]:
# YOUR CODE HERE
clf = SVC(kernel='linear', C=1, random_state=32)
clf.fit(X, Y)
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
x2_up, x2_down = compute_margin(clf, x1)
plt.plot(x1, x2, '-', color='red')
plt.plot(x1, x2_up, 'k--')
plt.plot(x1, x2_down, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=200, facecolors='none', edgecolors='red')
plt.title(f'C = 1')
plt.show()

## 3. C = 0.1

In [None]:
# YOUR CODE HERE
clf = SVC(kernel='linear', C=0.1, random_state=32)
clf.fit(X, Y)
plot_data(X, Y)
x1 = np.array([-5, 5])
x2 = compute_hyperplane(clf, x1)
x2_up, x2_down = compute_margin(clf, x1)
plt.plot(x1, x2, '-', color='red')
plt.plot(x1, x2_up, 'k--')
plt.plot(x1, x2_down, 'k--')
plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1], s=200, facecolors='none', edgecolors='red')
plt.title(f'C = 0.1')
plt.show()

# 作业2：简述为什么要加入软间隔？C的值对SVM有什么影响？

实际的数据集中，往往存在一些噪声或者异常值，为了减小这些噪声或异常值的影响，就引入了软间隔的概念，允许SVM在一定的程度上对一些数据点进行误分类，从而获得更好的泛化能力。C决定了分类误差的惩罚程度，C越大，对误分类的惩罚越大，模型会尽量避免出现误分类，但可能导致过拟合，C越小，对误分类的惩罚越小，但可能会导致模型欠拟合。