## マージン最大化

In [None]:
import numpy as np
from sklearn.datasets.samples_generator import make_blobs
from sklearn.svm import SVC
import matplotlib.pyplot as plt

X, y = make_blobs(n_samples=50, centers=2, random_state=0, cluster_std=0.60)
line_x = [X[:, 0].min(), X[:, 0].max()]

def hide_ticks(ax):
    ax.set_xticks(())
    ax.set_yticks(())

fig = plt.figure(figsize=(9, 3))

ax1 = fig.add_subplot(1, 3, 1)
ax1.scatter(X[:, 0], X[:, 1], c=y)
hide_ticks(ax1)

ax2 = fig.add_subplot(1, 3, 2)
ax2.scatter(X[:, 0], X[:, 1], c=y)
ax2.plot(line_x, [-0.7, 4.3], c='r')
ax2.plot(line_x, [3.2, 2.2], c='g')
hide_ticks(ax2)

ax3 = fig.add_subplot(1, 3, 3)
ax3.scatter(X[:, 0], X[:, 1], c=y)
model = SVC(kernel='linear', random_state=0).fit(X, y)
coef = model.coef_[0]
intercept = model.intercept_
ax3.plot(line_x, -(np.multiply(line_x, coef[0]) + intercept) / coef[1], c='b')
hide_ticks(ax3)

plt.show()

赤や緑の決定境界(直線)でわけるより、青の決定境界でわけておくほうが未知のデータに対する汎化性能は高くなりそう。決定境界から最も近いサンプルまでの距離をマージンと呼び、これを最大化するのがサポートベクターマシン。そのためサポートベクターマシンはマージン最大化器とも呼ばれる。

仕組みは、損失関数にヒンジ関数(Hinge Function)を利用した線形分類。

純粋なサポートベクターマシンは上のサンプルのような完全線形分類可能な問題(ハードマージン)しか解けないが、現実の問題に完全線形分類可能なものはまずない。そこで、コストペナルティ(C)を導入して誤分類を許容する(ソフトマージン)ようにしている。これは、実質的にサポートベクターマシンの正則化項にあたる。

## カーネルトリック

カーネルトリックでは、指定したカーネル関数を用いてデータを高次元空間に写像し、線形の境界面で分類可能にする。

In [None]:
import numpy as np
from sklearn.datasets import make_circles
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

X, y = make_circles(n_samples=200, noise=.15, factor=.1)

fig = plt.figure()
ax = Axes3D(fig, elev=10, azim=-45)
ax = fig.gca(projection='3d')
dim_x = X[:, 0]
dim_y = X[:, 1]
dim_z = np.exp(-dim_x ** 2 - dim_y ** 2)
ax.scatter(dim_x, dim_y, dim_z, c=y)

x_min, x_max = dim_x.min() - .1, dim_x.max() + .1
y_min, y_max = dim_y.min() - .1, dim_y.max() + .1
z_min, z_max = dim_z.min() - .1, dim_z.max() + .1

resolution = min(x_max - x_min, y_max - y_min) / 80

xx, yy = np.meshgrid(np.arange(x_min, x_max, resolution), np.arange(y_min, y_max, resolution))
zz = np.zeros(xx.shape)
zz.fill(.7)
ax.scatter(xx, yy, zz, c='green', marker='.', alpha=0.4, linewidth=resolution)

ax.set_xlabel('feature0')
ax.set_ylabel('feature1')
ax.set_zlabel('new dimension')
ax.set_xticks(())
ax.set_yticks(())
ax.set_zticks(())
ax.set_xlim(x_min, x_max)
ax.set_ylim(y_min, y_max)
ax.set_zlim(z_min, z_max)

plt.show()