In [1]:
from svm import SVM
import numpy as np
from sklearn.datasets import make_regression
%matplotlib inline
from sklearn.cross_validation import train_test_split
import matplotlib.pyplot as plt
from sklearn.metrics import mean_squared_error, median_absolute_error
from scipy.stats import norm
from sklearn.svm import SVR

SVM реализовал с помощью метода сопряжённых градиентов minimize(method='Newton-CG'). Сгенерируем случайную задачу регрессии и сравним с SVR.

In [2]:
X, y = make_regression(n_samples=500, n_features=20, n_informative=10, noise=1.0)
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
a = SVM()
a.fit(X, y, tau=1e-2)
y_pred = a.predict(x_test)
print(mean_squared_error(y_test, y_pred))
print(median_absolute_error(y_test, y_pred))
a = SVR(kernel='linear', C=1e2)
a.fit(X, y)
y_pred = a.predict(x_test)
print(mean_squared_error(y_test, y_pred))
print(median_absolute_error(y_test, y_pred))

0.984998873121
0.650219080993
0.972751277591
0.638956577122


Результаты сравнимы. Попробуем почти линейную задачу. То есть $ y = x * w_0 + \tau $ где $\tau$ нормально распределенный случайный шум.

In [3]:
w = norm(loc=10, scale=5).rvs(X.shape[1])
y = np.sum(w * X, axis=1) + norm(loc=0, scale=0.5).rvs(X.shape[0])

In [6]:
x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.5)
a = SVM()
a.fit(X, y, tau=1e-2)
y_pred = a.predict(x_test)
w0 = a.W
print(mean_squared_error(y_test, y_pred))
print(median_absolute_error(y_test, y_pred))
a = SVR(kernel='linear', C=1e2)
a.fit(X, y)
y_pred = a.predict(x_test)
print(mean_squared_error(y_test, y_pred))
print(median_absolute_error(y_test, y_pred))

0.236881281746
0.316574616048
0.235071314588
0.316586597115


Посмотрим, насколько точно SVM нашел закономерность в датасете. 

In [15]:
w1 = np.append(w, 0)
print((w1-w0).mean())
print(np.abs(w1-w0).mean())

-0.000282225531299
0.0251031973971
