## Курс "Машинное обучение"
## Тема занятия: SVM

Загрузка библиотечных функций для работы с данными

In [None]:
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

Загрузка данных

In [None]:
X, y = load_breast_cancer(return_X_y=True)

Разделение на обучающую\тестовую подвыборки

In [None]:
trainX, testX, trainY, testY = train_test_split(X, y, random_state=42, test_size=0.2)
print(trainX.shape, trainY.shape, testX.shape, testY.shape)

In [None]:
print(testY)

## Linear SVM

In [None]:
from sklearn.svm import LinearSVC
clf = LinearSVC(random_state=42).fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

Можно посмотреть сами значения, по которым принимается решение (берется sign)

In [None]:
import numpy as np
scores = clf.decision_function(testX)
print(scores) # печатаем "сырые" числа ответа
print((scores > 0).astype(np.int32) == out_y) # проверяем гипотезу, что решение - это знак числа ответа

Можно распечатать коэффициенты линейного классификатора и его свободный член

In [None]:
print('w =', clf.coef_)
print('w0 =', clf.intercept_)

Считаем качество с помощью accuracy

In [None]:
out_score = clf.score(testX, testY)
print('Linear score:', out_score)

## Kernel SVM

In [None]:
from sklearn.svm import SVC
clf = SVC(random_state=42, C=1.0, kernel='poly', degree=3, gamma='scale').fit(trainX, trainY)
out_y = clf.predict(testX)
print(out_y)

Можно посмотреть количество опорных векторов для каждого класса (отдельно для каждого), их индексы, а также сами опорные вектора (а здесь уже в одном списке)

In [None]:
print('Num of support vectors for every class:', clf.n_support_)
print('Idx of support vectors for every class:', clf.support_)
print('Support vectors for every class:', clf.support_vectors_)

Проверим, что это действительно так

In [None]:
i = 0
idx = clf.support_[i]
import numpy as np
print('train vector == support vector: ', np.all(trainX[idx] == clf.support_vectors_[i]))

Считаем качество с помощью accuracy

In [None]:
out_score = clf.score(testX, testY)
print('Poly score:', out_score)

## См. также

* **LibSVM** - https://www.csie.ntu.edu.tw/~cjlin/libsvm/ - с++/Java реализация SVM общего вида со множеством интерфейсов в сторонних ЯП
* **LibLinear** - https://www.csie.ntu.edu.tw/~cjlin/liblinear/ - версия LibSVM исключительно для линейного ядра (работает в этом случае гораздо быстрее)