# Введение

Метод опорных векторов (Support Vector Machine, SVM) — один из видов линейных классификаторов. Функционал, который он оптимизирует, направлен на максимизацию ширины разделяющей полосы между классами. Из теории статистического обучения известно, что эта ширина тесно связана с обобщающей способностью алгоритма, а ее максимизация позволяет бороться с переобучением.

Метод опорных векторов имеет еще одну особенность. Если преобразовать его оптимизационную задачу, то окажется, что итоговый классификатор можно представить как взвешенную сумму скалярных произведений данного объекта на объекты обучающей выборки:

$a(x) = \sum^{l}_{i=1}\lambda_{i}y_i<x,x_i> - w_0$

По сути, алгоритм делает предсказания на основе сходства нового объекта с объектами обучающей выборки. При этом, как правило, далеко не все коэффициенты оказываются ненулевыми. Это означает, что классификация делается на основе сходства лишь с частью обучающих объектов. Такие объекты называются ***опорными***.

## Реализация в Scikit-Learn

Метод опорных векторов реализован в классе sklearn.svm.SVC.

* Основными параметрами этого класса являются коэффициент С и тип ядра ***kernel***. В данной задаче мы будем использовать линейное ядро — для этого нужно задать значение параметра ***kernel='linear'***
* Индексы опорных объектов обученного классификатора хранятся в поле ***support_***

In [43]:
import numpy as np
import pandas as pd

from sklearn.svm import SVC
import matplotlib.pyplot as plt
%matplotlib inline

In [44]:
#read data
full_data = pd.read_csv('svm-data.csv', header= None)
y = full_data[0]
X = full_data[[1,2]]

In [45]:
#initialize svm model
svm = SVC(C=100000 , random_state=241, kernel='linear')
#train svm model
svm.fit(X,y)

SVC(C=100000, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=241, shrinking=True, tol=0.001,
    verbose=False)

In [52]:
#create output file
output = svm.support_+1
output.tofile('output.csv',sep=' ',format='%0.0f')