# Опорные объекты.

Метод опорных векторов имеет еще одну особенность. Если преобразовать его оптимизационную задачу, то окажется, что итоговый классификатор можно представить как взвешенную сумму скалярных произведений данного объекта на объекты обучающей выборки:

$a(x) = \sum_{i=1}^l\lambda_iy_i<x, x_i>-w_0$

По сути, алгоритм делает предсказания на основе сходства нового объекта с объектами обучающей выборки. При этом, как правило, далеко не все коэффициенты оказываются ненулевыми. Это означает, что классификация делается на основе сходства лишь с частью обучающих объектов. Такие объекты называются опорными.

Реализация в Scikit-Learn: 
Метод опорных векторов реализован в классе sklearn.svm.SVC .  
* Основными параметрами этого класса являются коэффициент С и тип ядра kernel. В данной задаче мы будем использовать линейное ядро — для этого нужно задать значение параметра kernel='linear'.  
* Индексы опорных объектов обученного классификатора хранятся в поле support_.

## 1. Загрузите выборку из файла svm-data.csv. 
В нем записана двумерная выборка (целевая переменная указана в первом столбце, признаки — во втором и третьем).

In [1]:
import pandas as pd
import numpy as np
data = pd.read_csv('./data/svm-data.csv', sep=",", names=['target', 'first_feature', 'second_feature']) 
data.head()

Unnamed: 0,target,first_feature,second_feature
0,0.0,0.7,0.29
1,1.0,0.23,0.55
2,0.0,0.72,0.42
3,0.0,0.98,0.68
4,0.0,0.48,0.39


In [2]:
target = data['target']
features = data[['first_feature', 'second_feature']]

# 2. Обучите классификатор с линейным ядром, параметром C = 100000 и random_state=241. 
Такое значение параметра нужно использовать, чтобы убедиться, что SVM работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи SVM для линейно разделимой выборки.

In [3]:
from sklearn.svm import SVC
clf = SVC(C=100_000, kernel='linear', random_state=241)
clf.fit(features, target)

SVC(C=100000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='linear', max_iter=-1, probability=False, random_state=241,
  shrinking=True, tol=0.001, verbose=False)

In [8]:
clf.support_

array([3, 4, 9], dtype=int32)

In [12]:
clf.coef_

array([[-10.4526212 ,  18.02446131]])

In [10]:
clf.dual_coef_

array([[ -42.60522582, -174.39460845,  216.99983427]])