# Задание по программированию: Опорные объекты

## Вы научитесь:
- работать с методом опорных векторов (SVM)
- находить наиболее важные объекты выборки

## Введение
Метод опорных векторов (Support Vector Machine, SVM) — один из видов линейных классификаторов. Функционал, который он оптимизирует, направлен на максимизацию ширины разделяющей полосы между классами. Из теории статистического обучения известно, что эта ширина тесно связана с обобщающей способностью алгоритма, а ее _максимизация позволяет бороться с переобучением_.

Метод опорных векторов имеет еще одну особенность. Если преобразовать его оптимизационную задачу, то окажется, что итоговый классификатор можно представить как **взвешенную сумму скалярных произведений данного объекта на объекты обучающей выборки**:


По сути, алгоритм делает предсказания **на основе сходства** нового объекта с объектами обучающей выборки. При этом, как правило, далеко **не все коэффициенты оказываются ненулевыми**. Это означает, что классификация делается на основе сходства лишь с **частью** обучающих объектов. Такие объекты называются опорными.

## Реализация в Scikit-Learn
Метод опорных векторов реализован в классе `sklearn.svm.SVC`.

- Основными параметрами этого класса являются коэффициент С и тип ядра kernel. В данной задаче мы будем использовать линейное ядро — для этого нужно задать значение параметра `kernel='linear'`
- Индексы опорных объектов обученного классификатора хранятся в поле `support_`

In [1]:
import pandas as pd
import numpy as np
from sklearn.svm import SVC

In [7]:
# функция для записи ответов
def write_answer(name, answer):
    with open('data/' + name + '.txt', 'w') as file:
        file.write(str(answer))

## Инструкция по выполнению
1) Загрузите выборку из файла `svm-data.csv`. В нем записана двумерная выборка (целевая переменная указана в первом столбце, признаки — во втором и третьем).

In [2]:
data = pd.read_csv('data/svm-data.csv', header=None)

In [3]:
data.head()

Unnamed: 0,0,1,2
0,0.0,0.7,0.29
1,1.0,0.23,0.55
2,0.0,0.72,0.42
3,0.0,0.98,0.68
4,0.0,0.48,0.39


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 3 columns):
0    10 non-null float64
1    10 non-null float64
2    10 non-null float64
dtypes: float64(3)
memory usage: 320.0 bytes


2) Обучите классификатор с линейным ядром, параметром `C = 100000` и `random_state=241`. Такое значение параметра нужно использовать, чтобы убедиться, что SVM работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи SVM для линейно разделимой выборки.

In [5]:
X = data.drop(0, axis=1)
y = data[0]

clf = SVC(C = 100000, kernel='linear', random_state=241)
clf.fit(X, y)

SVC(C=100000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=241, shrinking=True,
  tol=0.001, verbose=False)

3) Найдите номера объектов, которые являются опорными (нумерация с единицы). Они будут являться ответом на задание. Обратите внимание, что в качестве ответа нужно привести номера объектов в возрастающем порядке через запятую или пробел. Нумерация начинается с 1.

In [6]:
clf.support_

array([3, 4, 9])

In [13]:
write_answer('svm_answer1', ' '.join((clf.support_ + 1).astype(str)))