# Programming Assignment: Опорные объекты

## Введение
Метод опорных векторов (`Support Vector Machine, SVM`) — один из видов линейных классификаторов. Функционал, который он оптимизирует, направлен на максимизацию ширины разделяющей полосы между классами. Из теории статистического обучения известно, что эта ширина тесно связана с обобщающей способностью алгоритма, а ее максимизация позволяет бороться с переобучением.

Метод опорных векторов имеет еще одну особенность. Если преобразовать его оптимизационную задачу, то окажется, что итоговый классификатор можно представить как взвешенную сумму скалярных произведений данного объекта на объекты обучающей выборки:

$$a(x) = \sum_{i=1}^{l}\lambda_{i}y_{i}\langle x, x_{i}\rangle - w_{0}$$

По сути, алгоритм делает предсказания на основе сходства нового объекта с объектами обучающей выборки. При этом, как правило, далеко не все коэффициенты оказываются ненулевыми. Это означает, что классификация делается на основе сходства лишь с частью обучающих объектов. Такие объекты называются опорными.

## Реализация в Scikit-Learn
Метод опорных векторов реализован в классе `sklearn.svm.SVC`.

* Основными параметрами этого класса являются коэффициент `С` и тип ядра `kernel`. В данной задаче мы будем использовать линейное ядро — для этого нужно задать значение параметра `kernel='linear'`
* Индексы опорных объектов обученного классификатора хранятся в поле `support_`

## Инструкция по выполнению
### Шаг 1:
Загрузите выборку из файла `svm-data.csv`. В нем записана двумерная выборка (целевая переменная указана в первом столбце, признаки — во втором и третьем).

In [1]:
import numpy as np
import pandas as pd
from sklearn.svm import SVC

In [2]:
df = pd.read_csv('svm-data.csv', header=None)
df.head()

Unnamed: 0,0,1,2
0,0.0,0.7,0.29
1,1.0,0.23,0.55
2,0.0,0.72,0.42
3,0.0,0.98,0.68
4,0.0,0.48,0.39


In [3]:
X = df.iloc[:, 1:]
y = df[0]

### Шаг 2: 
Обучите классификатор с линейным ядром, параметром `C = 100000` и `random_state=241`. Такое значение параметра нужно использовать, чтобы убедиться, что `SVM` работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи `SVM` для линейно разделимой выборки.


In [4]:
clf = SVC(C = 100000, kernel='linear', random_state=241)
clf.fit(X, y)

SVC(C=100000, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='linear', max_iter=-1, probability=False, random_state=241,
  shrinking=True, tol=0.001, verbose=False)

### Шаг 3: 
Найдите номера объектов, которые являются опорными (нумерация с единицы). Они будут являться ответом на задание. Обратите внимание, что в качестве ответа нужно привести номера объектов в возрастающем порядке через запятую или пробел. Нумерация начинается с 1.

In [5]:
ans = list(clf.support_ + 1)
ans

[4, 5, 10]

In [6]:
def write_answer(ans, n):
    with open("ans{}.txt".format(n), "w") as fout:
        fout.write(str(ans))
        
write_answer(str(ans)[1:-1], 1)

Ответ на каждое задание — текстовый файл, содержащий ответ в первой строчке. Обратите внимание, что отправляемые файлы не должны содержать перевод строки в конце. Данный нюанс является ограничением платформы Coursera. Мы работаем над тем, чтобы убрать это ограничение.