## Support Vector Machine: Опорные объекты

In [1]:
import pandas as pd

from sklearn.svm import SVC

In [2]:
def write_answer(filename, answer):
    
    with open (filename, 'w') as fout:
        
        fout.write(str(answer))
        fout.close()

### Введение

<b>Метод опорных векторов (Support Vector Machine, SVM)</b> — один из видов линейных классификаторов. Функционал, который он оптимизирует, направлен на максимизацию ширины разделяющей полосы между классами. Из теории статистического обучения известно, что эта ширина тесно связана с обобщающей способностью алгоритма, а ее максимизация позволяет бороться с переобучением.

Метод опорных векторов имеет еще одну особенность. Если преобразовать его оптимизационную задачу, то окажется, что итоговый классификатор можно представить как взвешенную сумму скалярных произведений данного объекта на объекты обучающей выборки:

$$a(x) = \sum_{i=1}^l \lambda_i y_i \langle x, x_i \rangle - w_0$$

По сути, алгоритм делает предсказания на основе сходства нового объекта с объектами обучающей выборки. При этом, как правило, далеко не все коэффициенты оказываются ненулевыми. Это означает, что классификация делается на основе сходства лишь с частью обучающих объектов. Такие объекты называются опорными.

### Реализация в Scikit-Learn

Метод опорных векторов реализован в классе <code>sklearn.svm.SVC</code>.

- Основными параметрами этого класса являются коэффициент С и тип ядра kernel. В данной задаче мы будем использовать линейное ядро — для этого нужно задать значение параметра kernel='linear'
- Индексы опорных объектов обученного классификатора хранятся в поле support_

#### 1. Загрузите выборку из файла svm-data.csv. В нем записана двумерная выборка (целевая переменная указана в первом столбце, признаки — во втором и третьем).

In [3]:
train = pd.read_csv('svm-data.csv', header=None)
X, y = train.iloc[:, 1:], train.iloc[:, 0]

#### 2. Обучите классификатор с линейным ядром, параметром C = 100000 и random_state=241. Такое значение параметра нужно использовать, чтобы убедиться, что SVM работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи SVM для линейно разделимой выборки.

In [4]:
svm_clf = SVC(C=100000, kernel='linear', random_state=241)

svm_clf.fit(X, y)

SVC(C=100000, kernel='linear', random_state=241)

#### 3. Найдите номера объектов, которые являются опорными (нумерация с единицы). Они будут являться ответом на задание. Обратите внимание, что в качестве ответа нужно привести номера объектов в возрастающем порядке через запятую или пробел. Нумерация начинается с 1.

In [5]:
svm_clf.support_

array([3, 4, 9], dtype=int32)

In [6]:
' '.join(map(str, map(lambda x: x+1, svm_clf.support_)))

'4 5 10'

In [7]:
write_answer('submission_svm_support_1.txt', ' '.join(map(str, map(lambda x: x+1, svm_clf.support_))))

Опорными являются три объекта этой выборки - 4, 5 и 10