# Задание 5. Метод опорных векторов

Задания

I. Прочитайте пункт “Метод опорных векторов” и более подробно о методе опорных векторов в книгах [1, стр. 113–123] или [2, стр. 459–474] и ответьте на вопросы:

1. Чем метод отличается от других линейных методов? Какое оптимальное
решение он ищет?
2. Какие вектора называются опорными?
3. На что влияет параметр C? Что происходит при его увеличении и уменьшении?
4. Для чего используются ядра? Какие ядра есть в библиотеке Scikit-Learn?
5. Для каких наборов данных лучше использовать метод?
6. Какие преимущества и недостатки метода?

II. Выполните задания из в файлов "6_1_statement-svm.pdf" и "6_2_statement-svm-
texts.pdf".

### 1. Чем метод отличается от других линейных методов? Какое оптимальное решение он ищет?

- Используется функция потерь hinge loss; в классификации линейной регрессией - zero-one loss.

- Оптимальное решение - гиперплоскость, расстояние до которой от ближайших представителей каждого из классов будет максимальным (наибольший зазор между классами).

### 2. Какие вектора называются опорными?

- Опорные вектора - ближайшие к разделяющей гиперплоскости образцы обучающей выборки.

### 3. На что влияет параметр C? Что происходит при его увеличении и уменьшении?

- *С - параметр регуляризации.*
- При большом значении параметра С регуляризация модели считается слабой. В таком случае ошибки штрафуются сильнее и зазор между классами получается меньше.
- При маленьком значении параметра С регуляризация считается сильной. Тогда модель более лояльно относится к попаданию в зазор между классами некоторых объектов.

### 4. Для чего используются ядра? Какие ядра есть в библиотеке Scikit-Learn?

- Ядра используются для построения нелинейных гиперплоскостей.
- В библиотеке sklearn представлены: *‘linear’ - линейное, ‘poly’ - полиномиальное, ‘rbf’ - гауссовское, ‘sigmoid’ - сигмоидальное, ‘precomputed’*. Также можно использовать любой callable.

### 5. Для каких наборов данных лучше использовать метод?
- Имеет смысл использовать метод на разреженных наборах данных, где имеется большое количество признаков, и большинство признаков каждого объекта имеют нулевое значение.

### 6. Какие преимущества и недостатки метода?
- Преимущества:
  - **Компактность модели и небольшое количество используемой оперативной памяти;**
  - **Предсказание не требует много времени;**
  - Интеграция с ядерными методами делает их универсальными, обеспечивает приспособляемость к множеству типов данных;
  - Метод сводится к решению задачи выпуклого квадратичного программирования, которая имеет единственное решение.
  - Имеются эффективные численные методы для SVM.
  - Выделяется множество опорных объектов (объектов лежащих вблизи
границ классов).
  - Находит оптимальную разделяющую поверхность с максимальным
отступом.
  - Обобщается на нелинейные классификаторы.
- Недостатки:
  - Опорными объектами могут стать выбросы.
  - **Результаты зависят от удачности выбора параметра размытия C.**

# Опорные объекты

In [None]:
import numpy as np
import pandas as pd

1. Загрузите выборку из файла svm-data.csv. В нем записана двумерная выборка (целевая переменная указана в первом столбце, признаки - во втором и третьем).

In [None]:
df = pd.read_csv('svm-data.csv', header=None)

df.head(10)

Unnamed: 0,0,1,2
0,0.0,0.7,0.29
1,1.0,0.23,0.55
2,0.0,0.72,0.42
3,0.0,0.98,0.68
4,0.0,0.48,0.39
5,1.0,0.34,0.73
6,0.0,0.44,0.06
7,1.0,0.4,0.74
8,0.0,0.18,0.18
9,1.0,0.53,0.53


In [None]:
target = df.iloc[:,0];
target.head(10)

0    0.0
1    1.0
2    0.0
3    0.0
4    0.0
5    1.0
6    0.0
7    1.0
8    0.0
9    1.0
Name: 0, dtype: float64

In [None]:
data = df.iloc[:,1:]
data.head(10)

Unnamed: 0,1,2
0,0.7,0.29
1,0.23,0.55
2,0.72,0.42
3,0.98,0.68
4,0.48,0.39
5,0.34,0.73
6,0.44,0.06
7,0.4,0.74
8,0.18,0.18
9,0.53,0.53


2. Обучите классификатор с линейным ядром, параметром C = 100000 и random_state=241. Такое значение параметра нужно использовать, чтобы убедиться, что SVM работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи SVM для линейно разделимой выборки.

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(data, target)

In [None]:
from sklearn import svm

clf = svm.SVC(kernel='linear',C=100_000, random_state=241)
clf.fit(x_train, y_train);

3. Найдите номера объектов, которые являются опорными (нумерация с единицы). Они будут являться ответом на задание. Обратите внимание, что в качестве ответа нужно привести номера объектов в возрастающем порядке через запятую. Нумерация начинается с 1.

In [None]:
print(f'Опорные объекты:\n{clf.support_vectors_}\n')
print(f'Номера опорных объектов:\n{clf.support_}')

Опорные объекты:
[[0.98 0.68]
 [0.18 0.18]
 [0.53 0.53]]

Номера опорных объектов:
[1 5 6]


# Анализ текстов

1. Загрузите объекты из новостного датасета 20 newsgroups, относящиеся к категориям "космос" и "атеизм" (инструкция приведена выше).

In [None]:
from sklearn import datasets

newsgroups = datasets.fetch_20newsgroups(
      subset='all',
      categories=['alt.atheism', 'sci.space']
)

print(f'{newsgroups.data[:10]},\n{newsgroups.target[:10]}')

['From: 9051467f@levels.unisa.edu.au (The Desert Brat)\nSubject: Re: Keith Schneider - Stealth Poster?\nOrganization: Cured, discharged\nLines: 24\n\nIn article <1pa0f4INNpit@gap.caltech.edu>, keith@cco.caltech.edu (Keith Allan Schneider) writes:\n\n> But really, are you threatened by the motto, or by the people that use it?\n\nEvery time somone writes something and says it is merely describing the norm,\nit is infact re-inforcing that norm upon those programmed not to think for\nthemselves. The motto is dangerous in itself, it tells the world that every\n*true* American is god-fearing, and puts down those who do not fear gods. It\ndoesn\'t need anyone to make it dangerous, it does a good job itself by just\nexisting on your currency.\n\n> keith\n\nThe Desert Brat\n-- \nJohn J McVey, Elc&Eltnc Eng, Whyalla, Uni S Australia,    ________\n9051467f@levels.unisa.edu.au      T.S.A.K.C.            \\/Darwin o\\\nFor replies, mail to whjjm@wh.whyalla.unisa.edu.au      /\\________/\nDisclaimer

In [None]:
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(newsgroups.data, newsgroups.target, shuffle=False)

2. Вычислите TF-IDF-признаки для всех текстов
Обратите внимание, что в этом задании мы предлагаем вам вычислить TF-IDF по всем данным. При таком подходе получается, что признаки на обучающем множестве используют информацию из тестовой выборки - такая ситуация вполне законна, поскольку мы не используем значения целевой переменной из теста. На практике нередко
встречаются ситуации, когда признаки объектов тестовой выборки
известны на момент обучения, и поэтому можно ими пользоваться
при обучении алгоритма.

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer()

x_train_t = vectorizer.fit_transform(x_train)
x_test_t = vectorizer.transform(x_test)

vectorizer.get_feature_names_out()

array(['00', '000', '0000', ..., 'zwarte', 'zwork', 'zyklon'],
      dtype=object)

3. Подберите минимальный лучший параметр C из множества [10^−5, 10^−4, ...10^4, 10^5]
для SVM с линейным ядром (kernel=’linear’) при помощи кросс-валидации по 5 блокам. Укажите параметр random_state=241 и
для SVM, и для KFold. В качестве меры качества используйте долю верных ответов (accuracy).

In [None]:
import numpy as np
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV

grid = {'C': np.power(10., np.arange(-5, 6))}
cv = KFold(n_splits=5, shuffle=True, random_state = 241)
clf = svm.SVC(kernel='linear', random_state = 241)

gs = GridSearchCV(clf, grid, scoring = 'accuracy', cv=cv)
gs.fit(x_train_t, y_train)

GridSearchCV(cv=KFold(n_splits=5, random_state=241, shuffle=True),
             estimator=SVC(kernel='linear', random_state=241),
             param_grid={'C': array([1.e-05, 1.e-04, 1.e-03, 1.e-02, 1.e-01, 1.e+00, 1.e+01, 1.e+02,
       1.e+03, 1.e+04, 1.e+05])},
             scoring='accuracy')

In [None]:
gs.cv_results_
gs.best_params_

{'C': 10.0}

4. Обучите SVM по всей выборке с лучшим параметром C, найденным на предыдущем шаге.

In [None]:
clf.C = 10.0
clf.fit(x_train_t, y_train)

SVC(C=10.0, kernel='linear', random_state=241)

5. Найдите 10 слов с наибольшим по модулю весом. Они являются
ответом на это задание. Укажите их через запятую, в нижнем регистре, в лексикографическом порядке.

In [None]:
import pandas as pd

words = np.array(vectorizer.get_feature_names())
word_weights = pd.Series(clf.coef_.data, index=words[clf.coef_.indices], name="weight")
word_weights.index.name = "word"

top_words = word_weights.abs().sort_values(ascending=False).head(10)
print(top_words);

word
space           2.576704
god             1.892954
moon            1.319984
atheism         1.265434
atheists        1.191830
keith           1.190869
bible           1.145385
religion        1.144021
sky             1.068964
enviroleague    1.012712
Name: weight, dtype: float64


