## Семинар 2

# Метод опорных векторов для задачи классификации

### Описание алгоритма:

Метод опорных векторов SVM (Support Vector Machines) — это алгоритм машинного обучения, используемый для решения задач классификации, регрессии и обнаружения выбросов. 

Рассмотрим подробно SVM для метода бинарной классификации (разделеня на два класса) в случае линейно разделимых и линейно неразделимых классов.

**Случай линейно разделимых классов** (т.е. таких, для которых возможно построить гиперплоскость в n-мерном пространстве для разделения объектов двух классов):
Модель SVM ищет гиперплоскость с максимальной шириной разделяющей полосы (margin), называемой линией зазора, то есть разделяющую гиперплоскость, максимально отдаленную от обоих классов.

Чтобы иметь возможность наглядной визуализации рассмотрим задачу на примере данных с двумя признаками. На рисунке ниже изображены различные варианты проведения разделяющей гиперплоскости (в данном случае прямой) с линией зазора.

![f1.jpeg](attachment:f1.jpeg)

Метод опорных векторов, решает задачу оптимизации, подбирая прямую с максимальным зазором между ближайшими точками разных классов. Эти точки называются опорными векторами.

Классификатор SVM устанавливает самую широкую, какую только возможно, полосу (представленную параллельными
пунктирными линиями на рисунке ниже) между классами.

![f2.jpeg](attachment:f2.jpeg)

Уравнения гиперплоскости и линий зазора имеют вид соответственно:

$<\vec{w} ;\vec{x} > + b = 0$

$<\vec{w} ;\vec{x} > + b = 1$

$<\vec{w} ;\vec{x} > + b = -1$

Оптимальные значения $\vec{w}$ и $b$ подбираются в результате решения задачи оптимизации, которая заключается в минимизации функции потерь и максимизации зазора между классами.

В библиотеке `Scikit-Learn` метод опорных векторов для классификации реализован в `sklearn.svm.SVC`. 
Для линейно разделимых данных можно использовать класс SVC с линейным ядром (`kenel = 'linear'`). Также в `Scikit-Learn` есть другая реализация метода опорных векторов для случая линейной разделимости данных `sklearn.svm.LinearSVC`, но в нём нет возможности выводить информацию об опорных векторах.

   Классификация методом опорных векторов может осуществляться с *жёстким зазором* (hard margin classification) и с *мягким зазором* (soft margin classification). Разберёмcя, что это значит.

   При классификации с *жестким зазором* все образцы должны находятся вне линии зазора. 

   При классификацией с мягким зазором допускаются нарушения границы зазора, т.е. появления экземпляров, которые оказываются внутри полосы зазора или даже на неправильной стороне, отыскивается баланс между удержанием полосы как можно более широкой и ограничением количества нарушений зазора.
 
   Классификация с жестким зазором  имеет недостатки. Во-первых, она работает, только если данные являются линейно разделимыми. Во-вторых, она довольно чувствительна к выбросам. Чтобы избежать таких проблем, предпочтительнее применять более гибкую модель. 
В классах `SVM` библиотеки `Scikit-Learn` можно управлять упомянутым балансом, используя гиперпараметр `C`: меньшее значение `C` ведет к более широкой полосе, но большему числу нарушений зазора, а чем больше `C`, тем более жёсткий зазор.

**Случай линейно неразделимых классов**:

В случае линейной неразделимости вводятся дополнительные переменные, характеризующие допустимую ошибку классификации на различных объектах, и применяется трюк, заключающийся в переходе от скалярного произведения к нелинейной функции ядра (kernel trick). Данный прием позволяет перейти в пространство большей размерности, где выборка может быть линейно разделена.

Рассмотрим три вида ядер:

1. *Линейное ядро* (kernel = 'linear' ) — это ядро, которое строит гиперплоскость для разделения данных. Оно часто используется в задачах с линейно разделимыми данными. В математическом смысле линейное ядро вычисляет скалярное произведение между векторами признаков объектов. Если объекты невозможно разделить линейной гиперплоскостью, то следует с этим ядром использовать классификацию с мягким зазором (soft margin), которая позволяет допустить ошибки классификации и при этом сохранить разделяющую гиперплоскость.

2. *Радиальное базисное ядро* (kernel = 'rbf') — это наиболее часто используемое ядро (установлено по умолчанию), которое может разделять данные, не являющиеся линейно разделимыми. Оно создает границу принятия решений в виде радиально-симметричного колокола.

3. *Ядро с полиномиальной функцией* (kernel = 'poly') — это ядро, которое вводит полиномиальную функцию в пространство признаков для разделения данных. Это может быть полезно для данных, которые не могут быть разделены гиперплоскостью.

Существуют и другие ядра, но они применяются гораздо реже.

Мультиклассовая классификация также поддерживается классификатором `SVC`, для этого нужно установить `decision_function_shape = 'ovo'`.

Импортируем библиотеки:

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.datasets import make_blobs, make_circles
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler

from sklearn.svm import SVC

## Бинарная классификация линейно разделимых классов

### 1.1 Cгенерируйте данные для задачи классификации на два класса при помощи sklearn.datasets.make_blobs, содержащие два признака и 30 наблюдений так, чтобы два класса точек были линейно разделимы. Визуализируйте их на диаграмме рассеяния.

### 1.2  Обучите модель опорно-векторного классификатора `sklearn.svm.SVC` с линейным ядром. Поскольку классы линейно разделимы, сделайте классификацию с жестким зазором, для этого возьмите большое значение C.

### 1.3  Выведете координаты опорных векторов (атрибут `support_vectors_`) и их индексы (атрибут support_). Выведете количество опорных векторов, принадлежащих каждому классу. Укажите опорные вектора на диаграмме рассеяния. 

### 1.4  Выведете коэффициенты гиперплоскости и свободный член. Изобразите на графике линию разделения классов и линии зазора, как линии уровня гиперплоскости. Убедитесь, что метод `decision_function` выдаёт массив значений, который получается при подстановке данных в уравнение этой поверхности. И если значение в этом массиве меньше нуля, то соответствующее наблюдение относится к классу 0, а если оно больше нуля, то к классу 1. Напишите функцию `plot_decision_regions`, строящую линию разделения и зазор.

### 1.5  Оцените качество работы модели. Создайте новое наблюдение и сделайте предсказание на нём.

##  Бинарная классификация линейно неразделимых классов

### 2.1 Сгенерируйте данные для задачи классификации на два класса при помощи `sklearn.datasets.make_circles`, содержащие два признака и 30 наблюдений так, чтобы два класса точек были линейно неразделимы, но на границе разделения точки не перекрывали друг друга. Визуализируйте данные на диаграмме рассеяния. 

### 2.2 Обучите модель опорно-векторного классификатора `sklearn.svm.SVC` с ядром в виде радиально базисной функции. Cделайте классификацию с жестким зазором, для этого возьмите большое значение гиперпараметра C.

### 2.3 Выведете координаты опорных векторов и их индексы. Выведете количество опорных векторов, принадлежащих    каждому классу. Выведете количество опорных векторов, принадлежащих каждому классу. Изобразите на диаграмме рассеяния линию разделения и жесткий зазор. Оцените качество работы модели.

### 2.4 Сгенерируйте данные для задачи классификации на два класса при помощи `sklearn.datasets.make_blobs`, содержащие  два признака и 30 наблюдений так, чтобы граница классов перекрывалась. Визуализируйте их на диаграмме рассеяния.

### 2.5 Обучите модель опорно-векторного классификатора `sklearn.svm.SVC` с полиномиальным ядром. Поскольку классы линейно неразделимы, сделайте классификацию с мягким зазором, для этого возьмите маленькое значение гиперпараметра C.

### 2.6 Выведете координаты опорных векторов и их индексы. Выведете количество опорных векторов, принадлежащих каждому классу. Изобразите на диаграмме рассеяния линию разделения и мягкий зазор. Оцените качество работы модели.

**Задания для самостоятельного выполнения:**
1. Загрузите встроенные данные `sklearn.datasets.load_iris`. Возьмите последние два столбца (длина и ширина лепестков) и первые 100 строк данных, для того, чтобы иметь возможность рассматривать задачу бинарной классификации с двумя признаками.
2. Стандартизируйте данные.
3. Изобразите их на диаграмме рассеяния. Являются ли они линейно разделимыми?
4. Обучите модель опорно-векторного классификатора `sklearn.svm.SVC` с линейным ядром. Сделайте классификацию с жестким зазором.
5. Выведете координаты опорных векторов и их индексы. Выведете количество опорных векторов, принадлежащих каждому классу. Изобразите на диаграмме рассеяния линию разделения и зазор. Оцените качество работы модели.
7. Сгенерируйте данные для задачи классификации на два класса при помощи `sklearn.datasets.make_classification`, содержащие  два признака и 100 наблюдений так, чтобы граница классов немного перекрывалась. Визуализируйте их на диаграмме рассеяния.
8. Обучите модели опорно-векторного классификатора `sklearn.svm.SVC` с линейным ядром, полиномиальным ядром пятой степени и с RBF-ядром. Сделайте классификацию с мягким зазором, для этого возьмите значение гиперпараметра `C = 1` для всех моделей.
9. Изобразите на диаграмме рассеяния линию разделения и мягкий зазор для каждой модели. Вычислите метрики для оценки работы каждой модели. Сделайте вывод о том, какая модель лучше классифицирует эти данные.