# Основные метрики машинного обучения. Метод k ближайших соседей (k nearest neighbours)
Семинар 19 января 2018 г.

## Содержание
1. Разбиение выборки
    * train и test
    * кросс-валидация
    
2. Основные метрики
    * accuracy
    * precision (точность)
    * recall (полнота)
    * F-value (F-мера)

2. Задача классификации: метод k ближайших соседей
    * общий алгоритм
    * реализация в ```sklearn``` 

## Пакеты 
Большинство алгоритмов машинного обучения уже реализованы в составе библиотеки [scikit-learn](http://scikit-learn.org/). Для того, чтобы она работала, нужно также установить [scipy](https://www.scipy.org/), [numpy](http://www.numpy.org/) и [matplotlib](https://matplotlib.org/). 

Полезные ссылки и документации:

* документация scikit-learn лежит [вот тут](http://scikit-learn.org/stable/documentation.html),
* туториалы по NumPy [на Хабре](https://habrahabr.ru/post/121031/),
* туториалы по matplotlib [на сайте библиотеки](https://matplotlib.org/users/pyplot_tutorial.html),
* список будет пополняться.

## Разбиение выборки

### Тренировочные и тестовые данные
Допустим, что у нас есть некоторое количество объектов, про которые нам известны и параметры объектов, и значения, которые должен выдать алгоритм. Логично разбить наши данные на _тренировочные_ (они же _train data_), которые мы "скормим" алгоритму для обучения, и _тестовые_ (_test data_), на которых мы будем проверять, как хорошо алгоритм схватил общий смысл данных. 

Вместе с этим нам важно избежать проблемы **переобучения**, когда алгоритм хорошо подстраивается под данные, на которых он учился, но плохо ловит тренд во всех остальных. 

#### Пропорции

### Кросс-валидация
Когда мы применяем _кросс-валидацию_, мы много раз разбиваем один и тот же набор данных на тренировочный и тестовый — как раз для того, чтобы избежать проблемы переобучения. 

**Как работает кросс-валидация**: данные разбиваются на k частей, из которых (k-1) часть используется для обучения и ещё одна — для теста. Процедура повторяется k раз, а после каждой итерации измеряется, как хорошо работал алгоритм. Среднее этих оценок будет максимально честной оценкой работы алгоритма. Такой процесс называется _k-fold cross-validation_.

Как правило, такая кросс-валидация используется для алгоритмов регрессии, классификации и прогнозирования.

### Как разбить данные автоматически?
За нас уже подумали и всё реализовали в scikit-learn специальной функцией ```train_test_split()``` ([вот](http://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html) её документация):

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, Y_train, Y_test = train_test_split(X, Y)

## Метрики в машинном обучении
Мы можем реализовать много алгоритмов для решения одной и той же задачи, но при этом нам надо выбрать лучший из них. Для того, чтобы сделать это, мы используем различные **метрики**, которые помогают нам понять, как хорошо алгоритм справляется с задачей. Три самых распространённых метрики, используемых повсеместно — точность, полнота и F-мера.

### Результат работы алгоритма
Положим, что мы решаем задачу бинарной классификации, где каждому объекту присовоен свой класс — 0 или 1. Алгоритму подаётся признаковое описание объектов, а на выходе мы получаем значение класса _по мнению алгоритма_ — тоже 0 или 1. Таким образом, у нас получается 4 опции:

* объект относится к классу 1, алгоритм определил как 1
* объект относится к классу 1, алгоритм определил как 0
* объект относится к классу 0, алгоритм определил как 1
* объект относится к классу 0, алгоритм определил как 0

|                 | 1 (на самом деле)    | 0 (на самом деле)      |
| ----------------|:------------------:| :-------------------:|
| **1 (алгоритм)** | true positive (TP) | false positive (FP) |
| **0 (алгоритм)** | false negative (FN)| true negative (TN)  |


### Метрики и их смысл

#### Accuracy
Самая простая метрика — accuracy — считает долю верно определённых элементов (и положительных, и отрицательных) по отношению ко всей выборке.
$$accuracy = \frac{TP + TN}{TP + FP + FN + TN}$$

#### Precision, recall
**Точность** (_precision_) — это метрика, описывающая, как точно алгоритм выбрал положительные примеры (т.е. она отвечает на вопрос _How many selected items are relevant?_). Точность считается в долях или в процентах.
$$ precision = \frac{TP}{TP + FP} $$

**Полнота** (_recall_) — это метрика, описывающая, какая доля объектов положительного класса из всех найденных положительных действительно такие, то есть она отвечает на вопрос _How many relevant items are selected?_. Так же, как и точность, выражается в долях или процентах.
$$ recall = \frac{TP}{TP + FN} $$

Точность и полноту хорошо описывает вот эта картинка из Википедии:
![Precision, recall на картинке](https://habrastorage.org/web/38e/9d4/892/38e9d4892d9241ea95e1f56e3ef9124c.png "Precision и recall")

#### F-мера
Для того, чтобы максимально точно охарактеризовать корректность работы системы/алгоритма одним числом, использую так называемую **F-меру** (_F-score_, в формуле сокращён до $F$), которая, по сути, является средним гармоническим точности (в формуле сокращена до $P$) и полноты (в формуле сокращена до $R$).

$$ F = 2\cdot\frac{P\cdot R}{P + R} $$


### Как посчитать метрики не руками?
И снова на помощь приходит sklearn!

In [None]:
from sklearn import metrics

# Y_train — значения тренировочной выборки, которые у нас в датасете
# Y_out — результат работы алгоритма
precision = metrics.precision_score(Y_train, Y_out)
recall = metrics.recall_score(Y_train, Y_out)
f1 = metrics.f1_score(Y_train, Y_out)

## Метод k ближайших соседей
Метод **k ближайших соседей** (k nearest neightbours, kNN) — алгоритм, решающий задачу классификации как на двух-, так и на многомерном пространстве.

_Общая формулировка задачи классификации:_ имеется множество объектов (ситуаций), разделённых некоторым образом на классы. Задано конечное множество объектов, для которых известно, к каким классам они относятся. Это множество называется обучающей выборкой. Классовая принадлежность остальных объектов не известна. Требуется построить алгоритм, способный классифицировать произвольный объект из исходного множества.

### Side note: расстояния между объектами
Возьмём две точки в пространстве. Когда мы говорим о _расстоянии_ между ними, мы чаще всего имеем в виду _евклидово расстояние_, то есть квадратный корень из квадрата разницы координат, взятых попарно:
$$ d = \sqrt{(x_2 - x_1)^2 + (y_2 - y_1)^2} $$

Соответственно, когда мы говорим о большем количестве измерений, изменяется количество пар координат.

### Общее описание алгоритма
Следующий алгоритм применяется для каждого объекта.

1. Рассчитываются расстояния от каждого объекта выборки до выбраного. Они сортируются между собой.

2. Выбираются k ближайших объектов (т.е. таких, расстояния от которых до выбранного/зафиксированного объекта будут минимальными).

3. У каждого из этих k объектов мы смотрим на класс. 

4. Зафиксированному объекту мы присваиваем такой класс, которого больше всего среди k ближайших.

### Прочее и разное (но важное) про kNN

**1. Какое k выбрать?**

k не должно быть слишком большим или слишком маленьким. Когда _k очень маленькое_, у нас недостаточно данных для определения класса. Когда _k очень большое_, мы задействуем в определении класса много "шума" и лишних объектов, т.к. учитываем даже объекты, находящиеся очень далеко от заданного.

**2. Чётное или нечётное?**

_Величина k **всегда должна быть нечётной**_, иначе алгоритм не всегда сможет правильно определить класс зафиксированного объекта. Например, при бинарной классификации может сложиться ситуация, когда равное количество объектов-соседей принадлежит к обоим классам — и что тогда делать?

### Реализация в sckit
Алгоритм уже реализован (см. пример на ирисах [вот тут](http://scikit-learn.org/stable/auto_examples/neighbors/plot_classification.html#sphx-glr-auto-examples-neighbors-plot-classification-py)).

In [None]:
from sklearn import neighbors

# создаём экзмепляр класса kNN
clf = neighbors.KNeighborsClassifier(n_neighbors)
# методом fit() обучаем
clf.fit(X_train, Y_train)
# методом predict() заставляем классификатор работать на новых данных
res = clf.predict(X_test)