# Классификация

### Литература

- [Ближайшие соседи - sklearn](http://scikit-learn.org/stable/modules/neighbors.html)
- [ODS классификация](https://habrahabr.ru/company/ods/blog/322534/#metod-blizhayshih-sosedey)
- [Семинары по машинному обучению, ВМК МГУ. kNN-1](https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem02_knn.pdf)
- [Семинары по машинному обучению, ВМК МГУ. kNN-2](https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem03_knn.pdf)
- [wiki: Confusion matrix](https://en.wikipedia.org/wiki/Confusion_matrix)

## K ближайших соседей kNN

![](https://upload.wikimedia.org/wikipedia/commons/thumb/e/e7/KnnClassification.svg/220px-KnnClassification.svg.png)

kNN - это метрический алгоритм, предполагающий, что объекты одного класса в пространстве находятся близко друг к другу. В зависимости от выбора k - количества ближайших соседей и метрики расстояния, качество может сильно отличаться. Страдает от проклятия размерностей. Ленивый, значит проивзодит все вычисления при предсказании, а не при обучении. Хранит всю тренировочную выборку в себе.

Идея алгоритма:
1. Взять новый объект и вычислить все расстояния по некоторой метрике от него до других объектов
2. Выбрать k ближайших соседей к этому объекту
3. Класс объекта - это класс наиболее часто встречающегося объекта среди k соседей.

В алгоритм можно внести изменение добавив веса для каждого объекта или класса. Например, при выборе класса смотрят не на большинство соседей, а на какую-то взвешенную сумму.

Кстати алгоритм можо свести к регрессии, если брать среднее значение целевой переменной по k соседям.

### Метод ближайших соседей в реальных задачах

- В чистом виде kNN может послужить хорошим стартом (baseline) в решении какой-либо задачи;
- В соревнованиях Kaggle kNN часто используется для построения мета-признаков (прогноз kNN подается на вход прочим моделям) или в стекинге/блендинге;
- Идея ближайшего соседа расширяется и на другие задачи, например, в рекомендательных системах простым начальным решением может быть рекомендация какого-то товара (или услуги), популярного среди ближайших соседей человека, которому хотим сделать рекомендацию;
- На практике для больших выборок часто пользуются приближенными методами поиска ближайших соседей. Вот лекция Артема Бабенко про эффективные алгоритмы поиска ближайших соседей среди миллиардов объектов в пространствах высокой размерности (поиск по картинкам). Также известны открытые библиотеки, в которых реализованы такие алгоритмы, спасибо компании Spotify за ее библиотеку Annoy.

### Качество классификации методом ближайших соседей зависит от нескольких параметров:

- число соседей
- метрика расстояния между объектами (часто используются метрика Хэмминга, евклидово расстояние, косинусное расстояние и расстояние Минковского). Отметим, что при использовании большинства метрик значения признаков надо масштабировать. Условно говоря, чтобы признак "Зарплата" с диапазоном значений до 100 тысяч не вносил больший вклад в расстояние, чем "Возраст" со значениями до 100.
- веса соседей (соседи тестового примера могут входить с разными весами, например, чем дальше пример, тем с меньшим коэффициентом учитывается его "голос")

### sklearn.neighbors.KNeighborsClassifier

[Документация](http://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html#sklearn.neighbors.KNeighborsClassifier)

Основные параметры класса sklearn.neighbors.KNeighborsClassifier:

- weights: "uniform" (все веса равны), "distance" (вес обратно пропорционален расстоянию до тестового примера) или другая определенная пользователем функция
- algorithm (опционально): "brute", "ball_tree", "KD_tree", или "auto". В первом случае ближайшие соседи для каждого тестового примера считаются перебором обучающей выборки. Во втором и третьем — расстояние между примерами хранятся в дереве, что ускоряет нахождение ближайших соседей. В случае указания параметра "auto" подходящий способ нахождения соседей будет выбран автоматически на основе обучающей выборки.
- leaf_size (опционально): порог переключения на полный перебор в случае выбора BallTree или KDTree для нахождения соседей
- metric: "minkowski", "manhattan", "euclidean", "chebyshev" и другие

_взято из курса [ODS](https://habrahabr.ru/company/ods/blog/322534/#metod-blizhayshih-sosedey)_

### Метрики расстояния

Аксиомы метрики:

1. $\rho(x,y) \ge 0$
2. $\rho(x,y) = \rho(y,x)$
3. $\rho(x,y) \ge \rho(x,z) + \rho(z,y)$

#### Евклидова метрика

$\large \rho(x,y) = \sqrt{\sum_{i=1}^{n}{(x_i - y_i)^2}}$

#### Манхэттенская метрика

$\large \rho(x,y) = \sum_{i=1}^{n}{|x_i - y_i|}$

####  Минковского метрика

$\large \rho(x,y) = {(\sum_{i=1}^{n}{|x_i - y_i| ^ q})} ^ \frac{1}{q}$

#### Косинусная метрика

$\large \rho(x,y) = \arccos(\frac{\langle{x,y}\rangle}{\|x\|\|y\|}) = \arccos{\frac{\sum^d_{i=1}{x_i y_i}}{(\sum^d_{i=1}{x_i^2})^{1/2}(\sum^d_{i=1}{y_i^2})^{1/2}}}$

![](https://i.imgur.com/0aBH1bO.png)

### Масштаб признаков 

Исходя из формулы метрики расстояния между объектами в пространстве, можно сделать вывод, что масштаб признаков определяет их значимость. Например, умножим один из признаков на константу C. Тогда Евклидово расстояние примет вид: $$p_2(x,y) = \sqrt{C(x_1-y_1)^2+\sum_{i=2}^{d}{(x_i-y_i)^2}}$$ Таким образом, различие по первому признаку будет считаться в C раз более значимым, чем различия по всем остальным признакам. При этом расположение объектов относительно друг друга не изменилось - изменился лишь масштаб!

Если мы возьмем задачу, в которой измеряется рост в сантиметрах и вес в килограммах людей, и будем на этих данных предсказывать что-то, то рост будет всегда иметь большую важность, чем вес.  
Чтобы избежать проблему масштаба, признаки нужно нормировать. Это можно делать следующими способами: 

- Нормировка на единичную дисперсию: $\widetilde{x} = \frac{x - \overline{x}}{\sigma(x)}$
- Нормировка на отрезок [0,1]: $\widetilde{x} = \frac{x - min(x)}{max(x) - min(x)}$

### Проклятье размерности

Проблема заключается в невозможности эффективного поиска ближайших соседей для заданной точки в многомерном пространстве. Это происходит из-за того, что все объекты выборки равномерно распределены по d-мерной сфере и равноудалены друг от друга. Например, для kNN для 5 соседей и 5000 обхектов в выборке размерность должна быть не больше 10, чтобы решение было более менее эффективным. 

Подробнее об этом прочитайте в материалах к [Семинарам по машинному обучению, ВМК МГУ](https://github.com/esokolov/ml-course-msu/blob/master/ML16/lecture-notes/Sem02_knn.pdf).

![](https://i.imgur.com/VZkE79X.png)

$\LARGE \lim_{n \rightarrow \infty}{0.99^n} = 0$

Также будет полезно вспомнить, что такое скользящий контроль (кросс-валидация).

![image.png](https://habrastorage.org/files/b1d/706/e6c/b1d706e6c9df49c297b6152878a2d03f.png)

Кратко: выборка разбивается на N равных частей, и проводится N экспериментов, причём для i-го эксперимента i-ая часть выборки не используется в обучении, но используется в предсказании для оценки обобщающей способности модели.

## Практика

### Классификация

Рассмотрим наш любимый датасет с цифрами MNIST. Мы его уже решали весьма успешно с помощью одного метрического алгоритма кластеризации, поэтому возможно тут тоже будет всё хорошо.

In [None]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
import seaborn as sns

%matplotlib inline

# Зафиксируем случайность, чтобы каждый раз получалось одно и тоже
np.random.seed(seed=42)

In [None]:
from sklearn import datasets

# загружаем датасет с цифрами
X, y = datasets.load_digits(return_X_y=True)

print("Экземпляров: {}\nРазмер изображения: {}x{}".format(X.shape[0], np.sqrt(X.shape[1]), np.sqrt(X.shape[1])))

In [None]:
plt.figure(figsize=(16, 6))
width = int(np.sqrt(X.shape[1]))
for i in range(10):
    plt.subplot(2, 5, i + 1)
    plt.imshow(X[i,:].reshape([width,width]), cmap='gray')

Как мы с вами помним, классификацию по очень несбалансированным выборкам делать сложно и нужно брать специальные метрики и хитрые разбиения на трейн-тест. Посмотрим, как у нас дела обстоят с цирфами.

In [None]:
sns.countplot(y)

Реализуем kNN самостоятельно. Нам будет достаточно написать функцию вычисления класса. (почему? а как же обучение модели?)

Предлагаю Вам сделать так, чтобы метрику можно было менять. Проще всего сделать её аргументом функции.

In [None]:
def euclidian(x):  # норма в Евклидовом пространстве
    pass

def euclidian_metric(a, b):  # реализуем Евклидову метрику через норму
    pass

Далее реализуем функции, необходимые нам для вычисления класса по методу ближайших соседей.

1.Напишите функцию, которая по уже рассчитанным расстояниям от точек `y` до нашей точки (`distances`) находит и возвращает `k` ближайших соседей и соответствующие расстояния до них.

In [None]:
def _find_neighbours(k, y, distances):
    #############
    #  ВАШ КОД  #
    #############
    return neighbours, neighbours_distances

In [None]:
# sanity check
Y = np.arange(10)
dist = np.linspace(1, 10, 10)
_find_neighbours(3, Y, dist)  # должен вернуться кортеж из массивов [0, 1, 2] и [1, 2, 3], если вернулось что-то другое, то что-то не так реализовано

2.Реализуйте функцию, выделяющую преобладающий класс среди соседних объектов. Если есть конкурирующие классы, то нужно вернуть их все.

Конкурирующими считаются те классы, для которых количество принадлежащих им объектов равно между собой и при этом наибольшее среди всех классов, представленных в подвыборке.

**Hint:** используйте `np.unique`.

In [None]:
def _get_closest_classes(neighbours):
    #############
    #  ВАШ КОД  #
    #############
    return best_classes

In [None]:
# sanity check
print(_get_closest_classes(np.asarray([1,2,3,2,2])))  # должна вернуться только "2"
print(_get_closest_classes(np.asarray([1,2,3,2,3])))  # должны вернуться "2" и "3"

3.Напишите функцию, которая выбирает наиболее подходящий класс, при условии, что есть несколько конкурирующих классов. Для этого будет необходимо посчитать среднее расстояние до объектов каждого класса и выбрать класс с наименьшим таким расстоянием.

In [None]:
def _choose_best_class(best_classes, neighbours, neighbouring_distances):
    min_mean_dist = np.inf
    best_class = None

    #############
    #  ВАШ КОД  #
    #############

    return best_class

In [None]:
# sanity check
_choose_best_class([1,2], np.array([1, 2, 1, 3, 2]), np.asarray([0.5, 1, 1, 8, 0.6]))  # если всё правильно, best_class должен быть "1"

Далее нужно реализовать функцию, делающую предсказание для одной точки, используя реализованные ранее функции.

In [None]:
# эта функция будет считать расстояния от новой точки new_x до всех точек в исходном датасете X и на основе расстояний вычислять принадлежность к классу
def _nearest_neighbours_classify(x, y, k, new_x, metric):
    distances = metric(x, new_x)  # считаем расстояния до классов

    neighbours, neighbouring_distances = _find_neighbours(k, y, distances)  # находим ровно k соседей этой точки
        
    best_classes = _get_closest_classes(neighbours)  # обнаруживаем классы, которые имеются среди соседей

    res = _choose_best_class(best_classes, neighbours, neighbouring_distances)  # выбираем наиболее релевантный класс по среднему расстоянию до него среди соседей

    return res
        
# а в этой функции мы повторяем это всё для каждого элемента нашей выборки. Короче говоря, обрабатываем сразу батч (на самом деле не сразу, а по одной точке, медленно, но понятно).
def nearest_neighbours_classify(x, y, k, x_pred, metric=euclidian_metric):
    res = np.zeros(x_pred.shape[0], dtype=y.dtype)
    for i in range(x_pred.shape[0]):
        res[i] = _nearest_neighbours_classify(x, y, k, x_pred[i], metric)
    return res

Запустим в лоб наш классификатор kNN и посмотрим, какое качество он нам выдаст. Воспользуемся train_test_split, чтобы разбить данные на тренировочную и валидационную выборки.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.2)

y_pred = nearest_neighbours_classify(X_train, y_train, 5, X_test)

print(accuracy_score(y_test, y_pred))

Целевой признак распределен равномерно по всем классам с некоторой погрешностью. Поэтому можно считать в лоб обычную точность предсказания и не бояться, что интерпретация будет неадекватна. НО при кроссвалидации происходят случайные подвыборки объектов, а нам нужно особым образом стратифицировать разбиение, чтобы сохранялись пропорции классов. Для этих целей применяется стратификация.

Подробнее о стратификации вы можете [почитать тут](https://sebastianraschka.com/blog/2016/model-evaluation-selection-part1.html#stratification). 

Мы не будем реализовывать стратификацию самостоятельно (т.к. это очень муторно), а воспользуемся готовой реализацией из sklearn. Всё остальное возмём оттуда же, т.к. наш kNN сейчас идентичен тому, что в sklearn.
Для выделения стратифицированной выборки будем использовать [`StratifiedKFold`](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html)

In [None]:
from sklearn.neighbors import KNeighborsClassifier # класс для kNN классификатора

from sklearn.model_selection import cross_val_score # метод для кросс-валидации данных

from sklearn.model_selection import KFold # алгоритм разбиения выборки на группы(фолды)
from sklearn.model_selection import StratifiedKFold # алгоритм разбиения выборки на стратифицированные группы(фолды)

Запустим в лоб классификатор kNN и посмотрим на качество на кроссвалидации при разбиении выборки на 5 фолдов со стратификацией.

In [None]:
clf = KNeighborsClassifier()

cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

%time scores = cross_val_score(clf, X, y, cv=cv)

print("Accuracy: {}".format(scores.mean()))

Отлично, хорошая точность в 0.98, но где у нас сосредоточены ошибки? В чём проблема предсказания? Хотелось бы получить красивый отчет, вдруг мы просто неправильно предсказываем часть 1 и 7??

Воспользуемся функцией [classification-report](http://scikit-learn.org/stable/modules/model_evaluation.html#classification-report), которая выведет precision, recall, f1-score, support и confusion_matrix, по которой мы поймем что с чем путает алгоритм.

![](https://i.imgur.com/8xhLDz8.png)

$\LARGE precision = \frac{TP}{TP+FP}$

$\LARGE recall = \frac{TP}{TP+FN}$

In [None]:
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.model_selection import train_test_split

# разобъем датасет на train и test в пропорции 60/40
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42, test_size=0.4)
y_test = y_test.astype('int')

clf = KNeighborsClassifier()
clf.fit(X_train, y_train) # обучим модель
%time y_pred = clf.predict(X_test).astype('int') # предскажем тэги на тестовой подвыборке

In [None]:
print(classification_report(y_test, y_pred)) # напечатаем отчет о классификации

Построем [confusion матрицу](https://en.wikipedia.org/wiki/Confusion_matrix), для того, чтобы посмотреть какие классы путает алгоритм. При идеальном предсказании матрица должна быть диагональной. 

In [None]:
plt.figure(figsize=(12,12)) 
_ = sns.heatmap(confusion_matrix(y_test, y_pred), cmap=plt.cm.Blues, square=True, annot=True, fmt='.4g')

На матрице видим, что влгоритм предсказывает часто 8, для 1. 9 для 7. 3 для 8. Возможно написания этих цифр действительно похожи.  
К сожалению мы обучались не на полном датасете, а на его части, причем с пониженной размерностью, поэтому результаты не столь живописны :)

### Тюнинг гиперпараметров

Как улучшить качество предсказания?

Самый просто способ для того чтобы подобрать лучший параметр - это перебрать их ВСЕ с помощью [GridSearch](http://scikit-learn.org/stable/modules/grid_search.html)

![](https://pp.userapi.com/c639616/v639616016/4938d/-9s9ffsvAC0.jpg)

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
np.arange(1, 10)

Найдем значения `n_neighbors` и `p` при котором качество классификации на кроссвалидации максимально.

In [None]:
params = {
    "n_neighbors": np.arange(2, 10), 
    "p": [2,4]
}

search = GridSearchCV(KNeighborsClassifier(), params, n_jobs=2, 
                      cv=StratifiedKFold(n_splits=5, shuffle=True, random_state=42), verbose=2)
%time search.fit(X, y)

In [None]:
x_ticks = ["{:02d}_n_neighbors={}, p={}".format(i, p['n_neighbors'], p['p']) for i,p in enumerate(search.cv_results_['params'])]

plt.figure(figsize=(16,8))
plt.plot(x_ticks, search.cv_results_['mean_test_score'])
_ =plt.xticks(rotation=90)

print("BEST: score={}, params={}".format(search.best_score_, search.best_params_))

Посмотрим, стал ли лучше отчет классификации.

In [None]:
clf = KNeighborsClassifier(n_neighbors=3, p=2)
clf.fit(X_train, y_train)
y_pred = clf.predict(X_test).astype('int')

print(classification_report(y_test, y_pred))

plt.figure(figsize=(12,12))
_ = sns.heatmap(confusion_matrix(y_test, y_pred), cmap=plt.cm.Blues, square=True, annot=True, fmt='.3g')

In [None]:
clf = KNeighborsClassifier(n_neighbors=3, p=2)
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
%time scores = cross_val_score(clf, X, y, cv=cv)
print("Accuracy: {}".format(scores.mean()))
# с настройками по умолчанию было 0.9838396055603897

## Подбор гиперпараметров

Посмотрим на более наглядный пример подбора гипер параметров и важность масштабирования признаков.

Рассмотрим датасет с винишком: https://www.openml.org/d/187

In [None]:
colab = True
if colab:
    from google.colab import drive
    drive.mount('/content/drive')

In [None]:
if colab:
    df = pd.read_csv('/content/drive/My Drive/Data/dataset_191_wine.csv')
else:
    df = pd.read_csv('../../data/dataset_191_wine.csv')
df.head()

In [None]:
X = df.drop(['class'], axis=1)
y = df['class']

Переберем в лоб количество соседей `k`.

In [None]:
cv = KFold(n_splits=5, shuffle=False) # фиксируем разбиения! Выключаем перемешивание для повтора результатов

k_vals = np.arange(1, 100, 1)
quality_by_k = [
    cross_val_score(KNeighborsClassifier(n_neighbors=k), X, y, cv=cv).mean()
    for k in k_vals
]

print("Best K = {}".format(k_vals[np.argmax(quality_by_k)]))
plt.plot(k_vals, quality_by_k)

Наилучший результат при 1-м соседе? Выглядит как некоторая форма вырождения модели. 

Обратим внимание, что масштаб признаков очень разный. Необходимо нормировать признаки.

In [None]:
df.describe()

In [None]:
from sklearn.preprocessing import scale
X_scaled = scale(X) # включим масштабирование
cv = KFold(n_splits=5, shuffle=False)

k_vals = np.arange(1, 100, 1)
quality_by_k = [
    cross_val_score(KNeighborsClassifier(n_neighbors=k), X_scaled, y, cv=cv).mean()
    for k in k_vals
]

print("Best K = {}".format(k_vals[np.argmax(quality_by_k)]))
plt.plot(k_vals, quality_by_k)

16 соседей - уже лучше. Да и качество стало не 0.65, а около 0.9 по accuracy.

Теперь подберем наилучшую метрику.

In [None]:
X_scaled = scale(X)
cv = KFold(n_splits=5, shuffle=False)

p_vals = np.linspace(1, 10, 100)
quality_by_p = [
    cross_val_score(KNeighborsClassifier(n_neighbors=16, metric='minkowski', p=p), X_scaled, y, cv=cv).mean()
    for p in p_vals
]

print(p_vals[np.argmax(quality_by_p)])
plt.plot(p_vals, quality_by_p)

Победила манхэттенская метрика.