<p style="align: center;">
    <img align=center src="../img/dls_logo.jpg" width=500 height=500>
</p>

<h1 style="text-align: center;">
    Физтех-Школа Прикладной математики и информатики (ФПМИ) МФТИ
</h1>

---

<h1 style="text-align: center;">
    $k$-nearest neighbors ($k$-NN)
</h1>

**На основе [курса по Машинному Обучению ФИВТ МФТИ](https://github.com/ml-mipt/ml-mipt) и [Открытого курса по Машинному Обучению](https://habr.com/ru/company/ods/blog/322626/).**

**Метод $k$-ближайших соседей ($k$-nearest neighbors, или $k$-NN)** — очень популярный метод классификации, также иногда используемый в задачах регрессии. Это один из самых понятных подходов к классификации. На уровне интуиции суть метода такова: посмотри на соседей, какие преобладают, таков и ты. Формально основой метода является гипотеза компактности: если метрика расстояния между примерами введена достаточно удачно, то схожие примеры гораздо чаще лежат в одном классе, чем в разных. 

<img src='../img/ml_basics_knn.png' width=500>


Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции:

* вычислить расстояние до каждого из объектов обучающей выборки

* отобрать объектов обучающей выборки, расстояние до которых минимально

* класс классифицируемого объекта — это класс, наиболее часто встречающийся среди $k$ ближайших соседей

Будем работать с подвыборкой из [данных о типе лесного покрытия из репозитория UCI](http://archive.ics.uci.edu/ml/datasets/Covertype). Доступно $7$ различных классов. Каждый объект описывается $54$ признаками, $40$ из которых являются бинарными. Описание данных доступно по ссылке.

## Обработка данных

In [None]:
import pandas as pd
import numpy as np

In [None]:
all_data = pd.read_csv('data/forest_dataset.csv')
all_data.head()

In [None]:
all_data.shape

Выделим значения метки класса в переменную `labels`, признаковые описания в переменную `feature_matrix`. Так как данные числовые и не имеют пропусков, переведем их в `NumPy` формат с помощью метода `DataFrame.values`:

In [None]:
labels = all_data[all_data.columns[-1]].values
feature_matrix = all_data[all_data.columns[:-1]].values

## Пара слов о `sklearn`

[**sklearn**](https://scikit-learn.org/stable/index.html) - удобная библиотека для знакомства с машинным обучением. В ней реализованы большинство стандартных алгоритмов для построения моделей и работ с выборками. У неё есть подробная документация на английском, с которой вам придётся поработать.

`sklearn` предполагает, что ваши выборки имеют вид пар $(X, y)$, где $X$ - матрица признаков, $y$ - вектор истинных значений целевой переменной, или просто $X$, если целевые переменные неизвестны.

Познакомимся с вспомогательной функцией `train_test_split`. С её помощью можно разбить выборку на тестовую и обучающую части.

In [None]:
from sklearn.model_selection import train_test_split

Вернёмся к датасету. Сейчас будем работать со всеми 7 типами покрытия (данные уже находятся в переменных `feature_matrix` и `labels`, если вы их не переопределили). Разделим выборку на обучающую и тестовую с помощью метода `train_test_split`:

In [None]:
train_feature_matrix, test_feature_matrix, train_labels, test_labels = train_test_split(feature_matrix, labels, test_size=0.2, random_state=42)

Параметр `test_size` контролирует, какая часть выборки будет тестовой. Более подробно о нём можно прочитать в [документации](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

Основные объекты `sklearn` - так называемые `estimators`, что можно перевести как **оценщики**, но не стоит, так как по сути это **модели**. Они делятся на **классификаторы** и **регрессоры**.

В качестве примера модели можно привести классификаторы
[метод ближайших соседей](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) и 
[логистическую регрессию](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html). Что такое логистическая регрессия и как она работает сейчас не важно.

У всех моделей в `sklearn` обязательно должно быть хотя бы 2 метода (подробнее о методах и классах в `Python` будет в следующих занятиях) - `fit` и `predict`.

Метод `fit(X, y)` отвечает за обучение модели и принимает на вход обучающую выборку в виде **матрицы признаков** $X$ и **вектора ответов** $y$.

У обученной после `fit` модели теперь можно вызывать метод `predict(X)`, который вернёт предсказания этой модели на всех объектах из матрицы $X$ в виде вектора.

Вызывать `fit` у одной и той же модели можно несколько раз, каждый раз она будет обучаться заново на переданном наборе данных.

Ещё у моделей есть **гиперпараметры**, которые обычно задаются при создании модели.

Рассмотрим всё это на примере логистической регрессии:

In [None]:
from sklearn.linear_model import LogisticRegression

In [None]:
# создание модели с указанием гиперпараметра C
clf = LogisticRegression(C=1)
# обучение модели
clf.fit(train_feature_matrix, train_labels)
# предсказание на тестовой выборке
y_pred = clf.predict(test_feature_matrix)

Теперь хотелось бы измерить качество нашей модели. Для этого можно использовать метод `score(X, y)`, который посчитает какую-то функцию ошибки на выборке $X, y$, но какую конкретно уже зависит от модели. Также можно использовать одну из функций модуля `metrics`, например, [accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html), которая, как понятно из названия, вычислит нам точность предсказаний:

In [None]:
from sklearn.metrics import accuracy_score

accuracy_score(test_labels, y_pred)

Наконец, последним, о чём хотелось бы упомянуть, будет перебор гиперпараметров по сетке. Так как у моделей есть много гиперпараметров, которые можно изменять, и от этих гиперпараметров существенно зависит качество модели, хотелось бы найти наилучшие в этом смысле параметры. Самый простой способ это сделать - просто перебрать все возможные варианты в разумных пределах.

Сделать это можно с помощью класса [GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html), который осуществляет поиск (search) по сетке (grid) и вычисляет качество модели с помощью кросс-валидации (CV).

У логистической регрессии, например, можно поменять параметры `C` и `penalty`. Сделаем это. Учтите, что поиск может занять долгое время. Смысл параметров смотрите в документации.

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# заново создадим модель, указав солвер
clf = LogisticRegression(solver='saga')

# опишем сетку, по которой будем искать
param_grid = {
    'C': np.arange(1, 5), # также можно указать обычный массив: [1, 2, 3, 4]
    'penalty': ['l1', 'l2'],
}

# создадим объект GridSearchCV
search = GridSearchCV(clf, param_grid, n_jobs=-1, cv=5, refit=True, scoring='accuracy')

# запустим поиск
search.fit(feature_matrix, labels)

# выведем наилучшие параметры
print(search.best_params_)

В данном случае, поиск перебирает все возможные пары значений `C` и `penalty` из заданных множеств.

In [None]:
accuracy_score(labels, search.best_estimator_.predict(feature_matrix))

Заметьте, что мы передаём в `GridSearchCV` всю выборку, а не только её обучающую часть. Это можно делать, так как поиск всё равно использует кроссвалидацию. Однако порой от выборки всё-же отделяют **валидационную** часть, так как гиперпараметры в процессе поиска могли переобучиться под выборку.

В заданиях вам предстоит повторить это для метода ближайших соседей.

## Обучение модели

Качество классификации/регрессии методом ближайших соседей зависит от нескольких параметров:

* число соседей `n_neighbors`

* метрика расстояния между объектами `metric`

* веса соседей (соседи тестового примера могут входить с разными весами, например, чем дальше пример, тем с меньшим коэффициентом учитывается его "голос") `weights`


Обучите на датасете `KNeighborsClassifier` из `sklearn`.

In [None]:
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier()
clf.fit(train_feature_matrix, train_labels)
pred_labels = clf.predict(test_feature_matrix)

---

### Вопрос 1

Какое качество у вас получилось?

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy_score(test_labels, pred_labels)

---

Подберём параметры нашей модели:

* переберите по сетке от $1$ до $10$ параметр числа соседей

* также попробуйте использовать различные метрики: `['manhattan', 'euclidean']`

* попробуйте использовать различные стратегии вычисления весов: `['uniform', 'distance']`

In [None]:
from sklearn.model_selection import GridSearchCV

grid = {
    'n_neighbors': range(1, 11),
    'weights': ['uniform', 'distance'],
    'metric': ['manhattan', 'euclidean'],
}

clf_grid = GridSearchCV(clf, grid, cv=5, scoring='accuracy', n_jobs=-1)
clf_grid.fit(train_feature_matrix, train_labels)

# сохраним лучшие параметры
best_params = clf_grid.best_params_

---

### Вопрос 2

Какую метрику (`metric`) следует использовать?

In [None]:
best_params['metric']

---

### Вопрос 3

Сколько ближайших соседей (`n_neighbors`) следует использовать?

In [None]:
best_params['n_neighbors']

---

### Вопрос 4

Какой функцию весов (`weights`) следует использовать?

In [None]:
best_params['weights']

---

Используя найденное оптимальное число соседей, вычислите вероятности принадлежности к классам для тестовой выборки (метод `predict_proba`).

In [None]:
optimal_clf = KNeighborsClassifier(n_neighbors=best_params['n_neighbors'])
optimal_clf.fit(train_feature_matrix, train_labels)
pred_prob = optimal_clf.predict_proba(test_feature_matrix)

In [None]:
import matplotlib.pyplot as plt

unique, freq = np.unique(test_labels, return_counts=True)
freq = list(map(lambda x: x / len(test_labels),freq))

pred_freq = pred_prob.mean(axis=0)
plt.figure(figsize=(10, 8))
plt.bar(range(1, 8), pred_freq, width=0.4, align="edge", label='prediction')
plt.bar(range(1, 8), freq, width=-0.4, align="edge", label='real')
plt.legend()
plt.show()

---

### Вопрос 5

Какая прогнозируемая вероятность `pred_freq` класса под номером $3$ (до $2$ знаков после запятой)?

In [None]:
round(pred_freq[2], 2)