# <center>Кросс-валидация, метод ближайших соседей

## <center>kNN - k Nearest Neighbours (метод ближайших соседей)

Это, наравне с деревом решений, один из самых понятных подходов к классификации. На уровне интуиции суть метода такова: посмотри на соседей, какие преобладают, таков и ты. Успех метода будет зависеть от хорошо подобранной метрики (способа измерения расстояния между объектами)

Согласно методу ближайших соседей, тестовый пример (зеленый шарик) будет отнесен к классу "синие", а не "красные".

<img src="./img/kNN.png">

Например, если не знаешь, какой тип товара указать в объявлении для Bluetooth-гарнитуры, можешь найти 5 похожих гарнитур, и если 4 из них отнесены к категории "Аксессуары", и только один - к категории "Техника", то здравый смысл подскажет для своего объявления тоже указать категорию "Аксессуары".

Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции:
 - Вычислить расстояние до каждого из объектов обучающей выборки
 - Отобрать $k$ объектов обучающей выборки, расстояние до которых минимально
 - Класс классифицируемого объекта — это класс, наиболее часто встречающийся среди $k$ ближайших соседей
 
 Примечательное свойство такого подхода  – его ленивость. Это значит, что вычисления начинаются только в момент классификации тестового примера, а заранее, только при  наличии обучающих примеров, никакая модель не строится. В этом отличие, например, от ранее рассмотренного дерева решений, где сначала на основе обучающей выборки строится дерево, а потом относительно быстро происходит классификация тестовых примеров. 
 
Стоит отметить, что метод ближайших соседей – хорошо изученный подход (в машинном обучении, эконометрике и статистике больше известно наверно только про линейную регрессию). Для метода ближайших соседей существует немало важных теорем, утверждающих, что на "бесконечных" выборках это оптимальный метод классификации. Авторы классической книги "The Elements of Statistical Learning" считают kNN теоретически идеальным алгоритмом, применимость которого просто ограничена вычислительными возможностями и проклятием размерностей. 

### Метод ближайших соседей в реальных задачах
- В чистом виде kNN может послужить хорошим стартом (baseline) в решении какой-либо задачи;
- В соревнованиях Kaggle kNN часто используется для построения мета-признаков (прогноз kNN подается на вход прочим моделям) или в стекинге/блендинге;
- Идея ближайшего соседа расширяется и на другие задачи, например, в рекомендательных системах простым начальным решением может быть рекомендация какого-то товара (или услуги), популярного среди *ближайших соседей* человека, которому хотим сделать рекомендацию;
- На практике для больших выборок часто пользуются *приближенными* методами поиска ближайших соседей. [Вот](https://www.youtube.com/watch?v=UUm4MOyVTnE) лекция Артема Бабенко про эффективные алгоритмы поиска ближайших соседей среди миллиардов объектов в пространствах высокой размерности (поиск по картинкам). Также известны открытые библиотеки, в которых реализованы такие алгоритмы, спасибо компании Spotify за ее библиотеку [Annoy](https://github.com/spotify/annoy).

Качество классификации методом ближайших соседей зависит от нескольких параметров:
 - число соседей
 - метрика расстояния между объектами. Отметим, что при использовании большинства метрик значения признаков надо масштабировать. Условно говоря, чтобы признак "Зарплата" с диапазоном значений до 100 тысяч не вносил больший вклад в расстояние, чем "Возраст" со значениями до 100. 
 - веса соседей (соседи тестового примера могут входить с разными весами, например, чем дальше пример, тем с меньшим коэффициентом учитывается его "голос")

 
### Класс KNeighborsClassifier в Scikit-learn
Основные параметры класса sklearn.neighbors.KNeighborsClassifier:
 - weights: "uniform" (все веса равны), "distance" (вес обратно пропорционален расстоянию до тестового примера) или другая определенная пользователем функция
 - algorithm (опционально): "brute", "ball_tree", "KD_tree", или "auto". В первом случае ближайшие соседи для каждого тестового примера считаются перебором обучающей выборки. Во втором и третьем - расстояние между примерами хранятся в дереве, что ускоряет нахождение ближайших соседей. В случае указания параметра "auto" подходящий способ нахождения соседей будет выбран автматически на основе обучающей выборки.
 - leaf_size (опционально): порог переключения на полный перебор в случае выбора BallTree или KDTree для нахождения соседей
 - metric: "minkowski", "manhattan", "euclidean", "chebyshev" и другие

## <center>CrossValidation  (кросс-валидация)

Разобьем термин на составные части: "кросс" и "валидация". Кросс - означает крест-на-крест, а валидация не что иное, как проверка. 

<img src='./img/val_translate.png'>

Получается, что дословно термин можно перевести как "перекрестная проверка" - и это почти правда, только крестов в ней никаких нет. 

*Кросс-валидацию* чаще используют для проверки обобщающих способностей модели (дерева, леса и т.д.) на бедных, малоразмерных выборках: то есть в ситуации, когда размер датасета не позволяет отложить 70% для обучения модели, и 30% для проверки ее работоспособности. Такое случается когда накопить большие датасеты достаточно дорого, или сложно, или невозможно в принципе. Например, если объектами нашего датасета будут являться сверхподъемные самосвалы "Белаз", которые выпускаются штучно, то длина *l* нашего датасета составит всего пару десятков (это первый пример, пришедший в голову, но таких может быть куча). 
<br>
Предположим в вашем датасете всего лишь 300 объектов, если применить *holdout* к такой выборке (отложить какую то долю для проверки обобщающих способностей модели), например в 30%, то 210 объектов для обучения звучит довольно скудно, особенно в сравнении с 300. Если отложить 10%, то 30 объектов довольно мало, чтобы убедиться в работоспособности нашей модели.
<br> 
В таких случаях и помогает *кросс-валидация*. Ее **идея** состоит в том, чтобы, разбивая несколько раз подряд выборку на train и valid, обучить модель несколько раз на "разных" train-ах и накопить значения метрики качества модели на соответствующих valid-ных частях, чтобы потом усреднить их и сделать вывод о том, насколько хорошо настроена наша модель (как хорошо подобраны гипер-параметры).
<br>
<br>
Нагляднее картинкой:
<br>
<img src='./img/10_fold_cv.png'>

Здесь выборку разбили на 10 частей. Сначала модель обучили на №2-№10 частях и вычислили *accuracy* для первой части. После отложили вторую часть, обучили модель на оставшихся и снова вычислили *accuracy* на отложенной части. И так продолжаем до тех пор, пока не получим десять значений *accuracy*. Затем, усреднив все полученный значения точности модели, мы получим финальную *accuracy*, по которой можно судить о обобщающих способностях модели с заданными гипер-параметрами.

### Класс GridSearchCV в Scikit-learn

Основные параметры класса sklearn.model_selection.GridSearchCV
- estimator - модель, реализующая scikit-learn интерфейс
- param_grid - словарь или лист с параметрами, например: 
```python
{'max_depth': range(1,11), 'max_features': range(4,19)}
```
- cv - количество фолдов (разбиений) или генератор кросс-валидации (например StratifiedKFold)
- n_jobs - кол-во ядер, которое будет задействовано для рассчета (передайте -1 для того, чтобы нагрузить все что есть)

#### Пример использования

In [None]:
from sklearn.model_selection import GridSearchCV, StratifiedKFold, train_test_split
from sklearn.tree import DecisionTreeClassifier, export_graphviz
from sklearn.metrics import accuracy_score
import numpy as np
import pandas as pd

In [None]:
df = pd.read_csv('./data/telecom_churn.csv')

# немного подготовим датасет
df['International plan'] = pd.factorize(df['International plan'])[0]
df['Voice mail plan'] = pd.factorize(df['Voice mail plan'])[0]
df['Churn'] = df['Churn'].astype('int')
states = df['State']
y = df['Churn']
df.drop(['State', 'Churn'], axis=1, inplace=True)

In [None]:
df.head()

In [None]:
X_train, X_holdout, y_train, y_holdout = train_test_split(df.values, y, test_size=0.3, random_state=17)

In [None]:
%%time

# дерево, которое "передадим в объект кросс-валидации"
tree = DecisionTreeClassifier()

# генератор кросс-валидации с сохранение процентных соотношений в значениях целевой переменной
skf = StratifiedKFold(n_splits=3, shuffle=True, random_state=17)

# список параметров для перебора
params = {'max_depth': range(2,11), 'max_features': range(4,9)}

gs_tree = GridSearchCV(estimator=tree, param_grid=params, cv=skf, n_jobs=-1)
gs_tree.fit(X=X_train, y=y_train);

In [None]:
gs_tree.best_score_

In [None]:
y_pred = gs_tree.best_estimator_.predict(X_holdout)

In [None]:
accuracy_score(y_pred, y_holdout)

In [None]:
# export_graphviz(gs_tree.best_estimator_, feature_names=df.columns, out_file='./img/churn_tree.dot', filled=True)
# !dot -Tpng ./img/churn_tree.dot -o ./img/churn_tree.png

<img src='./img/churn_tree.png'>

----
<font size=1>Автор: Тимур Фатыхов. <br>
По материалам программиста-исследователя Mail.ru Group, старшего преподавателя Факультета Компьютерных Наук ВШЭ Юрия Кашницкого. 