# **Классификация типов лесного покрытия с помощью KNN** <h2 style="text-align: center;"><b>K Nearest Neighbors (KNN)</b></h2>

Метод ближайших соседей (k Nearest Neighbors, или kNN) — очень популярный метод классификации, также иногда используемый в задачах регрессии. Это один из самых понятных подходов к классификации. На уровне интуиции суть метода такова: посмотри на соседей; какие преобладают --- таков и ты. Формально основой метода является гипотеза компактности: если метрика расстояния между примерами введена достаточно удачно, то схожие примеры гораздо чаще лежат в одном классе, чем в разных. 

<img src='https://hsto.org/web/68d/a45/6f0/68da456f00f8434e87628dbe7e3f54a7.png' width=600>


Для классификации каждого из объектов тестовой выборки необходимо последовательно выполнить следующие операции:

* Вычислить расстояние до каждого из объектов обучающей выборки
* Отобрать объектов обучающей выборки, расстояние до которых минимально
* Класс классифицируемого объекта — это класс, наиболее часто встречающийся среди $k$ ближайших соседей

Будем работать с подвыборкой из [данных о типе лесного покрытия из репозитория UCI](http://archive.ics.uci.edu/ml/datasets/Covertype), [датасет на Kaggle](https://www.kaggle.com/uciml/forest-cover-type-dataset). Доступно 7 различных классов. Каждый объект описывается 54 признаками, 40 из которых являются бинарными. Описание данных доступно по ссылке.

### Обработка данных

In [33]:
import pandas as pd
import numpy as np
import random

random.seed(42)
np.random.seed(42)

In [34]:
!pwd

/content


In [35]:
import os
import pathlib

print(os.getcwd())

/content


In [36]:
!wget -q -O '0 - Forest cover type Data Set.csv' https://www.dropbox.com/s/vybiuw8et90j80n/0%20-%20Forest%20cover%20type%20Data%20Set.csv

In [37]:
all_data = pd.read_csv('0 - Forest cover type Data Set.csv')
all_data.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,45,46,47,48,49,50,51,52,53,54
0,2683,333,35,30,26,2743,121,173,179,6572,...,0,0,0,0,0,0,0,0,0,2
1,2915,90,8,216,11,4433,232,228,129,4019,...,0,0,0,0,0,0,0,0,0,1
2,2941,162,7,698,76,2783,227,242,148,1784,...,0,0,0,0,0,0,0,0,0,2
3,3096,60,17,170,3,3303,231,202,99,5370,...,0,0,0,0,0,0,0,0,0,1
4,2999,66,8,488,37,1532,228,225,131,2290,...,0,0,0,0,0,0,0,0,0,2


In [38]:
all_data.shape

(10000, 55)

In [39]:
set(all_data['54'].values)

{1, 2, 3, 4, 5, 6, 7}

In [40]:
all_data['54'].unique()

array([2, 1, 7, 3, 6, 5, 4])

In [41]:
type(all_data['54'].unique())

numpy.ndarray

In [42]:
type(all_data['54'])

pandas.core.series.Series

Выделим значения метки класса в переменную `labels`, признаковые описания --- в переменную `feature_matrix`. Так как данные числовые и не имеют пропусков, переведем их в `numpy`-формат с помощью метода `.values`.

In [43]:
all_data.columns[-1]

'54'

In [44]:
all_data.columns[-1]

'54'

In [45]:
labels = all_data[all_data.columns[-1]].values
feature_matrix = all_data[all_data.columns[0:-1]].values

In [46]:
labels

array([2, 1, 2, ..., 2, 2, 2])

In [47]:
feature_matrix

array([[2683,  333,   35, ...,    0,    0,    0],
       [2915,   90,    8, ...,    0,    0,    0],
       [2941,  162,    7, ...,    0,    0,    0],
       ...,
       [2693,   21,   11, ...,    0,    0,    0],
       [2536,   42,   11, ...,    0,    0,    0],
       [3109,  261,   10, ...,    0,    0,    0]])

In [48]:
feature_matrix.sum()

83658252

In [49]:
len(labels)

10000

## Выполним предобработику данных - стандартизацию

In [50]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(feature_matrix)
print(scaler.mean_, scaler.scale_)

X_scaled = scaler.transform(feature_matrix)

[2.9606459e+03 1.5412760e+02 1.3981200e+01 2.6950280e+02 4.5596800e+01
 2.3588054e+03 2.1238220e+02 2.2388600e+02 1.4289230e+02 1.9820050e+03
 4.4060000e-01 5.1100000e-02 4.4540000e-01 6.2900000e-02 5.1000000e-03
 1.4500000e-02 9.4000000e-03 2.1500000e-02 2.5000000e-03 1.0300000e-02
 2.0000000e-04 6.0000000e-04 2.6000000e-03 5.7800000e-02 1.9800000e-02
 5.0900000e-02 3.2500000e-02 9.0000000e-04 0.0000000e+00 3.6000000e-03
 5.0000000e-03 3.2000000e-03 7.6000000e-03 1.4600000e-02 1.6000000e-03
 5.6700000e-02 1.0410000e-01 3.6900000e-02 8.0000000e-04 5.0000000e-03
 1.1000000e-03 1.3000000e-03 1.9440000e-01 5.3800000e-02 4.7800000e-02
 9.2300000e-02 7.8300000e-02 2.0000000e-03 2.9000000e-03 3.0000000e-04
 5.0000000e-04 2.4000000e-02 2.1300000e-02 1.2300000e-02] [2.76088094e+02 1.11106488e+02 7.44275799e+00 2.14730872e+02
 5.76044827e+01 1.56473596e+03 2.65593472e+01 1.94424228e+01
 3.74583088e+01 1.30761998e+03 4.96459102e-01 2.20201703e-01
 4.97009899e-01 2.42783010e-01 7.12319451e-02 1.1

Вернёмся к датасету. Сейчас будем работать со всеми 7 типами покрытия (данные уже находятся в переменных `feature_matrix` и `labels`, если Вы их не переопределили). Разделим выборку на обучающую и тестовую с помощью метода `train_test_split`.

In [51]:
# Разделим данные на обучающие и тестовые
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X_scaled, 
                                                    labels, 
                                                    test_size=0.2, 
                                                    random_state=42)

y_train.shape, y_test.shape, X_train.shape, X_test.shape

((8000,), (2000,), (8000, 54), (2000, 54))

Параметр `test_size` контролирует, какая часть выборки будет тестовой. Более подробно о нём можно прочитать в [документации](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html).

Основные объекты `sklearn` -- так называемые `estimators`, что можно перевести как *оценщики*, но не стоит, так как по сути это *модели*. Они делятся на **классификаторы** и **регрессоры**.

В качестве примера модели можно привести классификаторы
[метод ближайших соседей](https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html) и 
[логистическую регрессию](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html).

У всех моделей в `sklearn` обязательно должно быть хотя бы 2 метода (подробнее о методах и классах в python будет в следующих занятиях) -- `fit` и `predict`.

Метод `fit(X, y)` отвечает за обучение модели и принимает на вход обучающую выборку в виде *матрицы признаков* $X$ и *вектора ответов* $y$.

У обученной после `fit` модели теперь можно вызывать метод `predict(X)`, который вернёт предсказания этой модели на всех объектах из матрицы $X$ в виде вектора.

Вызывать `fit` у одной и той же модели можно несколько раз, каждый раз она будет обучаться заново на переданном наборе данных.

Ещё у моделей есть *гиперпараметры*, которые обычно задаются при создании модели.

[GridSearchCV](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html) осуществляет поиск (search) по сетке (grid) и вычисляет качество модели с помощью кросс-валидации (CV).

У логистической регрессии, например, можно поменять параметры `C` и `penalty`. Сделаем это. Учтите, что поиск может занять долгое время. Смысл параметров смотрите в документации.

In [52]:
from sklearn.model_selection import GridSearchCV

### Обучение модели

Качество классификации/регрессии методом ближайших соседей зависит от нескольких параметров:

* число соседей `n_neighbors`
* метрика расстояния между объектами `metric`
* веса соседей (соседи тестового примера могут входить с разными весами, например, чем дальше пример, тем с меньшим коэффициентом учитывается его "голос") `weights`


Обучите на датасете `KNeighborsClassifier` из `sklearn`.

In [53]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# создание модели
clf = KNeighborsClassifier(n_neighbors=7)
# обучение модели
clf.fit(feature_matrix, labels)

# предсказание на тестовой выборке
predicted_y = clf.predict(X_test)

Теперь хотелось бы измерить качество нашей модели. Для этого можно использовать метод `score(X, y)`, который посчитает какую-то функцию ошибки на выборке $X, y$, но какую конкретно уже зависит от модели. Также можно использовать одну из функций модуля `metrics`, например [accuracy_score](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.accuracy_score.html), которая, как понятно из названия, вычислит нам точность предсказаний.

In [54]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report

# Посчитайте точность для лучшей модели, полученной в GridSearch
print(f"Accuracy: {round(accuracy_score(predicted_y, y_test)*100, 2)} %")
print(classification_report(y_test, predicted_y, zero_division=0));

Accuracy: 5.55 %
              precision    recall  f1-score   support

           1       0.00      0.00      0.00       736
           2       0.00      0.00      0.00       973
           3       0.06      1.00      0.11       111
           4       0.00      0.00      0.00        11
           5       0.00      0.00      0.00        33
           6       0.00      0.00      0.00        56
           7       0.00      0.00      0.00        80

    accuracy                           0.06      2000
   macro avg       0.01      0.14      0.02      2000
weighted avg       0.00      0.06      0.01      2000



Подберём параметры нашей модели

* Переберем е по сетке от `1` до `10` параметр числа соседей

* Также вы попробуем использоввать различные метрики: `['manhattan', 'euclidean']`

* Попробуем использовать различные стратегии вычисления весов: `[‘uniform’, ‘distance’]`

In [55]:
from sklearn.model_selection import GridSearchCV

clf = KNeighborsClassifier()

params = {
    'n_neighbors': list(range(1, 10)),      # ваш_код, # также можно указать обычный массив, [1, 2, 3, 4]
    'metric': ['manhattan', 'euclidean', 'minkowski'], # ваш_код,
    'weights': ['uniform', 'distance']    # ваш_код,
}

# Запустим обучение
clf_grid = GridSearchCV(clf, 
                        params, 
                        n_jobs=-1, 
                        cv=5, 
                        refit=True, 
                        scoring='accuracy')
# Теперь обучение. Ваш код здесь
clf_grid.fit(feature_matrix, labels)

# выведем наилучшие параметры
print(clf_grid.best_estimator_)

KNeighborsClassifier(metric='manhattan', n_neighbors=4, weights='distance')


In [56]:
predicted_labels = clf_grid.best_estimator_.predict(X_test)

In [57]:
# Посчитаем точность для лучшей модели, полученной в GridSearch
print(f"Accuracy: {round(accuracy_score(predicted_labels, y_test)*100, 2)} %")
print(classification_report(y_test, predicted_labels, zero_division=0));

Accuracy: 5.55 %
              precision    recall  f1-score   support

           1       0.00      0.00      0.00       736
           2       0.00      0.00      0.00       973
           3       0.06      1.00      0.11       111
           4       0.00      0.00      0.00        11
           5       0.00      0.00      0.00        33
           6       0.00      0.00      0.00        56
           7       0.00      0.00      0.00        80

    accuracy                           0.06      2000
   macro avg       0.01      0.14      0.02      2000
weighted avg       0.00      0.06      0.01      2000



Выведем лучшие параметры

In [58]:
# Выведите лучшие параметры clf_grid через свойство best_params_
clf_grid.best_params_

{'metric': 'manhattan', 'n_neighbors': 4, 'weights': 'distance'}