# 1NN против RandomForest

В этом задании будет использоваться датасет digits из sklearn.datasets. Оставьте последние 25% объектов для контроля качества, разделив X и y на X_train, y_train и X_test, y_test.

Целью задания будет реализовать самый простой метрический классификатор — метод ближайшего соседа, а также сравнить качество работы реализованного вами 1NN с RandomForestClassifier из sklearn на 1000 деревьях.

## Задание 1

Реализуйте самостоятельно метод одного ближайшего соседа с евклидовой метрикой для задачи классификации. Можно не извлекать корень из суммы квадратов отклонений, т.к. корень — монотонное преобразование и не влияет на результат работы алгоритма.

Никакой дополнительной работы с признаками в этом задании делать не нужно — мы еще успеем этим заняться в других курсах. Ваша реализация может быть устроена следующим образом: можно для каждого классифицируемого объекта составлять список пар (расстояние до точки из обучающей выборки, метка класса в этой точке), затем сортировать этот список (по умолчанию сортировка будет сначала по первому элементу пары, затем по второму), а затем брать первый элемент (с наименьшим расстоянием).

Сортировка массива длиной N требует порядка N log N сравнений (строже говоря, она работает за O(N log N)). Подумайте, как можно легко улучшить получившееся время работы. Кроме простого способа найти ближайший объект всего за N сравнений, можно попробовать придумать, как разбить пространство признаков на части и сделать структуру данных, которая позволит быстро искать соседей каждой точки. За выбор метода поиска ближайших соседей в KNeighborsClassifier из sklearn отвечает параметр algorithm — если у вас уже есть некоторый бэкграунд в алгоритмах и структурах данных, вам может быть интересно познакомиться со структурами данных ball tree и kd tree.

Доля ошибок, допускаемых 1NN на тестовой выборке, — ответ в задании 1.

In [1]:
from sklearn import datasets, ensemble
import numpy as np
from matplotlib import pyplot as plt

In [2]:
dataset = datasets.load_digits()
X = dataset['data']
y = dataset['target']

In [3]:
X.shape

(1797, 64)

In [27]:
X_train=X[:-X.shape[0]//4,:]
y_train=y[:-X.shape[0]//4]
X_test=X[-X.shape[0]//4:,:]
y_test=y[-X.shape[0]//4:]


In [5]:
X_train.shape,y_train.shape

((1347, 64), (1347,))

In [28]:
X_test.shape,y_test.shape

((450, 64), (450,))

In [43]:
def kNN(X_value):
    
    evklid_distance=np.sum((X_train-X_value)**2,axis=1)
    new_distance=list(zip(evklid_distance,y_train))
    pred=sorted(new_distance,key=lambda x: x[0])[0][1]
    
    return pred

In [68]:
y_preds=[]
for i in range(y_test.shape[0]):
    y_pred=kNN(X_test[i,:])
    y_preds.append(y_pred)
answer1=sum(y_test!=y_preds)/y_test.shape[0]
print(f'Доля неправильных ответов={answer1}')

Доля неправильных ответов=0.03777777777777778


In [69]:
with open(r'C:\Users\user\Desktop\Coursera\2 курс\5 неделя\1NN_VS_RF\answer1', 'w') as f:
    f.write(str(answer1))
    

## Задание 2

Теперь обучите на обучающей выборке RandomForestClassifier(n_estimators=1000) из sklearn. Сделайте прогнозы на тестовой выборке и оцените долю ошибок классификации на ней. Эта доля — ответ в задании 2. Обратите внимание на то, как соотносится качество работы случайного леса с качеством работы, пожалуй, одного из самых простых методов — 1NN. Такое различие — особенность данного датасета, но нужно всегда помнить, что такая ситуация тоже может иметь место, и не забывать про простые методы.

In [71]:
clf = ensemble.RandomForestClassifier(n_estimators=1000)
clf.fit(X_train, y_train)
y_preds_clf=clf.predict(X_test)

In [72]:
answer2=sum(y_test!=y_preds_clf)/y_test.shape[0]

In [74]:
with open(r'C:\Users\user\Desktop\Coursera\2 курс\5 неделя\1NN_VS_RF\answer2', 'w') as f:
    f.write(str(answer2))

In [73]:
answer2

0.06222222222222222