# Задание по программированию: 1NN против RandomForest

В этом задании будет использоваться датасет digits из sklearn.datasets. Оставьте последние 25% объектов для контроля качества, разделив X и y на X_train, y_train и X_test, y_test.

Целью задания будет реализовать самый простой метрический классификатор — метод ближайшего соседа, а также сравнить качество работы реализованного вами 1NN с RandomForestClassifier из sklearn на 1000 деревьях.

In [20]:
import numpy as np
from sklearn import datasets
import matplotlib.pyplot as plt
%matplotlib inline

digits = datasets.load_digits()
data = digits.data
target = digits.target

In [21]:
n = target.shape[0]
ind = round(n * 0.75)

X_train = data[:ind, :]
X_test = data[ind:, :]
y_train = target[:ind]
y_test = target[ind:]

### Задание 1

Реализуйте самостоятельно метод одного ближайшего соседа с евклидовой метрикой для задачи классификации. Можно не извлекать корень из суммы квадратов отклонений, т.к. корень — монотонное преобразование и не влияет на результат работы алгоритма.

Никакой дополнительной работы с признаками в этом задании делать не нужно — мы еще успеем этим заняться в других курсах. Ваша реализация может быть устроена следующим образом: можно для каждого классифицируемого объекта составлять список пар (расстояние до точки из обучающей выборки, метка класса в этой точке), затем сортировать этот список (по умолчанию сортировка будет сначала по первому элементу пары, затем по второму), а затем брать первый элемент (с наименьшим расстоянием).

Сортировка массива длиной N требует порядка N log N сравнений (строже говоря, она работает за O(N log N)). Подумайте, как можно легко улучшить получившееся время работы. Кроме простого способа найти ближайший объект всего за N сравнений, можно попробовать придумать, как разбить пространство признаков на части и сделать структуру данных, которая позволит быстро искать соседей каждой точки. За выбор метода поиска ближайших соседей в KNeighborsClassifier из sklearn отвечает параметр algorithm — если у вас уже есть некоторый бэкграунд в алгоритмах и структурах данных, вам может быть интересно познакомиться со структурами данных ball tree и kd tree.

Доля ошибок, допускаемых 1NN на тестовой выборке, — ответ в задании 1.

In [22]:
from operator import itemgetter
from sklearn.metrics import accuracy_score

def euclid(x, y):
    return np.sqrt(np.sum((x - y)**2))

knn_predictions = []

for test in X_test:
    distance = []
    for index, train in enumerate(X_train):
        distance.append((euclid(test, train), y_train[index]))
    sorted_distance = sorted(distance, key=itemgetter(0), reverse=False)
    knn_predictions.append(sorted_distance[0][1])
    del(distance)

knn_error = 1 - accuracy_score(y_test, knn_predictions)
knn_error

0.03786191536748329

In [23]:
with open('C2W5T3_answer1.txt', 'w') as fout:
    fout.write(str(knn_error))
    print('Done')

Done


### Задание 2

Теперь обучите на обучающей выборке RandomForestClassifier(n_estimators=1000) из sklearn. Сделайте прогнозы на тестовой выборке и оцените долю ошибок классификации на ней. Эта доля — ответ в задании 2. Обратите внимание на то, как соотносится качество работы случайного леса с качеством работы, пожалуй, одного из самых простых методов — 1NN. Такое различие — особенность данного датасета, но нужно всегда помнить, что такая ситуация тоже может иметь место, и не забывать про простые методы.

In [24]:
from sklearn.ensemble import RandomForestClassifier

estimator = RandomForestClassifier(n_estimators=1000)
estimator.fit(X_train, y_train)
rf_predictions = estimator.predict(X_test)
rf_error = 1 - accuracy_score(y_test, rf_predictions)
rf_error

0.07126948775055675

In [25]:
with open('C2W5T3_answer2.txt', 'w') as fout:
    fout.write(str(rf_error))
    print('Done')

Done
