# 1NN против RandomForest

В этом задании будет использоваться датасет digits из sklearn.datasets. Оставьте последние 25% объектов для контроля качества, разделив X и y на X_train, y_train и X_test, y_test.

Целью задания будет реализовать самый простой метрический классификатор — метод ближайшего соседа, а также сравнить качество работы реализованного вами 1NN с RandomForestClassifier из sklearn на 1000 деревьях.

In [None]:
import numpy as np
import matplotlib.pyplot as plt

%matplotlib inline

In [1]:
from sklearn.datasets import load_digits

digits = load_digits()
X = digits.data
y = digits.target

In [2]:
offset = int(X.shape[0] * 0.75)

X_train = X[:offset]
y_train = y[:offset]

X_test = X[offset:]
y_test = y[offset:]

## Задание 1

Реализуйте самостоятельно метод одного ближайшего соседа с евклидовой метрикой для задачи классификации. Можно не извлекать корень из суммы квадратов отклонений, т.к. корень — монотонное преобразование и не влияет на результат работы алгоритма.

Никакой дополнительной работы с признаками в этом задании делать не нужно — мы еще успеем этим заняться в других курсах. Ваша реализация может быть устроена следующим образом: можно для каждого классифицируемого объекта составлять список пар (расстояние до точки из обучающей выборки, метка класса в этой точке), затем сортировать этот список (по умолчанию сортировка будет сначала по первому элементу пары, затем по второму), а затем брать первый элемент (с наименьшим расстоянием).

Сортировка массива длиной N требует порядка N log N сравнений (строже говоря, она работает за O(N log N)). Подумайте, как можно легко улучшить получившееся время работы. Кроме простого способа найти ближайший объект всего за N сравнений, можно попробовать придумать, как разбить пространство признаков на части и сделать структуру данных, которая позволит быстро искать соседей каждой точки. За выбор метода поиска ближайших соседей в KNeighborsClassifier из sklearn отвечает параметр algorithm — если у вас уже есть некоторый бэкграунд в алгоритмах и структурах данных, вам может быть интересно познакомиться со структурами данных ball tree и kd tree.

Доля ошибок, допускаемых 1NN на тестовой выборке, — ответ в задании 1.

In [3]:
from scipy.spatial.distance import euclidean
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

In [4]:
predicted = []
for x in X_test:
    distances = (euclidean(x, example) for example in X_train)
    neighbors = sorted(((dist, target) for (dist, target) in zip(distances, y_train)), key=lambda x: x[0])
    neighbors_targets = [target for (_, target) in neighbors[:1]]
    predicted.append(neighbors_targets)

In [5]:
def write_answer_1(score):
    with open("1nn_random_forest1.txt", "w") as file_obj:
        file_obj.write(str(score))
        
err_score = 1 - accuracy_score(y_test, predicted)
write_answer_1(err_score)
print err_score

0.0377777777778


In [8]:
clf = KNeighborsClassifier(n_neighbors=1)
clf.fit(X_train, y_train)

err_score = 1 - accuracy_score(y_test, clf.predict(X_test))
print err_score

0.0377777777778


## Задание 2

Теперь обучите на обучающей выборке RandomForestClassifier(n_estimators=1000) из sklearn. Сделайте прогнозы на тестовой выборке и оцените долю ошибок классификации на ней. Эта доля — ответ в задании 2. Обратите внимание на то, как соотносится качество работы случайного леса с качеством работы, пожалуй, одного из самых простых методов — 1NN. Такое различие — особенность данного датасета, но нужно всегда помнить, что такая ситуация тоже может иметь место, и не забывать про простые методы.

In [9]:
from sklearn.ensemble import RandomForestClassifier

def write_answer_2(score):
    with open("1nn_random_forest2.txt", "w") as file_obj:
        file_obj.write(str(score))

clf = RandomForestClassifier(n_estimators=1000)
clf.fit(X_train, y_train)

err_score = 1 - accuracy_score(y_test, clf.predict(X_test))
write_answer_2(err_score)
print err_score

0.0711111111111
