In [75]:
import numpy as np
import pandas as pd

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.ensemble import RandomForestClassifier

In [76]:
data = datasets.load_digits()

In [77]:
X = data.data
y = data.target

In [78]:
X.shape, y.shape

((1797, 64), (1797,))

In [79]:
X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.25, shuffle=False)

### Задание 1

Реализуйте самостоятельно метод одного ближайшего соседа с евклидовой метрикой для задачи классификации. Можно не извлекать корень из суммы квадратов отклонений, т.к. корень — монотонное преобразование и не влияет на результат работы алгоритма.

Никакой дополнительной работы с признаками в этом задании делать не нужно — мы еще успеем этим заняться в других курсах. Ваша реализация может быть устроена следующим образом: можно для каждого классифицируемого объекта составлять список пар (расстояние до точки из обучающей выборки, метка класса в этой точке), затем сортировать этот список (по умолчанию сортировка будет сначала по первому элементу пары, затем по второму), а затем брать первый элемент (с наименьшим расстоянием).

Сортировка массива длиной $N$ требует порядка $N log N$ сравнений (строже говоря, она работает за $O(N log N))$. Подумайте, как можно легко улучшить получившееся время работы. Кроме простого способа найти ближайший объект всего за N сравнений, можно попробовать придумать, как разбить пространство признаков на части и сделать структуру данных, которая позволит быстро искать соседей каждой точки. За выбор метода поиска ближайших соседей в `KNeighborsClassifier` из `sklearn` отвечает параметр algorithm — если у вас уже есть некоторый бэкграунд в алгоритмах и структурах данных, вам может быть интересно познакомиться со структурами данных ball tree и kd tree.

Доля ошибок, допускаемых 1NN на тестовой выборке, — ответ в задании 1.

In [80]:
def nearest_neighbour(X_train, X_valid, y_train):
    
    y_pred = []
    
    for i in range(X_valid.shape[0]):
        dist = (X_train - X_valid[i])**2
        dist_sum = np.sum(dist, axis=1)
        min_idx = dist_sum.argmin()
        y_pred.append(y_train[min_idx])
    
    return y_pred

In [81]:
y_pred = nearest_neighbour(X_train, X_valid, y_train)

In [82]:
error = 1 - accuracy_score(y_valid, y_pred)
print(error)

0.0377777777777778


In [83]:
with open('ans1.txt', 'w') as file:
    file.write(str(error))

### Задание 2

Теперь обучите на обучающей выборке `RandomForestClassifier(n_estimators=1000)` из `sklearn`. Сделайте прогнозы на тестовой выборке и оцените долю ошибок классификации на ней. Эта доля — ответ в задании 2. Обратите внимание на то, как соотносится качество работы случайного леса с качеством работы, пожалуй, одного из самых простых методов — 1NN. Такое различие — особенность данного датасета, но нужно всегда помнить, что такая ситуация тоже может иметь место, и не забывать про простые методы.

In [85]:
rf = RandomForestClassifier(n_estimators=1000)
rf.fit(X_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=None, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=1000, n_jobs=1,
            oob_score=False, random_state=None, verbose=0,
            warm_start=False)

In [86]:
y_pred = rf.predict(X_valid)

In [87]:
error = 1 - accuracy_score(y_valid, y_pred)
print(error)

0.06444444444444442


In [88]:
with open('ans2.txt', 'w') as file:
    file.write(str(error))