В этом задании будет использоваться датасет digits из sklearn.datasets. Оставьте последние 25% объектов для контроля качества, разделив X и y на X_train, y_train и X_test, y_test.

Целью задания будет реализовать самый простой метрический классификатор — метод ближайшего соседа, а также сравнить качество работы реализованного вами 1NN с RandomForestClassifier из sklearn на 1000 деревьях.

# Задание 1
Реализуйте самостоятельно метод одного ближайшего соседа с евклидовой метрикой для задачи классификации. Можно не извлекать корень из суммы квадратов отклонений, т.к. корень — монотонное преобразование и не влияет на результат работы алгоритма.

Никакой дополнительной работы с признаками в этом задании делать не нужно — мы еще успеем этим заняться в других курсах. Ваша реализация может быть устроена следующим образом: можно для каждого классифицируемого объекта составлять список пар (расстояние до точки из обучающей выборки, метка класса в этой точке), затем сортировать этот список (по умолчанию сортировка будет сначала по первому элементу пары, затем по второму), а затем брать первый элемент (с наименьшим расстоянием).

Сортировка массива длиной N требует порядка N log N сравнений (более строго говоря, она работает за O(N log N)). Подумайте, как можно легко улучшить получившееся время работы. Кроме простого способа найти ближайший объект всего за N сравнений, можно попробовать придумать, как разбить пространство признаков на части и сделать структуру данных, которая позволит быстро искать соседей каждой точки. За выбор метода поиска ближайших соседей в KNeigborsClassifier из sklearn отвечает параметр algorithm — если у вас уже есть некоторый бэкграунд в алгоритмах и структурах данных, вам может быть интересно познакомиться со структурами данных ball tree и kd tree.

Доля ошибок, допускаемых 1NN на тестовой выборке, — ответ в задании 1.

In [16]:
from sklearn.datasets import load_digits
from sklearn import ensemble, model_selection
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline

digits = load_digits()

In [17]:
def write_answer_to_txt(filename):
    file_name = (filename + '.txt')
    with open(file_name, 'w') as file_out:
        answer = input()
        file_out.write(answer)

In [18]:
print(digits['DESCR'])
X = digits['data']
y = digits['target']

.. _digits_dataset:

Optical recognition of handwritten digits dataset
--------------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 5620
    :Number of Attributes: 64
    :Attribute Information: 8x8 image of integer pixels in the range 0..16.
    :Missing Attribute Values: None
    :Creator: E. Alpaydin (alpaydin '@' boun.edu.tr)
    :Date: July; 1998

This is a copy of the test set of the UCI ML hand-written digits datasets
https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

The data set contains images of hand-written digits: 10 classes where
each class refers to a digit.

Preprocessing programs made available by NIST were used to extract
normalized bitmaps of handwritten digits from a preprinted form. From a
total of 43 people, 30 contributed to the training set and different 13
to the test set. 32x32 bitmaps are divided into nonoverlapping blocks of
4x4 and the number of on pixels are counted in each blo

In [19]:
num_elements = X.shape[0]
index = int(0.25*num_elements)

X_train = X[:-index]
X_test = X[-index:]

y_train = y[:-index]
y_test = y[-index:]

In [20]:
X_train.shape, X_test.shape

((1348, 64), (449, 64))

In [21]:
y_train.shape, y_test.shape

((1348,), (449,))

In [22]:
x = X_test[0, :]
x

array([ 0.,  0., 12., 16., 16.,  5.,  0.,  0.,  0.,  3., 13.,  8., 14.,
       15.,  1.,  0.,  0.,  0.,  0.,  0., 13., 16.,  0.,  0.,  0.,  6.,
       16., 16., 16., 16., 13.,  0.,  0.,  6.,  9., 11., 16.,  9.,  5.,
        0.,  0.,  0.,  0., 14., 11.,  0.,  0.,  0.,  0.,  0.,  7., 16.,
        2.,  0.,  0.,  0.,  0.,  0., 13., 10.,  0.,  0.,  0.,  0.])

In [23]:
def determine_knn(x, X, y):
    distances = ((X - x) ** 2).sum(axis = 1)
    min_d = distances[0]
    min_t = y[0]
    for d, t in zip(distances, y):
        if d < min_d:
            min_d = d
            min_t = t
    return min_t

In [24]:
predictions = []
for i in range(X_test.shape[0]):
    x = X_test[i, :]
    predictions.append(determine_knn(x, X_train, y_train))

In [25]:
predictions = np.array(predictions)

In [26]:
accuracy = float((y_test != predictions).sum())/y_test.shape[0]
accuracy

0.0378619153674833

In [30]:
write_answer_to_txt("1NN_answer_1")

0.0378619153674833


# Задание 2
Теперь обучите на обучающей выборке RandomForestClassifier(n_estimators=1000) из sklearn. Сделайте прогнозы на тестовой выборке и оцените долю ошибок классификации на ней. Эта доля — ответ в задании 2. Обратите внимание на то, как соотносится качество работы случайного леса с качеством работы, пожалуй, одного из самых простых методов — 1NN. Такое различие — особенность данного датасета, но нужно всегда помнить, что такая ситуация тоже может иметь место, и не забывать про простые методы.

In [27]:
clf = ensemble.RandomForestClassifier(n_estimators = 1000)
clf.fit(X_train, y_train)

RandomForestClassifier(n_estimators=1000)

In [28]:
predictions = clf.predict(X_test)

In [29]:
accuracy = float((y_test != predictions).sum())/y_test.shape[0]
accuracy

0.066815144766147

In [31]:
write_answer_to_txt("1NN_answer_2")

0.066815144766147
