# Сравнение качества классификации с помощью метрического алгоритма ближайшего соседа и с помощью случайного леса

In [1]:
import numpy as np
from sklearn import tree, ensemble, datasets, model_selection, metrics

In [2]:
digits=datasets.load_digits()

Разделим данные на обучающую и тестовую выборки:

In [31]:
X_train, X_test, y_train, y_test=model_selection.train_test_split(digits.data, digits.target, test_size=0.25, shuffle=False)

Реализуем метод классификации на основе алгоритма поиска ближайшего соседа. В качестве метрики будем использовать евклидово расстояние.

In [10]:
def euclidean_distance(obj1, obj2):
    return np.sum((obj1-obj2)**2)

In [32]:
def nearest_neighbor(x_test, x_train, y_train):
    predictions=[]
    for obj in x_test:
        distances={euclidean_distance(obj,x_train[i]):y_train[i] for i in range(len(x_train))}
        nearest_neighbor=sorted(distances.items())[0]
        predictions.append(nearest_neighbor[1])
    return np.array(predictions)

In [33]:
%%time
predictions_1nn=nearest_neighbor(X_test,X_train,y_train)

Wall time: 5.5 s


Посмотрим долю правильных ответов среди предсказаний, построенных таким классификатором:

In [46]:
accuracy_1nn=metrics.accuracy_score(predictions_1nn, y_test)
print(accuracy_1nn)

0.9622222222222222


Немного изменим функцию поиска ближайшего соседа для уменьшения времени работы.

In [37]:
def nearest_neighbor(x_test, x_train, y_train):
    predictions=[]
    for obj in x_test:
        distances={euclidean_distance(obj,x_train[i]):y_train[i] for i in range(len(x_train))}
        nearest_neighbor=min(distances.items())[1]
        predictions.append(nearest_neighbor)
    return np.array(predictions)

In [38]:
%%time
predictions_1nn=nearest_neighbor(X_test,X_train,y_train)

Wall time: 4.73 s


In [39]:
accuracy_1nn=metrics.accuracy_score(predictions_1nn, y_test)
print(accuracy_1nn)

0.9622222222222222


Теперь для классификации будем использовать алгоритм случайного леса.

In [40]:
rf_clf=ensemble.RandomForestClassifier(n_estimators=100)

In [41]:
rf_clf.fit(X_train, y_train)

RandomForestClassifier()

In [42]:
predictions_rf_clf=rf_clf.predict(X_test)

In [45]:
accuracy_rf_clf=metrics.accuracy_score(predictions_rf_clf, y_test)
print(accuracy_rf_clf)

0.9355555555555556
