# Метод k-ближайших соседей

Для начала стоит загрузить данные и посмотреть на них. Первым делом нужно установить себе пакеты `matplotlib` и `sklearn`. Это можно сделать выполнив в терминале `python -m pip install --user matplotlib scikit-learn` или запустить ячейку ниже. Восклицательный знак в начале следующей ячейки вызывает системную оболочку и передает команду ей, что в принипе эквивалентно написанию этой команды в терминале.

*Подсказка: чтобы не смотреть на простыни установочных логов, можно выделить ячейку, а потом вызвать в меню `Ячейка -> Текущий вывод -> Очистка`.*

In [None]:
!python -m pip install --user matplotlib scikit-learn

После установки `sklearn` импортируем из него нужные нам функции:

In [None]:
import matplotlib.pyplot as plt

from sklearn import datasets, neighbors, metrics
from sklearn.model_selection import train_test_split

Датасет с рукописными цифрами в sklearn состоит из картинок размером 8x8 пикселей. Атрибут `images` датасета содержит массивы размером 8x8, где каждый такой массив представляет собой картинку в оттенках серого. Воспользуемся этими массивами для визуализации первых четырех картинок. Атрибут `target` содержит метку для каждого изображения. Выведем ее тоже.

In [None]:
digits = datasets.load_digits()

_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, label in zip(axes, digits.images, digits.target):
    ax.set_axis_off()
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title("Training: %i" % label)

# Классификация

Для того, чтобы классификатор работал на наших данных, нам необходимо "расплющить" (flatten) изображения, преобразовав каждую двумерную картинку в плоский вектор из размера `(8, 8)` в размер `(64,)`. После нам необходимо разбить данные на тренировочную и тестовую выборки, после чего обучить классификатор на тренировочной части, а потом предсказать метки на тестовой.

In [None]:
# Вытянем матрицу каждого изображения в вектор
n_samples = len(digits.images)
data = digits.images.reshape((n_samples, -1))

# Создадим объект kNN классификатора
clf = neighbors.KNeighborsClassifier()

# Разобьем данные на две части.
X_train, X_test, y_train, y_test = train_test_split(
    data,
    digits.target,
    test_size=0.5,
    shuffle=False,
)

# Обучим классификатор на тренировочной выборке
clf.fit(X_train, y_train)

# Предскажем метки для тестовой выборки
y_pred = clf.predict(X_test)

Ниже визуализируем первые четыре изображения из тестовой выборки и покажем предсказанные метки для каждого.

In [None]:
_, axes = plt.subplots(nrows=1, ncols=4, figsize=(10, 3))
for ax, image, prediction in zip(axes, X_test, y_pred):
    ax.set_axis_off()
    image = image.reshape(8, 8)
    ax.imshow(image, cmap=plt.cm.gray_r, interpolation="nearest")
    ax.set_title(f"Prediction: {prediction}")

classification_report builds a text report showing the main classification metrics.

In [None]:
print(
    f"Classification report {clf}:\n"
    f"{metrics.classification_report(y_test, predicted)}\n"
)

In [None]:
cm = metrics.confusion_matrix(y_test, y_pred, labels=clf.classes_)
disp = metrics.ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=clf.classes_)
disp.plot()