# Машинное обучение, ФКН ВШЭ

# Практическое задание 11. Поиск ближайших соседей

## Общая информация

Дата выдачи: 05.04.2021

Мягкий дедлайн: 14.04.2021 00:59 MSK

Жёсткий дедлайн: 18.04.2021 00:59 MSK

## Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 6.51 балла.



Сдавать задание после указанного жёсткого срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов (подробнее о плагиате см. на странице курса). Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Неэффективная реализация кода может негативно отразиться на оценке.

## Формат сдачи

Задания сдаются через систему anytask. Посылка должна содержать:

* Ноутбук homework-practice-11-knn-Username.ipynb

Username — ваша фамилия и имя на латинице именно в таком порядке.

In [8]:
# Оформление 
from typing import List, Tuple, Dict, Union, Optional

# Картинки
import matplotlib.pyplot as plt
plt.style.use('ggplot')
%matplotlib inline
%config InlineBackend.figure_format ='retina'

# Фиксируем размер графиков
from matplotlib.pylab import rcParams
rcParams['figure.figsize'] = 10, 8

import matplotlib as mpl
plt.rcParams.update({
    "text.usetex": False,
    "font.family": "DejaVu Sans",
    "font.sans-serif": ["Benton Sans"]})

# Основное
import numpy as np
import pandas as pd
import scipy
from tqdm.notebook import tqdm

# Метрики
from sklearn.metrics import accuracy_score

# Отбор гиперпараметров
from sklearn.model_selection import GridSearchCV

# Модели 
from sklearn.neighbors import KNeighborsClassifier
from mlxtend.plotting import plot_decision_regions

Возьмем [датасет](https://www.kaggle.com/delayedkarma/impressionist-classifier-data)  с картинами известных импрессионистов. Работать будем не с самими картинками, а с эмбеддингами картинок, полученных с помощью сверточного классификатора.

![](https://storage.googleapis.com/kagglesdsdata/datasets/568245/1031162/training/training/Gauguin/190448.jpg?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=databundle-worker-v2%40kaggle-161607.iam.gserviceaccount.com%2F20210405%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210405T125358Z&X-Goog-Expires=172799&X-Goog-SignedHeaders=host&X-Goog-Signature=a271b474bf9ec20ba159b951e0ae680fc2b0c694666031f7ea6fc39598172cc55e10f75c12b678b21da9e6bdc20e46886133c219625648b407d2f600eebfdda909b29e0f7f13276d8fea2f8d0480d6298bd98e7f118eb78e8b632fc3d141365356b0e3a2fdd4f09119f99f0907a31da62e8dae7e625e32d831238ecc227b1f5ad2e96a8bfb43d93ef6fe88d7e663e51d387d3550dcad2a7eefc5c941028ba0d7751d18690cf2e26fcdfaa4dacd3dcbb3a4cbb355e62c08b158007b5e764e468cecd3292dae4cfc408e848ecf3e0e5dbe5faa76fcdd77d5370c868583c06e4e3d40c73a7435bd8c32a9803fe6b536e1c6f0791219aadd06120291e937e57c214a)

In [2]:
X_train = np.load('embeddings/embeds_avpool_train.npy')
y_train = np.load('embeddings/labels_avpool_train.npy')
X_test = np.load('embeddings/embeds_avpool_test.npy')
y_test = np.load('embeddings/labels_avpool_test.npy')

Будем смотреть на обычную долю верных ответов и на долю верных ответов в топ-3.

In [5]:
def top_3_accuracy_score(y_true, probas):
    preds = np.argsort(probas, axis=1)[:, -3:]
    matches = np.zeros_like(y_true)
    for i in range(3):
        matches += (preds[:, i] == y_true)
    return matches.sum() / matches.size

def scorer(estimator, X, y):
    return accuracy_score(y, estimator.predict(X))

**Задание 1. (1 балл)**

Обучите классификатор k ближайших соседей (из sklearn) на данных, подобрав лучшие гиперпараметры. Замерьте качество на обучающей и тестовой выборках.

In [9]:
knn_clf = KNeighborsClassifier()

In [12]:
knn_clf.fit(X_train, y_train)

KNeighborsClassifier()

In [13]:
y_pred = knn_clf.predict(X_test)

In [15]:
scorer(knn_clf, X_test, y_test)

0.5131313131313131

In [17]:
np.arange(1, 20)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19])

In [None]:
GridSearchCV()

In [19]:
grid_searcher = GridSearchCV(KNeighborsClassifier(),
                             param_grid={'n_neighbors': np.arange(1, 21),
                                         'metric': ['euclidean', 'manhattan', 'chebyshev']},
                             cv=5,
                                 )
grid_searcher.fit(X_train, y_train)
grid_searcher.best_params_

KeyboardInterrupt: 

**Задание 2. (2 балла)** 

Теперь будем пользоваться метрикой Махалонобиса. Обучите её одним из методов [отсюда](http://contrib.scikit-learn.org/metric-learn/supervised.html). Напомним, что вычисление метрики Махалонобиса эквивалентно вычислению евклидова расстояния между объектами, к которым применено некоторое линейное преобразование (вспомните семинары). Преобразуйте данные и обучите kNN на них, перебрав гиперпараметры, замерьте качество.

Заметим, что в библиотеке metric-learn есть несколько способов обучать матрицу преобразования. Выберите лучший, аргументируйте свой выбор.

Note: Некоторые методы с дефолтными параметрами учатся очень долго, будьте внимательны


In [None]:
# ⊂(￣▽￣)⊃

**Задание 3. (1 балл)** 

Что будет, если в качестве матрицы в расстоянии Махалонобиса использовать случайную матрицу? Матрицу ковариаций?

In [None]:
# (•)(•)ԅ(≖‿≖ԅ)

**Задание 4. (1 балл)** Обучите какой-нибудь градиентный бустинг на обычных и трансформированных наборах данных, замерьте качество, задумайтесь о целесообразности других методов.

In [None]:
# C=C=C=C=C=┌(;・ω・)┘

**Бонус. (1 балл)**

Достигните доли верных ответов 0.75 на тестовой выборке, не используя нейросети.

In [None]:
# ( ・・)つ―{}@{}@{}-

**Бонус. (0.5 балла)**

Если вам понравилось это задание и вы хотите приобщиться к искусству, настоятельно рекомендуем отвлечься от учебы, найти себе компанию и сходить в [Пушкинский музей](https://pushkinmuseum.art/visitors/index.php?lang=ru), в которым традиционно выставляются картины известных импрессионистов 20-го века. В данный момент там проходит временная экспозиция "[Не живопись.](https://pushkinmuseum.art/events/archive/2021/exhibitions/gallery/index.php)", где выставлены работы импрессионистов на керамике и текстиле.

Если компания не находится, а одному идти совсем не хочется, можно обратиться за помощью к ассистентам или преподавателям, это станет отличным поводом наладить контакт с ними.

В качестве ответа на задание необходимо прислать фотоотчет, на котором видно, что вы посетили это замечательное место после выдачи ДЗ.

**Бонус. (0.01 балла)**

Предложите самый лучший каомодзи и объясните свой выбор