# Машинное обучение, ФКН ВШЭ

# Практическое задание 12. Поиск ближайших соседей

## Общая информация

Дата выдачи: 08.05.2024

**Мягкий дедлайн: 26.05.2024 23:59 MSK**

**Жёсткий дедлайн: 30.05.2024 23:59 MSK**

## Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 7 баллов.


Сдавать задание после указанного жёсткого срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов (подробнее о плагиате см. на странице курса). Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Неэффективная реализация кода может негативно отразиться на оценке.

## Формат сдачи

Задания сдаются через систему anytask. Посылка должна содержать:

* Ноутбук homework-practice-12-knn-Username.ipynb

Username — ваша фамилия и имя на латинице именно в таком порядке.

In [2]:
import matplotlib.pyplot as plt
import numpy as np
import os
import random

from tqdm.notebook import tqdm

Возьмем [датасет](https://www.kaggle.com/delayedkarma/impressionist-classifier-data)  с картинами известных импрессионистов. Работать будем не с самими картинками, а с эмбеддингами картинок, полученных с помощью сверточного классификатора.

![](https://storage.googleapis.com/kagglesdsdata/datasets/568245/1031162/training/training/Gauguin/190448.jpg?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=databundle-worker-v2%40kaggle-161607.iam.gserviceaccount.com%2F20210405%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210405T125358Z&X-Goog-Expires=172799&X-Goog-SignedHeaders=host&X-Goog-Signature=a271b474bf9ec20ba159b951e0ae680fc2b0c694666031f7ea6fc39598172cc55e10f75c12b678b21da9e6bdc20e46886133c219625648b407d2f600eebfdda909b29e0f7f13276d8fea2f8d0480d6298bd98e7f118eb78e8b632fc3d141365356b0e3a2fdd4f09119f99f0907a31da62e8dae7e625e32d831238ecc227b1f5ad2e96a8bfb43d93ef6fe88d7e663e51d387d3550dcad2a7eefc5c941028ba0d7751d18690cf2e26fcdfaa4dacd3dcbb3a4cbb355e62c08b158007b5e764e468cecd3292dae4cfc408e848ecf3e0e5dbe5faa76fcdd77d5370c868583c06e4e3d40c73a7435bd8c32a9803fe6b536e1c6f0791219aadd06120291e937e57c214a)

In [3]:
#%%bash

#!mkdir embeddings
#GIT = "https://github.com/esokolov/ml-course-hse/raw/master/2022-spring/homeworks-practice/homework-practice-11-metric-learning/embeddings"
#wget -P ./embeddings $GIT/embeds_train.npy
#wget -P ./embeddings $GIT/embeds_test.npy
#wget -P ./embeddings $GIT/labels_train.npy
#wget -P ./embeddings $GIT/labels_test.npy

In [4]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [5]:
X_train = np.load('embeds_train.npy')
y_train = np.load('labels_train.npy')
X_test = np.load('embeds_test.npy')
y_test = np.load('labels_test.npy')

Будем смотреть на обычную долю верных ответов и на долю верных ответов в топ-3.

In [6]:
def top_3_accuracy_score(y_true, probas):
    preds = np.argsort(probas, axis=1)[:, -3:]
    matches = np.zeros_like(y_true)
    for i in range(3):
        matches += (preds[:, i] == y_true)
    return matches.sum() / matches.size

def scorer(estimator, X, y):
    return accuracy_score(y, estimator.predict(X))

**Задание 1. (1 балл)**

Обучите классификатор k ближайших соседей (из sklearn) на данных, подобрав лучшие гиперпараметры. Замерьте качество на обучающей и тестовой выборках.

In [7]:
#  (*・ω・)ﾉ
model = KNeighborsClassifier(n_jobs = -1)
param_grid = {'n_neighbors': np.arange(1, 50, 10, dtype=int), 
              'weights': np.array(['uniform', 'distance']), 
              'leaf_size': np.arange(25, 100, 25), 'p': np.arange(1, 2, dtype=int)}
search = GridSearchCV(model, param_grid, scoring = scorer)
search.fit(X_train, y_train)
best_params = search.best_params_
best_score = search.best_score_
best_knn = search.best_estimator_


In [8]:
print(f'Best params: {best_params}') 
print(f'Model best score: {best_score}')
print(f'Train accuracy {scorer(best_knn, X_train, y_train)}; top3: {top_3_accuracy_score(y_train, best_knn.predict_proba(X_train))}')
print(f'Test accuracy {scorer(best_knn, X_test, y_test)}; top3: {top_3_accuracy_score(y_test, best_knn.predict_proba(X_test))}')

Best params: {'leaf_size': 25, 'n_neighbors': 21, 'p': 1, 'weights': 'distance'}
Model best score: 0.5697103486445096
Train accuracy 1.0; top3: 1.0
Test accuracy 0.5555555555555556; top3: 0.8272727272727273


**Задание 2. (2 балла)** 

Теперь будем пользоваться метрикой Махалонобиса. Обучите её одним из методов [отсюда](http://contrib.scikit-learn.org/metric-learn/supervised.html). Напомним, что вычисление метрики Махалонобиса эквивалентно вычислению евклидова расстояния между объектами, к которым применено некоторое линейное преобразование (вспомните семинары). Преобразуйте данные и обучите kNN на них, перебрав гиперпараметры, замерьте качество.

Заметим, что в библиотеке metric-learn есть несколько способов обучать матрицу преобразования. Выберите лучший, аргументируйте свой выбор.

Note: Некоторые методы с дефолтными параметрами учатся очень долго, будьте внимательны. Советуем выставить параметр `tolerance=1e-3`.


In [9]:
# ⊂(￣▽￣)⊃
from metric_learn import NCA

nca = NCA(random_state = 52, max_iter = 200, tol = 1e-3)
nca.fit(X_train, y_train)
X_train_nca = nca.transform(X_train)
X_test_nca = nca.transform(X_test)
matrix = nca.get_mahalanobis_matrix()

In [10]:
knn = KNeighborsClassifier(metric='mahalanobis', metric_params = {'VI': matrix})
grid_search = GridSearchCV(knn, param_grid, cv=3, scoring = scorer, n_jobs=-1)
grid_search.fit(X_train_nca, y_train)

best_params = grid_search.best_params_
best_score = grid_search.best_score_
best_knn = grid_search.best_estimator_

In [11]:
print(f'Best params: {best_params}') 
print(f'Model best score: {best_score}')
print(f'Train accuracy {scorer(best_knn, X_train_nca, y_train)}; top3: {top_3_accuracy_score(y_train, best_knn.predict_proba(X_train_nca))}')
print(f'Test accuracy {scorer(best_knn, X_test_nca, y_test)}; top3: {top_3_accuracy_score(y_test, best_knn.predict_proba(X_test_nca))}')

Best params: {'leaf_size': 25, 'n_neighbors': 21, 'p': 1, 'weights': 'distance'}
Model best score: 0.5877645581221678
Train accuracy 1.0; top3: 1.0
Test accuracy 0.5505050505050505; top3: 0.8242424242424242


**Задание 3. (1 балл)** 

Что будет, если в качестве матрицы в расстоянии Махалонобиса использовать случайную матрицу? Матрицу ковариаций?

In [12]:
# (•)(•)ԅ(≖‿≖ԅ)
random_matrix = np.random.rand(X_train_nca.shape[1], X_train_nca.shape[1])
knn_random = KNeighborsClassifier(metric='mahalanobis', metric_params={'VI': random_matrix}, n_jobs=-1)
knn_random.fit(X_train_nca, y_train)

print(f'Train accuracy {scorer(knn_random, X_train_nca, y_train)}; top3: {top_3_accuracy_score(y_train, knn_random.predict_proba(X_train_nca))}')
print(f'Test accuracy {scorer(knn_random, X_test_nca, y_test)}; top3: {top_3_accuracy_score(y_test, knn_random.predict_proba(X_test_nca))}') #Всё СЛОМАЛОСЬ(((

Train accuracy 0.4764292878635908; top3: 0.8568204613841525
Test accuracy 0.21818181818181817; top3: 0.4777777777777778


In [13]:
cov_matrix = np.cov(X_train_nca, rowvar=False)
knn_cov = KNeighborsClassifier(metric = 'mahalanobis', metric_params = {'VI': cov_matrix}, n_jobs = -1)
knn_cov.fit(X_train_nca, y_train)

print(f'Train accuracy {scorer(knn_cov, X_train_nca, y_train)}; top3: {top_3_accuracy_score(y_train, knn_cov.predict_proba(X_train_nca))}')
print(f'Test accuracy {scorer(knn_cov, X_test_nca, y_test)}; top3: {top_3_accuracy_score(y_test, knn_cov.predict_proba(X_test_nca))}') 

Train accuracy 0.6848044132397192; top3: 0.9636409227683049
Test accuracy 0.5141414141414141; top3: 0.7434343434343434


Всё тоже сломалось, но не так сильно, возможно, матрица, которая несёт информацию - Полезна ?!?!?!? ШОКККККК


**Задание 4. (1 балл)** Обучите какой-нибудь градиентный бустинг на обычных и трансформированных наборах данных, замерьте качество, задумайтесь о целесообразности других методов.

In [14]:
# C=C=C=C=C=┌(;・ω・)┘
from sklearn.ensemble import GradientBoostingClassifier

boosting = GradientBoostingClassifier()
boosting.fit(X_train, y_train)

print(f'Train accuracy {scorer(boosting, X_train, y_train)}; top3: {top_3_accuracy_score(y_train, boosting.predict_proba(X_train))}')
print(f'Test accuracy {scorer(boosting, X_test, y_test)}; top3: {top_3_accuracy_score(y_test, boosting.predict_proba(X_test))}')

Train accuracy 0.9488465396188566; top3: 0.9944834503510531
Test accuracy 0.5858585858585859; top3: 0.8565656565656565


In [15]:
from sklearn.ensemble import GradientBoostingClassifier

trans_boost = GradientBoostingClassifier()
trans_boost.fit(X_train_nca, y_train)

print(f'Train accuracy {scorer(trans_boost, X_train_nca, y_train)}; top3: {top_3_accuracy_score(y_train, trans_boost.predict_proba(X_train_nca))}')
print(f'Test accuracy {scorer(trans_boost, X_test_nca, y_test)}; top3: {top_3_accuracy_score(y_test, trans_boost.predict_proba(X_test_nca))}')

Train accuracy 0.9390672016048145; top3: 0.9894684052156469
Test accuracy 0.6191919191919192; top3: 0.8636363636363636


Бустингу тоже понравились преобразования... 

**Бонус. (1 балл)**

Достигните доли верных ответов 0.7 на тестовой выборке, не используя нейросети.

In [None]:
# ( ・・)つ―{}@{}@{}-

**Шашлычный бонус. (до 0.5 баллов)**

Пришло тепло, настали майские праздники. [Все летят на  на шашлындос.](https://www.youtube.com/watch?v=AgVZ6LoAm8g) А ты летишь? Добавь фотопруфы и приложи небольшой отчётик о том, как всё прошло. Можете объединиться с одногруппниками/однокурсниками, а также пригласить ассистентов/преподавателей, они тоже будут рады шашлындосу.


А я не лечу(((