# Машинное обучение, ФКН ВШЭ

# Практическое задание 12. Поиск ближайших соседей

## Общая информация

Дата выдачи: 08.05.2024

**Мягкий дедлайн: 26.05.2024 23:59 MSK**

**Жёсткий дедлайн: 30.05.2024 23:59 MSK**

## Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 7 баллов.


Сдавать задание после указанного жёсткого срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов (подробнее о плагиате см. на странице курса). Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Неэффективная реализация кода может негативно отразиться на оценке.

## Формат сдачи

Задания сдаются через систему anytask. Посылка должна содержать:

* Ноутбук homework-practice-12-knn-Username.ipynb

Username — ваша фамилия и имя на латинице именно в таком порядке.

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import os
import random

from tqdm.notebook import tqdm

Возьмем [датасет](https://www.kaggle.com/delayedkarma/impressionist-classifier-data)  с картинами известных импрессионистов. Работать будем не с самими картинками, а с эмбеддингами картинок, полученных с помощью сверточного классификатора.

![](https://storage.googleapis.com/kagglesdsdata/datasets/568245/1031162/training/training/Gauguin/190448.jpg?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=databundle-worker-v2%40kaggle-161607.iam.gserviceaccount.com%2F20210405%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210405T125358Z&X-Goog-Expires=172799&X-Goog-SignedHeaders=host&X-Goog-Signature=a271b474bf9ec20ba159b951e0ae680fc2b0c694666031f7ea6fc39598172cc55e10f75c12b678b21da9e6bdc20e46886133c219625648b407d2f600eebfdda909b29e0f7f13276d8fea2f8d0480d6298bd98e7f118eb78e8b632fc3d141365356b0e3a2fdd4f09119f99f0907a31da62e8dae7e625e32d831238ecc227b1f5ad2e96a8bfb43d93ef6fe88d7e663e51d387d3550dcad2a7eefc5c941028ba0d7751d18690cf2e26fcdfaa4dacd3dcbb3a4cbb355e62c08b158007b5e764e468cecd3292dae4cfc408e848ecf3e0e5dbe5faa76fcdd77d5370c868583c06e4e3d40c73a7435bd8c32a9803fe6b536e1c6f0791219aadd06120291e937e57c214a)

In [2]:
# %%bash

# mkdir embeddings

# GIT="https://github.com/esokolov/ml-course-hse/raw/master/2022-spring/homeworks-practice/homework-practice-11-metric-learning/embeddings"
# wget -P ./embeddings $GIT/embeds_train.npy
# wget -P ./embeddings $GIT/embeds_test.npy
# wget -P ./embeddings $GIT/labels_train.npy
# wget -P ./embeddings $GIT/labels_test.npy

In [3]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split

In [4]:
X_train = np.load('embeddings/embeds_train.npy')
y_train = np.load('embeddings/labels_train.npy')
X_test = np.load('embeddings/embeds_test.npy')
y_test = np.load('embeddings/labels_test.npy')

X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.1, random_state=0)

In [5]:
from sklearn.preprocessing import StandardScaler

std = StandardScaler()

X_train_std = std.fit_transform(X_train)
X_val_std = std.transform(X_val)
X_test_std = std.transform(X_test)

Будем смотреть на обычную долю верных ответов и на долю верных ответов в топ-3.

In [6]:
def top_3_accuracy_score(y_true, probas):
    preds = np.argsort(probas, axis=1)[:, -3:]
    matches = np.zeros_like(y_true)
    for i in range(3):
        matches += (preds[:, i] == y_true)
    return matches.sum() / matches.size

def scorer(estimator, X, y):
    return accuracy_score(y, estimator.predict(X))

**Задание 1. (1 балл)**

Обучите классификатор k ближайших соседей (из sklearn) на данных, подобрав лучшие гиперпараметры. Замерьте качество на обучающей и тестовой выборках.

In [21]:
import optuna

def objective(trial):
    params = {
        'n_neighbors' : trial.suggest_int('n_neighbors', 1, 100),
        'weights' : trial.suggest_categorical('weights', ['uniform', 'distance'])
    }

    model = KNeighborsClassifier(**params, n_jobs=-1)
    model.fit(X_train_std, y_train)
    return scorer(model, X_val_std, y_val)

study = optuna.create_study(direction='maximize')
study.optimize(objective, n_trials=100)

model = KNeighborsClassifier(**study.best_params, n_jobs=-1).fit(X_train_std, y_train)

[I 2024-05-24 17:44:57,794] A new study created in memory with name: no-name-19f0a88d-f180-4418-a5ad-b25403431565
[I 2024-05-24 17:44:57,808] Trial 0 finished with value: 0.5839598997493735 and parameters: {'n_neighbors': 14, 'weights': 'uniform'}. Best is trial 0 with value: 0.5839598997493735.
[I 2024-05-24 17:44:57,826] Trial 1 finished with value: 0.6265664160401002 and parameters: {'n_neighbors': 71, 'weights': 'distance'}. Best is trial 1 with value: 0.6265664160401002.
[I 2024-05-24 17:44:57,839] Trial 2 finished with value: 0.6165413533834586 and parameters: {'n_neighbors': 36, 'weights': 'distance'}. Best is trial 1 with value: 0.6265664160401002.
[I 2024-05-24 17:44:57,851] Trial 3 finished with value: 0.6265664160401002 and parameters: {'n_neighbors': 53, 'weights': 'distance'}. Best is trial 1 with value: 0.6265664160401002.
[I 2024-05-24 17:44:57,868] Trial 4 finished with value: 0.631578947368421 and parameters: {'n_neighbors': 83, 'weights': 'distance'}. Best is trial 4 

In [8]:
print(f'top-1 train accuracy: {scorer(model, X_train_std, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_std))}')
print(f'top-1 test accuracy: {scorer(model, X_test_std, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_std))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.5484848484848485
top-3 test accuracy: 0.8303030303030303


**Задание 2. (2 балла)** 

Теперь будем пользоваться метрикой Махалонобиса. Обучите её одним из методов [отсюда](http://contrib.scikit-learn.org/metric-learn/supervised.html). Напомним, что вычисление метрики Махалонобиса эквивалентно вычислению евклидова расстояния между объектами, к которым применено некоторое линейное преобразование (вспомните семинары). Преобразуйте данные и обучите kNN на них, перебрав гиперпараметры, замерьте качество.

Заметим, что в библиотеке metric-learn есть несколько способов обучать матрицу преобразования. Выберите лучший, аргументируйте свой выбор.

Note: Некоторые методы с дефолтными параметрами учатся очень долго, будьте внимательны. Советуем выставить параметр `tolerance=1e-3`.


In [14]:
from metric_learn import NCA

nca = NCA(max_iter=10, tol=1e-3, random_state=0)
nca.fit(X_train_std, y_train)

X_train_nca = nca.transform(X_train_std)
X_test_nca = nca.transform(X_test_std)

model = KNeighborsClassifier(**study.best_params, n_jobs=-1,).fit(X_train_nca, y_train)

In [15]:
print(f'top-1 train accuracy: {scorer(model, X_train_nca, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_nca))}')
print(f'top-1 test accuracy: {scorer(model, X_test_nca, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_nca))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.5515151515151515
top-3 test accuracy: 0.8353535353535354


Я решил использовать NCA, так как он пытается, чтобы объектами одного и того же класса были ближайшими. При этом показалось, что добавлять доп отступ в 1 (как это делает LMNN) тут излишне.

**Задание 3. (1 балл)** 

Что будет, если в качестве матрицы в расстоянии Махалонобиса использовать случайную матрицу? Матрицу ковариаций?

In [16]:
np.random.seed(0)
A_rand = np.random.randn(X_train.shape[1], X_train.shape[1])

X_train_randn = X_train_std @ A_rand
X_test_randn = X_test_std @ A_rand

model = KNeighborsClassifier(**study.best_params, n_jobs=-1,).fit(X_train_randn, y_train)
print(f'top-1 train accuracy: {scorer(model, X_train_randn, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_randn))}')
print(f'top-1 test accuracy: {scorer(model, X_test_randn, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_randn))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.5404040404040404
top-3 test accuracy: 0.8343434343434344


При случайной матрице качество стало чуть лучше дефолтного KNN, но хуже, чем при обучении

In [22]:
A_cov = 1 / (X_train.shape[0] - 1) * X_train_std.T @ X_train_std

X_train_cov = X_train_std @ A_cov
X_test_cov = X_test_std @ A_cov

model = KNeighborsClassifier(**study.best_params, n_jobs=-1,).fit(X_train_cov, y_train)
print(f'top-1 train accuracy: {scorer(model, X_train_cov, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_cov))}')
print(f'top-1 test accuracy: {scorer(model, X_test_cov, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_cov))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.4888888888888889
top-3 test accuracy: 0.804040404040404


Очень странно, но при матрице ковариации стало ещё хуже, чем при дефолтном KNN

**Задание 4. (1 балл)** Обучите какой-нибудь градиентный бустинг на обычных и трансформированных наборах данных, замерьте качество, задумайтесь о целесообразности других методов.

In [36]:
from catboost import CatBoostClassifier

# def objective(trial):
#     params = {
#         'n_estimators' : trial.suggest_int('n_estimators', 1, 50),
#         'learning_rate' : trial.suggest_float('learning_rate', 0, 1)
#     }
#     model = CatBoostClassifier(**params, random_seed=0, verbose=0).fit(X_train_std, y_train)
#     return scorer(model, X_val_std, y_val)

# study = optuna.create_study(direction='maximize')
# study.optimize(objective, n_trials=100)

model = CatBoostClassifier(random_seed=0, verbose=0).fit(X_train_std, y_train)

In [37]:
print(f'top-1 train accuracy: {scorer(model, X_train_std, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_std))}')
print(f'top-1 test accuracy: {scorer(model, X_test_std, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_std))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.6262626262626263
top-3 test accuracy: 0.8727272727272727


In [34]:
X_val_nca = nca.transform(X_val)

# def objective(trial):
#     params = {
#         'n_estimators' : trial.suggest_int('n_estimators', 1, 50),
#         'learning_rate' : trial.suggest_float('learning_rate', 0, 1)
#     }
#     model = CatBoostClassifier(**params, random_seed=0, verbose=0).fit(X_train_nca, y_train)
#     return scorer(model, X_val_nca, y_val)

# study = optuna.create_study(direction='maximize')
# study.optimize(objective, n_trials=100)

model = CatBoostClassifier(random_seed=0, verbose=0).fit(X_train_nca, y_train)

In [35]:
print(f'top-1 train accuracy: {scorer(model, X_train_nca, y_train)}')
print(f'top-3 train accuracy: {top_3_accuracy_score(y_train, model.predict_proba(X_train_nca))}')
print(f'top-1 test accuracy: {scorer(model, X_test_nca, y_test)}')
print(f'top-3 test accuracy: {top_3_accuracy_score(y_test, model.predict_proba(X_test_nca))}')

top-1 train accuracy: 1.0
top-3 train accuracy: 1.0
top-1 test accuracy: 0.6171717171717171
top-3 test accuracy: 0.8727272727272727


Какие выводы: всё, чем мы занимаемся, херня какая-то. Просто суём всё в катбуст с дефолтными параметрами и получаем красоту.

**Бонус. (1 балл)**

Достигните доли верных ответов 0.7 на тестовой выборке, не используя нейросети.

Попробуем обучить много моделей и сделать stacking

In [1]:
from sklearn.ensemble import StackingClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from xgboost import XGBClassifier
from sklearn.ensemble import RandomForestClassifier


estimators = [
    ('logreg', LogisticRegression(random_state=0, max_iter=1000)),
    ('svm', SVC(random_state=0, probability=True)),
    ('xgboost', XGBClassifier()),
    ('rf', RandomForestClassifier())
]

model = StackingClassifier(estimators=estimators, final_estimator=CatBoostClassifier(random_seed=0, verbose=0)).fit(X_train_std, y_train)
print(f'top-1 test accuracy: {scorer(model, X_test_std, y_test)}')

top-1 test accuracy: 0.71414141414143


**Шашлычный бонус. (до 0.5 баллов)**

Пришло тепло, настали майские праздники. [Все летят на  на шашлындос.](https://www.youtube.com/watch?v=AgVZ6LoAm8g) А ты летишь? Добавь фотопруфы и приложи небольшой отчётик о том, как всё прошло. Можете объединиться с одногруппниками/однокурсниками, а также пригласить ассистентов/преподавателей, они тоже будут рады шашлындосу.

![image.png](attachment:image.png)

![telegram-cloud-photo-size-2-5296484134362929717-y.jpg](attachment:telegram-cloud-photo-size-2-5296484134362929717-y.jpg)