# Машинное обучение, ФКН ВШЭ

# Практическое задание 12. Поиск ближайших соседей

## Общая информация

Дата выдачи: 08.05.2024

**Мягкий дедлайн: 26.05.2024 23:59 MSK**

**Жёсткий дедлайн: 30.05.2024 23:59 MSK**

## Оценивание и штрафы

Каждая из задач имеет определенную «стоимость» (указана в скобках около задачи). Максимально допустимая оценка за работу — 7 баллов.


Сдавать задание после указанного жёсткого срока сдачи нельзя. При выставлении неполного балла за задание в связи с наличием ошибок на усмотрение проверяющего предусмотрена возможность исправить работу на указанных в ответном письме условиях.

Задание выполняется самостоятельно. «Похожие» решения считаются плагиатом и все задействованные студенты (в том числе те, у кого списали) не могут получить за него больше 0 баллов (подробнее о плагиате см. на странице курса). Если вы нашли решение какого-то из заданий (или его часть) в открытом источнике, необходимо указать ссылку на этот источник в отдельном блоке в конце вашей работы (скорее всего вы будете не единственным, кто это нашел, поэтому чтобы исключить подозрение в плагиате, необходима ссылка на источник).

Неэффективная реализация кода может негативно отразиться на оценке.

## Формат сдачи

Задания сдаются через систему anytask. Посылка должна содержать:

* Ноутбук homework-practice-12-knn-Username.ipynb

Username — ваша фамилия и имя на латинице именно в таком порядке.

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import os
import random

from tqdm.notebook import tqdm

Возьмем [датасет](https://www.kaggle.com/delayedkarma/impressionist-classifier-data)  с картинами известных импрессионистов. Работать будем не с самими картинками, а с эмбеддингами картинок, полученных с помощью сверточного классификатора.

![](https://storage.googleapis.com/kagglesdsdata/datasets/568245/1031162/training/training/Gauguin/190448.jpg?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=databundle-worker-v2%40kaggle-161607.iam.gserviceaccount.com%2F20210405%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210405T125358Z&X-Goog-Expires=172799&X-Goog-SignedHeaders=host&X-Goog-Signature=a271b474bf9ec20ba159b951e0ae680fc2b0c694666031f7ea6fc39598172cc55e10f75c12b678b21da9e6bdc20e46886133c219625648b407d2f600eebfdda909b29e0f7f13276d8fea2f8d0480d6298bd98e7f118eb78e8b632fc3d141365356b0e3a2fdd4f09119f99f0907a31da62e8dae7e625e32d831238ecc227b1f5ad2e96a8bfb43d93ef6fe88d7e663e51d387d3550dcad2a7eefc5c941028ba0d7751d18690cf2e26fcdfaa4dacd3dcbb3a4cbb355e62c08b158007b5e764e468cecd3292dae4cfc408e848ecf3e0e5dbe5faa76fcdd77d5370c868583c06e4e3d40c73a7435bd8c32a9803fe6b536e1c6f0791219aadd06120291e937e57c214a)

In [None]:
%%bash

mkdir embeddings

GIT="https://github.com/esokolov/ml-course-hse/raw/master/2022-spring/homeworks-practice/homework-practice-11-metric-learning/embeddings"
wget -P ./embeddings $GIT/embeds_train.npy
wget -P ./embeddings $GIT/embeds_test.npy
wget -P ./embeddings $GIT/labels_train.npy
wget -P ./embeddings $GIT/labels_test.npy

In [2]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [80]:
X_train = np.load('embeddings/embeds_train.npy')
y_train = np.load('embeddings/labels_train.npy')
X_test = np.load('embeddings/embeds_test.npy')
y_test = np.load('embeddings/labels_test.npy')

Будем смотреть на обычную долю верных ответов и на долю верных ответов в топ-3.

In [4]:
def top_3_accuracy_score(y_true, probas):
    preds = np.argsort(probas, axis=1)[:, -3:]
    matches = np.zeros_like(y_true)
    for i in range(3):
        matches += (preds[:, i] == y_true)
    return matches.sum() / matches.size

def scorer(estimator, X, y):
    return accuracy_score(y, estimator.predict(X))

**Задание 1. (1 балл)**

Обучите классификатор k ближайших соседей (из sklearn) на данных, подобрав лучшие гиперпараметры. Замерьте качество на обучающей и тестовой выборках.

In [5]:
#  (*・ω・)ﾉ
kNN = KNeighborsClassifier()

params = {
    'n_neighbors' : np.arange(3, 20, 1),
    'p' : np.array([1, 2])
}

gc = GridSearchCV(kNN, param_grid=params, n_jobs=6)
gc.fit(X_train, y_train)
gc.best_params_

{'n_neighbors': 13, 'p': 1}

In [6]:
kNN = KNeighborsClassifier(n_neighbors=13, p=1)
kNN.fit(X_train, y_train)
pred_proba = kNN.predict_proba(X_test)

print(scorer(kNN, X_test, y_test))
print(top_3_accuracy_score(y_test, pred_proba))

0.5484848484848485
0.8151515151515152


**Задание 2. (2 балла)** 

Теперь будем пользоваться метрикой Махалонобиса. Обучите её одним из методов [отсюда](http://contrib.scikit-learn.org/metric-learn/supervised.html). Напомним, что вычисление метрики Махалонобиса эквивалентно вычислению евклидова расстояния между объектами, к которым применено некоторое линейное преобразование (вспомните семинары). Преобразуйте данные и обучите kNN на них, перебрав гиперпараметры, замерьте качество.

Заметим, что в библиотеке metric-learn есть несколько способов обучать матрицу преобразования. Выберите лучший, аргументируйте свой выбор.

**Ответ:** Выберу LMNN, хороший алгоритм, описанный на парах. Он обучает линейное преобразование пространства и позволяет преобразовать выборку сразу как метод.

Note: Некоторые методы с дефолтными параметрами учатся очень долго, будьте внимательны. Советуем выставить параметр `tolerance=1e-3`.


In [7]:
# ⊂(￣▽￣)⊃
from metric_learn import MMC, LMNN

In [28]:
lmnn = LMNN(convergence_tol=1e-3)
lmnn.fit(X_train, y_train)

In [81]:
X_test_new = lmnn.transform(X_test)
X_train_new = lmnn.transform(X_train)

In [30]:
kNN = KNeighborsClassifier(n_neighbors=13, p=1)
kNN.fit(X_train_new, y_train)
pred_proba = kNN.predict_proba(X_test_new)

print(scorer(kNN, X_test_new, y_test))
print(top_3_accuracy_score(y_test, pred_proba))

0.5808080808080808
0.8212121212121212


In [31]:
matrix = lmnn.get_mahalanobis_matrix()

X_train_lmnn = X_train @ matrix
X_test_lmnn = X_test @ matrix

In [32]:
kNN = KNeighborsClassifier(n_neighbors=13, p=1, n_jobs=8)
kNN.fit(X_train_lmnn, y_train)
pred_proba = kNN.predict_proba(X_test_lmnn)

print(scorer(kNN, X_test_lmnn, y_test))
print(top_3_accuracy_score(y_test, pred_proba))

0.5878787878787879
0.8313131313131313


**Задание 3. (1 балл)** 

Что будет, если в качестве матрицы в расстоянии Махалонобиса использовать случайную матрицу? Матрицу ковариаций?

In [14]:
from scipy.linalg import fractional_matrix_power

In [15]:
# (•)(•)ԅ(≖‿≖ԅ)

rand_matrix = fractional_matrix_power(np.random.rand(X_train.shape[1], X_train.shape[1]), 1/2)
cov_matrix = fractional_matrix_power(np.cov(X_train.T), 1/2)

# Почему то, если не обращать матрицу, скор получается выше


def mahalanobis_cov(x, y):
    return ((x - y).T @ (cov_matrix) @ (x - y))

def mahalanobis_rand(x, y): 
    return ((x - y).T @ (rand_matrix) @ (x - y))

In [16]:
# We can just use the transformation matrix 
# X @ mah_matrix

X_train_cov = X_train @ cov_matrix
X_test_cov = X_test @ cov_matrix

X_train_rand = X_train @ rand_matrix
X_test_rand = X_test @ rand_matrix

In [17]:
kNN = KNeighborsClassifier(n_neighbors=13, p=1, n_jobs=8)
kNN.fit(X_train_cov, y_train)
pred_proba = kNN.predict_proba(X_test_cov)

print(scorer(kNN, X_test_cov, y_test))
print(top_3_accuracy_score(y_test, pred_proba))

0.51010101010101
0.7848484848484848


In [24]:
kNN = KNeighborsClassifier(n_neighbors=13, p=1, n_jobs=8)
kNN.fit(X_train_rand.astype(float), y_train)
pred_proba = kNN.predict_proba(X_test_rand.astype(float))

print(scorer(kNN, X_test_rand.astype(float), y_test))
print(top_3_accuracy_score(y_test, pred_proba))

  kNN.fit(X_train_rand.astype(float), y_train)
  pred_proba = kNN.predict_proba(X_test_rand.astype(float))
  print(scorer(kNN, X_test_rand.astype(float), y_test))


0.4171717171717172
0.701010101010101


**Задание 4. (1 балл)** Обучите какой-нибудь градиентный бустинг на обычных и трансформированных наборах данных, замерьте качество, задумайтесь о целесообразности других методов.

In [74]:
X_train.shape

(3988, 256)

In [36]:
from catboost import CatBoostClassifier

cbt = CatBoostClassifier()

cbt.fit(
    X=X_train,
    y=y_train, 
    use_best_model=True,
    verbose=500
)

You should provide test set for use best model. use_best_model parameter has been switched to false value.


Learning rate set to 0.084911
0:	learn: 2.2075720	total: 297ms	remaining: 4m 56s
500:	learn: 0.3492251	total: 1m 44s	remaining: 1m 44s
999:	learn: 0.1450639	total: 3m 41s	remaining: 0us


<catboost.core.CatBoostClassifier at 0x210464ac290>

In [80]:
cbt.predict(X_test)

print(accuracy_score(cbt.predict(X_test), y_test))
print(top_3_accuracy_score(y_test, cbt.predict_proba(X_test)))

0.6151515151515151
0.8727272727272727


In [81]:
# C=C=C=C=C=┌(;・ω・)┘

cbt.fit(
    X=X_train_new,
    y=y_train, 
    use_best_model=True,
    verbose=500
)

print(accuracy_score(cbt.predict(X_test_new), y_test))
print(top_3_accuracy_score(y_test, cbt.predict_proba(X_test_new)))

You should provide test set for use best model. use_best_model parameter has been switched to false value.


Learning rate set to 0.084911
0:	learn: 2.1839030	total: 360ms	remaining: 5m 59s
500:	learn: 0.2991573	total: 2m 25s	remaining: 2m 25s
999:	learn: 0.1256215	total: 4m 37s	remaining: 0us
0.6272727272727273
0.8868686868686869


Видно, что и на модифицированных, и на дефолтных данных GBT алгоритмы дают чуть лучшую точность по сравнению с kNN.

**Бонус. (1 балл)**

Достигните доли верных ответов 0.7 на тестовой выборке, не используя нейросети.

In [121]:
from sklearn.decomposition import TruncatedSVD

In [25]:
# На n_neighbors=5 код работает больше 40 минут, не пойдет

lmnn = LMNN(convergence_tol=1e-3, n_neighbors=5)
lmnn.fit(X_train, y_train)
X_test_new = lmnn.transform(X_test)
X_train_new = lmnn.transform(X_train)

KeyboardInterrupt: 

In [82]:
# ( ・・)つ―{}@{}@{}-
def train_val_split(X, y, size=0.7):
    temp = np.concatenate((X, y[:,np.newaxis]), axis=1)
    temp = np.random.permutation(temp)
    train_size = round(temp.shape[0] * size)
    train = temp[:train_size]
    val = temp[train_size:]
    
    return train[:, 0:(train.shape[1] - 1)], train[:, -1], val[:, 0:(train.shape[1] - 1)], val[:, -1]
    

In [83]:
X_train_aug, y_train_aug, X_val, y_val = train_val_split(X_train_new, y_train, size=1)

In [157]:
trf = TruncatedSVD(n_components=175)
trf.fit(X_train_new)

In [84]:
import pandas as pd

In [85]:
X_train_aug = pd.DataFrame(X_train_aug)
X_val = pd.DataFrame(X_val)

In [86]:
from sklearn.cluster import KMeans
n_classes = pd.DataFrame(y_train).nunique()[0]
kmeans = KMeans(n_clusters=10)
kmeans.fit(X_train_aug)
X_train_aug['plabel'] = kmeans.predict(X_train_aug)
# X_val['plabel'] = kmeans.predict(X_val)

In [87]:
X_test_aug = pd.DataFrame(X_test_new)
X_test_aug['plabel'] = kmeans.predict(X_test_new)

In [89]:
cbt = CatBoostClassifier(
    custom_loss=['Accuracy', 'AUC']
)

cbt.fit(
    X=X_train_aug,
    y=y_train_aug, 
    use_best_model=True,
    verbose=500,
    #eval_set=(X_val, y_val),
    plot=True
)

MetricVisualizer(layout=Layout(align_self='stretch', height='500px'))

You should provide test set for use best model. use_best_model parameter has been switched to false value.


Learning rate set to 0.084911
0:	learn: 2.1849082	total: 154ms	remaining: 2m 33s
500:	learn: 0.2994400	total: 1m 47s	remaining: 1m 46s
999:	learn: 0.1244178	total: 3m 35s	remaining: 0us


CatBoostError: C:/Go_Agent/pipelines/BuildMaster/catboost.git/catboost/libs/data/model_dataset_compatibility.cpp:72: Feature plabel is present in model but not in pool.

In [98]:
print(accuracy_score(y_test, cbt.predict(X_test_aug)))
print(top_3_accuracy_score(y_test, cbt.predict_proba(X_test_aug)))

0.6383838383838384
0.8797979797979798


Даже с псевдолейблингом не выбивается выше 64(

**Шашлычный бонус. (до 0.5 баллов)**

Пришло тепло, настали майские праздники. [Все летят на  на шашлындос.](https://www.youtube.com/watch?v=AgVZ6LoAm8g) А ты летишь? Добавь фотопруфы и приложи небольшой отчётик о том, как всё прошло. Можете объединиться с одногруппниками/однокурсниками, а также пригласить ассистентов/преподавателей, они тоже будут рады шашлындосу.

In [None]:
# Шашлындос с физтехом

Ну, собственно, сгонял на шашлыки с физтехами с 20го по 21е. У друга была ДРха и мы пошли в лесопосадку в Долгопе. Был вечер, фоткать особо не получалось, только анекдоты всякие есть)

Отлично отдохнули, выпили, зажарили шашлык, повеселились, постреляли по банкам)))



Фотка только такая. Включите трек Kizaru - Stick Out. Абсолютно соответствует фотке