# Машинное обучение, ФКН ВШЭ

# Практическое задание 11. Поиск ближайших соседей

Дата выдачи: 09.04.2022

In [1]:
import matplotlib.pyplot as plt
import numpy as np
import os
import random

from tqdm.notebook import tqdm

Возьмем [датасет](https://www.kaggle.com/delayedkarma/impressionist-classifier-data)  с картинами известных импрессионистов. Работать будем не с самими картинками, а с эмбеддингами картинок, полученных с помощью сверточного классификатора.

![](https://storage.googleapis.com/kagglesdsdata/datasets/568245/1031162/training/training/Gauguin/190448.jpg?X-Goog-Algorithm=GOOG4-RSA-SHA256&X-Goog-Credential=databundle-worker-v2%40kaggle-161607.iam.gserviceaccount.com%2F20210405%2Fauto%2Fstorage%2Fgoog4_request&X-Goog-Date=20210405T125358Z&X-Goog-Expires=172799&X-Goog-SignedHeaders=host&X-Goog-Signature=a271b474bf9ec20ba159b951e0ae680fc2b0c694666031f7ea6fc39598172cc55e10f75c12b678b21da9e6bdc20e46886133c219625648b407d2f600eebfdda909b29e0f7f13276d8fea2f8d0480d6298bd98e7f118eb78e8b632fc3d141365356b0e3a2fdd4f09119f99f0907a31da62e8dae7e625e32d831238ecc227b1f5ad2e96a8bfb43d93ef6fe88d7e663e51d387d3550dcad2a7eefc5c941028ba0d7751d18690cf2e26fcdfaa4dacd3dcbb3a4cbb355e62c08b158007b5e764e468cecd3292dae4cfc408e848ecf3e0e5dbe5faa76fcdd77d5370c868583c06e4e3d40c73a7435bd8c32a9803fe6b536e1c6f0791219aadd06120291e937e57c214a)

In [2]:
# %%bash

# mkdir embeddings

# GIT="https://github.com/esokolov/ml-course-hse/raw/master/2021-spring/homeworks-practice/homework-practice-11-metric-learning/embeddings"
# wget -P ./embeddings $GIT/embeds_train.npy
# wget -P ./embeddings $GIT/embeds_test.npy
# wget -P ./embeddings $GIT/labels_train.npy
# wget -P ./embeddings $GIT/labels_test.npy

In [3]:
from sklearn.metrics import accuracy_score
from sklearn.model_selection import GridSearchCV
from sklearn.neighbors import KNeighborsClassifier

In [4]:
X_train = np.load('embeddings/embeds_train.npy')
y_train = np.load('embeddings/labels_train.npy')
X_test = np.load('embeddings/embeds_test.npy')
y_test = np.load('embeddings/labels_test.npy')

Будем смотреть на обычную долю верных ответов и на долю верных ответов в топ-3.

In [5]:
def top_3_accuracy_score(y_true, probas):
    preds = np.argsort(probas, axis=1)[:, -3:]
    matches = np.zeros_like(y_true)
    for i in range(3):
        matches += (preds[:, i] == y_true)
    return matches.sum() / matches.size

def scorer(estimator, X, y):
    return accuracy_score(y, estimator.predict(X))

**Задание 1. (1 балл)**

Обучите классификатор k ближайших соседей (из sklearn) на данных, подобрав лучшие гиперпараметры. Замерьте качество на обучающей и тестовой выборках.

In [6]:
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import StratifiedKFold

params = {
    'n_neighbors':[3 + 2 * _ for _ in range(10)],
    'algorithm': ['ball_tree', 'kd_tree', 'brute'],
    'leaf_size': [5 * _ for _ in range(1, 11)],
    'metric': ['euclidean', 'manhattan', 'chebyshev', 'minkowski', 'mahalanobis']
}

# searcher = GridSearchCV(KNeighborsClassifier(), params, scoring='accuracy',
#                         cv=5, n_jobs=-1)
# searcher.fit(X_train, y_train)

In [7]:
# searcher.best_params_

In [8]:
kwargs = {'algorithm': 'ball_tree',
 'leaf_size': 5,
 'metric': 'manhattan',
 'n_neighbors': 13}

In [9]:
neigh = KNeighborsClassifier(**kwargs, n_jobs=-1)
neigh.fit(X_train, y_train)

KNeighborsClassifier(algorithm='ball_tree', leaf_size=5, metric='manhattan',
                     n_jobs=-1, n_neighbors=13)

In [10]:
display(scorer(neigh, X_train, y_train), scorer(neigh, X_test, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test)))

0.6464393179538616

0.5484848484848485

0.9132397191574724

0.8151515151515152

**Задание 2. (2 балла)** 

Теперь будем пользоваться метрикой Махалонобиса. Обучите её одним из методов [отсюда](http://contrib.scikit-learn.org/metric-learn/supervised.html). Напомним, что вычисление метрики Махалонобиса эквивалентно вычислению евклидова расстояния между объектами, к которым применено некоторое линейное преобразование (вспомните семинары). Преобразуйте данные и обучите kNN на них, перебрав гиперпараметры, замерьте качество.

Заметим, что в библиотеке metric-learn есть несколько способов обучать матрицу преобразования. Выберите лучший, аргументируйте свой выбор.

Note: Некоторые методы с дефолтными параметрами учатся очень долго, будьте внимательны. Советуем выставить параметр `tolerance=1e-3`.


In [11]:
RS = 10 # random state
N_COMP = 196 # n_components
K = kwargs['n_neighbors']

In [12]:
from metric_learn import NCA, LMNN, LFDA, MLKR

nca = NCA(n_components=N_COMP, tol=1e-3, random_state=RS) # меньше минуты
# lmnn = LMNN(n_components=N_COMP, k=K, learn_rate=1e-6, convergence_tol=1e-3, random_state=RS) -- очень долго работает
lfda = LFDA(n_components=N_COMP, k=K, embedding_type='weighted') # мгновенно
mlkr = MLKR(n_components=N_COMP, tol=1e-3, random_state=RS) # почти 3 минуты

In [13]:
algs = []
for alg in tqdm([nca, lfda, mlkr]):
    algs.append(alg.fit(X_train, y_train))

  0%|          | 0/3 [00:00<?, ?it/s]

In [14]:
X_train_nca = algs[0].transform(X_train)
X_test_nca = algs[0].transform(X_test)

X_train_lfda = algs[1].transform(X_train)
X_test_lfda = algs[1].transform(X_test)

X_train_mlkr = algs[2].transform(X_train)
X_test_mlkr = algs[2].transform(X_test)

#### NCA

In [15]:
kwargs['metric'] = 'euclidean'
neigh = KNeighborsClassifier(**kwargs, n_jobs=-1)
neigh.fit(X_train_nca, y_train)

display(scorer(neigh, X_train_nca, y_train), scorer(neigh, X_test_nca, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train_nca)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test_nca)))

0.6632397191574724

0.5585858585858586

0.921765295887663

0.8161616161616162

#### LFDA

In [16]:
neigh = KNeighborsClassifier(**kwargs, n_jobs=-1)
neigh.fit(X_train_lfda, y_train)

display(scorer(neigh, X_train_lfda, y_train), scorer(neigh, X_test_lfda, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train_lfda)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test_lfda)))

0.6093279839518556

0.494949494949495

0.8791374122367102

0.7323232323232324

#### MLKR

In [17]:
neigh = KNeighborsClassifier(**kwargs, n_jobs=-1)
neigh.fit(X_train_mlkr, y_train)

display(scorer(neigh, X_train_mlkr, y_train), scorer(neigh, X_test_mlkr, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train_mlkr)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test_mlkr)))

0.6777833500501504

0.5505050505050505

0.9260280842527583

0.8191919191919191

Лучше всего себя показал алгоритм `NCA`. С предложенными гиперпараметрами удалось поднять `accuracy` с 0.5(48) до 0.5(50).  Кроме того, он работает достаточно быстро. Подберем гиперпараметры для пайплайна `NCA` + `kNN`.

In [24]:
from sklearn.pipeline import make_pipeline

pipeline = make_pipeline(
            NCA(), 
            KNeighborsClassifier()
        )

param_grid = dict(
        nca__n_components=[64, 96, 128, 196],
        nca__random_state=[10],
        nca__tol=[1e-3],
        kneighborsclassifier__leaf_size=[3 * _ for _ in range(1, 8)],
        kneighborsclassifier__n_neighbors=[5 * _ for _ in range(1, 10)],
        kneighborsclassifier__algorithm=['ball_tree'],
        kneighborsclassifier__metric=['euclidean'],
    )

searcher = GridSearchCV(pipeline, param_grid, scoring='accuracy', cv=5, n_jobs=-1)
searcher.fit(X_train, y_train)
searcher.best_params_

{'kneighborsclassifier__algorithm': 'ball_tree',
 'kneighborsclassifier__leaf_size': 3,
 'kneighborsclassifier__metric': 'euclidean',
 'kneighborsclassifier__n_neighbors': 30,
 'nca__n_components': 128,
 'nca__random_state': 10,
 'nca__tol': 0.001}

In [31]:
pipeline = pipeline.set_params(**searcher.best_params_).fit(X_train, y_train)

display(scorer(pipeline, X_train, y_train), scorer(pipeline, X_test, y_test))

display(top_3_accuracy_score(y_train, pipeline.predict_proba(X_train)), 
        top_3_accuracy_score(y_test, pipeline.predict_proba(X_test)))

0.6303911735205617

0.5545454545454546

0.8934302908726178

0.8535353535353535

Можно попробовать взять побольше величину `n_neighbors`:

In [36]:
kwargs = {'kneighborsclassifier__algorithm': 'ball_tree',
 'kneighborsclassifier__leaf_size': 3,
 'kneighborsclassifier__metric': 'euclidean',
 'kneighborsclassifier__n_neighbors': 70,
 'nca__n_components': 128,
 'nca__random_state': 10,
 'nca__tol': 0.001}

In [37]:
pipeline = pipeline.set_params(**kwargs).fit(X_train, y_train)

display(scorer(pipeline, X_train, y_train), scorer(pipeline, X_test, y_test))

display(top_3_accuracy_score(y_train, pipeline.predict_proba(X_train)), 
        top_3_accuracy_score(y_test, pipeline.predict_proba(X_test)))

0.6063189568706119

0.5525252525252525

0.8771313941825476

0.8484848484848485

**Задание 3. (1 балл)** 

Что будет, если в качестве матрицы в расстоянии Махалонобиса использовать случайную матрицу? Матрицу ковариаций?

In [87]:
# Матрица ковариаций
cov_mat = np.cov(X_train, rowvar=False)
L = np.linalg.cholesky(np.linalg.inv(cov_mat))
X_train_cov = X_train @ L
X_test_cov = X_test @ L

neigh = KNeighborsClassifier().fit(X_train_cov, y_train)
display(scorer(neigh, X_train_cov, y_train), scorer(neigh, X_test_cov, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train_cov)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test_cov)))

0.589518555667001

0.39090909090909093

0.9127382146439318

0.6434343434343435

In [88]:
# Случайная матрица
inds = np.tril_indices(256, k=-1)
L = np.random.normal(size=(256,256))
L[inds] = 0
L = L.T
X_train_rnd = X_train @ L
X_test_rnd = X_test @ L

neigh = KNeighborsClassifier().fit(X_train_rnd, y_train)
display(scorer(neigh, X_train_rnd, y_train), scorer(neigh, X_test_rnd, y_test))

display(top_3_accuracy_score(y_train, neigh.predict_proba(X_train_rnd)), 
        top_3_accuracy_score(y_test, neigh.predict_proba(X_test_rnd)))

0.694332998996991

0.5141414141414141

0.9623871614844534

0.7585858585858586

Со случайной матрицей результаты лучше.

**Задание 4. (1 балл)** Обучите какой-нибудь градиентный бустинг на обычных и трансформированных наборах данных, замерьте качество, задумайтесь о целесообразности других методов.

Оригинальные данные (размерность 256)

In [295]:
from lightgbm import LGBMClassifier

lgb_params = {
        'boosting_type': 'dart',
        'num_leaves': 15,
        'learning_rate': 0.03,
        'max_depth': 40,
        'n_estimators': 70,
        'reg_lambda': 8.0,
        'reg_alpha': 4.0,
        'objective': 'multiclass',
        'n_jobs': -1
    }

lgb = LGBMClassifier(**lgb_params).fit(X_train, y_train)

display(scorer(lgb, X_train, y_train), scorer(lgb, X_test, y_test))

display(top_3_accuracy_score(y_train, lgb.predict_proba(X_train)), 
        top_3_accuracy_score(y_test, lgb.predict_proba(X_test)))

0.7537612838515546

0.591919191919192

0.9338014042126379

0.8474747474747475

Данные, полученные путем домножения на рандомизированную матрицу (размерность 256)

In [289]:
lgb_params = {
        'boosting_type': 'dart',
        'num_leaves': 20,
        'learning_rate': 0.05,
        'max_depth': 40,
        'n_estimators': 100,
        'reg_lambda': 8.0,
        'reg_alpha': 4.0,
        'objective': 'multiclass',
        'n_jobs': -1
    }

lgb = LGBMClassifier(**lgb_params).fit(X_train_rnd, y_train)

display(scorer(lgb, X_train_rnd, y_train), scorer(lgb, X_test_rnd, y_test))

display(top_3_accuracy_score(y_train, lgb.predict_proba(X_train_rnd)), 
        top_3_accuracy_score(y_test, lgb.predict_proba(X_test_rnd)))

0.8234704112337011

0.5888888888888889

0.9658976930792377

0.8575757575757575

Данные через `NCA` (размерность 128)

In [303]:
nca = pipeline['nca']
X_train_nca_ = nca.transform(X_train)
X_test_nca_ = nca.transform(X_test)
X_train_nca_.shape

(3988, 128)

In [471]:
lgb_params = {
        'boosting_type': 'dart',
        'num_leaves': 20,
        'learning_rate': 0.1,
        'max_depth': 50,
        'n_estimators': 80,
        'reg_lambda': 50.0,
        'reg_alpha': 4.0,
        'objective': 'multiclass',
        'n_jobs': -1
    }

lgb = LGBMClassifier(**lgb_params).fit(X_train_nca_, y_train)

display(scorer(lgb, X_train_nca_, y_train), scorer(lgb, X_test_nca_, y_test))

display(top_3_accuracy_score(y_train, lgb.predict_proba(X_train_nca_)), 
        top_3_accuracy_score(y_test, lgb.predict_proba(X_test_nca_)))

0.7808425275827482

0.592929292929293

0.9621364092276831

0.8585858585858586

Меня смущает сильное переобучение: высокое значение `accuracy` на обучающей выборке и сравнительно низкое на тестовой, поэтому я подбирал гиперпараметры так, чтобы на тестовой выборке значение метрики было под 0.6 и не слишком высокое на обучающей. Лучше всего это получилось сделать на непреобразованных данных. В общем-то, никакой разницы нет. Если же поставить высокий `learning_rate`, то на тестовой выборке максимум можно достичь 0.62. Конечно же, нужно использовать другие модели, которые более устойчивы к переобучению.

**Бонус. (1 балл)**

Достигните доли верных ответов 0.75 на тестовой выборке, не используя нейросети.

In [None]:
# ( ・・)つ―{}@{}@{}-