# Поиск наиболее похожих товаров

## Введение

Заказчик предоставил анонимизированный набор имеющихся на складах товаров и набор новых товаров, для которых необходимо найти наиболее похожие из имеющегося набора. 
Особенность задачи состоит в том, что автоматический подбор похожих товаров должен производиться так, чтобы симулировать работу экспертов. Образцы их ответов предоставлены для обучения модели в отдельном файле вместе с примерами запросов.

## Описание данных

- <u>base.csv</u> - анонимизированный **набор товаров**. Каждый товар представлен как уникальный id (0-base, 1-base, 2-base) и вектор признаков размерностью 72.

- <u>train.csv</u> - **обучающий датасет**. Каждая строчка - один товар, для которого известен уникальный id (0-query, …, 100000-query), вектор признаков и id товара из base.csv, который максимально похож на него по мнению экспертов.

- <u>validation.csv</u> - **датасет с товарами** (уникальный id и вектор признаков), **для которых надо найти наиболее близкие** товары из base.csv.

- <u>validation_answer.csv</u> - **правильные ответы** к датасету с товарами для поиска (даётся **для оценки** работы простроенной **модели**).


## Задачи

- **разработать алгоритм**, который для всех товаров из validation.csv предложит несколько вариантов наиболее похожих товаров из base.csv;
- **оценить качество алгоритма** по метрике **accuracy@5**.

## Вывод

1. В рамках исследования были представлены 3 набора данных:
- Пропусков и дубликатов нет ни в одном наборе.
- Данные в основном представлены непрерывными числовыми значениями, основная их доля очевидно имеет нормальное распределение. 
- Данные, которые явно не характеризуются нормальным распределением были исключены из анализа, т.к. такие данные вносят лишние шумы.
- Сильных корреляционных зависимостей не выявлено.

2. Учитывая тот факт, что формула для расчёта расстояния между точками в пространстве чувствительна к диапазону значений различных характеристик, данные были нормализованы.

3. Дополнительно проанализирована целевая метрика в зависимости от количества кандидатов в диапозоне от 5 до 500 кандадатов и установлено:
- с увеличением количества кандидатов растет и максимальное значение целевой метрики
- увеличение количества кандидатов увеличит и время предсказания модели, так как ей придется в каждой иттерации просчитывать бОльшее количество кандидатов.

4. Для решения поставленной задачи было создано и наполнено векторное пространство из объектов анонамизированного набора данных (base). Пространство поделено на 20 кластеров, что ускоряет и уточняет процесс поиска. Для каждого объекта из train были найдены 10 ближайших векторов при помощи меры FlatL2 (при большом количестве не хватало оперативной памяти при формировании дататсетов для обучения и тестирования ML модели).

5. На тренировочном датасете (train) получаем значение метрики **accuracy@5=63.114**, что является удовлетворительным результатом работы модели. Такой результат удалось достичь за счет удалениея не информативных признаков и стандартизации данных. При этом на тестовой выборке (validation) значение метрики **accuracy@5= 62.96** достигнуто без учета ранжирования ML моделью.

6. В качестве ML модели был выбран CatBoostClassifier и проведен подбор гиперпараметров. По обученной модели пердсказаны вероятности совместимости и по найденным занчениям вероятностей  определены 5 наиболее подходящих кандидато по которым расчитано значение целевой метрики **accuracy@5=61.81**

**На текущем этапе мы видим, что применение ML модели не улучшает показатель целевой метрики, тем не менее в дальнейшем можно поробовать усовершенстовать модель и повторно сравнить результат**

## Импорт библиотек

In [2]:
!pip install faiss-cpu --no-cache

Defaulting to user installation because normal site-packages is not writeable


In [3]:
!pip install catboost

Defaulting to user installation because normal site-packages is not writeable


In [4]:
!pip install optuna

Defaulting to user installation because normal site-packages is not writeable


In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import faiss
import optuna
import datetime as dt

#from adjdatatools.preprocessing import AdjustedScaler
from sklearn.utils import shuffle
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import roc_auc_score, make_scorer, f1_score, roc_curve
from optuna.samplers import TPESampler
from catboost import CatBoostClassifier
RANDOM_STATE = 12345

# Загрузка и анализ данных

In [6]:
# функция для предварительного знакомства с данными
def first_look(df, num_of_srtings=5):
    print('Общая информация')
    display(df.info())
    
    print(f'Первые {num_of_srtings} строк(и) данных')
    display(df.head(num_of_srtings))
    
    print('Основные статистические характеристики данных')
    display(df.describe())
    
    print('Количество пропусков:')
    print(df.isna().sum())
    print()
    
    print('Количество дубликатов:', df.duplicated().sum())

In [7]:
# открываем файл с анонимизированным набором товаров 
df_base = pd.read_csv("base.csv", index_col=0)
df_train = pd.read_csv("train.csv", index_col=0)
df_validation = pd.read_csv("validation.csv", index_col=0)
df_validation_answer = pd.read_csv("validation_answer.csv", index_col=0)

## Анонимизированный набор товаров

In [8]:
first_look(df_base)

Общая информация
<class 'pandas.core.frame.DataFrame'>
Index: 2918139 entries, 0-base to 4744766-base
Data columns (total 72 columns):
 #   Column  Dtype  
---  ------  -----  
 0   0       float64
 1   1       float64
 2   2       float64
 3   3       float64
 4   4       float64
 5   5       float64
 6   6       float64
 7   7       float64
 8   8       float64
 9   9       float64
 10  10      float64
 11  11      float64
 12  12      float64
 13  13      float64
 14  14      float64
 15  15      float64
 16  16      float64
 17  17      float64
 18  18      float64
 19  19      float64
 20  20      float64
 21  21      float64
 22  22      float64
 23  23      float64
 24  24      float64
 25  25      float64
 26  26      float64
 27  27      float64
 28  28      float64
 29  29      float64
 30  30      float64
 31  31      float64
 32  32      float64
 33  33      float64
 34  34      float64
 35  35      float64
 36  36      float64
 37  37      float64
 38  38      float64
 39 

None

Первые 5 строк(и) данных


Unnamed: 0_level_0,0,1,2,3,4,5,6,7,8,9,...,62,63,64,65,66,67,68,69,70,71
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
0-base,-115.08389,11.152912,-64.42676,-118.88089,216.48244,-104.69806,-469.070588,44.348083,120.915344,181.4497,...,-42.808693,38.800827,-151.76218,-74.38909,63.66634,-4.703861,92.93361,115.26919,-112.75664,-60.830353
1-base,-34.562202,13.332763,-69.78761,-166.53348,57.680607,-86.09837,-85.076666,-35.637436,119.718636,195.23419,...,-117.767525,41.1,-157.8294,-94.446806,68.20211,24.346846,179.93793,116.834,-84.888941,-59.52461
2-base,-54.233746,6.379371,-29.210136,-133.41383,150.89583,-99.435326,52.554795,62.381706,128.95145,164.38147,...,-76.3978,46.011803,-207.14442,127.32557,65.56618,66.32568,81.07349,116.594154,-1074.464888,-32.527206
3-base,-87.52013,4.037884,-87.80303,-185.06763,76.36954,-58.985165,-383.182845,-33.611237,122.03191,136.23358,...,-70.64794,-6.358921,-147.20105,-37.69275,66.20289,-20.56691,137.20694,117.4741,-1074.464888,-72.91549
4-base,-72.74385,6.522049,43.671265,-140.60803,5.820023,-112.07408,-397.711282,45.1825,122.16718,112.119064,...,-57.199104,56.642403,-159.35184,85.944724,66.76632,-2.505783,65.315285,135.05159,-1074.464888,0.319401


Основные статистические характеристики данных


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,62,63,64,65,66,67,68,69,70,71
count,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,...,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0,2918139.0
mean,-86.22947,8.080077,-44.5808,-146.635,111.3166,-71.99138,-392.2239,20.35283,123.6842,124.4581,...,-79.02286,33.29735,-154.7962,14.15132,67.79167,23.5449,74.9593,115.5667,-799.339,-47.79125
std,24.89132,4.953387,38.63166,19.8448,46.34809,28.18607,271.655,64.21638,6.356109,64.43058,...,30.45642,28.88603,41.22929,98.95115,1.823356,55.34224,61.345,21.17518,385.4131,41.74802
min,-199.4687,-13.91461,-240.0734,-232.6671,-105.583,-211.0086,-791.4699,-301.8597,93.15305,-173.8719,...,-220.5662,-88.50774,-353.9028,-157.5944,59.50944,-233.1382,-203.6016,15.72448,-1297.931,-226.7801
25%,-103.0654,4.708491,-69.55949,-159.9051,80.50795,-91.37994,-629.3318,-22.22147,119.484,81.76751,...,-98.7639,16.98862,-180.7799,-71.30038,66.58096,-12.51624,33.77574,101.6867,-1074.465,-75.66641
50%,-86.2315,8.03895,-43.81661,-146.7768,111.873,-71.9223,-422.2016,20.80477,123.8923,123.4977,...,-78.48812,34.71502,-153.9773,13.82693,67.81458,23.41649,74.92997,116.0244,-1074.465,-48.59196
75%,-69.25658,11.47007,-19.62527,-133.3277,142.3743,-52.44111,-156.6686,63.91821,127.9705,167.2206,...,-58.53355,52.16429,-127.3405,99.66753,69.02666,59.75511,115.876,129.5524,-505.7445,-19.71424
max,21.51555,29.93721,160.9372,-51.37478,319.6645,58.80624,109.6325,341.2282,152.2612,427.5421,...,60.17411,154.1678,24.36099,185.0981,75.71203,314.8988,339.5738,214.7063,98.77081,126.9732


Количество пропусков:
0     0
1     0
2     0
3     0
4     0
     ..
67    0
68    0
69    0
70    0
71    0
Length: 72, dtype: int64

Количество дубликатов: 0


Посмотрим на распределение значений признаков.

In [None]:
df_base.hist(figsize=(18, 16), bins=50, grid=False);
plt.tight_layout()
plt.show()

In [None]:
df_base = df_base.drop(['6', '21', '25', '33', '44', '59', '65', '70'], axis=1)

**Вывод**
- Набор товаров, среди которых нам нужно проводить поиск содержит почти 3 млн образцов
- Данные зашифрованы. Для каждого образца товара имеется 72 характеристики все представляют собой дробные числа
- Пропусков и дубликатов в наборе нет
- Как видно из гистограмм, большинство признаков имеют бликое к нормальному распределению. Но имеются признаки никак не связанные с нормальным распределением. В первой иттерации удалим эти признаки.

## Данные, для которых даны оценки экспертов

In [None]:
first_look(df_train)

Посмотрим на распределение значений признаков.

In [None]:
df_train.hist(figsize=(18, 16), bins=100, grid=False);
plt.tight_layout()
plt.show()

**Вывод**
- Данные, для которых даны оценки экспертов без пропусков и дубликатов
- Характеристики имеют те же распределения, что и в базовом датасете. Также удалим признаки
- Оценки экспертов содержатся в отдельном столбце target. Выделим его в отдельную переменную для последующей передачи модели.

In [None]:
# разделим запросы и ответы экспертов
targets = df_train["Target"]
df_train.drop("Target", axis=1, inplace=True)

In [None]:
df_train = df_train.drop(['6', '21', '25', '33', '44', '59', '65', '70'], axis=1)

## Данные для проверки качества модели

In [None]:
first_look(df_validation)

Посмотрим на распределение значений признаков.

In [None]:
df_validation.hist(figsize=(18, 16), bins=100, grid=False);
plt.tight_layout()
plt.show()

**Выводы** для датасета с запросами, для которых необходимо подобрать похожие товары в соответствии с рекомендациями экспертов аналогичны предидущему датасету.

In [None]:
df_validation = df_validation.drop(['6', '21', '25', '33', '44', '59', '65', '70'], axis=1)

## Корреляция на базе анонимизированного набора товаров

In [None]:
f, ax = plt.subplots(figsize=(18, 18))
sns.heatmap(df_base.corr(), vmin=-1, vmax=1, square=True, annot=False, fmt='.2f');
plt.title('Матрица коэффициентов корреляции Пирсона')
plt.show()

## Вывод после предварительного знакомства с данными

Для исследования доступны три набора данных
- 3 млн товаров, среди которых мы должны подбирать похожие на входные запросы
- 100 000 строк запросов с ответами экспертов
- 100 000 запросов для подбора похожих товаров с помощью разрабатываемой модели.

Все три набора данных зашифрованы Для каждого образца товара имеется 72 характеристики все представляют собой дробные числа. 

Пропусков и дубликатов нет ни в одном наборе.

Данные в основном представлены непрерывными числовыми значениями, основная их доля очевидно имеет нормальное распределение. Те данные, которые явно не характеризуются нормальным распределением, будут вносить лишний шум в результаты метчинга - такие данные исклчюены.

Сильных корреляционных зависимостей не наблюдается.


# Нормализация данных

Так как формула для расчёта расстояния между точками в пространстве чувствительна к диапазону значений различных характеристик, предварительно нормализуем данные.


In [None]:
scaler = StandardScaler()
scaler.fit(df_base[df_base.columns])
df_base[df_base.columns]             = scaler.transform(df_base[df_base.columns])
df_train[df_train.columns]           = scaler.transform(df_train[df_train.columns])
df_validation[df_validation.columns] = scaler.transform(df_validation[df_validation.columns])

# Поиск ближайших соседей

Для того, чтобы найти в базовом наборе товары, похожие на наш запрос, воспользуемся библиотекой FAISS.

Принцип работы Faiss:
- Отображение всех объектов (векторов) в едином пространстве
- Деление полученного пространства на отдельные части (кластеры) при помощи спец. алгоритма библиотеки
- Для каждого кластера происходит поиск его центра (центроида)
- Таким образом, для нового вектора можно быстрой найти ближайших соседей, вычислив расстояние именно до центроидов (не перемножая новый вектор со всеми остальными векторами).
- После выявления ближайшего кластера, новый вектор перемножается векторами только из этого кластера.

FlatL2 - мера близости вектором L2-норма (евклидово расстояние). По этой причине большое значение имеет "нормализованы ли признаки?", поскольку в этой ситуации признак бóльшей величины будет играть бóльшую роль в предсказании. Но это не отображает достоверность его значимость. quantizer - квантизатор, который получает на вход вектора размерностью dims и рассчитывает расстояние между ними по евклидовой норме. idx_l2 - пространство векторов размерностью dims, разделяемое на n_cells кластеров с помощью quantizer.

In [None]:
# инициализация индекса
dims = df_base.shape[1]
n_cells = 18
quantizer = faiss.IndexFlatL2(dims)
idx_l2 = faiss.IndexIVFFlat(quantizer, dims, n_cells)

In [None]:
# подготовка к поиску
idx_l2.train(np.ascontiguousarray(df_base.values).astype('float32'))
idx_l2.add(np.ascontiguousarray(df_base.values).astype('float32'))

# создание словаря для нахождения индекса товара в базовом наборе данных
base_index = {k: v for k, v in enumerate(df_base.index.to_list())}

Далее расчитана целевая метрика в зависимости от количества кандидатов. По заданию метрика считается для 5 кандидатов, но ml модель может немного улучшить метрику. Ислледуем диапозон от 5 до 450 кандадатов

In [None]:
cand_number = []
cand_result = []

for i in range(5, 450, 50):
    r, idx = idx_l2.search(np.ascontiguousarray(df_train.values).astype('float32'), i)
    acc = 0
    for target, el in zip(targets.values.tolist(), idx.tolist()):
        acc += int(target in [base_index[r] for r in el])

    cand_number.append(i)
    cand_result.append(100 * acc / len(idx))

In [None]:
test_cand = pd.DataFrame({'num_candidate': cand_number, 'acc': cand_result})

In [None]:
plt.figure(figsize=(18, 6))
plt.plot(test_cand.num_candidate, test_cand.acc, 'ro-')
plt.grid(True)
plt.title('Зависимость между целевой метрикой и количеством кандадатов')
plt.ylabel('Значение целевой метрики')
plt.xlabel('Количество кандадатов')
plt.show()

Как видно, с увеличением метрики растетм и максимальное значение целевой метрики. Но нужно понимать, что увеличение количества кандидатов увеличит и время предсказания модели, так как ей придется в каждой иттерации просчитывать бОльшее количество кандидатов. В данном случае необходимо найти баланс между количеством кандидатов и затрачиваемого времени. В первом приближении предлагается использовать 20 кандидатов - значение целевой метрики около 67%.

## Поиск по обучающей выборке

In [None]:
K_NEIGHBORS = 10

Проводим сопоставление товаров библиотекой Faiss, для получения результата по метрике accuracy@5 задаем подбор 5 кандидатов.

In [None]:
# измерим время поиска
start_time = dt.datetime.now().timestamp()
vecs, idx = idx_l2.search(np.ascontiguousarray(df_train.values).astype('float32'), K_NEIGHBORS)
time_spent = dt.datetime.now().timestamp() - start_time
print(f'Время поиска: {time_spent // 60} минут и {time_spent % 60} секунд')

Считаем метрику на тренировочном датасете.

In [None]:
acc_n = 0
for target, el in zip(targets.values.tolist(), idx.tolist()):
    acc_n += int(target in [base_index[r] for r in el])
print(100 * acc_n / len(idx))

In [None]:
acc_5 = 0
for target, el in zip(targets.values.tolist(), idx.tolist()):
    acc_5 += int(target in [base_index[r] for r in el[:5]])
print(100 * acc_5 / len(idx))

На текущему этапе создано и наполнено векторное пространство из объектов датасета base. Пространство поделено на 20 кластеров, что ускоряет и уточняет процесс поиска. Для каждого объекта из train были найдены 10 ближайших векторов при помощи меры FlatL2. На тренировочном датасете получаем значение метрики **accuracy@5=63.114**, что является удовлетворительным результатом работы модели. Такой результат удалось достичь за счет удалениея не информативных признаков и стандартизации данных. Для 10 кандадатов значение метрики **accuracy@30=67.186**. Далее, среди найденных кандидатов необходимо выявить самые подходящие. Для этого их требуется отранжировать.

**p.s. свыше 10 кандидатов првоерить не удалось - ругается на нехватку оперативной памяти.**

# Ранжирование

## Формирование тренировочной выборки

Првым шагом необходимо составить новый датафрейм состоящий из двух половин:

Искомые векторы
Несколько кандидатов на сопоставление для каждого искомого вектора.
Последним столбцом для этого вектора станет matching содержащий правильный ответ: 1 - вектор подходит, 0 - вектор не подходим.

In [None]:
# подготовка датафрейма с перечнем ID новых и старых объектов
idx_df = pd.DataFrame(dtype='float32', data=idx, index=df_train.index)
idx_df = pd.melt(idx_df.T)
idx_df.columns = ['id_query', 'candidate']
idx_df['id_candidate'] = [base_index[number] for number in idx_df['candidate'].values]
idx_df.drop('candidate', axis=1, inplace=True)

idx_df

Полученные колонки с id товаров будут использованы для объединения при помощи метода merge(). В качестве данных будут использоваться уже отмасштабированные признаки

In [None]:
df_train_base = idx_df.merge(df_train, left_on='id_query', right_on='Id', how='left')
df_train_base = df_train_base.merge(df_base, left_on='id_candidate', right_on='Id', how='left', suffixes=('', '_base'))
df_train_base = df_train_base.merge(targets, left_on='id_query', right_on='Id', how='left')

df_train_base.head()

In [None]:
# преобразование целевого признака для бинарной классификации
df_train_base['matching'] = (df_train_base['id_candidate'] == df_train_base['Target']).astype('int')
df_train_base.drop('Target', axis=1, inplace=True)

In [None]:
# выделение признаков и таргета
y_train = df_train_base['matching']
X_train = df_train_base.drop(['id_query', 'id_candidate', 'matching'] , axis=1)

display(y_train.to_frame())
display(X_train)

В результате получилась выборка для обучения:
- 1 000 000  записей = 100 000 новых товаров (query) * 10 ближайших кандидатов для каждого.
- 128 признака = 64 признака "старых" товаров из base + 64 признака "новых" товаров из train.
- бинарный целевой признак.

## Поиск по тестовой выборке

In [None]:
# поиск ближайших соседей для валидационной выборки
start_time = dt.datetime.now().timestamp()
valid_vec, valid_idx = idx_l2.search(np.ascontiguousarray(df_validation), K_NEIGHBORS)
time_spent = dt.datetime.now().timestamp() - start_time
print(f'Время поиска: {time_spent // 60} минут и {time_spent % 60} секунд')

In [None]:
acc_n_valid = 0

for target, el in zip(df_validation_answer['Expected'].values.tolist(), valid_idx.tolist()):
    acc_n_valid += int(target in [base_index[r] for r in el])

print(100 * acc_n_valid / len(valid_idx))

In [None]:
acc_5_valid = 0

for target, el in zip(df_validation_answer['Expected'].values.tolist(), valid_idx.tolist()):
    acc_5_valid += int(target in [base_index[r] for r in el[:5]])

print(100 * acc_5_valid / len(valid_idx))

Результата на тестовой выборке (без ранжирования ML моделью) составялет 62.96, что весьма неплохо. Темне-менее попробуем улчишть с применением ML.

## Формирование тестовой выборки

Аналогичную процедуру  как и для обучающей выборки необходимо выполнить для тестовой выборки.

In [None]:
# подготовка датафрейма с перечнем ID новых и старых объектов
idx_df = pd.DataFrame(dtype='float32', data=valid_idx, index=df_validation.index)
idx_df = pd.melt(idx_df.T)
idx_df.columns = ['id_query', 'candidate']
idx_df['id_candidate'] = [base_index[number] for number in idx_df['candidate'].values]
idx_df.drop('candidate', axis=1, inplace=True)

display(idx_df)

In [None]:
df_valid_base = idx_df.merge(df_validation, left_on='id_query', right_on='Id', how='left')
df_valid_base = df_valid_base.merge(df_base, left_on='id_candidate', right_on='Id', how='left', suffixes=('', '_base'))
df_valid_base = df_valid_base.merge(df_validation_answer, left_on='id_query', right_on='Id', how='left')

df_valid_base.head()

In [None]:
# преобразование целевого признака для бинарной классификации
df_valid_base['matching'] = (df_valid_base['id_candidate'] == df_valid_base['Expected']).astype('int')
display(df_valid_base[['id_query', 'id_candidate', 'Expected', 'matching']])
df_valid_base.drop('Expected', axis=1, inplace=True)

In [None]:
# выделение признаков и таргета
y_valid = df_valid_base['matching']
X_valid = df_valid_base.drop(['id_query', 'id_candidate', 'matching'] , axis=1)

display(y_valid.to_frame())
display(X_valid)

## Обучение ML-модели

In [None]:
y_train.value_counts(normalize=True)

Обучать будем CatBoostClassifier. Для подготовки модели осталось получить лучшие гиперпараметры. Предлагается воспользоваться библиотекой Optuna.В качестве метрики выбрана F1, так как в отличии от accuracy дисбаланс классов на нее не влияет, а у нас наблюдается сильный дисбаланс.

In [None]:
def objective(trial: optuna.Trial):
    params = {
            'iterations': trial.suggest_int('iterations', 100, 1000, step=50),
            'learning_rate': trial.suggest_float('learning_rate', 0.0001, 1, step=0.0001),
            'depth': trial.suggest_int('depth', 2, 10, step=1),
            'l2_leaf_reg': trial.suggest_float('l2_leaf_reg', 0.001, 100, log=True)
    }
    
    cbc = CatBoostClassifier(**params, random_state=RANDOM_STATE, verbose=False)
    cv = KFold(n_splits=4)
    scorer = make_scorer(f1_score)
    
    scores = cross_val_score(
        cbc, 
        X_train, 
        y_train, 
        cv=cv, 
        scoring=scorer)

    return scores.mean()


study = optuna.create_study(study_name='CatBoostClassifier', 
                                direction='maximize', 
                                sampler=TPESampler(seed=RANDOM_STATE)
                                )
study.optimize(objective, n_trials=1, timeout=None, n_jobs=1)

In [None]:
print('Best hyperparameters:', study.best_params)
print('Best F1-score:', study.best_value)

Оптимальные гиперпараметры найдены. Следующим шагом перейдем к обучению модели и предсказанию вероятности совместимости. Затем по найденным занчениям вероятностей буду определены 5 наиболее подходящих кандидатов.

In [None]:
model = CatBoostClassifier(iterations=950, learning_rate=0.3164,depth=3,l2_leaf_reg=0.010539048248947627,random_state=RANDOM_STATE, verbose=False)
model.fit(X_train, y_train)

In [None]:
valid_probabilities = model.predict_proba(X_valid)[:, 1]
valid_proba_series = pd.Series(valid_probabilities)

In [None]:
valid_candidates = []
for i in range(0, len(valid_proba_series), K_NEIGHBORS):
    query = valid_proba_series[i : i + K_NEIGHBORS]
    index = query.sort_values(ascending=False)[0:5].index
    valid_candidates.append(index)

print('Кол-во предсказаний:', len(valid_candidates))
print('Кол-во кандидатов:', len(valid_candidates[0]))

Теперь расчитаем метрику для 5 найденных наиболее подходящих кандидатов.

In [None]:
acc_5_final = 0
for target, candidates in zip(df_validation_answer['Expected'].values.tolist(), valid_candidates):
    acc_5_final += int(target in df_valid_base.loc[candidates, 'id_candidate'].values)

print(100 * acc_5_final / len(valid_candidates))

# Вывод

1. В рамках исследования были представлены 3 набора данных:
- Пропусков и дубликатов нет ни в одном наборе.
- Данные в основном представлены непрерывными числовыми значениями, основная их доля очевидно имеет нормальное распределение. 
- Данные, которые явно не характеризуются нормальным распределением были исключены из анализа, т.к. такие данные вносят лишние шумы.
- Сильных корреляционных зависимостей не выявлено.

2. Учитывая тот факт, что формула для расчёта расстояния между точками в пространстве чувствительна к диапазону значений различных характеристик, данные были нормализованы.

3. Дополнительно проанализирована целевая метрика в зависимости от количества кандидатов в диапозоне от 5 до 500 кандадатов и установлено:
- с увеличением количества кандидатов растет и максимальное значение целевой метрики
- увеличение количества кандидатов увеличит и время предсказания модели, так как ей придется в каждой иттерации просчитывать бОльшее количество кандидатов.

4. Для решения поставленной задачи было создано и наполнено векторное пространство из объектов анонамизированного набора данных (base). Пространство поделено на 20 кластеров, что ускоряет и уточняет процесс поиска. Для каждого объекта из train были найдены 10 ближайших векторов при помощи меры FlatL2 (при большом количестве не хватало оперативной памяти при формировании дататсетов для обучения и тестирования ML модели).

5. На тренировочном датасете (train) получаем значение метрики **accuracy@5=63.114**, что является удовлетворительным результатом работы модели. Такой результат удалось достичь за счет удалениея не информативных признаков и стандартизации данных. При этом на тестовой выборке (validation) значение метрики **accuracy@5= 62.96** достигнуто без учета ранжирования ML моделью.

6. В качестве ML модели был выбран CatBoostClassifier и проведен подбор гиперпараметров. По обученной модели пердсказаны вероятности совместимости и по найденным занчениям вероятностей  определены 5 наиболее подходящих кандидато по которым расчитано значение целевой метрики **accuracy@5=61.81**

**На текущем этапе мы видим, что применение ML модели не улучшает показатель целевой метрики, темне-менне в дальнейшем можно поробовать усовршенстовать модель и повторно сравнить результат**