# Домашняя работа 6. Двухуровневые модели рекомендаций


In [1]:
import pandas as pd
import numpy as np
import functools as ft

# Для работы с матрицами
from scipy.sparse import csr_matrix

# Матричная факторизация
from implicit import als

# Модель второго уровня
from lightgbm import LGBMClassifier
from catboost import CatBoostClassifier

import os, sys
module_path = os.path.abspath(os.path.join(os.pardir))
if module_path not in sys.path:
    sys.path.append(module_path)

# Написанные нами функции
from best_rec_lib.metrics import precision_at_k, recall_at_k, ap_k
from best_rec_lib.utils import prefilter_items
from best_rec_lib.recommenders import MainRecommender

import gc

import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv('../retail_train.csv')
item_features = pd.read_csv('../product.csv')
user_features = pd.read_csv('../hh_demographic.csv')

# column processing
item_features.columns = [col.lower() for col in item_features.columns]
user_features.columns = [col.lower() for col in user_features.columns]

item_features.rename(columns={'product_id': 'item_id'}, inplace=True)
user_features.rename(columns={'household_key': 'user_id'}, inplace=True)


# Важна схема обучения и валидации!
# -- давние покупки -- | -- 6 недель -- | -- 3 недель -- 
# подобрать размер 2-ого датасета (6 недель) --> learning curve (зависимость метрики recall@k от размера датасета)
val_lvl_1_size_weeks = 6
val_lvl_2_size_weeks = 3

data_train_lvl_1 = data[data['week_no'] < data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)]
data_val_lvl_1 = data[(data['week_no'] >= data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)) &
                      (data['week_no'] < data['week_no'].max() - (val_lvl_2_size_weeks))]

data_train_lvl_2 = data_val_lvl_1.copy()  # Для наглядности. Далее мы добавим изменения, и они будут отличаться
data_val_lvl_2 = data[data['week_no'] >= data['week_no'].max() - val_lvl_2_size_weeks]

data_train_lvl_1.head(2)

Unnamed: 0,user_id,basket_id,day,item_id,quantity,sales_value,store_id,retail_disc,trans_time,week_no,coupon_disc,coupon_match_disc
0,2375,26984851472,1,1004906,1,1.39,364,-0.6,1631,1,0.0,0.0
1,2375,26984851472,1,1033142,1,0.82,364,0.0,1631,1,0.0,0.0


In [3]:
n_items_before = data_train_lvl_1['item_id'].nunique()

data_train_lvl_1 = prefilter_items(data_train_lvl_1, item_features=item_features, take_n_popular=5000)

n_items_after = data_train_lvl_1['item_id'].nunique()
print('Decreased # items from {} to {}'.format(n_items_before, n_items_after))

Decreased # items from 83685 to 5001


In [4]:
recommender = MainRecommender(data_train_lvl_1)

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/5001 [00:00<?, ?it/s]

In [5]:
recommender.get_als_recommendations(2375, N=5)

[899624, 1046545, 989069, 848029, 896613]

In [6]:
recommender.get_own_recommendations(2375, N=5)

[5707857, 918046, 907099, 948640, 998519]

In [7]:
recommender.get_similar_items_recommendation(2375, N=5)

[1046545, 1044078, 899624, 1127831, 828121]

In [8]:
recommender.get_similar_users_recommendation(2375, N=5)

[976199, 843464, 5569230, 1039224, 847962]

### Задание 1

A) Попробуйте различные варианты генерации кандидатов. Какие из них дают наибольший recall@k ?
- Пока пробуем отобрать 50 кандидатов (k=50)
- Качество измеряем на data_val_lvl_1: следующие 6 недель после трейна

Дают ли own recommendtions + top-popular лучший recall?  

B)* Как зависит recall@k от k? Постройте для одной схемы генерации кандидатов эту зависимость для k = {20, 50, 100, 200, 500}  
C)* Исходя из прошлого вопроса, как вы думаете, какое значение k является наиболее разумным?


In [9]:
result_lvl_1 = data_val_lvl_1.groupby('user_id')['item_id'].unique().reset_index()
result_lvl_1.columns=['user_id', 'actual']
result_lvl_1.head(2)

Unnamed: 0,user_id,actual
0,1,"[853529, 865456, 867607, 872137, 874905, 87524..."
1,2,"[15830248, 838136, 839656, 861272, 866211, 870..."


In [10]:
test_users = result_lvl_1.shape[0]
new_test_users = len(set(data_val_lvl_1['user_id']) - set(data_train_lvl_1['user_id']))

print('В тестовом дата сете {} юзеров'.format(test_users))
print('В тестовом дата сете {} новых юзеров'.format(new_test_users))
new_test_users = list(set(data_val_lvl_1['user_id']) - set(data_train_lvl_1['user_id']))

В тестовом дата сете 2154 юзеров
В тестовом дата сете 3 новых юзеров


In [11]:
result_lvl_1 = result_lvl_1[~result_lvl_1['user_id'].isin(new_test_users)]

**A.**

In [12]:
%%time
result_lvl_1['als_bm25_50'] = [recommender.get_als_recommendations(el, N=50) for el in result_lvl_1['user_id']]
result_lvl_1['own_rec_50'] = [recommender.get_own_recommendations(el, N=50) for el in result_lvl_1['user_id']]
result_lvl_1['sim_user_rec_50'] = [recommender.get_similar_users_recommendation(el, N=50) for el in result_lvl_1['user_id']]
result_lvl_1['sim_item_rec_50'] = [recommender.get_similar_items_recommendation(el, N=50) for el in result_lvl_1['user_id']]

CPU times: total: 16min 24s
Wall time: 1min 59s


In [13]:
result_lvl_1.head()

Unnamed: 0,user_id,actual,als_bm25_50,own_rec_50,sim_user_rec_50,sim_item_rec_50
0,1,"[853529, 865456, 867607, 872137, 874905, 87524...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[1029743, 916990, 1029743, 1126899, 5569230, 1...","[951188, 5582712, 9297615, 828121, 1132231, 95..."
1,2,"[15830248, 838136, 839656, 861272, 866211, 870...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[1029743, 844179, 933835, 1067695, 978129, 959...","[8090537, 899624, 1021324, 985999, 819978, 880..."
2,4,"[883932, 970760, 1035676, 1055863, 1097610, 67...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[5569230, 1016195, 1037840, 896666, 1106523, 1...","[12696099, 1069256, 1069256, 951188, 859809, 9..."
3,6,"[1024306, 1102949, 6548453, 835394, 940804, 96...","[878996, 863447, 5569230, 965267, 1008547, 896...","[5707857, 13003092, 1108094, 8203834, 1063207,...","[1004906, 1106523, 1029743, 1106523, 961979, 6...","[948650, 1021324, 951188, 878996, 1127831, 844..."
4,7,"[836281, 843306, 845294, 914190, 920456, 93886...","[1122358, 7144132, 5981267, 1136033, 5590695, ...","[5707857, 1122358, 894360, 998519, 896666, 714...","[1029743, 1040807, 1112238, 6463907, 1050851, ...","[1019247, 5570590, 899624, 951188, 6602697, 10..."


In [14]:
result_lvl_1.apply(lambda row: recall_at_k(row['als_bm25_50'], row['actual'], 50), axis=1).mean()

0.0909067195803016

In [15]:
result_lvl_1.apply(lambda row: recall_at_k(row['own_rec_50'], row['actual'], 50), axis=1).mean()

0.07976436828697824

In [16]:
result_lvl_1.apply(lambda row: recall_at_k(row['sim_user_rec_50'], row['actual'], 50), axis=1).mean()

0.08089152996344934

In [17]:
result_lvl_1.apply(lambda row: recall_at_k(row['sim_item_rec_50'], row['actual'], 50), axis=1).mean()

0.04014881203827246

**Вопрос:** Дают ли own recommendtions + top-popular лучший recall?

**Ответ:** Нет. Лучший recall дают als_bm25 + top-popular

**B.**

Сделаем перебор параметра k для двух лучших моделей als_bm25 и own_rec

In [18]:
k_rec = [20, 50, 100, 200, 350, 500]

In [19]:
# Словарь метрик
recall_met = dict()

In [20]:
%%time
for el in k_rec:
    result_lvl_1[f'als_bm25_{el}'] = [recommender.get_als_recommendations(x, N=el) for x in result_lvl_1['user_id']]
    result_lvl_1[f'own_rec_{el}'] = [recommender.get_own_recommendations(x, N=el) for x in result_lvl_1['user_id']]
    recall_met[f'als_bm25_{el}'] = result_lvl_1.apply(lambda row: recall_at_k(row[f'als_bm25_{el}'], row['actual'], el), axis=1).mean()
    recall_met[f'own_rec_{el}'] = result_lvl_1.apply(lambda row: recall_at_k(row[f'own_rec_{el}'], row['actual'], el), axis=1).mean()

CPU times: total: 13min 6s
Wall time: 2min 1s


In [21]:
result_lvl_1.head(3)

Unnamed: 0,user_id,actual,als_bm25_50,own_rec_50,sim_user_rec_50,sim_item_rec_50,als_bm25_20,own_rec_20,als_bm25_100,own_rec_100,als_bm25_200,own_rec_200,als_bm25_350,own_rec_350,als_bm25_500,own_rec_500
0,1,"[853529, 865456, 867607, 872137, 874905, 87524...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[1029743, 916990, 1029743, 1126899, 5569230, 1...","[951188, 5582712, 9297615, 828121, 1132231, 95...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8...","[856942, 5577022, 940947, 9297615, 8090541, 96...","[856942, 5707857, 9297615, 5577022, 9655212, 8..."
1,2,"[15830248, 838136, 839656, 861272, 866211, 870...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[1029743, 844179, 933835, 1067695, 978129, 959...","[8090537, 899624, 1021324, 985999, 819978, 880...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80...","[8090521, 5569230, 1106523, 916122, 940947, 10...","[5707857, 911974, 1076580, 1075368, 896666, 80..."
2,4,"[883932, 970760, 1035676, 1055863, 1097610, 67...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[5569230, 1016195, 1037840, 896666, 1106523, 1...","[12696099, 1069256, 1069256, 951188, 859809, 9...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91...","[883932, 5569230, 891423, 1082627, 6391541, 93...","[6391541, 1052294, 891423, 5707857, 936470, 91..."


In [22]:
recall_data = pd.DataFrame(recall_met, index =['Recall@k'])
recall_data = recall_data.T
recall_data.sort_values('Recall@k', ascending=False)

Unnamed: 0,Recall@k
own_rec_500,0.189449
als_bm25_500,0.185962
own_rec_350,0.17315
als_bm25_350,0.171528
als_bm25_200,0.149044
own_rec_200,0.145225
als_bm25_100,0.119237
own_rec_100,0.108924
als_bm25_50,0.090907
own_rec_50,0.079764


**Выводы** С увеличением количества рекомендаций увеличивается и показатель Recall@k, что логично, т.к. чем больше рекомендаций, тем больше вероятность, что в ней окажутся реально купленные пользователем товары.

Думаю, что в данном случае оптимальным будет значение k=350 при использовании модели own_rec.

### Задание 2.

Обучите модель 2-ого уровня, при этом:
    - Добавьте минимум по 2 фичи для юзера, товара и пары юзер-товар
    - Измерьте отдельно precision@5 модели 1-ого уровня и двухуровневой модели на data_val_lvl_2
    - Вырос ли precision@5 при использовании двухуровневой модели?

In [23]:
users_lvl_2 = pd.DataFrame(data_train_lvl_2['user_id'].unique())
users_lvl_2.columns = ['user_id']

# Пока только warm start
train_users = data_train_lvl_1['user_id'].unique()
users_lvl_2 = users_lvl_2[users_lvl_2['user_id'].isin(train_users)]

users_lvl_2['candidates'] = users_lvl_2['user_id'].apply(lambda x: recommender.get_own_recommendations(x, N=350))

In [24]:
s = users_lvl_2.apply(lambda x: pd.Series(x['candidates']), axis=1).stack().reset_index(level=1, drop=True)
s.name = 'item_id'

users_lvl_2 = users_lvl_2.drop('candidates', axis=1).join(s)
users_lvl_2['flag'] = 1

In [25]:
targets_lvl_2 = data_train_lvl_2[['user_id', 'item_id']].copy()
targets_lvl_2['target'] = 1  # тут только покупки 

targets_lvl_2 = users_lvl_2.merge(targets_lvl_2, on=['user_id', 'item_id'], how='left')

targets_lvl_2['target'].fillna(0, inplace= True)
targets_lvl_2.drop('flag', axis=1, inplace=True)

Добавим следующие фичи:
1. Для пользователя:
- средний чек пользователя
- средний чек пользователя по категориям товаров
- максимальный чек пользователя
- максимальный чек пользователя по категориям товаров
2. Для товара:
- мода возрастной категории, приобретающих товар
- мода категории дохода, приобретающих товар
3. Для пары user-товар:
- среднее количество покупок пользователями товаров данной категории
- средний чек всех пользователей по категории товара 

In [26]:
user_feats = user_features[['user_id', 'age_desc', 'income_desc']]

In [27]:
item_feats = item_features[['item_id', 'department']]

In [28]:
spam_features_lvl_1 = data_train_lvl_1.merge(user_feats, on='user_id', how='left')
spam_features_lvl_1 = spam_features_lvl_1.merge(item_feats, on='item_id', how='left')

In [29]:
del user_feats
del item_feats

gc.collect()

0

Фичи для пары user-товар

In [30]:
# Среднее количество покупок пользователями по категориям
weeks = spam_features_lvl_1.week_no.max()
cat_num_week_buy = spam_features_lvl_1.groupby(['department'])[['sales_value']].count()
cat_num_week_buy = cat_num_week_buy.rename (columns= {'sales_value': 'cat_num_week_buy'})
cat_num_week_buy['cat_num_week_buy'] = cat_num_week_buy['cat_num_week_buy'] / weeks

In [31]:
# средний чек всех пользователей по категории товара
avg_check_cat_all_users = spam_features_lvl_1.groupby(['department'])[['sales_value']].mean()
avg_check_cat_all_users = avg_check_cat_all_users.rename (columns= {'sales_value': 'avg_check_cat_all_users'})

Фичи для user

In [32]:
# средний и максимальный чек пользователя
check = spam_features_lvl_1.groupby(['user_id', 'basket_id'])[['sales_value']].sum()
avg_check = check.groupby(['user_id'])[['sales_value']].mean()
avg_check = avg_check.rename (columns= {'sales_value': 'avg_check'})
max_check = check.groupby(['user_id'])[['sales_value']].max()
max_check = max_check.rename (columns= {'sales_value': 'max_check'})

del check
gc.collect()

0

In [33]:
# средний и максимальный чек пользователя по категориям
check_cat = spam_features_lvl_1.groupby(['user_id', 'basket_id', 'department'])[['sales_value']].sum()
avg_check_cat = check_cat.groupby(['user_id', 'department'])[['sales_value']].mean()
avg_check_cat = avg_check_cat.rename (columns= {'sales_value': 'avg_check_cat'})
max_check_cat = check_cat.groupby(['user_id', 'department'])[['sales_value']].max()
max_check_cat = max_check_cat.rename (columns= {'sales_value': 'max_check_cat'})

del check_cat
gc.collect()

0

Фичи для товаров

In [34]:
# мода возрастной категории, приобретающих товар
age_mode = pd.DataFrame(spam_features_lvl_1.groupby('item_id')[['age_desc']].value_counts())
age_mode = age_mode.rename (columns= {0: 'age_mode'})
spam = list(age_mode.index)
age_mode = {'item_id': [], 'age_mode': []}
for i, el in enumerate(spam):
    if spam[i][0] != spam[i-1][0]:
        age_mode['item_id'].append(el[0])
        age_mode['age_mode'].append(el[1])
        
age_mode = pd.DataFrame(age_mode, columns =['item_id', 'age_mode'])

In [35]:
# мода категории дохода, приобретающих товар
inc_mode = pd.DataFrame(spam_features_lvl_1.groupby('item_id')[['income_desc']].value_counts())
inc_mode = inc_mode.rename (columns= {0: 'inc_mode'})
spam = list(inc_mode.index)
inc_mode = {'item_id': [], 'inc_mode': []}
for i, el in enumerate(spam):
    if spam[i][0] != spam[i-1][0]:
        inc_mode['item_id'].append(el[0])
        inc_mode['inc_mode'].append(el[1])
        
inc_mode = pd.DataFrame(inc_mode, columns =['item_id', 'inc_mode'])

Собираем датафрейм для обучения

In [36]:
# preds_lvl_2 = targets_lvl_2.copy()
# targets_lvl_2 = preds_lvl_2.copy()

In [37]:
targets_lvl_2 = targets_lvl_2.merge(item_features, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(user_features, on='user_id', how='left')

targets_lvl_2 = targets_lvl_2.merge(age_mode, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(inc_mode, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(cat_num_week_buy, on='department', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check_cat_all_users, on='department', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check, on='user_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(max_check, on='user_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check_cat, on=['user_id', 'department'], how='left')
targets_lvl_2 = targets_lvl_2.merge(max_check_cat, on=['user_id', 'department'], how='left')

Делим данные на обучающую выборку и таргет

In [38]:
# Заполняем пропуски
targets_lvl_2 = targets_lvl_2.fillna('None/Unknown')
targets_lvl_2.loc[targets_lvl_2['cat_num_week_buy'] == 'None/Unknown', 'cat_num_week_buy'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check_cat_all_users'] == 'None/Unknown', 'avg_check_cat_all_users'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check'] == 'None/Unknown', 'avg_check'] = 0.0
targets_lvl_2.loc[targets_lvl_2['max_check'] == 'None/Unknown', 'max_check'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check_cat'] == 'None/Unknown', 'avg_check_cat'] = 0.0
targets_lvl_2.loc[targets_lvl_2['max_check_cat'] == 'None/Unknown', 'max_check_cat'] = 0.0

In [39]:
targets_lvl_2["avg_check_cat"] = targets_lvl_2.avg_check_cat.astype(np.float64)
targets_lvl_2["max_check_cat"] = targets_lvl_2.max_check_cat.astype(np.float64)

In [40]:
X_train = targets_lvl_2.drop('target', axis=1)
y_train = targets_lvl_2[['target']]

In [41]:
cat_feats = X_train.columns[2:17].tolist()
X_train[cat_feats] = X_train[cat_feats].astype('category')

In [42]:
%%time
model = CatBoostClassifier(iterations=500)
model.fit(X_train,y_train, cat_features=cat_feats, early_stopping_rounds=10,verbose=False)

CPU times: total: 1h 15min 55s
Wall time: 6min 29s


<catboost.core.CatBoostClassifier at 0x1dca70f21c0>

In [43]:
train_preds_proba = model.predict_proba(X_train)

In [44]:
train_preds_proba[:,1]

array([0.02385627, 0.06531952, 0.0335524 , ..., 0.01555606, 0.03515512,
       0.01063066])

In [45]:
preds_lvl_2 = targets_lvl_2[['user_id', 'item_id', 'target']]

In [46]:
preds_lvl_2['pred_proba'] = train_preds_proba[:,1]

Проверяем полученные предсказания

In [47]:
result = data_val_lvl_2.groupby('user_id')['item_id'].unique().reset_index()
result.columns=['user_id', 'actual']
result.head()

Unnamed: 0,user_id,actual
0,1,"[821867, 834484, 856942, 865456, 889248, 90795..."
1,3,"[835476, 851057, 872021, 878302, 879948, 90963..."
2,6,"[920308, 926804, 946489, 1006718, 1017061, 107..."
3,7,"[840386, 889774, 898068, 909714, 929067, 95347..."
4,8,"[835098, 872137, 910439, 924610, 992977, 10412..."


In [48]:
test_users = result.shape[0]
new_test_users = len(set(data_val_lvl_2['user_id']) - set(preds_lvl_2['user_id']))

print('В тестовом дата сете {} юзеров'.format(test_users))
print('В тестовом дата сете {} новых юзеров'.format(new_test_users))
new_test_users = list(set(data_val_lvl_2['user_id']) - set(preds_lvl_2['user_id']))

В тестовом дата сете 2042 юзеров
В тестовом дата сете 127 новых юзеров


In [49]:
# уберем пользователей, которых нет в трейне
result = result[~result['user_id'].isin(new_test_users)]

In [50]:
def get_recommendations_lvl_2(x, N=5):
    spam_df = preds_lvl_2.loc[preds_lvl_2['user_id'] == x]
    spam_df = spam_df.sort_values('pred_proba', ascending=False).head(N)
    
    return list(spam_df.item_id)

In [51]:
%%time
result['catboost_rec'] = result['user_id'].map(lambda x: get_recommendations_lvl_2(x, N=5))

CPU times: total: 2.89 s
Wall time: 2.88 s


Сравним рекомендации 1го и 2го уровня по метрике Precision@k

In [54]:
#lvl1
print('Precision@k: ', result_lvl_1.apply(lambda row: recall_at_k(row['als_bm25_350'], row['actual'], 350), axis=1).mean())
print('Precision@k: ', result_lvl_1.apply(lambda row: recall_at_k(row['als_bm25_350'], row['actual'], 5), axis=1).mean())

Precision@k:  0.17152751754896828
Precision@k:  0.029460348175194433


In [53]:
#lvl2
print('Precision@5: ', result.apply(lambda row: precision_at_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())
print('MAP@k: ', result.apply(lambda row: ap_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())
print('Recall@k: ', result.apply(lambda row: recall_at_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())

Precision@5:  0.3120626631853781
MAP@k:  0.2613872932985211
Recall@k:  0.036124205383452596


**Выводы:** Метрика Precision@k на рекомеднациях модели 2го уровня существенно возрасла по сравнению с моделью lvl 1