# Финальный проект по курсу "Рекомендательные системы"

Составление списка рекомендаций посредством двухуровневой рекомендательной системы
- Модель 1го уровня выдет список из 350 рекомендаций для каждого пользователя
- Модель второго уровня ранжирует список и выдет топ5

Целевая метрика MAP@5 > 20%

In [1]:
import pandas as pd
import numpy as np
import functools as ft

# Для работы с матрицами
from scipy.sparse import csr_matrix

# Матричная факторизация
from implicit import als

# Модель второго уровня
from catboost import CatBoostClassifier

import os, sys
module_path = os.path.abspath(os.path.join(os.pardir))
if module_path not in sys.path:
    sys.path.append(module_path)

# Написанные нами функции
from best_rec_lib.metrics import precision_at_k, recall_at_k, ap_k
from best_rec_lib.utils import prefilter_items
from best_rec_lib.recommenders import MainRecommender

import gc

import warnings
warnings.filterwarnings("ignore")

In [2]:
data = pd.read_csv('../retail_train.csv')
item_features = pd.read_csv('../product.csv')
user_features = pd.read_csv('../hh_demographic.csv')

# column processing
item_features.columns = [col.lower() for col in item_features.columns]
user_features.columns = [col.lower() for col in user_features.columns]

item_features.rename(columns={'product_id': 'item_id'}, inplace=True)
user_features.rename(columns={'household_key': 'user_id'}, inplace=True)


# Важна схема обучения и валидации!
# -- давние покупки -- | -- 6 недель -- | -- 3 недель -- 
# подобрать размер 2-ого датасета (6 недель) --> learning curve (зависимость метрики recall@k от размера датасета)
val_lvl_1_size_weeks = 6
val_lvl_2_size_weeks = 3

data_train_lvl_1 = data[data['week_no'] < data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)]
data_val_lvl_1 = data[(data['week_no'] >= data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)) &
                      (data['week_no'] < data['week_no'].max() - (val_lvl_2_size_weeks))]

data_train_lvl_2 = data_val_lvl_1.copy()  # Для наглядности. Далее мы добавим изменения, и они будут отличаться
data_val_lvl_2 = data[data['week_no'] >= data['week_no'].max() - val_lvl_2_size_weeks]

data_train_lvl_1.head(2)

Unnamed: 0,user_id,basket_id,day,item_id,quantity,sales_value,store_id,retail_disc,trans_time,week_no,coupon_disc,coupon_match_disc
0,2375,26984851472,1,1004906,1,1.39,364,-0.6,1631,1,0.0,0.0
1,2375,26984851472,1,1033142,1,0.82,364,0.0,1631,1,0.0,0.0


#### Производим префильтрацию айтемов

In [3]:
n_items_before = data_train_lvl_1['item_id'].nunique()

data_train_lvl_1 = prefilter_items(data_train_lvl_1, item_features=item_features, take_n_popular=5000)

n_items_after = data_train_lvl_1['item_id'].nunique()
print('Decreased # items from {} to {}'.format(n_items_before, n_items_after))

Decreased # items from 83685 to 5001


#### Модель 1го уровня

In [4]:
recommender = MainRecommender(data_train_lvl_1)

  0%|          | 0/1 [00:00<?, ?it/s]

  0%|          | 0/5001 [00:00<?, ?it/s]

In [5]:
users_lvl_2 = pd.DataFrame(data_train_lvl_2['user_id'].unique())
users_lvl_2.columns = ['user_id']

# Пока только warm start
train_users = data_train_lvl_1['user_id'].unique()
users_lvl_2 = users_lvl_2[users_lvl_2['user_id'].isin(train_users)]

users_lvl_2['candidates'] = users_lvl_2['user_id'].apply(lambda x: recommender.get_own_recommendations(x, N=350))

In [6]:
s = users_lvl_2.apply(lambda x: pd.Series(x['candidates']), axis=1).stack().reset_index(level=1, drop=True)
s.name = 'item_id'

users_lvl_2 = users_lvl_2.drop('candidates', axis=1).join(s)
users_lvl_2['flag'] = 1

In [7]:
targets_lvl_2 = data_train_lvl_2[['user_id', 'item_id']].copy()
targets_lvl_2['target'] = 1  # тут только покупки 

targets_lvl_2 = users_lvl_2.merge(targets_lvl_2, on=['user_id', 'item_id'], how='left')

targets_lvl_2['target'].fillna(0, inplace= True)
targets_lvl_2.drop('flag', axis=1, inplace=True)

#### Добавляем фичи:
1. Для пользователя:
- средний чек пользователя
- средний чек пользователя по категориям товаров
- максимальный чек пользователя
- максимальный чек пользователя по категориям товаров
2. Для товара:
- мода возрастной категории, приобретающих товар
- мода категории дохода, приобретающих товар
3. Для пары user-товар:
- среднее количество покупок пользователями товаров данной категории
- средний чек всех пользователей по категории товара 

In [8]:
user_feats = user_features[['user_id', 'age_desc', 'income_desc']]
item_feats = item_features[['item_id', 'department']]

spam_features_lvl_1 = data_train_lvl_1.merge(user_feats, on='user_id', how='left')
spam_features_lvl_1 = spam_features_lvl_1.merge(item_feats, on='item_id', how='left')

del user_feats
del item_feats

gc.collect()

0

###### Фичи для пары user-товар

In [9]:
# Среднее количество покупок пользователями по категориям
weeks = spam_features_lvl_1.week_no.max()
cat_num_week_buy = spam_features_lvl_1.groupby(['department'])[['sales_value']].count()
cat_num_week_buy = cat_num_week_buy.rename (columns= {'sales_value': 'cat_num_week_buy'})
cat_num_week_buy['cat_num_week_buy'] = cat_num_week_buy['cat_num_week_buy'] / weeks

In [10]:
# средний чек всех пользователей по категории товара
avg_check_cat_all_users = spam_features_lvl_1.groupby(['department'])[['sales_value']].mean()
avg_check_cat_all_users = avg_check_cat_all_users.rename (columns= {'sales_value': 'avg_check_cat_all_users'})

###### Фичи для user

In [11]:
# средний и максимальный чек пользователя
check = spam_features_lvl_1.groupby(['user_id', 'basket_id'])[['sales_value']].sum()
avg_check = check.groupby(['user_id'])[['sales_value']].mean()
avg_check = avg_check.rename (columns= {'sales_value': 'avg_check'})
max_check = check.groupby(['user_id'])[['sales_value']].max()
max_check = max_check.rename (columns= {'sales_value': 'max_check'})

del check
gc.collect()

0

In [12]:
# средний и максимальный чек пользователя по категориям
check_cat = spam_features_lvl_1.groupby(['user_id', 'basket_id', 'department'])[['sales_value']].sum()
avg_check_cat = check_cat.groupby(['user_id', 'department'])[['sales_value']].mean()
avg_check_cat = avg_check_cat.rename (columns= {'sales_value': 'avg_check_cat'})
max_check_cat = check_cat.groupby(['user_id', 'department'])[['sales_value']].max()
max_check_cat = max_check_cat.rename (columns= {'sales_value': 'max_check_cat'})

del check_cat
gc.collect()

0

###### Фичи для товаров

In [13]:
# мода возрастной категории, приобретающих товар
age_mode = pd.DataFrame(spam_features_lvl_1.groupby('item_id')[['age_desc']].value_counts())
age_mode = age_mode.rename (columns= {0: 'age_mode'})
spam = list(age_mode.index)
age_mode = {'item_id': [], 'age_mode': []}
for i, el in enumerate(spam):
    if spam[i][0] != spam[i-1][0]:
        age_mode['item_id'].append(el[0])
        age_mode['age_mode'].append(el[1])
        
age_mode = pd.DataFrame(age_mode, columns =['item_id', 'age_mode'])

In [14]:
# мода категории дохода, приобретающих товар
inc_mode = pd.DataFrame(spam_features_lvl_1.groupby('item_id')[['income_desc']].value_counts())
inc_mode = inc_mode.rename (columns= {0: 'inc_mode'})
spam = list(inc_mode.index)
inc_mode = {'item_id': [], 'inc_mode': []}
for i, el in enumerate(spam):
    if spam[i][0] != spam[i-1][0]:
        inc_mode['item_id'].append(el[0])
        inc_mode['inc_mode'].append(el[1])
        
inc_mode = pd.DataFrame(inc_mode, columns =['item_id', 'inc_mode'])

#### Собираем датафрейм для обучения

In [15]:
# preds_lvl_2 = targets_lvl_2.copy()
# targets_lvl_2 = preds_lvl_2.copy()

In [16]:
targets_lvl_2 = targets_lvl_2.merge(item_features, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(user_features, on='user_id', how='left')

targets_lvl_2 = targets_lvl_2.merge(age_mode, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(inc_mode, on='item_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(cat_num_week_buy, on='department', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check_cat_all_users, on='department', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check, on='user_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(max_check, on='user_id', how='left')
targets_lvl_2 = targets_lvl_2.merge(avg_check_cat, on=['user_id', 'department'], how='left')
targets_lvl_2 = targets_lvl_2.merge(max_check_cat, on=['user_id', 'department'], how='left')

###### Делим данные на обучающую выборку и таргет

In [17]:
# Заполняем пропуски
targets_lvl_2 = targets_lvl_2.fillna('None/Unknown')
targets_lvl_2.loc[targets_lvl_2['cat_num_week_buy'] == 'None/Unknown', 'cat_num_week_buy'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check_cat_all_users'] == 'None/Unknown', 'avg_check_cat_all_users'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check'] == 'None/Unknown', 'avg_check'] = 0.0
targets_lvl_2.loc[targets_lvl_2['max_check'] == 'None/Unknown', 'max_check'] = 0.0
targets_lvl_2.loc[targets_lvl_2['avg_check_cat'] == 'None/Unknown', 'avg_check_cat'] = 0.0
targets_lvl_2.loc[targets_lvl_2['max_check_cat'] == 'None/Unknown', 'max_check_cat'] = 0.0

In [18]:
targets_lvl_2["avg_check_cat"] = targets_lvl_2.avg_check_cat.astype(np.float64)
targets_lvl_2["max_check_cat"] = targets_lvl_2.max_check_cat.astype(np.float64)

In [19]:
X_train = targets_lvl_2.drop('target', axis=1)
y_train = targets_lvl_2[['target']]

In [20]:
cat_feats = X_train.columns[2:17].tolist()
X_train[cat_feats] = X_train[cat_feats].astype('category')

#### Обучаем модель классификации и получаем предсказания

In [21]:
%%time
model = CatBoostClassifier(iterations=500)
model.fit(X_train,y_train, cat_features=cat_feats, early_stopping_rounds=10,verbose=False)

CPU times: total: 1h 15min 47s
Wall time: 6min 17s


<catboost.core.CatBoostClassifier at 0x16c3311c8e0>

In [22]:
train_preds_proba = model.predict_proba(X_train)

In [23]:
train_preds_proba[:,1]

array([0.02385627, 0.06531952, 0.0335524 , ..., 0.01555606, 0.03515512,
       0.01063066])

In [24]:
preds_lvl_2 = targets_lvl_2[['user_id', 'item_id', 'target']]

In [25]:
preds_lvl_2['pred_proba'] = train_preds_proba[:,1]

#### Проверяем полученные предсказания

In [26]:
result = data_val_lvl_2.groupby('user_id')['item_id'].unique().reset_index()
result.columns=['user_id', 'actual']
result.head()

Unnamed: 0,user_id,actual
0,1,"[821867, 834484, 856942, 865456, 889248, 90795..."
1,3,"[835476, 851057, 872021, 878302, 879948, 90963..."
2,6,"[920308, 926804, 946489, 1006718, 1017061, 107..."
3,7,"[840386, 889774, 898068, 909714, 929067, 95347..."
4,8,"[835098, 872137, 910439, 924610, 992977, 10412..."


In [27]:
test_users = result.shape[0]
new_test_users = len(set(data_val_lvl_2['user_id']) - set(preds_lvl_2['user_id']))

print('В тестовом дата сете {} юзеров'.format(test_users))
print('В тестовом дата сете {} новых юзеров'.format(new_test_users))
new_test_users = list(set(data_val_lvl_2['user_id']) - set(preds_lvl_2['user_id']))

В тестовом дата сете 2042 юзеров
В тестовом дата сете 127 новых юзеров


In [28]:
# уберем пользователей, которых нет в трейне
result = result[~result['user_id'].isin(new_test_users)]

In [29]:
def get_recommendations_lvl_2(x, N=5):
    spam_df = preds_lvl_2.loc[preds_lvl_2['user_id'] == x]
    spam_df = spam_df.sort_values('pred_proba', ascending=False).head(N)
    
    return list(spam_df.item_id)

In [30]:
%%time
result['catboost_rec'] = result['user_id'].map(lambda x: get_recommendations_lvl_2(x, N=5))

CPU times: total: 2.75 s
Wall time: 2.76 s


#### Рассчитаем метрики результата работы моделей

In [31]:
print('Precision@k: ', result.apply(lambda row: precision_at_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())
print('MAP@k: ', result.apply(lambda row: ap_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())
print('Recall@k: ', result.apply(lambda row: recall_at_k(row['catboost_rec'], row['actual'], 5), axis=1).mean())

Precision@k:  0.3120626631853781
MAP@k:  0.2613872932985211
Recall@k:  0.036124205383452596
