In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# Для работы с матрицами
from scipy.sparse import csr_matrix

# Матричная факторизация
from implicit import als

!pip install lightgbm
# Модель второго уровня
from lightgbm import LGBMClassifier

import sys
sys.path.append('../')

# Написанные нами функции
from src.metrics import precision_at_k, recall_at_k
from src.utils import prefilter_items
from src.recommenders import MainRecommender

from pprint import pprint

import warnings
warnings.filterwarnings('ignore')



## Данные

In [2]:
data = pd.read_csv(r'C:\Users\nikita.saprykin\Desktop\RCS\урок_6\retail_train.csv')


item_features = pd.read_csv(r'C:\Users\nikita.saprykin\Desktop\RCS\урок_6\product.csv')

user_features = pd.read_csv(r'C:\Users\nikita.saprykin\Desktop\RCS\урок_6\hh_demographic.csv')

In [3]:
# column processing
# column names in lower case
item_features.columns = [col.lower() for col in item_features.columns]
user_features.columns = [col.lower() for col in user_features.columns]

# rename columns
item_features.rename(columns={'product_id': 'item_id'}, inplace=True)
user_features.rename(columns={'household_key': 'user_id'}, inplace=True)

## Разбиение на test и train

In [4]:
# Process features dataset
ACTUAL_COL = 'actual'
USER_COL = 'user_id'
ITEM_COL = 'item_id'

# column processing
item_features.columns = [col.lower() for col in item_features.columns]
user_features.columns = [col.lower() for col in user_features.columns]

item_features.rename(columns={'product_id': ITEM_COL}, inplace=True)
user_features.rename(columns={'household_key': USER_COL}, inplace=True)

In [5]:
# Важна схема обучения и валидации!
# -- давние покупки -- | -- 6 недель -- | -- 3 недель -- 
# подобрать размер 2-ого датасета (6 недель) --> learning curve (зависимость метрики recall@k от размера датасета)

val_lvl_1_size_weeks = 6
val_lvl_2_size_weeks = 3

data_train_lvl_1 = data[data['week_no'] < data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)]
data_val_lvl_1 = data[(data['week_no'] >= data['week_no'].max() - (val_lvl_1_size_weeks + val_lvl_2_size_weeks)) & 
                      (data['week_no'] < data['week_no'].max() - val_lvl_2_size_weeks)]

data_train_lvl_2 = data_val_lvl_1.copy() # Для наглядности. Далее мы добавим изменения, и они будут отличаться
data_val_lvl_2 = data[data['week_no'] >= data['week_no'].max() - val_lvl_2_size_weeks]

data_val_lvl_1.head()

Unnamed: 0,user_id,basket_id,day,item_id,quantity,sales_value,store_id,retail_disc,trans_time,week_no,coupon_disc,coupon_match_disc
2104867,2070,40618492260,594,1019940,1,1.0,311,-0.29,40,86,0.0,0.0
2107468,2021,40618753059,594,840361,1,0.99,443,0.0,101,86,0.0,0.0
2107469,2021,40618753059,594,856060,1,1.77,443,-0.09,101,86,0.0,0.0
2107470,2021,40618753059,594,869344,1,1.67,443,-0.22,101,86,0.0,0.0
2107471,2021,40618753059,594,896862,2,5.0,443,-2.98,101,86,0.0,0.0


## Предподготовка

In [8]:
def print_stats_data(df_data, name_df):
    print(name_df)
    print(f"Shape: {df_data.shape} Users: {df_data[USER_COL].nunique()} Items: {df_data[ITEM_COL].nunique()}")

In [None]:
#Prefilter items
take_n_popular = 3000

n_items_before = data_train_lvl_1[ITEM_COL].nunique()

data_train_lvl_1 = prefilter_items(data_train_lvl_1, item_features=item_features take_n_popular=take_n_popular)

n_items_after = data_train_lvl_1[ITEM_COL].nunique()
print('Decreased # items from {} to {}'.format(n_items_before, n_items_after))

In [9]:
# ищем общих пользователей
common_users = data_train_lvl_1.user_id.values

data_val_lvl_1 = data_val_lvl_1[data_val_lvl_1.user_id.isin(common_users)]
data_train_lvl_2 = data_train_lvl_2[data_train_lvl_2.user_id.isin(common_users)]
data_val_lvl_2 = data_val_lvl_2[data_val_lvl_2.user_id.isin(common_users)]

In [None]:
recommender = MainRecommender(data_train_lvl_1)

Traceback (most recent call last):
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\IPython\core\interactiveshell.py", line 3418, in run_code
    exec(code_obj, self.user_global_ns, self.user_ns)
  File "<ipython-input-10-459d826d366b>", line 1, in <module>
  File "C:\Users\nikita.saprykin\Desktop\RCS\урок_6\src\recommenders.py", line 24, in __init__
  File "C:\Users\nikita.saprykin\Desktop\RCS\урок_6\src\recommenders.py", line 38, in prepare_matrix
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\pandas\core\reshape\pivot.py", line 164, in pivot_table
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\pandas\core\frame.py", line 4314, in fillna
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\pandas\core\generic.py", line 6069, in fillna
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\pandas\core\internals\managers.py", line 585, in fillna
  File "C:\Users\nikita.saprykin\Anaconda3\lib\site-packages\pandas\core\internals\manag

## Задание 1

A) Попробуйте различные варианты генерации кандидатов. Какие из них дают наибольший recall@k ?

Пока пробуем отобрать 50 кандидатов (k=50)

Качество измеряем на data_val_lvl_1: следующие 6 недель после трейна


B)* Как зависит recall@k от k? 

Постройте для одной схемы генерации кандидатов эту зависимость для k = {20, 50, 100, 200, 500}

In [22]:
result_lvl_1 = data_val_lvl_1.groupby('user_id')['item_id'].unique().reset_index()
result_lvl_1.columns = ['user_id', 'actual']
result_lvl_1 = result_lvl_1[result_lvl_1['user_id'].isin(data_train_lvl_1['user_id'])]
result_lvl_1.head()

Unnamed: 0,user_id,actual
0,1,"[853529, 865456, 867607, 872137, 874905, 87524..."
1,2,"[15830248, 838136, 839656, 861272, 866211, 870..."
2,4,"[883932, 970760, 1035676, 1055863, 1097610, 67..."
3,6,"[1024306, 1102949, 6548453, 835394, 940804, 96..."
4,7,"[836281, 843306, 845294, 914190, 920456, 93886..."


In [23]:
K = 20, 50, 100, 200, 500

recall_lvl_1 = pd.DataFrame(columns=['recall@k', 'similar_items', 'als', ' own']).set_index('recall@k')

for k in K:
    
    result_lvl_1['similar_items'] = result_lvl_1['user_id'].apply(
        lambda x: recommender.get_similar_items_recommendation(user=x, N=k)
    )# apply
    
    result_lvl_1['als'] = result_lvl_1['user_id'].apply(
        lambda x: recommender.get_als_recommendations(user=x, N=k)
    )# apply

    result_lvl_1['own'] = result_lvl_1['user_id'].apply(
        lambda x: recommender.get_own_recommendations(user=x, N=k)
    )# apply
    
    recall_lvl_1.loc[k] = evaluete_rec(data=result_lvl_1, true='actual', metric='recall@k', k=k)
    
recall_lvl_1

NameError: name 'recommender' is not defined

In [None]:
recall_lvl_1.plot()
plt.grid()

Дают ли own recommendtions + top-popular лучший recall?

ответ:
Тесты показали, что комбинация own recommendtions + top-popular не дает лучший recall

ответ:
Видно, что чем больше k тем выше показатель recall@k

## Задание 2.
Обучите модель 2-ого уровня, при этом:

- Добавьте минимум по 2 фичи для юзера, товара и пары юзер-товар

In [None]:
# взяли пользователей из трейна для ранжирования
df_match_candidates = pd.DataFrame(data_train_lvl_2[USER_COL].unique())
df_match_candidates.columns = [USER_COL]

In [None]:
# собираем кандитатов с первого этапа (matcher)
df_match_candidates['candidates'] = df_match_candidates[USER_COL].apply(lambda x: recommender.get_own_recommendations(x, N=N_PREDICT))

In [None]:

df_items = df_match_candidates.apply(lambda x: pd.Series(x['candidates']), axis=1).stack().reset_index(level=1, drop=True)
df_items.name = 'item_id'
df_match_candidates = df_match_candidates.drop('candidates', axis=1).join(df_items)

In [None]:
### Check warm start
print_stats_data(df_match_candidates, 'match_candidates')

In [None]:
### Создаем трейн сет для ранжирования с учетом кандидатов с этапа 1

In [None]:
# dask dataframe

df_ranker_train = data_train_lvl_2[[USER_COL, ITEM_COL]].copy()
df_ranker_train['target'] = 1  # тут только покупки 

df_ranker_train = df_match_candidates.merge(df_ranker_train, on=[USER_COL, ITEM_COL], how='left')

df_ranker_train['target'].fillna(0, inplace= True)

In [None]:
# df_ranker_train.target.value_counts()
df_ranker_train.head(2)

In [None]:
df_ranker_train['target'].mean()

### Подготавливаем фичи для обучения модели

In [None]:
# 2 фичmи...

# для юзера
user_features['millenial'] = 0
user_features.loc[(user_features['age_desc']=='25-34' ), 'millenial'] = 1
user_features.loc[(user_features['age_desc']=='19-24' ), 'millenial'] = 1


user_features['yong_reach'] = 0
user_features.loc[((user_features['age_desc']=='19-24' ) & (user_features['income_desc']=='250K+' )), 'yong_reach'] = 1

# для товара
item_features['premium'] = 0
item_features.loc[(item_features['sub_commodity_desc'].str.contains("premium", case=False)), 'premium'] = 1
# item_features['premium'].sum()

item_features['veggie_unfriendly'] = 0
item_features.loc[(item_features['commodity_desc'].str.contains("MEAT", case=False)), 'veggie_unfriendly'] = 1
# item_features['veggie_unfriendly'].sum()

df_ranker_train = df_ranker_train.merge(item_features, on='item_id', how='left')
df_ranker_train = df_ranker_train.merge(user_features, on='user_id', how='left')

df_ranker_train

In [None]:
df_ranker_train['premium'] = 0
df_ranker_train.loc[(df_ranker_train['sub_commodity_desc'].str.contains("premium", case=False)), 'premium'] = '1'
df_ranker_train.head(5)

Фичи user_id:

- Средний чек
- Средняя сумма покупки 1 товара в каждой категории
- Кол-во покупок в каждой категории
- Частотность покупок раз/месяц
- Долю покупок в выходные
- Долю покупок утром/днем/вечером

Фичи item_id:

- Кол-во покупок в неделю
- Среднее ол-во покупок 1 товара в категории в неделю
- (Кол-во покупок в неделю) / (Среднее ол-во покупок 1 товара в категории в неделю)
- Цена (Можно посчитать из retil_train.csv)
- Цена / Средняя цена товара в категории

Фичи пары user_id - item_id

- (Средняя сумма покупки 1 товара в каждой категории (берем категорию item_id)) - (Цена item_id)
- (Кол-во покупок юзером конкретной категории в неделю) - (Среднее кол-во покупок всеми юзерами конкретной категории в неделю)
- (Кол-во покупок юзером конкретной категории в неделю) / (Среднее кол-во покупок всеми юзерами конкретной категории в неделю)

In [None]:
X_train = df_ranker_train.drop('target', axis=1)
y_train = df_ranker_train[['target']]

In [None]:
cat_feats = X_train.columns[2:].tolist()
X_train[cat_feats] = X_train[cat_feats].astype('category')
cat_feats

In [None]:
## Обучение модели ранжирования
# на покупках из сета data_train_ranker и на кандитатах от own_recommendations, 
# что является тренировочным сетом, и теперь наша задача предсказать и оценить именно на тестовом сете.

lgb = LGBMClassifier(objective='binary',
                     max_depth=8,
                     n_estimators=300,
                     learning_rate=0.05,
                     categorical_column=cat_feats)

lgb.fit(X_train, y_train)

train_preds = lgb.predict_proba(X_train)

In [None]:
df_ranker_predict = df_ranker_train.copy()

In [None]:
df_ranker_predict['proba_item_purchase'] = train_preds[:,1]

In [None]:
# Evaluation on test dataset

result_eval_ranker = data_val_lvl_2.groupby(USER_COL)[ITEM_COL].unique().reset_index()
result_eval_ranker.columns=[USER_COL, ACTUAL_COL]
# result_eval_ranker.head(2)

In [None]:
%%time
result_eval_ranker['own_rec'] = \
result_eval_ranker[USER_COL].apply(lambda x: recommender.get_own_recommendations(x, N=N_PREDICT))

In [None]:
# померяем precision@5 только модели 1 уровня
print(*sorted(calc_precision_at_k(D_FRAME, 5), key=lambda x: x[1], reverse=True), sep='\n')

In [None]:
def rerank(user_id):
    return df_ranker_predict[df_ranker_predict[USER_COL]==user_id].\
sort_values('proba_item_purchase', ascending=False).head(5).item_id.tolist()

In [None]:
result_eval_ranker['reranked_own_rec'] = result_eval_ranker[USER_COL].apply(lambda user_id: rerank(user_id))

In [None]:

print(*sorted(calc_precision_at_k(result_eval_ranker, 5), key=lambda x: x[1], reverse=True), sep='\n')

Модель 1 уровня лучше