In [1]:
import pandas as pd
import numpy as np
import gc

from rec_lib.utils import reduce_mem_usage, set_target, customers_prep, articles_prep, df_lvl2_prep, top_12_recs
from rec_lib.utils import get_features, get_preds_result
from rec_lib.models import get_lvl2_model_validation_preds
from rec_lib.metrics import precision_at_k, ap_k, recall, recall_at_k

import warnings
warnings.filterwarnings("ignore")

In [2]:
%load_ext autoreload
%autoreload 2

### Загрузка данных

In [3]:
%%time
result = pd.read_parquet('archive/validation_result.parquet')
customers = pd.read_parquet('archive/customers.parquet')
articles = pd.read_parquet('archive/articles.parquet')
transactions = pd.read_parquet('archive/transactions_train_for_power_bi.parquet')

CPU times: user 7.31 s, sys: 2.68 s, total: 9.98 s
Wall time: 4.2 s


### Подготовка данных

In [4]:
%%time
# преобразование датафрейма пользователей
customers = customers_prep(customers)

CPU times: user 1.84 s, sys: 109 ms, total: 1.95 s
Wall time: 1.91 s


In [5]:
%%time
# преобразование датафрейма категорий
articles = articles_prep(articles)

CPU times: user 60.4 ms, sys: 0 ns, total: 60.4 ms
Wall time: 59.3 ms


### Собираем датафрейм для обучения модели 2го уровня

In [6]:
%%time
# добавим нужные признаки 
result = df_lvl2_prep(result)

CPU times: user 1min 31s, sys: 7.65 s, total: 1min 39s
Wall time: 1min 37s


In [7]:
%%time
# добавляем данные из датафремов покупателей и категорий
result = result.merge(customers, on='customer_id', how='left')
result = result.merge(articles, on='article_id', how='left')

CPU times: user 20.4 s, sys: 9.77 s, total: 30.2 s
Wall time: 30.1 s


In [8]:
del customers;
del articles;
gc.collect()

0

### Добавляем фичи
Добавляем следующие фичи:
1. сумма продаж по категориям товаров
2. средняя сумма покупок по категориям товаров
3. количество заказов покупателя с товарами категории
4. количество единиц товаров категории, приобретенное покупателем
5. сумма покупок покупателя по категории
6. средний чек покупателя по категории
7. общая сумма покупок покупателя
8. средний чек покупателя

In [9]:
%%time
result = get_features(result, transactions)

CPU times: user 3min 19s, sys: 1min 51s, total: 5min 10s
Wall time: 5min 10s


#### Выбираем фичи для модели

In [10]:
# все используемые фичи
features = list(result)
features.remove('target')
features.remove('customer_id')
features.remove('article_id')

# категориальные фичи
cat_feats = features.copy()
cat_feats.remove('age')
cat_feats.remove('customer_id_short')
cat_feats.remove('article_id_short')

In [11]:
# убираем из категариальных фичей новые численные
cat_feats.remove('articles_buy_sum')
cat_feats.remove('articles_buy_avg')

cat_feats.remove('customers_articles_num_sum')
cat_feats.remove('customers_articles_num_count')

cat_feats.remove('customers_articles_sum')
cat_feats.remove('customers_articles_avg')

cat_feats.remove('customers_spent_sum')
cat_feats.remove('customers_spent_avg')

### Получаем топ12 рекомендаций

In [12]:
%%time
customers_id, article_id, target, preds = get_lvl2_model_validation_preds(result, features, cat_feats)

Получаем предсказания для возрастной категории 16-24
Получаем предсказания для возрастной категории 25-44
Получаем предсказания для возрастной категории 45-64
Получаем предсказания для возрастной категории 65-96
CPU times: user 4min 45s, sys: 44.4 s, total: 5min 29s
Wall time: 4min 51s


### Получим оценку рекомендаций


In [13]:
%%time
# построение датафрейма для получения оценок предсказаний модели
filename = 'validation_result'
result_test = get_preds_result(customers_id, article_id, target, preds, filename)

CPU times: user 29.8 s, sys: 507 ms, total: 30.3 s
Wall time: 29.7 s


In [14]:
print('Recall_own_rec_12 : ', result_test.apply(lambda row: recall(row['top_12_recs'], row['actual_article_id_short']), axis=1).mean())

Recall_own_rec_12 :  0.18249524913668436


In [16]:
print('MAP_own_rec_12 : ', result_test.apply(lambda row: ap_k(row['top_12_recs'], row['actual_article_id_short'], 12), axis=1).mean())

MAP_own_rec_12 :  0.029444920226172573
