In [1]:
import pandas as pd
import numpy as np

from numba import jit, typeof, typed, types, prange

from implicit.gpu.als import AlternatingLeastSquares
from implicit.nearest_neighbours import ItemItemRecommender
from implicit.nearest_neighbours import bm25_weight, tfidf_weight

from scipy.sparse import csr_matrix, coo_matrix

from rec_lib.utils import get_recommendations, get_sim_users, col_convert
from rec_lib.metrics import recall, recall_at_k, precision_at_k, ap_k

import warnings
warnings.filterwarnings("ignore")

In [6]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


### Загрузим данные и разделим на train/test и validation

In [10]:
df_transactions = pd.read_parquet('archive/transactions_train_for_power_bi.parquet')

In [11]:
'''
в качестве валидации возьмем 104 неделю (38 неделя года), т.к. 105 неполная,
103 (37 неделя года) - test, в качестве трейна - весь предыдущий период
'''
validation = df_transactions.loc[df_transactions['week_number'] == 104]
test = df_transactions.loc[df_transactions['week_number'] == 103]
train = df_transactions.loc[df_transactions['week_number'] < 103]

In [12]:
%%time
train = train.sort_values(['customer_id_short', 'article_id_short']).reset_index(drop = True)

CPU times: user 12.6 s, sys: 1.41 s, total: 14 s
Wall time: 14 s


In [13]:
# Проверим сколько пользователей из трейна отсутствует в тесте
print(f"В трейне - {len(set(train['customer_id_short']))} покупателей\n\
В тесте - {len(set(test['customer_id_short']))} покупателей\n\
Покупателей из теста нет в трейне - {len(set(test['customer_id_short']) - set(train['customer_id_short']))}")

В трейне - 1343966 покупателей
В тесте - 76528 покупателей
Покупателей из теста нет в трейне - 5870


In [14]:
# Создадим df в котором будут фактические данные теста, сюда потом добавим предсказания
result = test.groupby('customer_id_short')['article_id_short'].unique().reset_index()
result.columns=['customer_id_short', 'actual_article_id_short']

In [23]:
# получаем датафрейм топ категорий предыдущей недели
top_week_num = train.loc[train['week_number'] == train['week_number'].max()]['week_number_of_year'].max()

sim_weeks_articles = train.loc[train['week_number_of_year'].isin([top_week_num])]
sim_weeks_articles = sim_weeks_articles.groupby('article_id_short')['values'].sum().reset_index()
sim_weeks_articles = sim_weeks_articles.sort_values('values', ascending=False)

In [24]:
# получаем numba list топ категорий предыдущей недели
K = 1300 # количество популярных категорий предыдущей недели
top_sim_weeks_articles_nb = typed.List(set(sim_weeks_articles.iloc[:K]['article_id_short'].values))

In [25]:
%%time
# создаем массив использованных article_id
used_article_id_short = sorted(np.array(train['article_id_short'].unique()))
article_id_for_dict = np.arange(0,len(used_article_id_short))

# Создаем справочники users и items для более быстрой работы кода
used_itemid_to_id = dict(zip(used_article_id_short, article_id_for_dict))
id_to_used_itemid = dict(zip(article_id_for_dict, used_article_id_short))


# создаем массив использованных customer_id_short
used_user_id_short = sorted(np.array(train['customer_id_short'].unique()))
user_id_for_dict = np.arange(0,len(used_user_id_short))

# Создаем справочники users и items для более быстрой работы кода
used_userid_to_id = dict(zip(used_user_id_short, user_id_for_dict))
id_to_used_userid = dict(zip(user_id_for_dict, used_user_id_short))

CPU times: user 713 ms, sys: 70 ms, total: 783 ms
Wall time: 782 ms


In [26]:
%%time
# преобразуем словарь в словарь numba
id_to_used_itemid_nb = typed.Dict.empty(types.int64,types.int64)

for k, v in id_to_used_itemid.items():
    id_to_used_itemid_nb[k] = v

CPU times: user 973 ms, sys: 8.72 ms, total: 981 ms
Wall time: 982 ms


### Подготовим данные для построения моделей 1го уровня

In [27]:
%%time
# получаем массивы для построения разряженной матрицы по координатам ненулевых элементов
user_id_short_arr_for_matrix = train.customer_id_short.values
user_id_short_arr_for_matrix = np.array([used_userid_to_id[el] for el in user_id_short_arr_for_matrix])

article_id_short_arr_for_matrix = train.article_id_short.values
article_id_short_arr_for_matrix = np.array([used_itemid_to_id[el] for el in article_id_short_arr_for_matrix])

article_user_counter_for_matrix = train['values'].values.astype(np.float64)

CPU times: user 10.2 s, sys: 209 ms, total: 10.4 s
Wall time: 10.4 s


In [15]:
%%time
# Создаем разряженную матриуц по координатам ненулевых элементов
coo = coo_matrix((article_user_counter_for_matrix, (user_id_short_arr_for_matrix, article_id_short_arr_for_matrix)))

# Приведем матрицу в нужный формат для модели и произведем взвешивание bm25
custom_sparse_user_item = csr_matrix(coo).tocsr()
custom_bm25_user_item_matrix = bm25_weight(custom_sparse_user_item.T).T.tocsr()

CPU times: user 249 ms, sys: 9.72 ms, total: 259 ms
Wall time: 258 ms


In [17]:
%%time

# ALS модель на GPU
als = AlternatingLeastSquares(factors=60,
                regularization=0.8,
                iterations=3,
                calculate_training_loss=True,
                random_state=42)

als.fit(custom_bm25_user_item_matrix, show_progress=False)

CPU times: user 2min 14s, sys: 504 ms, total: 2min 14s
Wall time: 2min 16s


In [18]:
%%time

# Количество потоков процессора для обучения
NUM_THREADS = 16

# Own recommender
own_recommender = ItemItemRecommender(K=1, num_threads=NUM_THREADS)
own_recommender.fit(custom_sparse_user_item, show_progress=False)

CPU times: user 46.2 s, sys: 5.65 s, total: 51.8 s
Wall time: 5.59 s


### Найдем похожих покупателей

In [19]:
%%time
# количество похожих покупателей
N_USERS = 500

result[f'sim_users'] = result['customer_id_short'].map(lambda x: get_sim_users(x, used_userid_to_id, id_to_used_userid, als, N_USERS))

CPU times: user 7min 48s, sys: 5.41 s, total: 7min 54s
Wall time: 7min 53s


### Получим рекомендации и их оценку

In [39]:
%%time
# рекомендаций до ранжирования
N = 500

result[f'own_rec'] = result.apply(lambda row: get_recommendations(row['customer_id_short'], row['sim_users'], als, own_recommender, used_userid_to_id, used_itemid_to_id, custom_sparse_user_item, id_to_used_itemid_nb, top_sim_weeks_articles_nb, N), axis=1)

CPU times: user 3h 23min 57s, sys: 4min 23s, total: 3h 28min 21s
Wall time: 3h 28min 12s


In [40]:
print('Recall_own_rec: ', result.apply(lambda row: recall(row['own_rec'], row['actual_article_id_short']), axis=1).mean())

Recall_own_rec:  0.18546809308615347


In [45]:
%%time
# преобразуем тип данных колонок для возможности сохранения в формате parquet
result[f'actual_article_id_short'] = result.apply(lambda row: col_convert(row['actual_article_id_short']), axis=1)
result[f'sim_users'] = result.apply(lambda row: col_convert(row['sim_users']), axis=1)
result[f'own_rec'] = result.apply(lambda row: col_convert(row['own_rec']), axis=1)

CPU times: user 13.8 s, sys: 1.43 s, total: 15.3 s
Wall time: 15.3 s


In [46]:
# сохраняем в формате parquet
result.to_parquet('archive/result.parquet')