In [1]:
import pandas as pd
import numpy as np

from numba import jit, typeof, typed, types, prange

from implicit.gpu.als import AlternatingLeastSquares
from implicit.nearest_neighbours import ItemItemRecommender
from implicit.nearest_neighbours import bm25_weight, tfidf_weight

from scipy.sparse import csr_matrix, coo_matrix

from rec_lib.utils import get_recommendations, get_sim_users, col_convert
from rec_lib.metrics import recall, recall_at_k, precision_at_k, ap_k

import warnings
warnings.filterwarnings("ignore")

In [2]:
%load_ext autoreload
%autoreload 2

### Загрузим данные и разделим на train/test и validation

In [3]:
df_transactions = pd.read_parquet('archive/transactions_train_for_power_bi.parquet')

In [4]:
test = df_transactions.loc[df_transactions['week_number'] == 104]
train = df_transactions.loc[df_transactions['week_number'] < 104]

In [5]:
%%time
train = train.sort_values(['customer_id_short', 'article_id_short']).reset_index(drop = True)

CPU times: user 13.6 s, sys: 1.67 s, total: 15.2 s
Wall time: 15.2 s


In [6]:
# Проверим сколько пользователей из трейна отсутствует в тесте
print(f"В трейне - {len(set(train['customer_id_short']))} покупателей\n\
В тесте - {len(set(test['customer_id_short']))} покупателей\n\
Покупателей из теста нет в трейне - {len(set(test['customer_id_short']) - set(train['customer_id_short']))}")

В трейне - 1349836 покупателей
В тесте - 66499 покупателей
Покупателей из теста нет в трейне - 5142


In [7]:
# Создадим df в котором будут фактические данные теста, сюда потом добавим предсказания
result = test.groupby('customer_id_short')['article_id_short'].unique().reset_index()
result.columns=['customer_id_short', 'actual_article_id_short']

In [8]:
# получаем датафрейм топ категорий предыдущей недели
top_week_num = train.loc[train['week_number'] == train['week_number'].max()]['week_number_of_year'].max()

sim_weeks_articles = train.loc[train['week_number_of_year'].isin([top_week_num])]
sim_weeks_articles = sim_weeks_articles.groupby('article_id_short')['values'].sum().reset_index()
sim_weeks_articles = sim_weeks_articles.sort_values('values', ascending=False)

In [9]:
# получаем numba list топ категорий предыдущей недели
K = 1300 # количество популярных категорий предыдущей недели
top_sim_weeks_articles_nb = typed.List(set(sim_weeks_articles.iloc[:K]['article_id_short'].values))

In [10]:
%%time
# создаем массив использованных article_id
used_article_id_short = sorted(np.array(train['article_id_short'].unique()))
article_id_for_dict = np.arange(0,len(used_article_id_short))

# Создаем справочники users и items для более быстрой работы кода
used_itemid_to_id = dict(zip(used_article_id_short, article_id_for_dict))
id_to_used_itemid = dict(zip(article_id_for_dict, used_article_id_short))


# создаем массив использованных customer_id_short
used_user_id_short = sorted(np.array(train['customer_id_short'].unique()))
user_id_for_dict = np.arange(0,len(used_user_id_short))

# Создаем справочники users и items для более быстрой работы кода
used_userid_to_id = dict(zip(used_user_id_short, user_id_for_dict))
id_to_used_userid = dict(zip(user_id_for_dict, used_user_id_short))

CPU times: user 709 ms, sys: 130 ms, total: 839 ms
Wall time: 838 ms


In [11]:
%%time
# numba dict for recommeddation
id_to_used_itemid_nb = typed.Dict.empty(types.int64,types.int64)

for k, v in id_to_used_itemid.items():
    id_to_used_itemid_nb[k] = v

CPU times: user 927 ms, sys: 0 ns, total: 927 ms
Wall time: 925 ms


### Подготовим данные для построения моделей 1го уровня

In [12]:
%%time
# получаем массивы для построения разряженной матрицы по координатам ненулевых элементов
user_id_short_arr_for_matrix = train.customer_id_short.values
user_id_short_arr_for_matrix = np.array([used_userid_to_id[el] for el in user_id_short_arr_for_matrix])

article_id_short_arr_for_matrix = train.article_id_short.values
article_id_short_arr_for_matrix = np.array([used_itemid_to_id[el] for el in article_id_short_arr_for_matrix])

article_user_counter_for_matrix = train['values'].values.astype(np.float64)

CPU times: user 10.6 s, sys: 341 ms, total: 10.9 s
Wall time: 10.9 s


In [13]:
%%time
# Создаем разряженную матриуц по координатам ненулевых элементов
coo = coo_matrix((article_user_counter_for_matrix, (user_id_short_arr_for_matrix, article_id_short_arr_for_matrix)))

CPU times: user 190 ms, sys: 70.5 ms, total: 261 ms
Wall time: 260 ms


In [14]:
# Приведем матрицу в нужный формат для модели и произведем взвешивание bm25
custom_sparse_user_item = csr_matrix(coo).tocsr()
custom_bm25_user_item_matrix = bm25_weight(custom_sparse_user_item.T).T.tocsr()

In [15]:
%%time

# ALS модель на GPU
als = AlternatingLeastSquares(factors=60,
                regularization=0.8,
                iterations=3,
                calculate_training_loss=True,
                random_state=42)

als.fit(custom_bm25_user_item_matrix, show_progress=False)

CPU times: user 2min 3s, sys: 518 ms, total: 2min 4s
Wall time: 2min 4s


In [16]:
%%time

# Количество потоков процессора для обучения
NUM_THREADS = 16

# Own recommender
own_recommender = ItemItemRecommender(K=1, num_threads=NUM_THREADS)
own_recommender.fit(custom_sparse_user_item, show_progress=False)

CPU times: user 51.3 s, sys: 5.23 s, total: 56.6 s
Wall time: 5.99 s


### Найдем похожих покупателей

In [17]:
%%time
# количество похожих покупателей
N_USERS = 500

result[f'sim_users'] = result['customer_id_short'].map(lambda x: get_sim_users(x, used_userid_to_id, id_to_used_userid, als, N_USERS))

CPU times: user 7min 1s, sys: 5.11 s, total: 7min 6s
Wall time: 7min 6s


### Получим рекомендации и их оценку

In [18]:
%%time
# rec before ranking
N = 500

result[f'own_rec'] = result.apply(lambda row: get_recommendations(row['customer_id_short'], row['sim_users'], als, own_recommender, used_userid_to_id, used_itemid_to_id, custom_sparse_user_item, id_to_used_itemid_nb, top_sim_weeks_articles_nb, N), axis=1)

CPU times: user 3h 7min 7s, sys: 4min, total: 3h 11min 7s
Wall time: 3h 11min


In [19]:
print('Recall_own_rec: ', result.apply(lambda row: recall(row['own_rec'], row['actual_article_id_short']), axis=1).mean())

Recall_own_rec:  0.19289906965393644


In [21]:
%%time
# преобразуем тип данных колонок для возможности сохранения в формате parquet
result[f'actual_article_id_short'] = result.apply(lambda row: col_convert(row['actual_article_id_short']), axis=1)
result[f'sim_users'] = result.apply(lambda row: col_convert(row['sim_users']), axis=1)
result[f'own_rec'] = result.apply(lambda row: col_convert(row['own_rec']), axis=1)

CPU times: user 13.5 s, sys: 1.35 s, total: 14.9 s
Wall time: 14.9 s


In [22]:
# сохраняем в формате parquet
result.to_parquet('archive/validation_result.parquet')