<a href="https://colab.research.google.com/github/mark-narusov/alfabank_campus_challenge/blob/main/seq_rec_alfa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Содержание

>[Введение](#scrollTo=RwhYGQNSgGnB)

>[Импортирование библиотек](#scrollTo=Kf4Ze42hfdgD)

>[Обработка данных](#scrollTo=E40fuYyfgPSF)

>[Форматирование данных для RecBole](#scrollTo=W4juq3eexyZN)

>[Обучение модели](#scrollTo=u16F78XCASYg)

>[Предсказание для клиентов тестовой выборки](#scrollTo=OYNuKfceLBW9)

>[Блендинг предсказаний](#scrollTo=HYlPx0hWW2HC)



# Введение

Задача — предсказать следующие 10 [MCC-кодов](https://www.banki.ru/wikibank/mcc-kod/) 7033 клиентов, основываясь на их предыдущих тратах.

В качестве тренировочной выборки предоставлены последовательности MCC-кодов других 7033 клиентов с таргетом в виде 10 последующих MCC-кодов.

Целевая метрика — [MAP@10](https://habr.com/ru/company/econtenta/blog/303458/
) (*mean average precision*), обычно используется для оценки качества ранжирования, где задача стоит в сортировке *уникальных* айтемов по релевантности. На тему корректности выбора именно этой метрики для задачи предсказания *повторяющихся* MCC-кодов развязалась горячая и интересная дискуссия на форуме соревнования на *Kaggle*.

В итоге для обучения модели я подменил задачу: предсказывал не 10 последующих MCC-кодов авторегрессионно, а предсказывал 10 наиболее вероятных кандидатов на позицию следующего MCC-кода. Авторегрессионный подход показывал результат значительно хуже.

Сперва я пробовал свести оптимизацию *MAP@10* к *NLP*-задаче машинного перевода, рассматривая 10 кодов из таргета как предложение, на язык которого нам как бы надо перевести предшествующую последовательность. В этом я не достиг успеха и не смог даже побить бейзлайн. Логично — уникальных "языков" или по крайней мере "диалектов" транзакций столько же, сколько клиентов — нет смысла предполагать, что последовательности MCC-кодов похожи у всех.

Оказывается, наиболее оптимальным решением оказалось не столь далёким от *NLP*, как могло бы показаться. Путём гуглежа различных способов описания задачи соревнования, я наткнулся на [научную статью](https://arxiv.org/abs/1511.06939) 2015-го года о *session-based recommendations*. В ней авторы предлагают использовать рекуррентные нейронные сети (*RNN*) с механизмом *GRU* (*gated recurrent unit*) для задачи рекомендаций.

Именно они изобрели модель *GRU4Rec*, ставшей повсеместным бейзлайном для последовательных рекомендаций (*sequential recommendations*). Эту модель я и использовал для предсказания 10 наиболее вероятных следующих MCC-кодов клиента.

На [*paperswithcode*](https://paperswithcode.com/task/sequential-recommendation) нашёл реализацию *GRU4Rec* в библиотеке [*RecBole*](https://recbole.io/docs/index.html).

*RecBole* оказался полезным инструментов, позволившим мне попробовать и другие *state of the art* модели, на которые я возлагал высокие надежды. Среди них были:

- [*BERT4Rec*](https://recbole.io/docs/user_guide/model/sequential/bert4rec.html) — трансформер, адаптированный под sequential recommendation.
- [*RepeatNet*](https://recbole.io/docs/user_guide/model/sequential/repeatnet.html) — RNN, эксплицитно учитывающая феномен *repeat consumption* в составлении рекомендации.
- [*Caser*](https://recbole.io/docs/user_guide/model/sequential/caser.html) и [*RepeatItNet*](https://recbole.io/docs/user_guide/model/sequential/nextitnet.html), использующие свёрточные слои (как в задачах CV).

Однако лучшие результаты в моих экспериментах показал всё тот же *GRU4Rec*.

Допускаю, что это связано не с применимостью моделей на этом датасете, а скорее моими временными лимитами на использование *GPU* в *Colab Pro* — перечисленные выше модели тяжелее и требуют бОльшего времени на обучение и подбор оптимальных гиперпараметров, которого у меня не было.

После нескольких удачных сабмишнов я выбрал два наиболее успешных и сблендил их с взвешивающим коэффициентом, усиливающим голос предсказания получше.

Ознакомиться с примерным временем обучения моделей библиотеки можно на [этой странице](https://github.com/RUCAIBox/RecBole/blob/master/asset/time_test_result/Sequential_recommendation.md).

Также хотел бы оставить здесь [ссылку](https://www.youtube.com/watch?v=_qR2WL4baNc&ab_channel=%D0%9C%D0%A2%D0%A1Digital) на классный доклад Александра Петрова на тему *sequential recommender systems*.

# Импортирование библиотек

In [None]:
import pandas as pd
import os
# Для вывода работы библиотеки RecBole
import logging
from logging import getLogger

# Для типизации функций
from typing import List, Tuple

from collections import defaultdict

# Проверяем, есть ли библиотеки в окружении
lst = !pip list
avail_libs = set(x.split()[0] for x in lst)
if 'recbole' not in avail_libs:
    !pip install recbole
if 'torch' not in avail_libs:
    !pip install torch
if 'ray' not in avail_libs:
    !pip install ray


from recbole.config import Config
from recbole.data import create_dataset, data_preparation
from recbole.model.sequential_recommender import GRU4Rec
from recbole.trainer import Trainer
from recbole.utils import init_logger
from recbole.utils.case_study import full_sort_topk
import torch

# Для того чтобы тетрадка запускалась и на CPU, и на GPU
DEVICE = torch.device("cuda") if torch.cuda.is_available()\
else torch.device("cpu")

from google.colab import drive
drive.mount('/content/drive')

# Обработка данных

Для обучения модели я решил объединить тренировочную и тестовую выборки. Хоть в тренировочной и содержатся последовательности для других клиентов, в них всё-таки может содержаться полезная информация об айтемах.

In [None]:
FILE_PATH_TRAIN = \
'/content/drive/MyDrive/colab_notebooks/alfa_data/df_train.csv'
FILE_PATH_TEST = \
'/content/drive/MyDrive/colab_notebooks/alfa_data/df_test.csv'

df_train = pd.read_csv(FILE_PATH_TRAIN, sep=';')
df_test = pd.read_csv(FILE_PATH_TEST, sep=';')

In [None]:
display(df_train.head())
display(df_test.head())

Unnamed: 0,Id,Data,Target
0,0,"4814,4814,6010,6011,4814,6011,6011,4814,6011,6...",4814481448144814541148144814481448144814
1,1,"6011,6011,6011,6011,6011,6011,6011,4814,4814,4...",4814601148146011481448146011481460114814
2,2,"8021,6011,6011,6010,4829,4814,6011,6011,6011,6...",6011601160104829482960106011601148146011
3,3,"4814,6011,4814,4814,4814,6011,6011,5691,5691,5...",6011601160106011601148144814601148144814
4,4,"4814,4814,4814,4814,4814,4814,5946,4814,4814,6...",5499601148144829520054115499591254115912


Unnamed: 0,Id,Data
0,0,"4814,4814,6011,6011,6010,6011,6011,4814,6011,4..."
1,1,"6010,6011,6010,5411,5411,5977,6011,6010,5411,6..."
2,2,"4814,6011,5251,6011,7832,5641,5814,4829,5311,6..."
3,3,"6011,4722,4722,4722,4814,6011,6011,4829,6011,6..."
4,4,"4814,4814,4814,6011,4814,4814,4814,4814,4814,4..."


Переводим строки в списки строк:

In [None]:
df_train.columns = df_train.columns.str.lower()
df_test.columns = df_test.columns.str.lower()

convert_to_arr = lambda s: s.split(',')
df_train['data'] = df_train['data'].apply(convert_to_arr)
df_train['target'] = df_train['target'].apply(convert_to_arr)
df_test['data'] = df_test['data'].apply(convert_to_arr)

In [None]:
display(df_train.head())
display(df_test.head())

Unnamed: 0,id,data,target
0,0,"[4814, 4814, 6010, 6011, 4814, 6011, 6011, 481...","[4814, 4814, 4814, 4814, 5411, 4814, 4814, 481..."
1,1,"[6011, 6011, 6011, 6011, 6011, 6011, 6011, 481...","[4814, 6011, 4814, 6011, 4814, 4814, 6011, 481..."
2,2,"[8021, 6011, 6011, 6010, 4829, 4814, 6011, 601...","[6011, 6011, 6010, 4829, 4829, 6010, 6011, 601..."
3,3,"[4814, 6011, 4814, 4814, 4814, 6011, 6011, 569...","[6011, 6011, 6010, 6011, 6011, 4814, 4814, 601..."
4,4,"[4814, 4814, 4814, 4814, 4814, 4814, 5946, 481...","[5499, 6011, 4814, 4829, 5200, 5411, 5499, 591..."


Unnamed: 0,id,data
0,0,"[4814, 4814, 6011, 6011, 6010, 6011, 6011, 481..."
1,1,"[6010, 6011, 6010, 5411, 5411, 5977, 6011, 601..."
2,2,"[4814, 6011, 5251, 6011, 7832, 5641, 5814, 482..."
3,3,"[6011, 4722, 4722, 4722, 4814, 6011, 6011, 482..."
4,4,"[4814, 4814, 4814, 6011, 4814, 4814, 4814, 481..."


Объединяем столбцы `data` и `target` в тренировочном датасете:

In [None]:
train_data = df_train.apply(lambda row: row[1] + row[2], axis=1).reset_index()
test_data = df_test.copy()

In [None]:
train_data.columns = ['user_id', 'item_ids']
test_data = test_data.rename({'id': 'user_id', 'data': 'item_ids'}, axis=1)
display(train_data.head())
display(test_data.head())

Unnamed: 0,user_id,item_ids
0,0,"[4814, 4814, 6010, 6011, 4814, 6011, 6011, 481..."
1,1,"[6011, 6011, 6011, 6011, 6011, 6011, 6011, 481..."
2,2,"[8021, 6011, 6011, 6010, 4829, 4814, 6011, 601..."
3,3,"[4814, 6011, 4814, 4814, 4814, 6011, 6011, 569..."
4,4,"[4814, 4814, 4814, 4814, 4814, 4814, 5946, 481..."


Unnamed: 0,user_id,item_ids
0,0,"[4814, 4814, 6011, 6011, 6010, 6011, 6011, 481..."
1,1,"[6010, 6011, 6010, 5411, 5411, 5977, 6011, 601..."
2,2,"[4814, 6011, 5251, 6011, 7832, 5641, 5814, 482..."
3,3,"[6011, 4722, 4722, 4722, 4814, 6011, 6011, 482..."
4,4,"[4814, 4814, 4814, 6011, 4814, 4814, 4814, 481..."


Перед объединением присваиваем новые `user_id` клиентам из тренировочного датасета:

In [None]:
train_data['user_id'] = range(7033, 7033 * 2)
train_data.head()

Unnamed: 0,user_id,item_ids
0,7033,"[4814, 4814, 6010, 6011, 4814, 6011, 6011, 481..."
1,7034,"[6011, 6011, 6011, 6011, 6011, 6011, 6011, 481..."
2,7035,"[8021, 6011, 6011, 6010, 4829, 4814, 6011, 601..."
3,7036,"[4814, 6011, 4814, 4814, 4814, 6011, 6011, 569..."
4,7037,"[4814, 4814, 4814, 4814, 4814, 4814, 5946, 481..."


Конкатенируем датафреймы в один для обучения модели и предсказаний:

In [None]:
full_train = pd.concat([test_data, train_data])

# Проверяем, что строк в новом датафрейме вдвое больше, чем в train
assert full_train.shape[0] == train_data.shape[0] * 2

display(full_train.head())
full_train.tail()

Unnamed: 0,user_id,item_ids
0,0,"[4814, 4814, 6011, 6011, 6010, 6011, 6011, 481..."
1,1,"[6010, 6011, 6010, 5411, 5411, 5977, 6011, 601..."
2,2,"[4814, 6011, 5251, 6011, 7832, 5641, 5814, 482..."
3,3,"[6011, 4722, 4722, 4722, 4814, 6011, 6011, 482..."
4,4,"[4814, 4814, 4814, 6011, 4814, 4814, 4814, 481..."


Unnamed: 0,user_id,item_ids
7028,14061,"[6010, 4829, 6011, 6011, 6011, 6010, 6011, 601..."
7029,14062,"[4814, 5699, 5641, 5411, 6010, 6011, 4814, 601..."
7030,14063,"[6011, 6011, 6011, 6011, 6011, 6011, 6011, 601..."
7031,14064,"[4814, 4814, 5411, 6011, 6011, 4814, 4814, 481..."
7032,14065,"[6011, 6011, 6011, 6011, 5541, 4814, 6011, 601..."


# Форматирование данных для *RecBole*

Используемая библиотека *RecBole* принимает для обучения файлы определённого формата — [*Atomic*](https://recbole.io/docs/user_guide/data/atomic_files.html).  

Для примера в документации *RecBole* представлен сэмпл корректного форматирования популярного *RecSys* датасета `ml-100k` в формате *Atomic*.

In [None]:
EXAMPLE_FILE_PATH = \
'/content/drive/MyDrive/colab_notebooks/pytorch/ml-100k.inter'
ml_100k = pd.read_csv(EXAMPLE_FILE_PATH, sep='\t')

In [None]:
display(ml_100k)

Unnamed: 0,user_id:token,item_id:token,rating:float,timestamp:float
0,196,242,3,881250949
1,186,302,3,891717742
2,22,377,1,878887116
3,244,51,2,880606923
4,166,346,1,886397596


То есть нужно будет развернуть данные по типу один *user_id* - одно наблюдение, а также добавить *timestamp* — последовательные рекомендательные модели типа *GRU4Rec* в библиотеке не работают без столбца со временем.

Вижу, что время в колонке `timestamp:float` представлено в секундах:

In [None]:
raw_timestamp = ml_100k.loc[0, 'timestamp:float']
print(pd.to_datetime(raw_timestamp, unit='s'))

1997-12-04 15:55:49


Добавляю фиктивные `timestamp`-ы чтобы явно задать последовательность клиентских транзакций. У каждого клиента самая недавняя транзакция пусть будет в `timestamp` 150 000 000, а каждая предшествующая — по 6 часов (21 600 сек.) раньше:

In [None]:
print(pd.to_datetime(150_000_0000, unit='s'))
print(f'21 600 секунд = {int(21_600 / 60 / 60)} часов.')

2017-07-14 02:40:00
21 600 секунд = 6 часов.


Оформляю для такого преобразования функцию:

In [None]:
origin = 150_000_0000
period = 21_600

def add_timestamp(arr: List[str]) -> List[Tuple[str, int]]:
    '''
    Функция принимает на вход последовательный список с MCC-кодами,
    возвращает список с кортежами (MCC-код, timestamp)
    '''
    new_arr_rev = []
    for i, elem in enumerate(reversed(arr)):
        new_arr_rev.append((elem, origin - (i * period)))
    return new_arr_rev[::-1]

In [None]:
full_train['item_timestamp'] = full_train['item_ids'].apply(add_timestamp)

In [None]:
full_train = full_train[['user_id', 'item_timestamp']]

Преобразуем датафрейм по типу одна транзакция - одна строка:

In [None]:
full_exploded = full_train.explode('item_timestamp').reset_index(drop=True)
full_exploded.head()

Unnamed: 0,user_id,item_timestamp
0,0,"(4814, 1495183200)"
1,0,"(4814, 1495204800)"
2,0,"(6011, 1495226400)"
3,0,"(6011, 1495248000)"
4,0,"(6010, 1495269600)"


Выделяем MCC-код и `timestamp` в отдельные столбцы:

In [None]:
full_exploded['item_id'] = \
full_exploded['item_timestamp'].apply(lambda arr: arr[0])

full_exploded['timestamp'] = \
full_exploded['item_timestamp'].apply(lambda arr: arr[1])

full_exploded = full_exploded.drop('item_timestamp', axis=1)

In [None]:
display(full_exploded.head())
full_exploded.shape

Unnamed: 0,user_id,item_id,timestamp
0,0,4814,1495183200
1,0,4814,1495204800
2,0,6011,1495226400
3,0,6011,1495248000
4,0,6010,1495269600


(6752236, 3)

Наконец, добавляем необходимую явную типизацию в названия колонок:

In [None]:
full_exploded.columns = ['user_id:token', 'item_id:token', 'timestamp:float']
display(full_exploded.head())
display(full_exploded.tail())

Unnamed: 0,user_id:token,item_id:token,timestamp:float
0,0,4814,1495183200
1,0,4814,1495204800
2,0,6011,1495226400
3,0,6011,1495248000
4,0,6010,1495269600


Unnamed: 0,user_id:token,item_id:token,timestamp:float
6752231,14065,5411,1499913600
6752232,14065,6011,1499935200
6752233,14065,5541,1499956800
6752234,14065,6010,1499978400
6752235,14065,4814,1500000000


Сохраняем получившийся файл для дальнейшего обучения.  
Важный момент:  
*RecBole*-у важно, чтобы данные для обучения лежали в одной папке, а сами файлы (у нас он один) носили то же имя, что и папка, а также имели соответствующее типу данных расширение. У нас это `.inter` — файл с *interactions* `user_id` и `item_id`.

In [None]:
new_folder = '/content/drive/MyDrive/colab_notebooks/alfa_data/full_train'

# Создаём новую папку 'full_train' если она не существует
if not os.path.exists(new_folder):
    os.makedirs(new_folder)

new_csv = ('/content/drive/MyDrive/colab_notebooks/alfa_data/full_train/'
           + 'full_train.inter')

# Сохраняем csv с данными для обучения если ещё этого не делали
if not os.path.exists(new_csv):
    full_exploded[['user_id:token', 'item_id:token', 'timestamp:float']]\
    .to_csv(new_csv, sep='\t', index=False)


# Обучение модели

Диапазон подобранных гиперпараметров:

- `MAX_ITEM_LIST_LENGTH`: [20 - 150]
- `embedding_size`: [64 - 256]
- `hidden_size`: [64 - 256]
- `num_layers`: [1 - 3]
- `dropout_prob`: [0 - 0.5]
- `loss_type`: ['CE', 'BPR']
- `train_batch_size`: [256 - 7033]

В [оригинальной статье](https://arxiv.org/abs/1511.06939), представившей модель *GRU4Rec* авторы не используют эмбеддинги для айтемов (в их экспериментах *one-hot encoding* работал лучше), а также использовали функцию активации `tanh` для выходного слоя.

Пожалуй, наиболее важное различие — вместо *pointwise* кросс-энтропии авторы использовали *pairwis*e функции потерь *BPR* (*Bayesian Personalized Ranking*) и *TOP1*, опирающиеся на *negative sampling*.

Обучение модели с данными гиперпараметрами требует примерно 26 гигабайт System RAM, но потребление памяти можно сократить в разы и запустить код в обычном бесплатном рантайме *Google Colab* на CPU, уменьшив значения таких гиперпараметров как `MAX_ITEM_LIST_LENGTH`, `train_batch_size`, `hidden_size` и `num_layers`.

In [None]:

config_dict = {
    "USER_ID_FIELD": "user_id",
    "ITEM_ID_FIELD": "item_id",
    "TIME_FIELD": "timestamp",
    "load_col": {"inter": ["user_id", "item_id", "timestamp"]},
    "ITEM_LIST_LENGTH_FIELD": "item_length",
    "LIST_SUFFIX": "_list",
    "MAX_ITEM_LIST_LENGTH": 130,  # максимальная длина последовательности
    "embedding_size": 256, # размерность эмбеддингов
    "hidden_size": 256, # размерность скрытого состояния GRU
    "num_layers": 2,  # кол-во скрытых слоёв
    "dropout_prob": 0.3,  # droupout-вероятность в обучении
    "loss_type": "CE",  # функция потерь
    "epochs": 50,
    "train_batch_size": 4096,
    "eval_batch_size": 4096,
    "train_neg_sample_args": None, # не используем negative sampling
    # словарь с параметрами валидации
    "eval_args": {
        "group_by": "user", # группируем по пользователям
        "order": "TO", # сортируем по timestamp-у
        "split": {"LS": "valid_only"}, # leave-one-out validation
        "mode": "full", # используем все данные для inference
    },
    "metrics": ["Recall", "MRR", "NDCG", "Hit", "Precision", "MAP"],
    "topk": 10,
    "valid_metric": "MAP@10", # валидационная метрика, также целевая метрика
    # соревнования
    "data_path": "/content/drive/MyDrive/colab_notebooks/alfa_data/",
    "stopping_step": 2, # останавливаем обучение если в течение
    # этого кол-ва эпох не было улучшения валидационной метрики
    "device": DEVICE,
}


In [None]:
# Код отсюда: https://www.kaggle.com/code/muddywaters23/recbole-gru4rec

config = Config(model='GRU4Rec', dataset='full_train', config_dict=config_dict)

# инициализируем логгеры для вывода информации
logger = getLogger()
logger.setLevel(logging.INFO)


c_handler = logging.StreamHandler()
c_handler.setLevel(logging.INFO)
logger.addHandler(c_handler)


logger.info(config)

INFO:root:
[1;35mGeneral Hyper Parameters:
[0m[1;36mgpu_id[0m =[1;33m 0[0m
[1;36muse_gpu[0m =[1;33m True[0m
[1;36mseed[0m =[1;33m 2020[0m
[1;36mstate[0m =[1;33m INFO[0m
[1;36mreproducibility[0m =[1;33m True[0m
[1;36mdata_path[0m =[1;33m /content/drive/MyDrive/colab_notebooks/alfa_data/full_train[0m
[1;36mcheckpoint_dir[0m =[1;33m saved[0m
[1;36mshow_progress[0m =[1;33m True[0m
[1;36msave_dataset[0m =[1;33m False[0m
[1;36mdataset_save_path[0m =[1;33m None[0m
[1;36msave_dataloaders[0m =[1;33m False[0m
[1;36mdataloaders_save_path[0m =[1;33m None[0m
[1;36mlog_wandb[0m =[1;33m False[0m

[1;35mTraining Hyper Parameters:
[0m[1;36mepochs[0m =[1;33m 50[0m
[1;36mtrain_batch_size[0m =[1;33m 4096[0m
[1;36mlearner[0m =[1;33m adam[0m
[1;36mlearning_rate[0m =[1;33m 0.001[0m
[1;36mtrain_neg_sample_args[0m =[1;33m {'distribution': 'none', 'sample_num': 'none', 'alpha': 'none', 'dynamic': False, 'candidate_num': 0}[0m
[1;36meva

Создаём объекты тренировочной выборки и валдиацонной:

In [None]:
dataset = create_dataset(config)
logger.info(dataset)
train_data, valid_data, _ = data_preparation(config, dataset)

INFO:root:[1;35mfull_train[0m
[1;34mThe number of users[0m: 14067
[1;34mAverage actions of users[0m: 480.0395279397128
[1;34mThe number of items[0m: 185
[1;34mAverage actions of items[0m: 36696.934782608696
[1;34mThe number of inters[0m: 6752236
[1;34mThe sparsity of the dataset[0m: -159.46237984625702%
[1;34mRemain Fields[0m: ['user_id', 'item_id', 'timestamp']
full_train
The number of users: 14067
Average actions of users: 480.0395279397128
The number of items: 185
Average actions of items: 36696.934782608696
The number of inters: 6752236
The sparsity of the dataset: -159.46237984625702%
Remain Fields: ['user_id', 'item_id', 'timestamp']
INFO:root:[1;35m[Training]: [0m[1;36mtrain_batch_size[0m = [1;33m[4096][0m[1;36m train_neg_sample_args[0m: [1;33m[{'distribution': 'none', 'sample_num': 'none', 'alpha': 'none', 'dynamic': False, 'candidate_num': 0}][0m
[Training]: train_batch_size = [4096] train_neg_sample_args: [{'distribution': 'none', 'sample_num': 'none

In [None]:
# Если менять модель и перезапускать данную ячейку, рекомендую очищать кэш GPU
# при помощи этой строки:

# torch.cuda.empty_cache()

Инициализируем модель и обучаем.

Для полной репродукции эксперимента можно нервно смотреть на график использования RAM и надеяться, что рантайм не упадёт :)

In [None]:
model = GRU4Rec(config, train_data.dataset).to(config['device'])
logger.info(model)

# инициализируем "тренера" модели
trainer = Trainer(config, model)

# сохраняем лучшие результаты
best_valid_score, best_valid_result = trainer.fit(train_data, valid_data)


INFO:root:GRU4Rec(
  (item_embedding): Embedding(185, 256, padding_idx=0)
  (emb_dropout): Dropout(p=0.3, inplace=False)
  (gru_layers): GRU(256, 256, num_layers=2, bias=False, batch_first=True)
  (dense): Linear(in_features=256, out_features=256, bias=True)
  (loss_fct): CrossEntropyLoss()
)[1;34m
Trainable parameters[0m: 899584
GRU4Rec(
  (item_embedding): Embedding(185, 256, padding_idx=0)
  (emb_dropout): Dropout(p=0.3, inplace=False)
  (gru_layers): GRU(256, 256, num_layers=2, bias=False, batch_first=True)
  (dense): Linear(in_features=256, out_features=256, bias=True)
  (loss_fct): CrossEntropyLoss()
)
Trainable parameters: 899584
INFO:root:[1;32mepoch 0 training[0m [[1;34mtime[0m: 462.81s, [1;34mtrain loss[0m: 3301.9386]
epoch 0 training [time: 462.81s, train loss: 3301.9386]
INFO:root:[1;32mepoch 0 evaluating[0m [[1;34mtime[0m: 0.45s, [1;34mvalid_score[0m: 0.590900]
epoch 0 evaluating [time: 0.45s, valid_score: 0.590900]
INFO:root:[1;34mvalid result[0m: 
recall@

KeyboardInterrupt: ignored

В момент оформления данного ноутбука у меня уже заканчивались *compute units* на балансе в *Colab Pro*, и мне пришлось преждевременно остановить обучения чтобы успеть сделать *inference*  ¯\\_(ツ)_/¯

# Предсказание для клиентов тестовой выборки

Складываем предсказания для клиентов тестовой выборки в массив `topk_items`:

Чтобы использовать больше информации для дальнейшего блендинга предсказаний разных моделей, приравниваем параметр `k` к 15 — так в список сложим 15 наиболее вероятных следующих MCC-кодов, а не 10.

In [None]:
# Код отсюда:
# https://www.kaggle.com/code/astrung/recbole-lstm-sequential-for-recomendation-tutorial

topk_items = []
for internal_user_id in list(range(dataset.user_num))[1:7034]:
    _, topk_iid_list = full_sort_topk([internal_user_id],
                                      model,
                                      valid_data,
                                      k=15,
                                      device=config['device'])
    last_topk_iid_list = topk_iid_list[-1]
    external_item_list = dataset.id2token(
        dataset.iid_field, last_topk_iid_list.cpu()
        ).tolist()
    topk_items.append(external_item_list)
print(len(topk_items))

7033


Пример предсказания для клиента `user_id` 0:

In [None]:
topk_items[0]

['6011',
 '4829',
 '4814',
 '6010',
 '5411',
 '5499',
 '5541',
 '5912',
 '5331',
 '5921',
 '5812',
 '5533',
 '5999',
 '5983',
 '5814']

Форматируем предсказания в формат, требуемый соревнованием:

In [None]:
test_preds = []
for arr in topk_items:
    test_preds.append(' '.join(arr))

In [None]:
test_preds[:10]

['6011 4829 4814 6010 5411 5499 5541 5912 5331 5921 5812 5533 5999 5983 5814',
 '6011 5411 6010 4814 5912 5451 5541 5983 5331 5533 5977 4829 5499 5691 4812',
 '6010 6011 4829 5411 4814 5499 5814 5812 5200 5912 5331 5999 6012 5541 7832',
 '6011 4814 5411 4829 5912 5499 5814 5200 6010 6012 5812 5722 4812 5964 5977',
 '4814 6011 6010 4829 5411 5912 5541 5499 5331 6012 5983 6536 5661 4812 5977',
 '6011 5661 5411 5691 4814 5541 5999 5921 5977 5912 6010 5651 5812 5331 5261',
 '5499 6011 5411 4814 5999 5812 5921 5912 5945 4829 5331 5311 5691 6010 5814',
 '5411 4829 6011 5499 4814 5541 5977 5699 6010 5651 5912 5641 5814 5661 5691',
 '5411 4814 6011 5541 5499 5311 5211 6010 4829 5912 5261 5983 5814 5533 5331',
 '6010 4829 6011 4814 5411 5541 4900 5912 5945 5814 5261 4812 5691 5499 5812']

Выполняем код из ноутбука с бейзлайном и сохраняем csv-файл с предсказаниями:

In [None]:
# Создайте DataFrame с предсказаниями
predictions_df = pd.DataFrame({'Id': range(len(test_preds)),
                               'Predicted': test_preds})

# Сохраните DataFrame в CSV файл
predictions_df.to_csv('final_pred.csv', index=False)

# Блендинг предсказаний

Имея предсказания двух моделей, показавших хороший скор на *Kaggle* лидерборде, можно совместить их предсказания. Я совместил предсказания двух разных инстанций *GRU4Rec*.

По теории ансамблирования в МЛ, стоит выбирать предсказания моделей, ошибки которых максимально нескоррелированны (для этого деревья в случайном лесе обучаются на отличающихся данных), поэтому по-хорошему стоило бы ансамблировать предсказания не двух *GRU4Rec*, а *GRU4Rec* и, например, *Caser* — у этой модели другой механизм обучения, и ошибки были бы менее скоррелированны. Но опять же, оптимизация гиперпараметров *Caser* требует временных и вычислительных ресурсов, которых у меня не было.

In [None]:
pred_stronger = pd.read_csv('/content/stronger_.csv')
pred_weaker = pd.read_csv('/content/weaker_.csv')

Джойним два датафрейма с предсказаниями:

In [None]:
merged_preds = pd.merge(pred_stronger, pred_weaker, on='Id')

Преобразовываем строки в списки:

In [None]:
merged_preds['Predicted_x'] = \
merged_preds['Predicted_x'].apply(lambda x: x.split())

merged_preds['Predicted_y'] = \
merged_preds['Predicted_y'].apply(lambda x: x.split())

Оформляем функцию для блендинга предсказаний. На вход она принимает строку объединённого датафрейма, возвращает предсказания, где голос более сильной модели умножается на заданный коэффициент `coef`. Коэффициент уже можно подбирать с помощью фидбека от публичного лидерборда соревнования.

В теории, дополнительное улучшение скора в соревновании можно достичь путём блендинга не итоговых предсказаний, а сырых аутпутов выходного слоя. Таким образом, блендинг бы учитывал относительную "уверенность" модели в релевантности айтема.

In [None]:
def blend_rankings(row: pd.Series, coef: float = 2.5) -> str:
    '''
    Каждому айтему рассчитывваем скор в виде (len(sequence) - position_index),
    сортируем ключи словаря по их скорам
    '''
    freq_count = defaultdict(int)
    for i in range(15):
        freq_count[row[1][i]] += ((15 - i) * coef)
        freq_count[row[2][i]] += (15 - i)
    return ' '.join(
        [x[0] for x in sorted(freq_count.items(),
                              key=lambda x: x[1],
                              reverse=True)])

Применям функцию:

In [None]:
test_preds = merged_preds.apply(blend_rankings, axis=1)

In [None]:
# Создайте DataFrame с предсказаниями
predictions_df = pd.DataFrame({'Id': range(len(test_preds)),
                               'Predicted': test_preds})

# Сохраните DataFrame в CSV файл
predictions_df.to_csv('blend_25.csv', index=False)