# Использование RePlay
Данный ноутбук показывает базовый порядок работы с библиотекой.
- загрузка датасета
- деление на трейн и тест
- обучение модели
- сравнение с бейзлайном

Документацию можно собрать из папки `docs` командой `make html`. Она создаст папку `_build` с документацией -- `/docs/_build/html/index.html`

In [1]:
%load_ext autoreload
%autoreload 2

Целевая архитектура библиотеки - ЛД 3.0, поэтому используем Spark.
Для отладки моделей (не на кластере) создаём локальную сессию.

Объект `State` позволяет использовать одну и ту же сессию Spark в разных объектах.
Если сессия уже инициализирована, то её нужно передать при инициализации `State`. Модули библиотеки, которым необходимо использовать спарк-сессию, например для конвертации из пандас в спарк, будут искать сессию именно в `State`.

По умолчанию создастся дефолтная сессия. Простой способ получить сессию с заданным количеством выделенной памяти -- функция `get_spark_session` модуля `session_handler`.

In [2]:
from replay.session_handler import State

spark = State().session
spark

In [3]:
K = 10

## 0. Подготовка данных <a name='data-preparator'></a>
Популярные датасеты для рекомендательных систем можно найти в библиотеке rs_datasets.

Данные датасета доступны в виде `pandas.DataFrame` атрибутов объекта.
Посмотреть доступные данные можно с помощью метода `info`.

In [4]:
from rs_datasets import MovieLens

data = MovieLens("1m")
data.info()

ratings


Unnamed: 0,user_id,item_id,rating,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968



users


Unnamed: 0,user_id,gender,age,occupation,zip_code
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117



items


Unnamed: 0,item_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance





### 0.1. DataPreparator

Внутренний формат данных в библиотеке - spark dataframe.
Модели replay ожидают на вход pandas или spark dataframe, содержащий обязательные столбцы item_id, user_id. Для некоторых моделей обязательно наличие столбца relevance, содержащего оценки релевантности объектов для пользователей.
Для разбиения данных по времени с помощью Splitter и фильтров в логе должен присутсововать столбец timestamp.

В replay есть DataPreparator, который автоматически конвертирует pandas и spark dataframe c логом в нужный формат (переименование/создание обязательных столбцов, корректное чтение дат, проверка отсутствия пропусков). DataPreparetor может конвертировать dataframe с признаками пользователей/объектов (нужно указать один из столбцов, соответсвующий user_id/item_id.

Также конвертировать pandas dataframes в spark можно с помощью вспомогательной функции convert_to_spark.

In [5]:
from replay.data_preparator import DataPreparator

log = DataPreparator().transform(
    data=data.ratings,
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "rating",
        "timestamp": "timestamp"
    }
)

In [6]:
log.show(3)

+-------+-------+---------+-------------------+
|user_id|item_id|relevance|          timestamp|
+-------+-------+---------+-------------------+
|      1|   1193|      5.0|2001-01-01 01:12:40|
|      1|    661|      3.0|2001-01-01 01:35:09|
|      1|    914|      3.0|2001-01-01 01:32:48|
+-------+-------+---------+-------------------+
only showing top 3 rows



In [7]:
from replay.utils import convert2spark
items = convert2spark(data.users)

### 0.2. Split

Библиотека содержит различные схемы валидации рекомендательных систем, встречающиеся в литературе.

`UserSplitter` отбирает для теста некоторое количество или долю объектов для каждого пользователя.

In [8]:
from replay.splitters import UserSplitter

splitter = UserSplitter(
    drop_cold_items=True,
    drop_cold_users=True,
    item_test_size=1,
    user_test_size=500,
    seed=1234,
    shuffle=True
)
train, test = splitter.split(log)
(
    train.count(), 
    test.count()
)

(999709, 500)

## 1. Обучение модели 

#### SLIM
Один из простых, но эффективных алгоритмов 

In [9]:
from replay.models import SLIM

slim = SLIM(lambda_=0.01, beta=0.01)



In [10]:
%%time

slim.fit(log=train)

04-Feb-21 01:04:18, replay, DEBUG: Начало обучения SLIM
DEBUG:replay:Начало обучения SLIM
04-Feb-21 01:04:18, replay, DEBUG: Предварительная стадия обучения (pre-fit)
DEBUG:replay:Предварительная стадия обучения (pre-fit)
04-Feb-21 01:04:19, replay, DEBUG: Основная стадия обучения (fit)
DEBUG:replay:Основная стадия обучения (fit)


CPU times: user 2.15 s, sys: 120 ms, total: 2.27 s
Wall time: 7.45 s


In [11]:
%%time

recs = slim.predict(
    k=K,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

04-Feb-21 01:04:25, replay, DEBUG: Начало предикта SLIM
DEBUG:replay:Начало предикта SLIM


CPU times: user 831 ms, sys: 133 ms, total: 964 ms
Wall time: 5.92 s


## 2. Оценка качества и сравнение результатов моделей

В библиотеке реализованы различные метрики качества рекомендательных систем, встречающихся в литературе.
Их можно использовать напрямую, либо запоминать результаты с помощью класса `Experiment`.

In [12]:
from replay.metrics import HitRate, NDCG, MAP
from replay.experiment import Experiment

metrics = Experiment(test, {NDCG(): K,
                            MAP() : K,
                            HitRate(): [1, int(K/2), K]})


In [13]:
%%time
metrics.add_result("SLIM", recs)
metrics.results

CPU times: user 107 ms, sys: 49.2 ms, total: 156 ms
Wall time: 55.1 s


Unnamed: 0,HitRate@1,HitRate@5,HitRate@10,MAP@10,NDCG@10
SLIM,0.072,0.218,0.328,0.135137,0.18002


## 3. Конвертация в pandas

In [14]:
recs_pd = recs.toPandas()
recs_pd.head(3)

Unnamed: 0,user_id,item_id,relevance
0,1018,1200,0.842803
1,1018,1221,0.790892
2,1018,10,0.714433


## 4. Примеры использования других моделей RePlay

#### ALS
Библиотека также содержит классические алгоритмы рекомендаций, например, матричную факторизацию

In [15]:
from replay.models import ALSWrap

als = ALSWrap(rank=100)

In [16]:
%%time
als.fit(log=train)

04-Feb-21 01:05:28, replay, DEBUG: Начало обучения ALSWrap
DEBUG:replay:Начало обучения ALSWrap
04-Feb-21 01:05:28, replay, DEBUG: Предварительная стадия обучения (pre-fit)
DEBUG:replay:Предварительная стадия обучения (pre-fit)
04-Feb-21 01:05:30, replay, DEBUG: Основная стадия обучения (fit)
DEBUG:replay:Основная стадия обучения (fit)


CPU times: user 326 ms, sys: 49.2 ms, total: 375 ms
Wall time: 49.4 s


In [17]:
%%time
recs = als.predict(
    k=K,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

04-Feb-21 01:06:18, replay, DEBUG: Начало предикта ALSWrap
DEBUG:replay:Начало предикта ALSWrap


CPU times: user 846 ms, sys: 145 ms, total: 991 ms
Wall time: 5.06 s


In [18]:
%%time
metrics.add_result("ALS", recs)
metrics.results

CPU times: user 89.5 ms, sys: 25.4 ms, total: 115 ms
Wall time: 11.1 s


Unnamed: 0,HitRate@1,HitRate@5,HitRate@10,MAP@10,NDCG@10
SLIM,0.072,0.218,0.328,0.135137,0.18002
ALS,0.064,0.258,0.376,0.14985,0.203


#### MultVAE 
Пример использования DL в рекомендациях

In [19]:
from replay.models import MultVAE

multvae = MultVAE(epochs=100)

In [20]:
%%time
multvae.fit(log=train)

04-Feb-21 01:06:34, replay, DEBUG: Начало обучения MultVAE
DEBUG:replay:Начало обучения MultVAE
04-Feb-21 01:06:34, replay, DEBUG: Предварительная стадия обучения (pre-fit)
DEBUG:replay:Предварительная стадия обучения (pre-fit)
04-Feb-21 01:06:35, replay, DEBUG: Основная стадия обучения (fit)
DEBUG:replay:Основная стадия обучения (fit)
04-Feb-21 01:06:36, replay, DEBUG: Составление батча:
DEBUG:replay:Составление батча:
04-Feb-21 01:06:38, replay, DEBUG: Обучение модели
DEBUG:replay:Обучение модели
04-Feb-21 01:06:39, replay, DEBUG: Epoch[1] current loss: 1352.15152
DEBUG:replay:Epoch[1] current loss: 1352.15152
04-Feb-21 01:06:39, replay, DEBUG: Epoch[1] validation average loss: 1480.69092
DEBUG:replay:Epoch[1] validation average loss: 1480.69092
04-Feb-21 01:06:41, replay, DEBUG: Epoch[2] current loss: 1251.65600
DEBUG:replay:Epoch[2] current loss: 1251.65600
04-Feb-21 01:06:41, replay, DEBUG: Epoch[2] validation average loss: 1472.20325
DEBUG:replay:Epoch[2] validation average loss:

CPU times: user 1min 15s, sys: 5.52 s, total: 1min 21s
Wall time: 23.6 s


In [21]:
%%time

recs = multvae.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

04-Feb-21 01:06:58, replay, DEBUG: Начало предикта MultVAE
DEBUG:replay:Начало предикта MultVAE
04-Feb-21 01:07:02, replay, DEBUG: Предсказание модели
DEBUG:replay:Предсказание модели


CPU times: user 1.22 s, sys: 178 ms, total: 1.4 s
Wall time: 11.6 s


In [22]:
%%time
metrics.add_result("MultVAE", recs)
metrics.results

CPU times: user 95.7 ms, sys: 85 ms, total: 181 ms
Wall time: 29.7 s


Unnamed: 0,HitRate@1,HitRate@5,HitRate@10,MAP@10,NDCG@10
SLIM,0.072,0.218,0.328,0.135137,0.18002
ALS,0.064,0.258,0.376,0.14985,0.203
MultVAE,0.012,0.03,0.05,0.020785,0.027518


## 5 Сравнение результатов различных моделей
С помощью experiment можно сравнить качество моделей, построенных с использованием различных инструментов.
Предположим, мы хотим сравнить модели RePlay с некой "внешней" моделью. Для этого нужно:
* 5.1. Экспортировать обучающую выборку (в pandas/numpy/csv)
* 5.2. Обучить модель и получить рекомендации для всех пользователей в виде csv/pandas-датафрейма
* 5.3. Считать рекомендации с помощью DataPreparator
* 5.4. Посчитать метрики в experiment

#### 5.1 Экспортируем train

In [23]:
train.toPandas().to_csv("train.csv", index=False)

In [24]:
!head -n 5 train.csv

user_id,item_id,relevance,timestamp
1,1029,5.0,2001-01-01 01:36:45
1,2294,4.0,2001-01-07 02:38:11
1,3114,4.0,2001-01-01 01:36:14
1,783,4.0,2001-01-07 02:38:11


#### 5.2 Обучаем модель и получаем рекомендации в формате `id пользователя - id объекта - relevance`

Предположим, что это произошло, и у нас есть рекомендации в виде csv-файла. Ниже в качестве пример используем рекомендации, полученные одной из моделей, с рандомными релевантностями.

In [25]:
from pyspark.sql.functions import rand

In [26]:
recs.withColumn('relevance', rand(seed=123)).toPandas().to_csv("recs.csv", index=False)

#### 5.3 Теперь нужно прочитать рекомендации в формате, поддерживаемом библиотекой

In [27]:
recs = DataPreparator().transform(
    path="recs.csv",
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "relevance"
    },
    header=True,
    format_type="csv"
)

#### 5.4 Сравним качество внешней модели с предыдущими результатами

In [28]:
metrics.add_result("my_model", recs)
metrics.results.sort_values("NDCG@10", ascending=False)

Unnamed: 0,HitRate@1,HitRate@5,HitRate@10,MAP@10,NDCG@10
ALS,0.064,0.258,0.376,0.14985,0.203
SLIM,0.072,0.218,0.328,0.135137,0.18002
MultVAE,0.012,0.03,0.05,0.020785,0.027518
my_model,0.002,0.022,0.05,0.011313,0.020113
