# Использование доступных моделей
Данный ноутбук показывает базовый порядок работы с библиотекой.
- загрузка датасета
- деление на трейн и тест
- обучение модели
- сравнение с бейзлайном

Документацию можно собрать из папки `docs` командой `make html`. Она создаст папку `_build` с документацией -- `sponge-bob-magic/docs/_build/html/index.html`

In [1]:
%load_ext autoreload
%autoreload 2
%matplotlib inline

Целевая архитектура библиотеки - ЛД 3.0, поэтому используем Spark.
Для отладки моделей (не на кластере) создаём локальную сессию.

Объект `State` позволяет использовать одну и ту же сессию Spark в разных объектах.
Если сессия уже инициализированна, то её нужно передать при инициализации `State`. Модули библиотеки, которым необходимо использовать спарк-сессию, например для конвертации из пандас в спарк, будут искать сессию именно в `State`.

По умолчанию создастся дефолтная сессия. Простой способ получить сессию с заданным количеством выделенной памяти -- функция `get_spark_session` модуля `session_handler`.

In [2]:
from sponge_bob_magic.session_handler import State

spark = State().session
spark

## Подготовка данных <a name='data-preparator'></a>
Библиотека содержит утилиты для скачивания и парсинга популярных датасетов для рекомендаций.
Если датасет не найден в заданной директории, он будет автоматически скачан и обработан.

Данные датасета доступны в виде `pandas.DataFrame` атрибутов объекта.
Посмотреть доступные данные можно с помощью метода `info`.

In [3]:
from rs_datasets import MovieLens

data = MovieLens("1m")
data.info()

ratings


Unnamed: 0,user_id,item_id,relevance,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968



users


Unnamed: 0,user_id,gender,age,occupation,zip_code
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117



items


Unnamed: 0,item_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance





Внутренний формат данных в либе -- спарк датафрейм. Сплиттеры умеют втоматически конвертировать пандас датафреймы, но модели сейчас ожидают именно спарк, причем с заданными обязательными колонками: `user_id, item_id, timestamp, relevance, context`. 

Получить данные в нужном формате можно с помощью `DataPreparator.transform_log`, который создаст нужные колонки, если их нет.

In [4]:
from sponge_bob_magic.data_preparator import DataPreparator

log = DataPreparator().transform(
    data=data.ratings,
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "relevance",
        "timestamp": "timestamp"
    }
)

Библиотека содержит различные схемы валидации рекомендательных систем, встречающиеся в литературе.

`UserSplitter` отбирает для теста некоторое количество или долю объектов для каждого пользователя.

In [5]:
from sponge_bob_magic.splitters import UserSplitter

splitter = UserSplitter(
    drop_cold_items=True,
    drop_cold_users=True,
    item_test_size=1,
    user_test_size=500,
    seed=1234,
    shuffle=True
)
train, test = splitter.split(log)
(
    train.count(), 
    test.count()
)

(999709, 500)

## NMF
Простейший пример использования DL в рекомендациях

In [6]:
from sponge_bob_magic.models import NeuroMF

nmf = NeuroMF(
    learning_rate=0.01,
    epochs=10,
    embedding_dimension=100
)



In [7]:
%%time
nmf.fit(log=train)

26-Mar-20 23:01:11, sponge_bob_magic, DEBUG: Предварительная стадия обучения (pre-fit)
26-Mar-20 23:01:24, sponge_bob_magic, DEBUG: Основная стадия обучения (fit)
26-Mar-20 23:01:24, sponge_bob_magic, DEBUG: Индексирование данных
26-Mar-20 23:01:24, sponge_bob_magic, DEBUG: Составление батча:
26-Mar-20 23:01:24, sponge_bob_magic, DEBUG: -- Запись
26-Mar-20 23:01:25, sponge_bob_magic, DEBUG: -- Считывание
26-Mar-20 23:01:26, sponge_bob_magic, DEBUG: Обучение модели
26-Mar-20 23:01:48, sponge_bob_magic, DEBUG: Epoch[1] current loss: 0.8232
26-Mar-20 23:01:53, sponge_bob_magic, DEBUG: Epoch[1] training average loss: 0.7509
26-Mar-20 23:01:54, sponge_bob_magic, DEBUG: Epoch[1] validation average loss: 0.7574
26-Mar-20 23:02:14, sponge_bob_magic, DEBUG: Epoch[2] current loss: 0.3498
26-Mar-20 23:02:19, sponge_bob_magic, DEBUG: Epoch[2] training average loss: 0.3274
26-Mar-20 23:02:20, sponge_bob_magic, DEBUG: Epoch[2] validation average loss: 0.3286
26-Mar-20 23:02:40, sponge_bob_magic, DEB

CPU times: user 3min 3s, sys: 6.15 s, total: 3min 9s
Wall time: 4min 49s


In [8]:
%%time

recs = nmf.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

26-Mar-20 23:06:08, sponge_bob_magic, DEBUG: Индексирование данных
26-Mar-20 23:06:08, sponge_bob_magic, DEBUG: Предсказание модели
26-Mar-20 23:06:08, sponge_bob_magic, DEBUG: -- Запись
26-Mar-20 23:06:21, sponge_bob_magic, DEBUG: -- Считывание
26-Mar-20 23:06:21, sponge_bob_magic, DEBUG: Поиск ближайших айтемов с помощью annoy
26-Mar-20 23:06:22, sponge_bob_magic, DEBUG: Обратное преобразование индексов
26-Mar-20 23:06:23, sponge_bob_magic, DEBUG: Преобразование отрицательных relevance


CPU times: user 1.68 s, sys: 153 ms, total: 1.84 s
Wall time: 31.6 s


В библиотеке реализованы различные метрики качества рекомендательных систем, встречающихся в литературе.
Их можно использовать напрямую, либо запоминать результаты с помощью класса `Experiment`.

In [9]:
from sponge_bob_magic.metrics import HitRate, NDCG
from sponge_bob_magic.experiment import Experiment

metrics = Experiment(test, {NDCG(): 10, 
                            HitRate(): 10})

metrics.add_result("NMF", recs)
metrics.pandas_df.loc["NMF"]

HitRate@10    0.022000
NDCG@10       0.014046
Name: NMF, dtype: float64

## SLIM
Один из простых, но эффективных алгоритмов 

In [10]:
from sponge_bob_magic.models import SLIM

slim = SLIM(lambda_=0.01, beta=0.3)

In [11]:
%%time

slim.fit(log=train)

26-Mar-20 23:07:27, sponge_bob_magic, DEBUG: Предварительная стадия обучения (pre-fit)
26-Mar-20 23:07:30, sponge_bob_magic, DEBUG: Основная стадия обучения (fit)
26-Mar-20 23:07:30, sponge_bob_magic, DEBUG: Построение модели SLIM


CPU times: user 5.53 s, sys: 270 ms, total: 5.8 s
Wall time: 9.29 s


In [12]:
%%time

recs = slim.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

CPU times: user 30 ms, sys: 7.24 ms, total: 37.2 ms
Wall time: 8.1 s


In [13]:
metrics.add_result("SLIM", recs)
metrics.pandas_df.loc["SLIM"]

HitRate@10    0.334000
NDCG@10       0.178872
Name: SLIM, dtype: float64

## ALS
Библиотека также содержит классические алгоритмы рекомендаций, например, матричную факторизацию

In [14]:
from sponge_bob_magic.models import ALS

als = ALS(rank=100)

In [15]:
%%time
als.fit(log=train)

26-Mar-20 23:11:12, sponge_bob_magic, DEBUG: Предварительная стадия обучения (pre-fit)
26-Mar-20 23:11:14, sponge_bob_magic, DEBUG: Основная стадия обучения (fit)
26-Mar-20 23:11:14, sponge_bob_magic, DEBUG: Индексирование данных
26-Mar-20 23:11:15, sponge_bob_magic, DEBUG: Обучение модели


CPU times: user 55.1 ms, sys: 11 ms, total: 66.1 ms
Wall time: 39.3 s


In [16]:
%%time
recs = als.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    log=train,
    filter_seen_items=True
)

CPU times: user 23.2 ms, sys: 4.82 ms, total: 28 ms
Wall time: 7.23 s


In [17]:
metrics.add_result("ALS", recs)
metrics.pandas_df.loc["ALS"]

HitRate@10    0.140000
NDCG@10       0.057582
Name: ALS, dtype: float64

## Своя модель
Для построения своей модели нужно использовать тот же самый split, что и для бейзлайнов

In [18]:
train.toPandas().to_csv("train.csv", index=False)



In [19]:
!head train.csv

user_id,item_id,relevance,timestamp
1090,1961,4.0,2000-11-23 01:20:08
1090,2428,2.0,2000-11-23 01:27:11
1090,1208,3.0,2000-11-23 01:21:17
1090,296,5.0,2000-11-23 01:06:15
1090,318,5.0,2000-11-23 01:11:51
1090,1704,4.0,2000-11-23 01:12:48
1090,2433,3.0,2000-11-23 01:26:01
1090,1569,4.0,2000-11-23 01:02:22
1090,110,3.0,2000-11-23 01:12:48


Здесь магия: можно взять train и обучить на нём свою любимую модель вне библиотеки

Также нужно выдать рекомендации обученной моделью

In [20]:
recs.toPandas().to_csv("recs.csv", index=False)

Теперь нужно прочитать рекомендации в формате, поддерживаемом библиотекой

In [21]:
recs = DataPreparator().transform(
    path="recs.csv",
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "relevance"
    },
    header=True,
    format_type="csv"
)

и сравнить качество своей модели с бейзлайнамии

In [22]:
metrics.add_result("my_model", recs)
metrics.pandas_df

Unnamed: 0,HitRate@10,NDCG@10
NMF,0.022,0.014046
SLIM,0.334,0.178872
ALS,0.14,0.057582
my_model,0.14,0.057582
