## общее

In [1]:
%load_ext autoreload
%autoreload 2
%matplotlib inline

In [2]:
import os, sys

parent_dir = os.path.split(os.getcwd())[0]
if parent_dir not in sys.path:
    sys.path.append(parent_dir)

Целевая архитектура библиотеки - ЛД 3.0, поэтому используем Spark

Для отладки моделей (не на кластере) создаём локальную сессию

In [3]:
from sponge_bob_magic.session_handler import get_spark_session

spark = get_spark_session()
spark

## Подготовка данных <a name='data-preparator'></a>
Библиотека содержит утилиты для скачивания и парсинга популярных датасетов для рекомендаций

In [4]:
from sponge_bob_magic.datasets.movielens import MovieLens

data = MovieLens("1m")
data.ratings.to_csv("data.csv", index=False)
data.info()

ratings


Unnamed: 0,user_id,item_id,relevance,timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968



users


Unnamed: 0,user_id,gender,age,occupation,zip_code
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117



items


Unnamed: 0,item_id,title,genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance





На данный момент модуль загрузки открытых данных не использует Spark

В этой ячейке пример того, как можно использовать свои данные в формате CSV

In [5]:
from sponge_bob_magic.data_preparator.data_preparator import DataPreparator

log = DataPreparator(spark).transform_log(
    "data.csv",
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "relevance",
        "timestamp": "timestamp"
    },
    header=True,
    format_type="csv"
)

Библиотека содержит различные схемы валидации рекомендательных систем, встречающиеся в литературе

Пользователь может выбрать ту, которая лучше подходит бизнес-задаче

In [6]:
from sponge_bob_magic.splitters.user_log_splitter import ByTimeUserLogSplitter

splitter = ByTimeUserLogSplitter(
    drop_cold_items=True,
    drop_cold_users=True,
    item_test_size=1,
    user_test_size=500,
    seed=1234
)
train, test_input, test = splitter._split_quantity(log)
(
    train.count(), 
    test_input.count(), 
    test.count()
)

(999703, 999703, 506)

## NMF
Простейший пример использования DL в рекомендациях

In [7]:
from sponge_bob_magic.models.neuromf_recommender import NeuroMFRecommender

nmf = NeuroMFRecommender(
    learning_rate=0.01,
    epochs=10,
    embedding_dimension=100
)

In [8]:
%%time

nmf.fit(
    log=train,
    user_features=None,
    item_features=None
)

CPU times: user 14.4 s, sys: 2.46 s, total: 16.9 s
Wall time: 45.3 s


In [9]:
%%time

recs = nmf.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    context='no_context',
    log=train,
    user_features=None,
    item_features=None,
    filter_seen_items=True
)

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  sort=sort,


CPU times: user 1.18 s, sys: 104 ms, total: 1.28 s
Wall time: 13.1 s


В библиотеке реализовано несколько различных метрик качества рекомендательных систем, встречающихся в литературе

Пользователь может выбрать те, которые лучше подходят бизнес-задаче

In [10]:
from sponge_bob_magic.metrics import HitRate

hit_rate = HitRate()

hit_rate(recs, test, k=10)

0.023715415019762844

In [11]:
from sponge_bob_magic.metrics import NDCG

ndcg = NDCG()

ndcg(recs, test, k=10)

0.012609353700342335

## ALS
Библиотека также содержит классические алгоритмы рекомендаций, например, матричную факторизацию

In [12]:
from sponge_bob_magic.models.als_recommender import ALSRecommender

als = ALSRecommender(rank=100)

In [13]:
%%time
als.fit(
    log=train,
    user_features=None,
    item_features=None
)

CPU times: user 32 ms, sys: 8 ms, total: 40 ms
Wall time: 32.7 s


In [14]:
%%time
recs = als.predict(
    k=10,
    users=test.select('user_id').distinct(),
    items=test.select('item_id').distinct(),
    context='no_context',
    log=train,
    user_features=None,
    item_features=None,
    filter_seen_items=True
)

CPU times: user 20 ms, sys: 16 ms, total: 36 ms
Wall time: 12.2 s


In [15]:
hit_rate(recs, test, k=10)

0.07114624505928854

In [16]:
ndcg(recs, test, k=10)

0.031754155545700956

## Своя модель
Для построения своей модели нужно использовать тот же самый split, что и для бейзлайнов

In [18]:
train.toPandas().to_csv("train.csv", index=False)

In [19]:
!head train.csv

user_id,item_id,relevance,timestamp,context
1090,2273,4.0,2000-11-23 01:33:35,no_context
1090,1645,4.0,2000-11-23 01:33:11,no_context
1090,100,3.0,2000-11-23 01:32:42,no_context
1090,1894,1.0,2000-11-23 01:31:32,no_context
1090,47,4.0,2000-11-23 01:31:17,no_context
1090,3176,3.0,2000-11-23 01:30:21,no_context
1090,2763,4.0,2000-11-23 01:30:21,no_context
1090,2762,5.0,2000-11-23 01:29:56,no_context
1090,2396,2.0,2000-11-23 01:29:39,no_context


Здесь магия: можно взять train и обучить на нём свою любимую модель вне библиотеки

Также нужно выдать рекомендации обученной моделью

In [21]:
recs.toPandas().to_csv("recs.csv", index=False)

Теперь нужно прочитать рекомендации в формате, поддерживаемом библиотекой

In [22]:
recs = DataPreparator(spark).transform_log(
    "recs.csv",
    columns_names={
        "user_id": "user_id",
        "item_id": "item_id",
        "relevance": "relevance"
    },
    header=True,
    format_type="csv"
)

и сравнить качество своей модели с бейзлайнамии

In [23]:
# и сравнить качество своей модели с бейзлайнамии
hit_rate(recs, test, k=10)

0.07114624505928854