## Импорты

In [72]:
import os
import random
from copy import deepcopy
from pprint import pprint

import numpy as np
import pandas as pd

from IPython.display import display
from rectools import Columns
from rectools.dataset import Dataset, Interactions
from rectools.metrics import MAP, NDCG, MeanInvUserFreq, Precision, Recall, Serendipity
from rectools.metrics.base import MetricAtK
from rectools.model_selection import Splitter, TimeRangeSplitter
from rectools.models import PopularModel, RandomModel
from rectools.models.base import ModelBase
from tqdm import tqdm

from helpers.metrics import calculate_metrics
from helpers.visualization import visualize_metrics, visualize_training_result

Конфиг

In [73]:
RANDOM_STATE = 32 # из задания
random.seed(RANDOM_STATE)
os.environ["PYTHONHASHSEED"] = str(RANDOM_STATE)
np.random.seed(RANDOM_STATE)

K_RECOS = 10 # Кол-во рекоммендаций
N_SPLITS = 3 # Фолды

## Датасет

Данные предварительно предзагружены в kion_train вручную. Загрузим данные

In [74]:
users = pd.read_csv("kion_train/users.csv")
items = pd.read_csv("kion_train/items.csv")
interactions = pd.read_csv("kion_train/interactions.csv", parse_dates=["last_watch_dt"])

Переименуем столбцы для rectools: last_watch_dt в datetime; total_dur в weight. Используем маппинг из Columns.

In [75]:
interactions.rename(columns={"last_watch_dt": Columns.Datetime, "total_dur": Columns.Weight}, inplace=True)
interactions = Interactions(interactions)

Посмотрим что в interactions

In [76]:
interactions.df.head()

Unnamed: 0,user_id,item_id,datetime,weight,watched_pct
0,176549,9506,2021-05-11,4250.0,72.0
1,699317,1659,2021-05-29,8317.0,100.0
2,656683,7107,2021-05-09,10.0,0.0
3,864613,7638,2021-07-05,14483.0,100.0
4,964868,9506,2021-04-30,6725.0,100.0


## Подсчет метрик

Инициализируем модели

In [77]:
models: list[ModelBase] = [
    RandomModel(random_state=RANDOM_STATE),
    PopularModel()
]

Инициализиуем метрики по порогам 1, 5, 10

In [78]:
metrics: dict[str, MetricAtK] = {}
for k in [1, 5, 10]:
    metrics.update(
        {
            f"top@{k}_precision": Precision(k=k),
            f"top@{k}_recall": Recall(k=k),
            f"top@{k}_ndcg": NDCG(k=k),
            f"top@{k}_map": MAP(k=k),
            f"top@{k}_serendipity": Serendipity(k=k),
            f"top@{k}_mean_inv_user_freq": MeanInvUserFreq(k=k),
        }
    )

Инициализиурем TimeRangeSplitter

In [79]:
splitter: Splitter = TimeRangeSplitter(
    test_size="7D",
    n_splits=N_SPLITS,
    filter_already_seen=True,
    filter_cold_items=True,
    filter_cold_users=True,
)

Выполним подсчет метрик

In [80]:
model_metrics = []
for model in tqdm(models, total=len(models)):
    model_metrics.extend(calculate_metrics(interactions=interactions, metrics=metrics, model=model, splitter=splitter, k_recos=K_RECOS))

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 2/2 [04:37<00:00, 138.51s/it]


Визуализируем метрики

In [81]:
visualize_metrics(model_metrics)

Unnamed: 0_level_0,top@1,top@1,top@1,top@1,top@1,top@1,top@10,top@10,top@10,top@10,top@10,top@10,top@5,top@5,top@5,top@5,top@5,top@5,train time (sec)
Unnamed: 0_level_1,map,mean_inv_user_freq,ndcg,precision,recall,serendipity,map,mean_inv_user_freq,ndcg,precision,recall,serendipity,map,mean_inv_user_freq,ndcg,precision,recall,serendipity,Unnamed: 19_level_1
model,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2
RandomModel,0.000221,7.2e-05,0.000202,0.000365,0.000193,0.000693,0.000221,0.000208,0.0002,7.2e-05,0.000169,0.000211,15.614137,15.612989,15.613009,6e-06,7e-06,7e-06,0.000171
PopularModel,0.076432,0.04272,0.052402,0.137413,0.033903,0.173492,0.076432,0.057932,0.043084,0.04272,0.078295,0.084109,2.377055,3.066979,3.71339,2e-06,3e-06,2e-06,6.766768


## Визуализация рекомендаций

Визуализация рекомендаций и историй просмотров для юзеров [666262, 672861, 955527] (из задания)

In [82]:
user_ids = [666262, 672861, 955527]

In [83]:
dataset = Dataset.construct(interactions.df)
item_data = items[["item_id", "title", "genres"]]

Посчитаем и отобразим результат

In [84]:
reports = {}
for model in models:
    init_model = deepcopy(model)
    init_model.fit(dataset)
    
    result = visualize_training_result(
        model=init_model, dataset=dataset, user_ids=user_ids, item_data=item_data, k_recos=K_RECOS, interactions=interactions
    )

    pprint(f"Model: {model.__class__}")
    display(result)

"Model: <class 'rectools.models.random.RandomModel'>"


Unnamed: 0_level_0,Unnamed: 1_level_0,item_id,rank,title,genres,count_views
user_id,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
666262,history,93,1,Дом ночных призраков,"зарубежные, криминал, детективы, ужасы",1
666262,reco,10101,1,Возвращение Будулая,мелодрамы,99
666262,reco,619,2,Новые приключения Аладдина (жестовым языком),"зарубежные, комедии",1
666262,reco,12618,3,Пропавшая грамота,"фэнтези, комедии",51
666262,reco,5967,4,Братья вне игры,"драмы, спорт",262
666262,reco,4041,5,Фрилансеры,"криминал, детективы, драмы, зарубежные, боевики",19
666262,reco,5701,6,Алые паруса: Новая история,"комедии, мелодрамы",4
666262,reco,9738,7,Женщина в беде 3,"детективы, мелодрамы",2
666262,reco,15247,8,Гордость и предубеждение,"драмы, мелодрамы",150
666262,reco,10004,9,Болванчики,"мультфильм, приключения, комедии",51


"Model: <class 'rectools.models.popular.PopularModel'>"


Unnamed: 0_level_0,Unnamed: 1_level_0,item_id,rank,title,genres,count_views
user_id,type,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
666262,history,93,1,Дом ночных призраков,"зарубежные, криминал, детективы, ужасы",1
666262,reco,10440,1,Хрустальный,"триллеры, детективы",202457
666262,reco,15297,2,Клиника счастья,"драмы, мелодрамы",193123
666262,reco,9728,3,Гнев человеческий,"боевики, триллеры",132865
666262,reco,13865,4,Девятаев,"драмы, военные, приключения",122119
666262,reco,4151,5,Секреты семейной жизни,комедии,91167
666262,reco,3734,6,Прабабушка легкого поведения,комедии,74803
666262,reco,2657,7,Подслушано,"драмы, триллеры",68581
666262,reco,4880,8,Афера,комедии,55043
666262,reco,142,9,Маша,"драмы, триллеры",45367
