# Home Work

В этой работе будем иследовать одну из популярнейших рекомендательных моделей - **Latent Factor Model** - https://arxiv.org/pdf/1912.04754.

Перед выполнением задания нужно убедиться, что прогоняется бейзлайн. Для этого:
1) Скачайте  файлы - **node2name.json** и **clickstream.parque** с необходимыми данными
2) Положите в репозиторий ноутбука и запустите код

В этой работе вам нужно:
1) перебрать параметры модели - edim,batch_size, lr, epoch , num_negatives -   (по **1 балу - 5 балов**)
2) Тип OPTIMIZER_NAME - (**4 бала за 5 оптимизаторов**)
3) На основе имеющихся данных собрать лучшую модель (по **precision@30**) и рассчитать ее метрики (**4 бала**)
4) Попробовать другие модели (например  als - https://benfred.github.io/implicit/ , gru4rec, sasrec  ) - за sasrec на хорошем уровне сразу **10 балов**. За другие модели по **3 бала**
5) По окончанию работы в mlflow настроить графики для сравнения моделей. Можно проявить фантазию, но обязательно должно быть сравнение с бейзлайном (данный ноутбук) против других моделей
6) В mlflow залогировать последнюю версию ноутбука - необходимое условия. Либо в github, но тогда прикрепить ссылку в [mlflow](http://84.201.128.89:90/) . Эксперимент в формате - **homework-\<name\>**
7) Доп балы (**20 баллов**) тому у кого будет наибольший скор на тесте. Но ваш ноутбук должен прогонятся и быть вопроизводимым.

Суммарно за работу **20 балов**

In [1]:
!pip install mlflow -q

Installing collected packages: aniso8601, smmap, querystring-parser, Mako, gunicorn, graphql-core, deprecated, opentelemetry-api, graphql-relay, gitdb, docker, alembic, opentelemetry-semantic-conventions, graphene, gitpython, opentelemetry-sdk, mlflow
Successfully installed Mako-1.3.5 alembic-1.13.1 aniso8601-9.0.1 deprecated-1.2.14 docker-7.1.0 gitdb-4.0.11 gitpython-3.1.43 graphene-3.3 graphql-core-3.2.3 graphql-relay-3.2.0 gunicorn-22.0.0 mlflow-2.13.2 opentelemetry-api-1.25.0 opentelemetry-sdk-1.25.0 opentelemetry-semantic-conventions-0.46b0 querystring-parser-1.2.4 smmap-5.0.1


In [2]:
import mlflow

mlflow.set_tracking_uri('http://84.201.128.89:90/')

mlflow.set_experiment('homework-ammironov')

<Experiment: artifact_location='mlflow-artifacts:/29', creation_time=1717624342467, experiment_id='29', last_update_time=1717624342467, lifecycle_stage='active', name='homework-ammironov', tags={}>

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import json

with open('/content/drive/MyDrive/Colab Notebooks/Авито DS/MLSD/MLFlow/node2name.json', 'r') as f:
    node2name = json.load(f)

node2name = {int(k):v for k,v in node2name.items()}

In [5]:
import pandas as pd

df = pd.read_parquet('/content/drive/MyDrive/Colab Notebooks/Авито DS/MLSD/MLFlow/clickstream.parque')
df = df.head(100_000)

In [7]:
df['is_train'] = df['event_date']< df['event_date'].max() - pd.Timedelta('2 day')
df['names'] = df['node_id'].map(node2name)

In [8]:
train_cooks = df[df['is_train']]['cookie_id'].unique()
train_items = df[df['is_train']]['node_id'].unique()

df = df[(df['cookie_id'].isin(train_cooks)) & (df['node_id'].isin(train_items))]

In [9]:
user_indes, index2user_id = pd.factorize(df['cookie_id'])
df['user_index'] = user_indes

node_indes, index2node = pd.factorize(df['node_id'])
df['node_index'] = node_indes

In [10]:
df['node_index'].max()

2175

In [11]:
df_train, df_test = df[df['is_train']], df[~df['is_train']]
df_train = df_train.reset_index(drop=True)
df_test = df_test.reset_index(drop=True)

df_train.shape, df_test.shape

((96611, 7), (3333, 7))

In [12]:
import torch
from torch import nn
import random
from tqdm.auto import tqdm

from torch.utils.data import Dataset, DataLoader


class RecDataset(Dataset):
    def __init__(self, users, items, item_per_users):
        self.users = users
        self.items = items
        self.item_per_users=item_per_users

    def __len__(self):
        return len(self.users)

    def __getitem__(self, i):
        user = self.users[i]
        return torch.tensor(user), torch.tensor(self.items[i]), self.item_per_users[user]


class LatentFactorModel(nn.Module):
    def __init__(self, edim, user_indexes, node_indexes):
        super(LatentFactorModel, self).__init__()
        self.edim = edim
        self.users = nn.Embedding(max(user_indexes) + 1, edim)
        self.items = nn.Embedding(max(node_indexes) + 1, edim)

    def forward(self, users, items):
        user_embedings = self.users(users).reshape(-1, self.edim )
        item_embedings = self.items(items)
        res = torch.einsum('be,bne->bn', user_embedings, item_embedings)
        return res

    def pred_top_k(self, users, K=10):
        user_embedings = self.users(users).reshape(-1, self.edim )
        item_embedings = self.items.weight
        res = torch.einsum('ue,ie->ui', user_embedings, item_embedings)
        return torch.topk(res, K, dim=1)




def collate_fn(batch, num_negatives, num_items):
    users, target_items, users_negatives = [],[], []
    for triplets in batch:
        user, target_item, seen_item = triplets

        users.append(user)
        target_items.append(target_item)
        user_negatives = []

        while len(user_negatives)< num_negatives:
            candidate = random.randint(0, num_items)
            if candidate not in seen_item:
                user_negatives.append(candidate)

        users_negatives.append(user_negatives)


    positive = torch.ones(len(batch), 1)
    negatives = torch.zeros(len(batch), num_negatives)
    labels = torch.hstack([positive, negatives])
    # print(torch.tensor(target_items))
    # print(users_negatives)
    items = torch.hstack([torch.tensor(target_items).reshape(-1, 1), torch.tensor(users_negatives)])
    return torch.hstack(users), items, labels

In [None]:
def calc_hitrate(df_preds, K):
    return  df_preds[df_preds['rank']<K].groupby('user_index')['relevant'].max().mean()

def calc_prec(df_preds, K):
    return  (df_preds[df_preds['rank']<K].groupby('user_index')['relevant'].mean()).mean()

In [13]:
user2seen = df_train.groupby('user_index')['node_index'].agg(lambda x: list(set(x)))

In [122]:
torch.manual_seed(0)
random.seed(0)

Tests

In [161]:
df_train.head()

Unnamed: 0,cookie_id,event_date,node_id,is_train,names,user_index,node_index
0,15157399,2024-02-21 11:20:01,1047840,True,root -> Транспорт -> Запчасти и аксессуары -> ...,0,0
1,15157399,2024-03-05 10:24:54,1047561,True,root -> Услуги -> Предложения услуг -> Красота...,0,1
2,15157399,2024-03-05 10:28:55,1047561,True,root -> Услуги -> Предложения услуг -> Красота...,0,1
3,15157399,2024-04-13 11:22:25,1047835,True,root -> Транспорт -> Запчасти и аксессуары -> ...,0,2
4,15157399,2024-04-13 11:22:45,1047835,True,root -> Транспорт -> Запчасти и аксессуары -> ...,0,2


In [113]:
count = 0

In [147]:
BATCH_SIZE = 50_000
NUM_NEGATIVES = 10
EDIM = 512
EPOCH = 10
OPTIMIZER_NAME = 'Adagrad'
LR = 10

train_dataset = RecDataset(df_train['user_index'].values, df_train['node_index'], user2seen)


dataloader = DataLoader(train_dataset, shuffle=True,num_workers=0, batch_size=BATCH_SIZE,collate_fn=lambda x: collate_fn(x, NUM_NEGATIVES, max(df['node_index'].values)))


model = LatentFactorModel(EDIM, user_indes, node_indes)
# optimizer = torch.optim.AdamW(model.parameters(), LR)
# optimizer = torch.optim.SGD(model.parameters(), LR, momentum=0.8)
# optimizer = torch.optim.RMSprop(model.parameters(), alpha=0.9)
optimizer = torch.optim.Adagrad(model.parameters(), LR)

bar = tqdm(total = EPOCH )


  0%|          | 0/10 [00:00<?, ?it/s]

In [148]:
for i in range(EPOCH):
    bar_loader = tqdm(total = len(dataloader) ,)
    losses = []
    for i in dataloader:
        users, items, labels = i
        optimizer.zero_grad()
        logits = model(users, items)
        loss = torch.nn.functional.binary_cross_entropy_with_logits(
            logits, labels
        )
        loss.backward()
        optimizer.step()
        bar_loader.update(1)
        bar_loader.set_description(f'batch loss - {loss.item()}')
        losses.append(loss.item())

    bar.update(1)
    bar.set_description(f'epoch loss - {sum(losses)/len(losses)}')


  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

  0%|          | 0/2 [00:00<?, ?it/s]

In [149]:
USER = 0

preds = list(model.pred_top_k(torch.tensor([USER]), 10)[1][0].numpy())
df[(df['user_index'] == USER) & (df['node_index'].isin(user2seen[USER]))]['names'].tolist()

['root -> Транспорт -> Запчасти и аксессуары -> Запчасти -> Для автомобилей -> Кузов',
 'root -> Услуги -> Предложения услуг -> Красота, здоровье -> СПА-услуги, массаж',
 'root -> Услуги -> Предложения услуг -> Красота, здоровье -> СПА-услуги, массаж',
 'root -> Транспорт -> Запчасти и аксессуары -> Запчасти -> Для автомобилей -> Система охлаждения',
 'root -> Транспорт -> Запчасти и аксессуары -> Запчасти -> Для автомобилей -> Система охлаждения',
 'root -> Транспорт -> Запчасти и аксессуары -> Запчасти -> Для автомобилей -> Система охлаждения']

In [150]:
K = 100

test_users = df_test['user_index'].unique()


preds = model.pred_top_k(torch.tensor(test_users), K)[1].numpy()
df_preds = pd.DataFrame({'node_index': list(preds), 'user_index': test_users, 'rank': [[j for j in range(0, K)]for i in range(len(preds))]})

df_preds = df_preds.explode(['node_index', 'rank']).merge(
    df_test[['user_index', 'node_index']].assign(relevant=1).drop_duplicates(),
    on = ['user_index', 'node_index'],
    how='left' ,
)
df_preds['relevant'] = df_preds['relevant'].fillna(0)

In [151]:
hitrate = calc_hitrate(df_preds, K)
prec = calc_prec(df_preds, 30)

hitrate, prec

(0.8020989505247377, 0.04667666166916542)

In [152]:
with mlflow.start_run(run_name=f'LatentFactorModel_optimizer_{count}'):
    mlflow.log_metrics(
        {
            'hitrate': hitrate,
            'prec': prec,
        }
    )
    mlflow.log_params(
        {
        'model_name': 'LatentFactorModel',
        'EDIM': EDIM,
        'BATCH_SIZE': BATCH_SIZE,
        'LR': LR,
        'EPOCH': EPOCH,
        'NUM_NEGATIVES': NUM_NEGATIVES,
        'OPTIMIZER_NAME': OPTIMIZER_NAME,
        }
    )
    count += 1

ALS

In [155]:
!pip install implicit -q
import implicit
import numpy as np
from scipy.sparse import coo_matrix

In [166]:
count = 0

In [190]:
factors = 64
regularization = 0.01
iterations = 500

In [191]:
user2seen = df_train.groupby('user_index')['node_index'].agg(lambda x: list(set(x))).to_dict()
user_items = df_train.groupby(['user_index', 'node_index']).size().reset_index(name='interaction')
data = coo_matrix((user_items['interaction'], (user_items['user_index'], user_items['node_index'])))
data = data.tocsr()

# Initialize the ALS model
model = implicit.als.AlternatingLeastSquares(factors=factors, regularization=regularization, iterations=iterations)

# Train the model
model.fit(data)

# Predict top K items for each user
K = 100
test_users = df_test['user_index'].unique()
preds = []
for user in test_users:
    recommendations = model.recommend(user, data[user], N=K)
    preds.extend([(user, item[0], rank) for rank, item in enumerate(recommendations)])

df_preds = pd.DataFrame(preds, columns=['user_index', 'node_index', 'rank'])

df_preds = df_preds.merge(
    df_test[['user_index', 'node_index']].assign(relevant=1).drop_duplicates(),
    on=['user_index', 'node_index'],
    how='left'
).fillna(0)

hitrate = calc_hitrate(df_preds, K)
prec = calc_prec(df_preds, 30)

hitrate, prec

  0%|          | 0/500 [00:00<?, ?it/s]

  df_preds = df_preds.merge(


(0.01199400299850075, 0.005997001499250375)

In [192]:
with mlflow.start_run(run_name=f'ALS_{count}'):
    mlflow.log_metrics(
        {
            'hitrate': hitrate,
            'prec': prec,
        }
    )
    mlflow.log_params(
        {
        'model_name': 'ALS',
        'factors': factors,
        'regularization': regularization,
        'iterations': iterations,
        }
    )
    count += 1