** Я использовал 2 подхода**

1. **Первый подход: обогащение выборки c помощью Negative Sampling**  
   В этом методе мы взяли исходные пары «контекст → следующий трек» и дополнили их случайными негативными примерами, пометив их время прослушивания как 0.  
   Для каждого контекста удаляли реальные положительные треки и из оставшегося множества выбирали до 10 случайных треков, что увеличивало обучающую выборку на ~50 000 записей.  
   Полученные пары (контекст, негативный трек, 0.0) объединялись с исходными, и на этом датасете обучались новые эмбеддинги для треков и контекстов.  
   Попытки кластеризации эмбеддингов и отбора негативных треков из разных кластеров тоже не дали устойчивого прироста качества.

2. **Второй подход: конкатенация эмбеддингов артистов и треков**  
   Здесь к эмбеддингам контекста и кандидата добавляются эмбеддинги соответствующих артистов, что позволяет модели учитывать предпочтения не только по трекам, но и по исполнителям.  
   В архитектуре `ContextualRec` четыре эмбеддинга (контекст-трек, кандидат-трек, контекст-артист, кандидат-артист) объединяются и пропускаются через два полносвязных слоя с активацией ReLU.  
   Такая модификация позволила модели лучше различать ситуации, когда слушатель привязан к артисту, а не к конкретному треку.  
   Данный подход оказался более эффективным и лёгко масштабируемым за счёт небольшой добавочной размерности артиста.  

In [1]:
!pip install pytorch_lightning


Collecting pytorch_lightning
  Downloading pytorch_lightning-2.5.1.post0-py3-none-any.whl.metadata (20 kB)
Collecting torchmetrics>=0.7.0 (from pytorch_lightning)
  Downloading torchmetrics-1.7.1-py3-none-any.whl.metadata (21 kB)
Collecting lightning-utilities>=0.10.0 (from pytorch_lightning)
  Downloading lightning_utilities-0.14.3-py3-none-any.whl.metadata (5.6 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=2.1.0->pytorch_lightning)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=2.1.0->pytorch_lightning)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=2.1.0->pytorch_lightning)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=2.1.0->pytorch_lightning)
  Dow

In [2]:
import os
import json
import time
import yaml
import numpy as np
import pandas as pd
from scipy import stats
from sklearn.preprocessing import LabelEncoder
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import pytorch_lightning as pl

In [6]:
with open('data.json','r') as f:
    interactions = pd.read_json(f, lines=True)
with open('tracks.json','r') as f:
    track_meta = pd.read_json(f, lines=True)

In [7]:
from collections import namedtuple
Pair = namedtuple('Pair',['user','start','track','time','latency','recommendation','experiments'])
def get_pairs(df_user):
    lst=[]
    first=None
    for _,r in df_user.sort_values('timestamp').iterrows():
        if first is None:
            first=r['track']
        else:
            lst.append((r['user'], first, r['track'], r['time']))
        if r['message']=='last':
            first=None
    return pd.DataFrame(lst, columns=['user','start','track','time'])

pairs = interactions.groupby('user').apply(get_pairs).reset_index(drop=True)

  pairs = interactions.groupby('user').apply(get_pairs).reset_index(drop=True)
  pairs = interactions.groupby('user').apply(get_pairs).reset_index(drop=True)


In [8]:
encoder_track = LabelEncoder().fit(track_meta.track)
encoder_artist = LabelEncoder().fit(track_meta.artist)

pairs['start_idx'] = encoder_track.transform(pairs.start)
pairs['track_idx'] = encoder_track.transform(pairs.track)
track_meta['track_idx'] = encoder_track.transform(track_meta.track)
track_meta['artist_idx'] = encoder_artist.transform(track_meta.artist)

pairs = pairs.merge(track_meta[['track_idx','artist_idx']].rename(
    columns={'track_idx':'start_idx','artist_idx':'artist_start_idx'}), on='start_idx')
# track artist:
track_meta = track_meta.rename(columns={'artist_idx':'artist_track_idx'})
pairs = pairs.merge(track_meta[['track_idx','artist_track_idx']].rename(
    columns={'track_idx':'track_idx'}), on='track_idx')


In [9]:
class ContextualRec(nn.Module):
    def __init__(self, n_tracks, n_artists, emb_dim=64, art_emb_dim=32):
        super().__init__()
        self.track_emb = nn.Embedding(n_tracks, emb_dim)
        self.artist_emb = nn.Embedding(n_artists, art_emb_dim)
        self.fc = nn.Sequential(
            nn.Linear(emb_dim*2 + art_emb_dim*2, 128),
            nn.ReLU(),
            nn.Linear(128, 1)
        )
    def forward(self, ctx, tr, art_ctx, art_tr):
        e1=self.track_emb(ctx); e2=self.track_emb(tr)
        a1=self.artist_emb(art_ctx); a2=self.artist_emb(art_tr)
        x=torch.cat([e1,e2,a1,a2],dim=1)
        return self.fc(x).squeeze()


In [10]:
class PairDataset(Dataset):
    def __init__(self, df):
        self.ctx = torch.LongTensor(df.start_idx.values)
        self.tr = torch.LongTensor(df.track_idx.values)
        self.ac = torch.LongTensor(df.artist_start_idx.values)
        self.at = torch.LongTensor(df.artist_track_idx.values)
        self.y = torch.FloatTensor(df.time.values)
    def __len__(self): return len(self.y)
    def __getitem__(self,i): return self.ctx[i],self.tr[i],self.ac[i],self.at[i],self.y[i]

mask = np.random.rand(len(pairs))
train_df = pairs[mask<0.8]; val_df = pairs[(mask>=0.8)&(mask<0.9)]; test_df = pairs[mask>=0.9]
train_loader = DataLoader(PairDataset(train_df), batch_size=1024, shuffle=True)
val_loader = DataLoader(PairDataset(val_df), batch_size=1024)
test_loader = DataLoader(PairDataset(test_df), batch_size=1024)

In [11]:
DEVICE = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model = ContextualRec(
    n_tracks=len(encoder_track.classes_),
    n_artists=len(encoder_artist.classes_)
).to(DEVICE)
opt = optim.Adam(model.parameters(), lr=1e-3)
loss_fn = nn.MSELoss()
for epoch in range(10):
    model.train(); total=0
    for ctx,tr,ac,at,y in train_loader:
        ctx,tr,ac,at,y=[x.to(DEVICE) for x in (ctx,tr,ac,at,y)]
        opt.zero_grad(); pred=model(ctx,tr,ac,at)
        loss=loss_fn(pred,y); loss.backward(); opt.step()
        total+=loss.item()
    print(f"Epoch {epoch+1} loss {total/len(train_loader):.4f}")

Epoch 1 loss 0.1635
Epoch 2 loss 0.1418
Epoch 3 loss 0.1343
Epoch 4 loss 0.1278
Epoch 5 loss 0.1219
Epoch 6 loss 0.1147
Epoch 7 loss 0.1071
Epoch 8 loss 0.0994
Epoch 9 loss 0.0911
Epoch 10 loss 0.0826


In [12]:
output_file = 'recs_ab.json'
with open(output_file,'w') as fout:
    for _,row in test_df.iterrows():
        ctx = torch.LongTensor([row.start_idx]).to(DEVICE)
        art_ctx = torch.LongTensor([row.artist_start_idx]).to(DEVICE)
        all_tr = torch.arange(len(encoder_track.classes_)).to(DEVICE)
        all_art = torch.LongTensor(track_meta.artist_track_idx.values).to(DEVICE)
        start_time = time.time()
        with torch.no_grad():
            scores = model(ctx.repeat(len(all_tr)), all_tr, art_ctx.repeat(len(all_tr)), all_art)
        latency = time.time() - start_time
        rec = encoder_track.inverse_transform([scores.argmax().cpu().item()])[0]
        entry = {
            "user": int(row.user),
            "track": int(row.track),
            "time": float(row.time),
            "latency": float(latency),
            "recommendation": int(rec),
            "experiments": {"ALL": "T4"}
        }
        fout.write(json.dumps(entry) + "\n")
print(f"Saved {output_file}")

Saved recs_ab.json
