<a href="https://colab.research.google.com/github/dashatenoff/recsys-vk/blob/main/notebooks/ALS_v4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Implicit ALS Recommender System (VK-LSVD)

В этом ноутбуке реализована модель рекомендательной системы
на основе **implicit feedback** с использованием алгоритма
**Alternating Least Squares (ALS)**.

В качестве данных используется подмножество датасета VK-LSVD,
содержащее взаимодействия пользователей с видеоклипами.

Цель работы — построить baseline-модель рекомендаций,
оценить её качество по метрике **MAP@10**
и проанализировать влияние гиперпараметров ALS.


In [37]:
from tqdm import tqdm
tqdm.disable = True


import pandas as pd
from google.colab import drive
import os
from scipy.sparse import csr_matrix
from collections import defaultdict

drive.mount('/content/drive')
os.listdir('/content/drive/MyDrive')
train = pd.read_parquet('/content/drive/MyDrive/VK/train.parquet')
test = pd.read_parquet('/content/drive/MyDrive/VK/test.parquet')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [38]:
train.head(10)
train['timespent'].describe()

Unnamed: 0,timespent
count,1904581.0
mean,31.07825
std,32.4773
min,6.0
25%,10.0
50%,19.0
75%,41.0
max,255.0


Анализ распределения `timespent` показал отсутствие коротких просмотров
(минимальное значение — 6 секунд), поэтому фильтрация по времени просмотра
не применяется. Используется бинарный implicit-сигнал.


#Маппинг
## Подготовка данных

ALS работает с матрицей взаимодействий пользователей и объектов.
Поскольку исходные `user_id` и `item_id` имеют большие значения,
используется маппинг в компактные индексы.

В качестве сигнала используется **бинарный implicit feedback**:
факт взаимодействия пользователя с видео.


In [39]:
user_to_index = {}
item_to_index = {}
rows, cols, data = [], [], []

for row in train.itertuples():
  u = user_to_index.setdefault(row.user_id, len(user_to_index))
  i = item_to_index.setdefault(row.item_id, len(item_to_index))

  rows.append(u)
  cols.append(i)
  data.append(1)

user_item_matrix = csr_matrix((data, (rows, cols)))


## Обучение ALS модели

Используется реализация ALS из библиотеки `implicit`,
оптимизированная для работы с разреженными матрицами
и неявной обратной связью.

Модель обучается на всей матрице взаимодействий train-выборки.


In [40]:
!pip install implicit




In [41]:
import implicit



als_model = implicit.als.AlternatingLeastSquares(
    factors=16,
    regularization=10,
    alpha=1000,
    iterations=10
)

als_model.fit(user_item_matrix)


  0%|          | 0/10 [00:00<?, ?it/s]

## Генерация рекомендаций

Для каждого пользователя генерируется топ-10 рекомендаций.
Из рекомендаций исключаются объекты,
с которыми пользователь уже взаимодействовал.



In [42]:
index_to_item = {v: k for k, v in item_to_index.items()}

def recommend_for_user_als(user_id, k=10):
  if user_id not in user_to_index:
    return []

  user_idx = user_to_index[user_id]

  item_indices, scores = als_model.recommend(
      user_idx,
      user_item_matrix[user_idx],
      N = k,
      filter_already_liked_items=True
  )
  return [index_to_item[i] for i in item_indices]

test_user = train['user_id'][0]
recommend_for_user_als(test_user, k=10)

[259570405,
 131986366,
 99003598,
 267551984,
 391129141,
 412196373,
 326333892,
 521668839,
 63367148,
 225066122]

#Генерируем рекомендации для ВСЕХ пользователей test

In [43]:
recs = []
test_user = test['user_id'].unique()

for user_id in test_user:
  recs_items = recommend_for_user_als(user_id, k=10)
  for item in recs_items:
    recs.append({
        'user_id' : user_id,
        'recs' : item
    })
submission = pd.DataFrame(recs)
submission.to_csv('submission_als', index=False)
submission.head(20)


Unnamed: 0,user_id,recs
0,506947605,541992975
1,506947605,29408762
2,506947605,200770429
3,506947605,166969626
4,506947605,344837289
5,506947605,122379292
6,506947605,137010427
7,506947605,215334874
8,506947605,567908177
9,506947605,349811870


#MAP@10
## Оценка качества

Качество рекомендаций оценивается по метрике **MAP@10**,
которая учитывает порядок рекомендаций и усредняется по пользователям.


In [44]:
from string import octdigits
rel = test.groupby('user_id')['item_id'].apply(set)
pred = submission.groupby('user_id')['recs'].apply(list)

aps = []
for user_id in pred.index:
  ord = 1
  cor = 0
  score =0.0
  for item_id in pred[user_id]:
    if item_id in rel.get(user_id, set()):
      cor+=1
      score+=cor/ord
    ord+=1
  aps.append(score/min((len(rel.get(user_id, [])), 10)))
map10 = sum(aps)/len(aps)
map10

0.015513369591113496

#Сравниваем конфигурации


Были протестированы две конфигурации ALS,
отличающиеся параметром `alpha`,
который определяет степень доверия к implicit-сигналу.

Цель — проверить влияние этого параметра на качество рекомендаций.


In [45]:
index_to_item = {v: k for k, v in item_to_index.items()}
rel = test.groupby('user_id')['item_id'].apply(set)

results = []

for cfg in configs:
    print(f"\nTraining ALS with config: {cfg}")

    # 1. Обучаем модель
    als_model = implicit.als.AlternatingLeastSquares(
        factors=cfg['factors'],
        regularization=cfg['reg'],
        alpha=cfg['alpha'],
        iterations=10
    )
    als_model.fit(user_item_matrix)

    # 2. Генерируем рекомендации
    recs = []
    for user_id in test['user_id'].unique():
        if user_id not in user_to_index:
            continue

        user_idx = user_to_index[user_id]

        item_indices, _ = als_model.recommend(
            user_idx,
            user_item_matrix[user_idx],
            N=10,
            filter_already_liked_items=True
        )

        for item_idx in item_indices:
            recs.append({
                'user_id': user_id,
                'recs': index_to_item[item_idx]
            })

    submission = pd.DataFrame(recs)

    # 3. Считаем MAP@10
    pred = submission.groupby('user_id')['recs'].apply(list)

    aps = []
    for user_id in pred.index:
        ord = 1
        cor = 0
        score = 0.0
        for item_id in pred[user_id]:
            if item_id in rel.get(user_id, set()):
                cor += 1
                score += cor / ord
            ord += 1
        aps.append(score / min(len(rel.get(user_id, [])), 10))

    map10 = sum(aps) / len(aps)

    print(f"MAP@10 = {map10:.5f}")

    # 4. Сохраняем результат
    results.append({
        'factors': cfg['factors'],
        'alpha': cfg['alpha'],
        'regularization': cfg['reg'],
        'map10': map10
    })



Training ALS with config: {'factors': 16, 'alpha': 40, 'reg': 0.1}


  0%|          | 0/10 [00:00<?, ?it/s]

MAP@10 = 0.01305

Training ALS with config: {'factors': 16, 'alpha': 1000, 'reg': 10}


  0%|          | 0/10 [00:00<?, ?it/s]

MAP@10 = 0.01752


In [46]:
results_df = pd.DataFrame(results)
results_df


Unnamed: 0,factors,alpha,regularization,map10
0,16,40,0.1,0.013048
1,16,1000,10.0,0.017518


Более агрессивная конфигурация (`alpha = 1000`)
показала лучшее качество по MAP@10,
что соответствует ожиданиям для плотных implicit-логов.
