# DataLoading

## Baseline topK

In [16]:
import pandas as pd

def combine_top_series(top_series: dict[str, pd.Series], weights: dict[str, float], top_n: int = 10):
    """
    Объединяет несколько Series (топы) в один общий рейтинг с весами.

    Parameters
    ----------
    top_series : dict[str, pd.Series]
        Словарь с названиями метрик и их Series (item_id -> значение).
        Пример: {"likes": s1, "listeners": s2, "ratings": s3}
    weights : dict[str, float]
        Веса для каждой метрики, например {"likes": 0.9, "listeners": 0.7, "ratings": 0.5}
    top_n : int
        Размер итогового топа.

    Returns
    -------
    result_df : pd.DataFrame
        Таблица с нормализованными значениями, итоговым скором и отсортированным топом.
    top_items : list
        Список item_id в порядке убывания суммарного score.
    """
    # объединяем все Series в одну таблицу
    summary = pd.concat(top_series.values(), axis=1, keys=top_series.keys()).fillna(0)
    
    # нормируем каждую колонку в [0,1]
    for col in top_series.keys():
        max_val = summary[col].max()
        summary[f"{col}_norm"] = summary[col] / max_val if max_val != 0 else 0

    # вычисляем общий скор
    score = 0
    for name, weight in weights.items():
        norm_col = f"{name}_norm"
        if norm_col not in summary:
            raise ValueError(f"Метрика '{name}' отсутствует в top_series.")
        score += summary[norm_col] * weight

    summary["score"] = score

    # сортируем и выбираем топ
    top_df = summary.sort_values("score", ascending=False).head(top_n)
    top_items = top_df.index.tolist()

    return top_df, top_items



# задаём веса
weights = {"likes": 0.9, "listeners": 0.7}

# объединяем
top_df, top_items = combine_top_series(
    top_series={
        "likes": top_10_likes,
        "listeners": top_10_by_unique_users,
        # "ratings": top_10_ratings
    },
    weights=weights,
    top_n=10
)

top_10_overall = top_df.index.tolist()



## LightFM (BPR)

In [None]:
# | 4️⃣ Коллаборативная фильтрация | ALS / LightFM модели |
# | 5️⃣ Контентная модель | TF-IDF + косинусное сходство по описаниям |
# | 6️⃣ Гибридная модель | Комбинация скорингов CF и Content-base

LightFM — это библиотека для построения рекомендательных систем, основанная на факторизации матриц и поддерживающая как коллаборативную фильтрацию, так и контентные признаки пользователей и объектов. Модель объединяет идеи latent factor models и линейных моделей по фичам, что делает её гибридной и подходящей для сценариев cold-start.

В LightFM каждая сущность — пользователь, объект или их признак — представлена эмбеддингом фиксированной размерности. Предсказание предпочтения вычисляется как сумма скалярных произведений эмбеддингов пользователя и объекта, а также их фич. Обучение происходит стохастически (SGD + AdaGrad), с возможностью выбора функции потерь под конкретную задачу:

WARP (Weighted Approximate-Rank Pairwise) — оптимизация ранжирования для implicit feedback, ориентирована на улучшение позиции релевантных объектов в топе.

BPR (Bayesian Personalized Ranking) — парное ранжирование для implicit данных.

Logistic — бинарная классификация для явных оценок.

WARP-kos — ускоренная версия WARP.

Модель эффективно работает с разреженными матрицами, позволяет использовать как только интеракции, так и богатые наборы признаков (категории, теги, демография, TF-IDF и др.), и масштабируется на большие датасеты за счёт многопоточности.

In [37]:
from tqdm import tqdm
import numpy as np

In [45]:
# Метод ALS может работать только с данными которые он уже видел. 
# оставляет только тех кто был в обучающей выборке


test_df_als = test_df.dropna(subset=["uid", "item_id"]).astype({"uid": int, "item_id": int}) 

grouped_users = test_df_als.groupby("uid")
overall_recall = []
overall_ndcg = []
for uid, group in tqdm(grouped_users):
    # print(list(group["item_id"]))
    user_true = list(set(group["item_id"]))


    user_interactions = user_item_matrix[uid].toarray().ravel()

    items = np.where(user_interactions == 0)[0]  # unseen items

    scores = model.predict(uid, items)

    ranked_idx = np.argsort(-scores)
    ranked_items = items[ranked_idx]

    topk_items = ranked_items[:10]
    
    recall = recall_at_k(topk_items, user_true,  10)
    ndcg = ndcg_at_k(topk_items ,user_true,  10)
    print(ndcg)
    overall_recall.append(recall)
    overall_ndcg.append(ndcg)

print(np.mean(overall_recall))
print(np.mean(overall_ndcg))


100%|█████████████████████████████████████████████████████████████████████████████████| 4976/4976 [09:07<00:00,  9.09it/s]

0.0032239811509166983
0.011410755967998986





### Content_based 

In [41]:
# берем только те что понравились или послушаны более 5 раз
train_merge

Unnamed: 0,uid,item_id,timestamp_x,played_ratio_pct,timestamp_y,timestamp,conf
0,0,0,0.095310,10.0,0.0,0.0,0.095310
1,0,1,0.000000,0.0,0.0,0.0,0.000000
2,0,2,1.098612,100.0,0.0,0.0,1.098612
3,0,3,1.098612,100.0,0.0,0.0,1.098612
4,0,4,0.029559,3.0,0.0,0.0,0.029559
...,...,...,...,...,...,...,...
2932185,9941,7544,0.000000,0.0,0.0,1.0,20.000000
2932186,9942,7180,0.000000,0.0,0.0,1.0,20.000000
2932187,9945,201239,0.000000,0.0,0.0,1.0,20.000000
2932188,9952,274,0.000000,0.0,0.0,1.0,20.000000


In [54]:

content_based_train





Boolean Series key will be reindexed to match DataFrame index.



Unnamed: 0,uid,item_id,timestamp_x,played_ratio_pct,timestamp_y,timestamp,conf
13,0,13,5.0,100.0,0.0,0.0,1.791759
14,0,14,4.0,87.0,0.0,0.0,1.499623
16,0,16,4.0,100.0,0.0,1.0,21.609438
17,0,17,4.0,100.0,0.0,0.0,1.609438
20,0,20,4.0,100.0,0.0,0.0,1.609438
...,...,...,...,...,...,...,...
2932185,9941,7544,0.0,0.0,0.0,1.0,20.000000
2932186,9942,7180,0.0,0.0,0.0,1.0,20.000000
2932187,9945,201239,0.0,0.0,0.0,1.0,20.000000
2932188,9952,274,0.0,0.0,0.0,1.0,20.000000


In [56]:
from collections import defaultdict
import numpy as np
from tqdm import tqdm

grouped_users = test_df.groupby("uid")
overall_recall = []
overall_ndcg = []
for uid, group in tqdm(grouped_users):
    # print(list(group["item_id"]))
    user_true = list(set(group["item_id"]))
    try:
        rec = recommend_for_user(uid=uid, X_vec=X_vec, item_ids=item_ids, data = content_based_train,  top_k=10)
    except:
        continue
    
    recall = recall_at_k(rec, user_true,  10)

    ndcg = ndcg_at_k(rec ,user_true,  10)
    overall_recall.append(recall)
    overall_ndcg.append(ndcg)

print(np.mean(overall_recall))
print(np.mean(overall_ndcg))


100%|█████████████████████████████████████████████████████████████████████████████████| 4976/4976 [30:28<00:00,  2.72it/s]

0.0206762894275145
0.039227708468827775





In [None]:
# 0.024127424559291868
# 0.03552733174772592

In [99]:
import polars as pl
import numpy as np
# import umap.umap_ as umap
import matplotlib.pyplot as plt

# ---------- Настройки ----------
PARQUET_PATH = "embeddings.parquet"
N_POINTS = 50_00          # сколько точек рисуем (если данных много)
RANDOM_SEED = 42
# -------------------------------

# 1. Ленивая загрузка parquet
lf = pl.scan_parquet(PARQUET_PATH)

# 2. Берём только нужные колонки и делаем выборку
# если данных мало, можно заменить .sample(...) на .limit(N_POINTS)


# случайная выборка 50_000 строк
embed_df = (
    lf.head(N_POINTS)
    .select(["item_id", "normalized_embed"])
    .collect()
)

print("В выборке строк:", embed_df.height)


import polars as pl
import numpy as np
import faiss

embed_df = embed_df.to_pandas()
embed_df["item_id"] = embed_df["item_id"].map(item_id_map)
embed_df = embed_df.dropna()

item_ids = embed_df["item_id"].to_numpy()

embs = np.vstack(embed_df["normalized_embed"].to_list()).astype("float32")   # (N, D)


N, D = embs.shape
print("Эмбеддинги загружены:", N, "x", D)

# -----------------------------
# 2. Строим FAISS индекс (L2)
# -----------------------------
index = faiss.IndexFlatIP(D)  # косинусная близость через dot-product
                              # ВАЖНО: должны нормализовать вектора


index.add(embs)
print("Индекс построен. Векторов добавлено:", index.ntotal)

# Маппинг item_id → индекс в таблице
id2pos = {iid: i for i, iid in enumerate(item_ids)}


В выборке строк: 5000
Эмбеддинги загружены: 224 x 128
Индекс построен. Векторов добавлено: 224
