# Проект по курсу "Рекомендательные системы"
  
Правила заполнения ноутбуков на авто-проверку:
- повторить окружение преподавателя
Python 3.13.0
```bash
pip install implicit==0.7.2 "rectools[all]==0.17.0" pandas==2.3.3 numpy==2.3.3 scipy==1.16.2  requests==2.32.5 catboost==1.2.8 scikit-learn==1.7.2
```
- все решение должно полностью помещаться в функцию solution(смотри пример). Если вы хотите реализовать дополнительные функции - поместите их в область видимости soluition. Нельзя использовать дополнительные файлы.
- не добавлять новые импорты и не использовать дополнительные библиотеки. В противном случае ноутбук не пройдёт проверку и получит `0` баллов
- не добавлять аргументов в solution
- писать код только между # CODE BEGIN и # CODE END
- не менять код преподавателя
- не добавлять новые ячейки
- следить, чтобы не было warning - они автоматом фейлят задание
- перед сдачей проверить, что весь ноутбук прогоняется от начала до конца и все тесты проходят
- data_path должен браться из переменной окружения как в коде ниже
- Код должен выполняться за разумное время - ограничение 20 мин на 4 CPU и 16 Gb RAM без GPU. Не нужно ставить огромное количество эпох.
- Постарайтесь максимально зафиксировать сиды, чтобы не было сюрпризов во время автоматической проверки. В случае, если решение выдает разное качество при разных запусках, то в зачет идет то значение, которое получилось при автоматической проверке.


В данном проекте вам возможно захочется подбирать гипер-параметры моделей. Писать код для подбора гипер-параметров, использовать optuna и т.п. рекомендуем в отдельном ноутбуке.

Библиотеки implicit и lightfm не фиксируют random state при num_threads > 1. Если результат работы модели не сильно превышает  необходимый порог и рандом может опустить его ниже требуемого уровня, рекомендуем продолжить повышение качества модели: тюнинг гипер-параметров, подбор фичей, подбор метода обработки датасета

# Задание

Вам предлагается реализовать рекомендательную систему для фильмов KION.
Решение должно быть полностью упаковано в функцию solution. Качество будет проверяться с помощью метрики MAP@10 на отложенной неделе. Итоговый бал определеятся функцией scorer - вы можете посмотреть его сразу, но если модель не подразумевает фиксирование random state, то после прогона автоматической системой результат может немного отличаться.

В качестве примера реализована базовая рекомендательная система на основе ease. Ваша задача - улучшить эту систему.

Чтобы решение отрабатывало быстрее будем использовать 10% от общего числа пользователей.

В случае, если в вашем решении будет найден Hardcode элементов тестового датафрейма - работа будет аннулирована.

Напоминаю, что для зачета по курсу нужно набрать в сумме с доп баллами и первым дз 60 баллов.

Успехов!

Подсказки:
- Можно посмотреть документацию rectools
- Можно поссмотреть ноутбуки с семинаров и предыдущую версию проекта
- Не стесняйтесь добавлять фичи в ранжирование
- Скорее всего вам понадобятся как отбор кандидатов, так и ранжирование

## Импорты и данные

In [27]:
!python -V

Python 3.13.5


In [28]:
# Убедитесь, что вы не добавляете новые импорты в ноутбук. Решение должно быть ограничено данными библиотеками
import os
os.environ["PYTORCH_ENABLE_MPS_FALLBACK"] = "1"

import warnings
warnings.simplefilter("ignore")

import implicit
import rectools
import pandas as pd
import numpy as np
import scipy
import requests
import catboost
import sklearn

from rectools import models
from rectools import dataset
from rectools import metrics

print(implicit.__version__)
print(rectools.__version__)
print(pd.__version__)
print(np.__version__)
print(scipy.__version__)
print(requests.__version__)
print(catboost.__version__)
print(sklearn.__version__)

0.7.2
0.17.0
2.3.3
2.3.3
1.16.2
2.32.5
1.2.8
1.7.2


In [29]:
import os.path

# For implicit ALS
import threadpoolctl
os.environ["OPENBLAS_NUM_THREADS"] = "1"
threadpoolctl.threadpool_limits(1, "blas")

<threadpoolctl.threadpool_limits at 0x71eac111d590>

Если у вас нет данных, то используйте закомментированный код

In [30]:
# from tqdm.auto import tqdm
# import zipfile as zf

# url = 'https://github.com/irsafilo/KION_DATASET/raw/f69775be31fa5779907cf0a92ddedb70037fb5ae/data_original.zip'

# req = requests.get(url, stream=True)

# with open('kion.zip', 'wb') as fd:
#     total_size_in_bytes = int(req.headers.get('Content-Length', 0))
#     progress_bar = tqdm(desc='kion dataset download', total=total_size_in_bytes, unit='iB', unit_scale=True)
#     for chunk in req.iter_content(chunk_size=2 ** 20):
#         progress_bar.update(len(chunk))
#         fd.write(chunk)
#
# files = zf.ZipFile('kion.zip', 'r')
# files.extractall()
# files.close()

In [31]:
data_path = os.environ.get("DATA_PATH")
if data_path is None:
    data_path = "data_original"  # ваш путь к данным до папки data_original включительно (поменяйте при необходимости)

In [32]:
users = pd.read_csv(os.path.join(data_path, "users.csv"))
items = pd.read_csv(os.path.join(data_path, "items.csv"))

users = users.sample(frac=0.1, random_state=42)

interactions = (
    pd.read_csv(os.path.join(data_path, "interactions.csv"), parse_dates=["last_watch_dt"])
    .rename(columns={'total_dur': rectools.Columns.Weight,
                     'last_watch_dt': rectools.Columns.Datetime})
)


interactions = interactions[interactions["user_id"].isin(users["user_id"])]


print(interactions.shape)
interactions.head(5)

(440150, 5)


Unnamed: 0,user_id,item_id,datetime,weight,watched_pct
10,791466,8199,2021-07-27,713,9.0
11,988709,7571,2021-07-07,6558,100.0
18,927973,9617,2021-06-19,8422,100.0
22,505244,15297,2021-08-15,15991,63.0
28,81786,2616,2021-07-24,41422,90.0


In [33]:
N_DAYS = 7

max_date = interactions['datetime'].max()
train = interactions[(interactions['datetime'] <= max_date - pd.Timedelta(days=N_DAYS))]
test = interactions[(interactions['datetime'] > max_date - pd.Timedelta(days=N_DAYS))]

catalog = train[rectools.Columns.Item].unique()

test_users = test[rectools.Columns.User].unique()
cold_users = set(test_users) - set(train[rectools.Columns.User])
test.drop(test[test[rectools.Columns.User].isin(cold_users)].index, inplace=True)
hot_users = test[rectools.Columns.User].unique()
print(test.shape[0])
print(test[rectools.Columns.User].nunique())

def scorer(map: float):
    print(f"Ваш MAP: {map}")
    UPPER_BOUND = 0.089
    LOWER_BOUND = 0.071
    score = int(min(max( (map - LOWER_BOUND) / (UPPER_BOUND - LOWER_BOUND), 0), 1) * 80)
    print(f"Ваш итоговый балл: {score}")
    return score

24771
9099


In [34]:
def solution(train: pd.DataFrame, users: pd.DataFrame, items: pd.DataFrame):
    # CODE BEGIN
    # Импорты внутри функции (как требуется)
    import rectools
    from rectools import models, dataset
    import numpy as np

    # Фиксация random state
    np.random.seed(42)

    # 1. ПРЕПРОЦЕССИНГ ДАННЫХ
    # Взвешивание взаимодействий на основе watched_pct
    train_processed = train.copy()

    # Создаем веса: комбинация просмотренного процента и длительности
    # Более высокий вес для полностью просмотренных фильмов
    train_processed[rectools.Columns.Weight] = np.where(
        train_processed['watched_pct'] >= 80,
        train_processed['weight'] * 3.0,  # Высокий вес для досмотренных
        np.where(
            train_processed['watched_pct'] >= 50,
            train_processed['weight'] * 2.0,  # Средний вес
            train_processed['weight'] * 0.5   # Низкий вес для недосмотренных
        )
    )

    # Определяем пользователей для рекомендаций (hot users)
    hot_users = train_processed[rectools.Columns.User].unique()

    # 2. СОЗДАНИЕ ДАТАСЕТА через rectools
    dataset_train = rectools.dataset.Dataset.construct(train_processed)

    # 3. ОБУЧЕНИЕ НЕСКОЛЬКИХ МОДЕЛЕЙ (Ensemble подход)

    # Модель 1: EASE (быстрая и эффективная)
    ease_model = rectools.models.EASEModel(regularization=500)
    ease_model.fit(dataset_train)

    # Модель 2: ALS через rectools
    als_model = rectools.models.ImplicitALSWrapperModel(
        factors=128,
        regularization=0.01,
        iterations=20,
        random_state=42,
        num_threads=1
    )
    als_model.fit(dataset_train)

    # Модель 3: Popular (для холодных пользователей и разнообразия)
    popular_model = rectools.models.PopularModel()
    popular_model.fit(dataset_train)

    # 4. ГЕНЕРАЦИЯ КАНДИДАТОВ от разных моделей
    k_candidates = 50  # Больше кандидатов для лучшего покрытия

    # Получаем рекомендации от каждой модели
    ease_recs = ease_model.recommend(
        users=hot_users,
        dataset=dataset_train,
        k=k_candidates,
        filter_viewed=True
    )

    als_recs = als_model.recommend(
        users=hot_users,
        dataset=dataset_train,
        k=k_candidates,
        filter_viewed=True
    )

    popular_recs = popular_model.recommend(
        users=hot_users,
        dataset=dataset_train,
        k=k_candidates,
        filter_viewed=True
    )

    # 5. ОБЪЕДИНЕНИЕ И РАНЖИРОВАНИЕ КАНДИДАТОВ
    # Присваиваем веса каждой модели на основе позиции в рекомендациях
    ease_recs['ease_score'] = 1.0 / (ease_recs['rank'] + 1)
    als_recs['als_score'] = 1.0 / (als_recs['rank'] + 1)
    popular_recs['popular_score'] = 1.0 / (popular_recs['rank'] + 1)

    # Объединяем все рекомендации
    all_recs = pd.concat([
        ease_recs[['user_id', 'item_id', 'ease_score']],
        als_recs[['user_id', 'item_id', 'als_score']],
        popular_recs[['user_id', 'item_id', 'popular_score']]
    ], axis=0)

    # Группируем по (user_id, item_id) и суммируем скоры
    combined = all_recs.groupby(['user_id', 'item_id']).agg({
        'ease_score': 'sum',
        'als_score': 'sum', 
        'popular_score': 'sum'
    }).reset_index()

    # Заполняем пропуски нулями
    combined = combined.fillna(0)

    # 6. ВЫЧИСЛЕНИЕ ФИНАЛЬНОГО СКОРА с весами моделей
    # EASE обычно лучше работает, даем ему больший вес
    combined['final_score'] = (
        combined['ease_score'] * 0.5 +      # EASE - основная модель
        combined['als_score'] * 0.35 +       # ALS - вторая по важности
        combined['popular_score'] * 0.15     # Popular - для разнообразия
    )

    # 7. ДОПОЛНИТЕЛЬНЫЕ УЛУЧШЕНИЯ
    # Добавим бустинг для популярных айтемов среди активных пользователей
    item_popularity = train_processed.groupby(rectools.Columns.Item).agg({
        rectools.Columns.User: 'count',
        'watched_pct': 'mean'
    }).reset_index()
    item_popularity.columns = ['item_id', 'user_count', 'avg_watched_pct']

    # Нормализуем популярность
    item_popularity['popularity_boost'] = (
        (item_popularity['user_count'] / item_popularity['user_count'].max()) * 0.3 +
        (item_popularity['avg_watched_pct'] / 100.0) * 0.2
    )

    # Объединяем с рекомендациями
    combined = combined.merge(
        item_popularity[['item_id', 'popularity_boost']], 
        on='item_id', 
        how='left'
    )
    combined['popularity_boost'] = combined['popularity_boost'].fillna(0)

    # Применяем бустинг
    combined['final_score'] = combined['final_score'] + combined['popularity_boost']

    # 8. ФОРМИРОВАНИЕ ФИНАЛЬНЫХ РЕКОМЕНДАЦИЙ ТОП-10
    final_recommendations = []

    for user_id in hot_users:
        user_recs = combined[combined['user_id'] == user_id].copy()

        # Сортируем по финальному скору
        user_recs = user_recs.sort_values('final_score', ascending=False)

        # Берем топ-10
        top_10 = user_recs.head(10).copy()

        # Если меньше 10 рекомендаций, дополняем популярными
        if len(top_10) < 10:
            # Получаем уже рекомендованные айтемы
            recommended_items = set(top_10['item_id'].values)

            # Берем топ популярных, которых нет в рекомендациях
            popular_items = item_popularity.sort_values('popularity_boost', ascending=False)
            additional_items = popular_items[
                ~popular_items['item_id'].isin(recommended_items)
            ]['item_id'].head(10 - len(top_10)).values

            # Добавляем недостающие
            for item_id in additional_items:
                top_10 = pd.concat([
                    top_10,
                    pd.DataFrame([{
                        'user_id': user_id,
                        'item_id': item_id,
                        'final_score': 0.0
                    }])
                ], ignore_index=True)

        # Убеждаемся, что берем ровно 10
        top_10 = top_10.head(10)

        # Добавляем ранг (0-9)
        top_10['rank'] = range(len(top_10))

        final_recommendations.append(top_10[['user_id', 'item_id', 'rank']])

    # Объединяем все рекомендации
    result = pd.concat(final_recommendations, ignore_index=True)

    # 9. ФИНАЛЬНАЯ ПРОВЕРКА И ФОРМАТИРОВАНИЕ
    # Убеждаемся, что типы данных правильные
    result['user_id'] = result['user_id'].astype(train[rectools.Columns.User].dtype)
    result['item_id'] = result['item_id'].astype(train[rectools.Columns.Item].dtype)
    result['rank'] = result['rank'].astype(int)

    # Проверка: каждый пользователь должен иметь ровно 10 рекомендаций
    recs_per_user = result.groupby('user_id').size()
    assert all(recs_per_user == 10), "Не все пользователи имеют 10 рекомендаций"

    # CODE END
    return result


In [35]:
%%time

recos = solution(train.copy(), users.copy(), items.copy())
scorer(rectools.metrics.MAP(10).calc(recos, test))

CPU times: user 30.1 s, sys: 1.37 s, total: 31.5 s
Wall time: 31.5 s


TypeError: ImplicitALSWrapperModel.__init__() got an unexpected keyword argument 'factors'