## ДЗ №3 Двухуровневый пайплайн
#### В этой домашке вам предстоит написать с нуля двустадийную рекомендательную систему.

#### Дата выдачи: 10.03.25

#### Мягкий дедлайн: 31.03.25 23:59 MSK

#### Жесткий дедлайн: 7.04.25 23:59 MSK

### Описание
Это творческое задание, в котором вам необходимо реализовать полный цикл построения рекомендательной системы: реализовать кандидат генераторов, придумать и собрать признаки, обучить итоговый ранкер и заинференсить модели на всех пользователей.

Вам предоставляется два набора данных: `train.csv` и `test.csv`

In [1]:
# скачиваем данные
# если из этой ячейки не получается, то вот ссылка на папку https://drive.google.com/drive/folders/1HT0Apm8Jft0VPLJtdBBUGu9s1M7vZcoJ?usp=drive_link

# !pip3 install gdown


# import gdown
# # train
# url = "https://drive.google.com/file/d/1-CcS22-UpTJeNcFlA0dVLrEQn8jnI0d-/view?usp=drive_link"
# output = 'train.csv'
# gdown.download(url, output, quiet=False)

# # test
# url = "https://drive.google.com/file/d/11iz3xDh0IIoEIBY0dyRSvByY3qfiT3BG/view?usp=drive_link"
# output = 'test.csv'
# gdown.download(url, output, quiet=False)

In [2]:
# !pip install

In [1]:
import pandas as pd
import numpy as np

from typing import Union
from scipy.sparse.linalg import svds
from scipy.sparse import coo_matrix, coo_array, csr_matrix
from sklearn.preprocessing import LabelEncoder


RANDOM_STATE = 42

np.random.seed(RANDOM_STATE)



### 1 Этап. Модели первого уровня. (max 3 балла)
В этом этапе вам необходимо разделить `train` датасет на 2 части: для обучения моделей первого уровня и для их валидации. Единственное условие для разбиения – разбивать нужно по времени. Данные для обучение будем называть `train_stage_1`, данные для валидации `valid_stage_1`. Объемы этих датасетов вы определяет самостоятельно.

Для начала нам нужно отобрать кандидатов при помощи легких моделей. Необходимо реализовать 3 типа моделей:
1. Любая эвристическая(алгоритмичная) модель на ваш выбор **(0.5 балл)**
2. Любая матричная факторизация на ваш выбор **(1 балл)**
3. Любая нейросетевая модель на ваш выбор **(1 балла)**

Не забудьте использовать скор каждой модели, как признак!



In [2]:
def get_train_test_val(sample_size: int = 10000):
    df = pd.read_csv('train_part.csv')
    df_valid = pd.read_csv('test_part.csv')

    train_end = '2021-07-01'
    df_train = df[df['last_watch_dt'] < train_end].copy()
    df_test = df[df['last_watch_dt'] >= train_end].copy()

    train_users = df_train['user_id'].unique()
    train_items = df_train['item_id'].unique()

    df_test = df_test[df_test['user_id'].isin(train_users)]
    df_test = df_test[df_test['item_id'].isin(train_items)]

    unique_user_ids = df_train['user_id'].unique()

    selected_user_ids = np.random.choice(unique_user_ids, size=sample_size, replace=False)
    df_train_sample = df_train[df_train['user_id'].isin(selected_user_ids)].copy()
    df_test_sample = df_test[df_test['user_id'].isin(selected_user_ids)].copy()
    df_valid_sample = df_valid[df_valid['user_id'].isin(selected_user_ids)].copy()

    all_user_ids = np.unique(np.concatenate([df_train_sample['user_id'], df_test_sample['user_id'], df_valid_sample['user_id']]))
    all_item_ids = np.unique(np.concatenate([df_train_sample['item_id'], df_test_sample['item_id'], df_valid_sample['item_id']]))

    user_le = LabelEncoder()
    item_le = LabelEncoder()

    user_le.fit(all_user_ids)
    item_le.fit(all_item_ids)

    df_train_sample['user_id'] = user_le.transform(df_train_sample['user_id'])
    df_train_sample['item_id'] = item_le.transform(df_train_sample['item_id'])

    df_test_sample['user_id'] = user_le.transform(df_test_sample['user_id'])
    df_test_sample['item_id'] = item_le.transform(df_test_sample['item_id'])

    df_valid_sample['user_id'] = user_le.transform(df_valid_sample['user_id'])
    df_valid_sample['item_id'] = item_le.transform(df_valid_sample['item_id'])

    return df_train_sample, df_test_sample, df_valid_sample

In [3]:
df_train, df_test, df_valid = get_train_test_val()
df_train.shape, df_test.shape, df_valid.shape

((47575, 6), (16428, 6), (3480, 6))

1.2. Модель матричной факторизации (SVD)

Каждая модель должна уметь:
1) для пары user_item предсказывать скор релевантности (масштаб скора не важен), важно обработать случаи, когда модель не можеn проскорить пользователя или айтем, вместо этого вернуть какое-то дефолтное значение
2) для всех пользователей вернуть top-k самых релевантных айтемов (тут вам скоры не нужны)


Дополнительно можно провести анализ кандидат генератов, измерить насколько различные айтемы они рекомендуют, например с помощью таких метрик как: [Ranked based overlap](https://github.com/changyaochen/rbo) или различные вариации [Diversity](https://github.com/MaurizioFD/RecSys2019_DeepLearning_Evaluation/blob/master/Base/Evaluation/metrics.py#L289). **(1 балл)**

In [4]:
class SVD_factorization():
    def __init__(self, n_singular_values: int = -1) -> None:
        self.n_singular_values = n_singular_values
        self.recs = None
        self.user_features = None
        self.item_features = None

    def _df_to_matrix(self, df: pd.DataFrame) -> np.ndarray:
        interaction_matrix = df.pivot_table(index='user_id', columns='item_id', values='target', fill_value=0)
        result = interaction_matrix.values
        return result

    def _make_svd(self, interactions: np.ndarray):
        U, S, Vt = np.linalg.svd(interactions, full_matrices=False)

        if self.n_singular_values != -1:
            U = U[:, :self.n_singular_values]
            S = S[:self.n_singular_values]
            Vt = Vt[:self.n_singular_values, :]

        self.user_features = U
        self.item_features = Vt.T
        return U, S, Vt

    def fit(self, df_train: pd.DataFrame):
        interactions = self._df_to_matrix(df_train)
        U, S, Vt = self._make_svd(interactions)

        self._calculate_recommendations(interactions)

    def _calculate_recommendations(self, interactions):
        n_users, n_items = interactions.shape
        relevance_scores = np.zeros((n_users, n_items))

        for user in range(n_users):
            interacted_items = np.where(interactions[user] > 0)[0]

            user_features = self.user_features[user]
            item_features = self.item_features

            relevance_scores[user] = np.dot(user_features, item_features.T)

            if np.isnan(relevance_scores[user]).any():
                relevance_scores[user] = np.nan_to_num(relevance_scores[user], nan=0.0)

            relevance_scores[user, interacted_items] = -np.inf

        self.recs = relevance_scores

    def predict_relevance(self, user_id: int, item_id: int) -> float:
        if self.user_features is None or self.item_features is None:
            raise ValueError("Model is not fitted yet.")

        user_features = self.user_features[user_id]
        item_features = self.item_features[item_id]

        relevance_score = np.dot(user_features, item_features)

        if np.isnan(relevance_score):
            return 0.0

        return relevance_score

    def get_top_k_recommendations(self, user_id: int, top_k: int) -> list:
        if self.recs is None:
            raise ValueError("Recommendations are not calculated yet.")

        relevance_scores = self.recs[user_id]
        top_k_indices = np.argsort(relevance_scores)[-top_k:][::-1]

        return top_k_indices.tolist()

In [5]:
mf = SVD_factorization()

mf.fit(df_train)

In [6]:
mf.get_top_k_recommendations(user_id=4631, top_k=10)

[4345, 4651, 4647, 4605, 4600, 4595, 4632, 4446, 4582, 4452]

In [7]:
mf.predict_relevance(4631, 3739)

0.0027532637826253297

In [None]:
my_heuristic_model = # YOUR CODE HERE
my_matrix_factorization = # YOUR CODE HERE
my_neural_network = # YOUR CODE HERE


### 2 Этап. Генерация и сборка признаков. (max 2 балла)
Необходимо собрать минимум 10 осмысленных (`np.radndom.rand()` не подойдет) признаков, при этом:
1. 2 должны относиться только к сущности "пользователь" (например средний % просмотра фильмов у этой возрастной категории)
2. 2 должны относиться только к сущности "айтем" (например средний средний % просмотра данного фильма)
3. 6 признаков, которые показывают связь пользователя и айтема (например средний % просмотра фильмов с данным актером (айтем) у пользователей с таким же полом (пользователь)).

### ВАЖНО!  

1. **В датасете есть колонка `watched_prct`. Ее можно использовать для генерации признаков (например сколько пользователь в среднем смотрит фильмы), но нельзя подавать в модель, как отдельную фичу, потому что она напрямую связана с target.**
2. **Все признаки должны быть собраны без дата лика, то есть если пользователь посмотрел фильм 10 августа, то признаки мы можем считать только на данных до 9 августа включительно.**


### Разбалловка
Обучение ранкера будет проходить на `valid_stage_1`, как  раз на которой мы валидировали модели, а тестировать на `test`. Поэтому есть 2 варианта сборки признаков, **реализовать нужно только 1 из них:**
1. Для обучения собираем признаки на первый день `valid_stage_1`, а для теста на первый день `test`. Например, если `valid_stage_1` начинается 5 сентября, то все признаки мы можем собирать только по 4 сентября включительно. **(1 балл)**
2. Признаки будем собирать честно на каждый день, то есть на 5 сентября собираем с начала до 4, на 6 сентября с начала до 5 и т.д. **(2 балла)**

In [None]:
train_df_with_features = # YOUR CODE IS HERE
test_df_with_features = # YOUR CODE IS HERE


### 3 Этап. Обучение финального ранкера (max 2 балла)
Собрав все признаки из этапа 2, добавив скоры моделей из этапа 1 для каждой пары пользователь-айтем (где это возможно), пришло время обучать ранкер. В качестве ранкера можно использовать либо [xgboost](https://xgboost.readthedocs.io/en/stable/) или [catboost](https://catboost.ai/). Обучать можно как `Classfier`, так и `Ranker`, выбираем то, что лучше сработает. Обучение ранкера будет проходить на `valid_stage_1`, как  раз на которой мы валидировали модели, а тестировать на `test`, которую мы до сих пор не трогали.  Заметьте, что у нас в тесте есть холодные пользователи – те, кого не было в train и активные – те, кто был в train. Возможно их стоит обработать по отдельности (а может и нет).  
(1 балл)

После получения лучшей модели надо посмотреть на важность признаков и [shap values](https://shap.readthedocs.io/en/latest/index.html), чтобы:
1. Интерпритировать признаки, которые вы собрали, насколько они полезные
2. Проверить наличие ликов – если важность фичи в 100 раз больше, чем у всех остальных, то явно что-то не то  

(1 балл)






In [None]:
# YOUR FIT PREDICT CODE HERE
model.fit()
model.predict()


### 4 Этап. Инференс лучшего ранкера (max 3 балла)

Теперь мы хотим построить рекомендации "на завтра", для этого нам нужно:

1. Обучить модели первого уровня на всех (train+test) данных (0.5 балла)
2. Для каждой модели первого уровня для каждого пользователя сгененировать N кандидатов (0.5 балла)
3. "Склеить" всех кандидатов для каждого пользователя (дубли выкинуть), посчитать скоры от всех моделей (0.5 балла)
4. Собрать фичи для ваших кандидатов (теперь можем считать признаки на всех данных) (0.5 балла)
5. Проскорить всех кандидатов бустингом и оставить k лучших (0.5 балла)
6. Посчитать разнообразие(Diversity) и построить график от Diversity(k) (0.5 балла)


Все гиперпараметры (N, k) определяете только Вы!

In [None]:
# YOUR CODE HERE