## ДЗ №3 Двухуровневый пайплайн
#### В этой домашке вам предстоит написать с нуля двустадийную рекомендательную систему.

#### Дата выдачи: 10.03.25

#### Мягкий дедлайн: 31.03.25 23:59 MSK

#### Жесткий дедлайн: 7.04.25 23:59 MSK

### Описание
Это творческое задание, в котором вам необходимо реализовать полный цикл построения рекомендательной системы: реализовать кандидат генераторов, придумать и собрать признаки, обучить итоговый ранкер и заинференсить модели на всех пользователей.

Вам предоставляется два набора данных: `train.csv` и `test.csv`

In [1]:
# скачиваем данные
# если из этой ячейки не получается, то вот ссылка на папку https://drive.google.com/drive/folders/1HT0Apm8Jft0VPLJtdBBUGu9s1M7vZcoJ?usp=drive_link

# !pip3 install gdown


# import gdown
# # train
# url = "https://drive.google.com/file/d/1-CcS22-UpTJeNcFlA0dVLrEQn8jnI0d-/view?usp=drive_link"
# output = 'train.csv'
# gdown.download(url, output, quiet=False)

# # test
# url = "https://drive.google.com/file/d/11iz3xDh0IIoEIBY0dyRSvByY3qfiT3BG/view?usp=drive_link"
# output = 'test.csv'
# gdown.download(url, output, quiet=False)

In [2]:
# !pip install

In [2]:
import pandas as pd
import numpy as np

from typing import Union
from scipy.sparse.linalg import svds
from scipy.sparse import coo_matrix, coo_array, csr_matrix
from sklearn.preprocessing import LabelEncoder


RANDOM_STATE = 42

np.random.seed(RANDOM_STATE)

In [11]:
df = pd.read_csv('train_part.csv')
df_valid = pd.read_csv('test_part.csv')

train_end = '2021-07-21' # при таком разбиении в тест попадет примерно 25% наблюдений
df_train = df[df['last_watch_dt'] < train_end].copy()
df_test = df[df['last_watch_dt'] >= train_end].copy()
df_train.shape, df_test.shape

((3649400, 6), (1217556, 6))

In [None]:
train_users = df_train['user_id'].unique()
train_items = df_train['item_id'].unique()

df_test = df_test[df_test['user_id'].isin(train_users)]
df_test = df_test[df_test['item_id'].isin(train_items)]
df_test.shape

Ввиду того, что тестовый датафрейм достаточно большой, время вычисления в Colab очень продолжительное. Выполним семплирование для обучающего и тестового датафрейма.

In [40]:
unique_user_ids = df_train['user_id'].unique()

selected_user_ids = np.random.choice(unique_user_ids, size=2000, replace=False)
df_train_sample = df_train[df_train['user_id'].isin(selected_user_ids)]
df_test_sample = df_test[df_test['user_id'].isin(selected_user_ids)]

In [41]:
print(df_train_sample.shape)
print(df_test_sample.shape)

(11080, 6)
(921, 6)


In [42]:
len(df_train_sample.user_id.unique())

2000

In [43]:
len(df_train_sample.item_id.unique())

2562



### 1 Этап. Модели первого уровня. (max 3 балла)
В этом этапе вам необходимо разделить `train` датасет на 2 части: для обучения моделей первого уровня и для их валидации. Единственное условие для разбиения – разбивать нужно по времени. Данные для обучение будем называть `train_stage_1`, данные для валидации `valid_stage_1`. Объемы этих датасетов вы определяет самостоятельно.

Для начала нам нужно отобрать кандидатов при помощи легких моделей. Необходимо реализовать 3 типа моделей:
1. Любая эвристическая(алгоритмичная) модель на ваш выбор **(0.5 балл)**
2. Любая матричная факторизация на ваш выбор **(1 балл)**
3. Любая нейросетевая модель на ваш выбор **(1 балла)**

Не забудьте использовать скор каждой модели, как признак!



In [None]:
interaction_matrix = df_train.pivot_table(index='user_id', columns='item_id', aggfunc=lambda x: 1, fill_value=0)
result = interaction_matrix.values

  interaction_matrix = df_train.pivot_table(index='user_id', columns='item_id', aggfunc=lambda x: 1, fill_value=0)


In [None]:
result[:5, :5]

In [15]:
# Напишем класс для матричной факторизации в форме SVD
class SVD_factorization():

  def __init__(self, n_singular_values: int = -1, top_k: int = 100) -> None:
      self.n_singular_values = n_singular_values
      self.top_k = top_k
      self.recs = None

  def _df_to_matrix(self, df: pd.DataFrame) -> np.ndarray:
    interaction_matrix = df_train.pivot_table(index='user_id', columns='item_id', values='rating', fill_value=0)
    result = interaction_matrix.values
    return result


  def _make_svd(self, interractions: Union[np.ndarray, coo_array]):
    if isinstance(interractions, np.ndarray):
        U, S, Vt = np.linalg.svd(interractions, full_matrices=False)
        if n_singular_values != -1:
            U = U[:, :n_singular_values]
            S = S[:n_singular_values]
            Vt = Vt[:n_singular_values, :]

    elif isinstance(interractions, coo_array):
        if n_singular_values == -1:
            n_singular_values = interractions.shape[1] - 1

        U, S, Vt = svds(interractions, k=self.n_singular_values)

    if n_singular_values != -1:
            U = U[:, :self.n_singular_values]
            S = S[:self.n_singular_values]
            Vt = Vt[:self.n_singular_values, :]

    return U, S, Vt

  def fit(self, df_train: pd.DataFrame):
    interractions = self._df_to_matrix(df_train)

    U, S, Vt = self.make_svd(interractions, self.n_singular_values)

    predicted_ratings = np.dot(np.dot(U, np.diag(S)), Vt)

    n_users, n_items = predicted_ratings.shape

    recommendations = np.zeros((n_users, self.top_k), dtype=int)

    for user in range(n_users):
        interacted_items = np.where(interractions[user] > 0)[0]

        user_ratings = predicted_ratings[user]

        user_ratings[interacted_items] = -np.inf

        top_k_indices = np.argsort(user_ratings)[-self.top_k:][::-1]

        recommendations[user] = top_k_indices

    self.resc = recommendations

  def _dcg(scores) :
    return np.sum(np.divide(np.power(2, scores) - 1,
                            np.log2(np.arange(scores.shape[0], dtype=np.float64) + 2)), dtype=np.float64)

  def _ndcg_metric(self, gt_items, predicted):
    '''
    Функция для расчета NDGC
    '''
    at = len(predicted)
    relevance = np.array([1 if x in predicted else 0 for x in gt_items])
    rank_dcg = self.dcg( relevance)
    if rank_dcg == 0.0:
        return 0.0
    ideal_dcg = self.dcg(np.sort(relevance)[::-1][:at])
    if ideal_dcg == 0.0:
        return 0.0
    ndcg_ = rank_dcg / ideal_dcg
    return ndcg_

  def _evaluate_recommender(self, df_test: pd.DataFrame, gt_col="test_interactions", predict_col='recs', topn=10):
      user_ids = range(len(self.recs))
      recs_df_grouped = pd.DataFrame({'user_id': user_ids})
      recs_df_grouped['recs'] = [list(row) for row in self.recs]
      test_df_grouped = df_test.groupby('user_id').apply(lambda x: list(x['item_id']), include_groups=False).reset_index(name='test_interactions')
      result_df = test_df_grouped.merge(recs_df_grouped[['user_id', 'recs']], on='user_id', how='left')

      metric_values = []
      for idx, row in result_df.iterrows():
          gt_items = row[gt_col]
          model_preds = row[predict_col]
          metric_values.append((self.ndcg_metric(gt_items, model_preds)))
      return {"ndcg": np.mean(metric_values)}


In [16]:
mf = SVD_factorization()

mf.fit(df_train)

KeyError: 'rating'

In [None]:
my_heuristic_model = # YOUR CODE HERE
my_matrix_factorization = # YOUR CODE HERE
my_neural_network = # YOUR CODE HERE

Каждая модель должна уметь:
1) для пары user_item предсказывать скор релевантности (масштаб скора не важен), важно обработать случаи, когда модель не можеn проскорить пользователя или айтем, вместо этого вернуть какое-то дефолтное значение
2) для всех пользователей вернуть top-k самых релевантных айтемов (тут вам скоры не нужны)


Дополнительно можно провести анализ кандидат генератов, измерить насколько различные айтемы они рекомендуют, например с помощью таких метрик как: [Ranked based overlap](https://github.com/changyaochen/rbo) или различные вариации [Diversity](https://github.com/MaurizioFD/RecSys2019_DeepLearning_Evaluation/blob/master/Base/Evaluation/metrics.py#L289). **(1 балл)**


### 2 Этап. Генерация и сборка признаков. (max 2 балла)
Необходимо собрать минимум 10 осмысленных (`np.radndom.rand()` не подойдет) признаков, при этом:
1. 2 должны относиться только к сущности "пользователь" (например средний % просмотра фильмов у этой возрастной категории)
2. 2 должны относиться только к сущности "айтем" (например средний средний % просмотра данного фильма)
3. 6 признаков, которые показывают связь пользователя и айтема (например средний % просмотра фильмов с данным актером (айтем) у пользователей с таким же полом (пользователь)).

### ВАЖНО!  

1. **В датасете есть колонка `watched_prct`. Ее можно использовать для генерации признаков (например сколько пользователь в среднем смотрит фильмы), но нельзя подавать в модель, как отдельную фичу, потому что она напрямую связана с target.**
2. **Все признаки должны быть собраны без дата лика, то есть если пользователь посмотрел фильм 10 августа, то признаки мы можем считать только на данных до 9 августа включительно.**


### Разбалловка
Обучение ранкера будет проходить на `valid_stage_1`, как  раз на которой мы валидировали модели, а тестировать на `test`. Поэтому есть 2 варианта сборки признаков, **реализовать нужно только 1 из них:**
1. Для обучения собираем признаки на первый день `valid_stage_1`, а для теста на первый день `test`. Например, если `valid_stage_1` начинается 5 сентября, то все признаки мы можем собирать только по 4 сентября включительно. **(1 балл)**
2. Признаки будем собирать честно на каждый день, то есть на 5 сентября собираем с начала до 4, на 6 сентября с начала до 5 и т.д. **(2 балла)**

In [None]:
train_df_with_features = # YOUR CODE IS HERE
test_df_with_features = # YOUR CODE IS HERE


### 3 Этап. Обучение финального ранкера (max 2 балла)
Собрав все признаки из этапа 2, добавив скоры моделей из этапа 1 для каждой пары пользователь-айтем (где это возможно), пришло время обучать ранкер. В качестве ранкера можно использовать либо [xgboost](https://xgboost.readthedocs.io/en/stable/) или [catboost](https://catboost.ai/). Обучать можно как `Classfier`, так и `Ranker`, выбираем то, что лучше сработает. Обучение ранкера будет проходить на `valid_stage_1`, как  раз на которой мы валидировали модели, а тестировать на `test`, которую мы до сих пор не трогали.  Заметьте, что у нас в тесте есть холодные пользователи – те, кого не было в train и активные – те, кто был в train. Возможно их стоит обработать по отдельности (а может и нет).  
(1 балл)

После получения лучшей модели надо посмотреть на важность признаков и [shap values](https://shap.readthedocs.io/en/latest/index.html), чтобы:
1. Интерпритировать признаки, которые вы собрали, насколько они полезные
2. Проверить наличие ликов – если важность фичи в 100 раз больше, чем у всех остальных, то явно что-то не то  

(1 балл)






In [None]:
# YOUR FIT PREDICT CODE HERE
model.fit()
model.predict()


### 4 Этап. Инференс лучшего ранкера (max 3 балла)

Теперь мы хотим построить рекомендации "на завтра", для этого нам нужно:

1. Обучить модели первого уровня на всех (train+test) данных (0.5 балла)
2. Для каждой модели первого уровня для каждого пользователя сгененировать N кандидатов (0.5 балла)
3. "Склеить" всех кандидатов для каждого пользователя (дубли выкинуть), посчитать скоры от всех моделей (0.5 балла)
4. Собрать фичи для ваших кандидатов (теперь можем считать признаки на всех данных) (0.5 балла)
5. Проскорить всех кандидатов бустингом и оставить k лучших (0.5 балла)
6. Посчитать разнообразие(Diversity) и построить график от Diversity(k) (0.5 балла)


Все гиперпараметры (N, k) определяете только Вы!

In [None]:
# YOUR CODE HERE