Before you turn this problem in, make sure everything runs as expected. First, **restart the kernel** (in the menubar, select Kernel $\rightarrow$ Restart) and then **run all cells** (in the menubar, select Cell $\rightarrow$ Run All).

Make sure you fill in any place that says `YOUR CODE HERE` or "YOUR ANSWER HERE", as well as your name and collaborators below:

In [2]:
NAME = "Ivanova Anastasia"
COLLABORATORS = ""

---

# Домашнее задание №4. Матричная факторизация

## Задачи - 25 баллов (+5 доп баллов)
1. Ноутбук `mf.ipynb` - 20 баллов
- ImplicitALS - 4 балла
- SVD - 4 балла
- Dataset with features - 2 балла
- ImplicitALS with features - 5 баллов
- LightFM with features - 5 баллов
2. Имплементация модели в сервис - 5 баллов
- Пробить на Leaderboard порог `map@10 = 0.075`
- Если при этом используете MF (Implicit или LightFM) + ANN (nmslib, faiss, annoy и тд) - дополнительно 5 баллов
  
## Как сдать ноутбук `mf.ipynb` на проверку

1. Прогоните весь код ноутбука - проверьте, что нет ошибок и тесты проходят
2. Выложите готовый ноутбук в ваш репозиторий с сервисом из домашнего задания №1 по пути `notebooks/hw_4/mf.ipynb` в ветке `hw_4`
3. Проверьте, что есть доступ к вашему репозиторию для аккаунтов `https://github.com/feldlime`
4. Откройте PR в main ветку и добавьте в ревьюеры **своего ментора**
5. Не проводите мердж в `main` ветку, пока не увидите оценку за это ДЗ в ведомости. Файл с ноутбуком должен находиться в ветке `hw_4`

Обратите внимание, что сборка ноутбуков на проверку автоматизирована. В случае неправильного пути, имени файла или ветки (а также при отсутствии доступа у `@feldlime`) ваша работа не попадёт на проверку и получит `0` баллов.

Используемые библиотеки в рамках ДЗ
```bash
pip install implicit==0.7.2 requests==2.32.3 rectools[lightfm]==0.12.0 pandas==2.2.3 numpy==1.26.4 scipy==1.12.0
```

## Импорты и данные

In [2]:
import os

import os.path
import threadpoolctl
import requests

import numpy as np
import pandas as pd
import zipfile as zf
from typing import List


from tqdm.auto import tqdm
from implicit.als import AlternatingLeastSquares

from rectools import Columns
from rectools.metrics import MAP, MeanInvUserFreq
from rectools.dataset import Dataset
from rectools.models import PureSVDModel, ImplicitALSWrapperModel, LightFMWrapperModel, model_from_config

# For implicit ALS
os.environ["OPENBLAS_NUM_THREADS"] = "1"
threadpoolctl.threadpool_limits(1, "blas")

<threadpoolctl.threadpool_limits at 0x149f71ad550>

In [3]:
data_path = os.environ.get("DATA_PATH")

if data_path is None:
    data_path = "data_original"

Если вдруг у вас нет данных, то используйте закомментированный код

In [4]:
# url = 'https://github.com/irsafilo/KION_DATASET/raw/f69775be31fa5779907cf0a92ddedb70037fb5ae/data_original.zip'

# req = requests.get(url, stream=True)

# with open('kion.zip', 'wb') as fd:
#     total_size_in_bytes = int(req.headers.get('Content-Length', 0))
#     progress_bar = tqdm(desc='kion dataset download', total=total_size_in_bytes, unit='iB', unit_scale=True)
#     for chunk in req.iter_content(chunk_size=2 ** 20):
#         progress_bar.update(len(chunk))
#         fd.write(chunk)

# files = zf.ZipFile('kion.zip', 'r')
# files.extractall()
# files.close()

In [4]:
interactions = pd.read_csv(os.path.join(data_path, "interactions.csv"), parse_dates=["last_watch_dt"]).rename(
    columns={"total_dur": Columns.Weight, "last_watch_dt": Columns.Datetime}
)
users = pd.read_csv(os.path.join(data_path, "users.csv"))
items = pd.read_csv(os.path.join(data_path, "items.csv"))

print(interactions.shape)
interactions.head(5)

(5476251, 5)


Unnamed: 0,user_id,item_id,datetime,weight,watched_pct
0,176549,9506,2021-05-11,4250,72.0
1,699317,1659,2021-05-29,8317,100.0
2,656683,7107,2021-05-09,10,0.0
3,864613,7638,2021-07-05,14483,100.0
4,964868,9506,2021-04-30,6725,100.0


In [5]:
N_DAYS = 7

max_date = interactions["datetime"].max()
train = interactions[(interactions["datetime"] <= max_date - pd.Timedelta(days=N_DAYS))].copy()
test = interactions[(interactions["datetime"] > max_date - pd.Timedelta(days=N_DAYS))].copy()

catalog = train[Columns.Item].unique()

test_users = test[Columns.User].unique()
cold_users = set(test_users) - set(train[Columns.User])
test = test.drop(test[test[Columns.User].isin(cold_users)].index)
hot_users = test[Columns.User].unique()

dataset = Dataset.construct(train)

In [6]:
K_RECOS = 10
map10 = MAP(k=K_RECOS)

In [7]:
NUM_THREADS = 16
RANDOM_STATE = 42

## ImplicitALS

### Ситуация:

Коллега вернулся из отпуска и вы вместе сели за улучшение модели. Внимательно изучив репозиторий библиотеки implicit вы увидели модель iALS и решаете попробовать ее в деле.

Чтобы работа была интереснее, вы заключаете пари с вашим коллегой о том, кто выбьет больше MAP@K на горячих пользователях. 

Правила пари: 
- Валидируемся на последней неделе (переменная `test`) и на горячих пользователях `hot_users`
- Можно собрать свой `Dataset` на основе `train`, трансформированного, если нужно
- Параметры модели задаются конфигом, которые будут передаваться в `model_from_config`

У вашего коллеги получилось выбить на ImplicitALS `MAP@K = 0.052`. Ваша задача побить его рекорд.

In [7]:
# train preprocessing...
train2 = train.copy()
train2[Columns.Weight] = np.where(train2["watched_pct"] > 10, 3, 1)

dataset2 = Dataset.construct(train2)

In [8]:
%%time

config = {
    "cls": "ImplicitALSWrapperModel",
    "model": {
        "factors": 8,
        "regularization": 0.057,
        "iterations": 31,
        "alpha": 45,
        "random_state": RANDOM_STATE,
        "num_threads": NUM_THREADS,
    },
    "verbose": 1,
}

assert config["cls"] == "ImplicitALSWrapperModel"

model = model_from_config(config)
model.fit(dataset2)

recos = model.recommend(
    users=hot_users,
    dataset=dataset2,
    k=K_RECOS,
    filter_viewed=True,
)
print(map10.calc(recos, test))

assert map10.calc(recos, test) >= 0.052

  0%|          | 0/31 [00:00<?, ?it/s]

0.056787277110524816
CPU times: total: 7min 41s
Wall time: 38.7 s


## SVD

На ваш громкий спор с коллегой о том, что все дело в вашем удачном random seed, к вам подошел ваш лид. 

Узнав детали вашего спора, он дает вам комментарий, что iALS хороша, но погружение в матричную факторизацию следует начинать с `SVD`.

Вы переглянулись с коллегой и решаете уладить спор о random seed во втором раунде, используя новую модель.

Ваш коллега смогу выбить на SVD `MAP@K = 0.066`. Вы знаете, что делать.

In [None]:
# train preprocessing...
# train3 = train.copy()
# train3[Columns.Weight] = np.where(train3["weight"] > 300, 1, 0)

# dataset3 = Dataset.construct(train3)

In [9]:
%%time

config = {
    "cls": "PureSVDModel",
    "factors": 2,
    "random_state": RANDOM_STATE,
    "verbose": 1,
}

assert config["cls"] == "PureSVDModel"

model = model_from_config(config)
model.fit(dataset2)

recos = model.recommend(
    users=hot_users,
    dataset=dataset2,
    k=K_RECOS,
    filter_viewed=True,
)
print(map10.calc(recos, test))

assert map10.calc(recos, test) >= 0.066

0.07160874140544336
CPU times: total: 13.4 s
Wall time: 8.59 s


## Dataset with features

"Ну это ни в какие ворота!" - восклицает ваш коллега, увидев ваш победный конфиг. Из другого угла опенспейса доносится "А я говорил" от вашего лида.

В это время к вам сзади подходит продакт и интересуется предметом вашего спора.

Рассказав про особенности найденных вами моделей, он просит вас в них докинуть фичи, ведь на одних взаимодействиях далеко не уедешь.

Вы согласились, ведь это отличная возможность продолжить пари. Соберите `Dataset` с фичами по пользователям и итемам, который вы будете использовать дальше


In [9]:
def get_user_features(users: pd.DataFrame, interactions: pd.DataFrame) -> pd.DataFrame:
    users.fillna("Unknown", inplace=True)
    users = users.loc[users[Columns.User].isin(interactions[Columns.User])].copy()

    user_features_frames = []

    for feature in ["sex", "age", "income"]:
        feature_frame = users.reindex(columns=[Columns.User, feature])
        feature_frame.columns = ["id", "value"]
        feature_frame["feature"] = feature
        user_features_frames.append(feature_frame)

    user_features = pd.concat(user_features_frames)
    return user_features


def get_item_features(items: pd.DataFrame, interactions: pd.DataFrame) -> pd.DataFrame:
    # items.fillna("Unknown", inplace=True)
    items = items.loc[items[Columns.Item].isin(interactions[Columns.Item])].copy()

    items["genre"] = items["genres"].str.lower().str.replace(", ", ",", regex=False).str.split(",")
    genre_feature = items[["item_id", "genre"]].explode("genre")
    genre_feature.columns = ["id", "value"]
    genre_feature["feature"] = "genre"

    content_feature = items.reindex(columns=[Columns.Item, "content_type"])
    content_feature.columns = ["id", "value"]
    content_feature["feature"] = "content_type"
    item_features = pd.concat((genre_feature, content_feature))
    return item_features

In [9]:
dataset_with_features = Dataset.construct(
    interactions_df=train2,
    user_features_df=get_user_features(users, train),
    cat_user_features=["sex", "age", "income"],
    item_features_df=get_item_features(items, train),
    cat_item_features=["genre", "content_type"],
)

In [10]:
assert (dataset_with_features.user_features is not None) and (dataset_with_features.item_features is not None)

## ImplicitALS with features

Собрав датасет с фичами вы готовы к третьему раунду пари. 

Вы решаете начать снова с `iALS`, до сих пор удивляясь результатам модели `SVD`.

Ваш коллега изучил вашу технику подбора random seed и хитро улыбается вам.

Он смог выбить `MAP@K = 0.073`, теперь ваш ход.

In [11]:
config = {
    "cls": "ImplicitALSWrapperModel",
    "model": {"factors": 128, "iterations": 20, "random_state": RANDOM_STATE, "num_threads": NUM_THREADS},
    "fit_features_together": True,
    "verbose": 1,
}

In [12]:
%%time
assert config["cls"] == "ImplicitALSWrapperModel"

model = model_from_config(config)
model.fit(dataset_with_features)

recos = model.recommend(
    users=hot_users,
    dataset=dataset_with_features,
    k=K_RECOS,
    filter_viewed=True,
)
print(map10.calc(recos, test))

assert map10.calc(recos, test) >= 0.073



  0%|          | 0/20 [00:00<?, ?it/s]

0.07735872965766306
CPU times: total: 15min 10s
Wall time: 1min 36s


## LightFM with features

И снова ор выше гор, ваш пайплайн подготовки датасета помог вам в очередной раз обойти вашего коллегу.

Не зная, к чему еще аппелировать, он зовет вашего старшего коллегу, чтобы тот внимательно изучил полученные результаты.

"iALS с фичами это хорошо, но тут стоит попробовать факторизационные машины, попробуйте `LightFM`" - заключает он. Вы переключаетесь на изучение новой библиотеки, предвкушая финальный раунд.

Ваш коллега смог выжать из своего обновленного `Dataset` и `LightFM` скор `MAP@10 = 0.08`. Последний рывок.

In [None]:
N_EPOCHS = 1
USER_ALPHA = 0.504800831954473
ITEM_ALPHA = 0.8787511720434733
LEARNING_RATE = 0.0004069497441886399

In [None]:
# Лучшие параметры:
# {'no_components': 97, 'learning_rate': 0.0004069497441886399, 'user_alpha': 0.504800831954473, 'item_alpha': 0.8787511720434733}
# Лучший результат: 0.08029

config = {
    "cls": "LightFMWrapperModel",
    "model": {
        "loss": "warp",
        "no_components": 97,
        "learning_rate": LEARNING_RATE,
        "user_alpha": USER_ALPHA,
        "item_alpha": ITEM_ALPHA,
        "random_state": RANDOM_STATE,
    },
    "num_threads": 1,
    "epochs": N_EPOCHS,
    "verbose": 1,
}

In [None]:
%%time
assert config["cls"] == "LightFMWrapperModel"

model = model_from_config(config)
model.fit(dataset_with_features)

recos = model.recommend(
    users=hot_users,
    dataset=dataset_with_features,
    k=K_RECOS,
    filter_viewed=True,
)
print(map10.calc(recos, test))

assert map10.calc(recos, test) >= 0.08

## Сервис

Эта битва была легендарной, но вот за спиной опять появляется ваш продакт. 

"Время катить АБ" - говорит он в пятницу вечером. Делать нечего, вы собираете ваши наработки и определяете совместный фронт работ.

В прод должна заехать лучшая модель, которая побьет текущей модели в проде в `MAP@10 = 0.075`.

Также есть бонус от вашего старшего коллеги, который вам советует присмотреться к `Approximate nearest neighbours`, например к `nmslib`.

"Если сможешь обернуть в ANN, то на следующем годовом ревью получишь от меня оценку отлично" - сказал он. Изучить новые технологии и получить повышение - идеально, заключаете вы и бросаетесь в бой.

In [None]:
# all_interactions = interactions.copy()
# all_interactions[Columns.Weight] = np.where(all_interactions["watched_pct"] > 10, 3, 1)

# dataset_with_features = Dataset.construct(
#     interactions_df=all_interactions,
#     user_features_df=get_user_features(users, all_interactions),
#     cat_user_features=["sex", "age", "income"],
#     item_features_df=get_item_features(items, all_interactions),
#     cat_item_features=["genre", "content_type"],
# )

# config = {
#     "cls": "ImplicitALSWrapperModel",
#     "model": {"factors": 128, "iterations": 20, "random_state": RANDOM_STATE, "num_threads": NUM_THREADS},
#     "fit_features_together": True,
#     "verbose": 1,
# }

# model = model_from_config(config)
# model.fit(dataset_with_features)

# offline_reco = model.recommend(
#     users=interactions.user_id.unique(),
#     dataset=dataset_with_features,
#     k=K_RECOS,
#     filter_viewed=True,
# )

# popular_items = interactions.groupby("item_id").size().sort_values(ascending=False).index.tolist()

# all_recs = offline_reco.groupby("user_id", as_index=False).agg({"item_id": list})
# all_recs = pd.concat([pd.DataFrame({"user_id": -1, "item_id": [popular_items[:10]]}), all_recs])
# all_recs.to_parquet("../../service/recsys_models/f128_als_model_predictions.parquet", index=False)

In [None]:
# import pickle
# with open('../../service/recsys_models/als.pkl', "wb") as file:
#     pickle.dump(model, file)

In [None]:
# from rectools.tools import UserToItemAnnRecommender
# import pickle

# user_vectors, item_vectors = model.get_vectors()
# # как я поняла, это обертка над nmslib, так что под задание подходит
# als_ann = UserToItemAnnRecommender(
#     user_vectors=user_vectors,
#     item_vectors=item_vectors,
#     user_id_map=dataset_with_features.user_id_map,
#     item_id_map=dataset_with_features.item_id_map,
# )
# als_ann.fit()

# als_ann.index.saveIndex(filename='../../service/recsys_models/als_ann_index.pkl')

# with open("../../service/recsys_models/user_id_map.pkl", "wb") as file:
#     pickle.dump(dataset_with_features.user_id_map, file)

# with open("../../service/recsys_models/item_id_map.pkl", "wb") as file:
#     pickle.dump(dataset_with_features.item_id_map, file)

# не работает на windows
# with open("../../service/recsys_models/f128_als_model_ann.pkl", "wb") as f:
#     pickle.dump(als_ann, f)

# Вместо заключения

## Задачи - 25 баллов (30 баллов с доп задачей по ANN)
1. Ноутбук `mf.ipynb` - 20 баллов
- SVD - 5 баллов
- ImplicitALS - 5 баллов
- ImplicitALS with features - 5 баллов
- LightFM with features - 5 баллов
2. Имплементация модели в сервис - 5 баллов
- Пробить на Leaderboard порог `map@10 = 0.075`
- Если при этом используете MF (Implicit или LightFM) + ANN (nmslib, faiss, annoy и тд) - дополнительно 5 баллов
  
## Как сдать ноутбук `mf.ipynb` на проверку

1. Прогоните весь код ноутбука - проверьте, что нет ошибок и тесты проходят
2. Выложите готовый ноутбук в ваш репозиторий с сервисом из домашнего задания №1 по пути `notebooks/hw_4/mf.ipynb` в ветке `hw_4`
3. Проверьте, что есть доступ к вашему репозиторию для аккаунтов `https://github.com/feldlime`
4. Откройте PR в main ветку и добавьте в ревьюеры **своего ментора**
5. Не проводите мердж в `main` ветку, пока не увидите оценку за это ДЗ в ведомости. Файл с ноутбуком должен находиться в ветке `hw_4`

Обратите внимание, что сборка ноутбуков на проверку автоматизирована. В случае неправильного пути, имени файла или ветки (а также при отсутствии доступа у `@feldlime`) ваша работа не попадёт на проверку и получит `0` баллов.