# Домашнє завдання

На цьому тижні ми вивчили як працюють рекомендаційні системи. Пропонуємо вам познайомитись з бібліотекою [surprise](https://surpriselib.com/), котра якраз є по суті додатком до знайомої нам бібліотеки `scikit-learn` для тренування моделей рекомендаційних систем.

Візьміть датасет [movielens](https://surprise.readthedocs.io/en/stable/dataset.html) і побудуйте модель матричної факторизації. У даній бібліотеці він має назву `SVD`. Підберіть найкращі параметри за допомогою крос-валідації, також поекспериментуйте з іншими [алгоритмами](https://surprise.readthedocs.io/en/stable/prediction_algorithms_package.html) розрахунків (`SVD++`, `NMF`) і оберіть той, який буде оптимальним.

Підказки як саме побудувати дану модель ви знайдете в документації до даної бібліотеки.

## Додаткове завдання з зірочкою
Для більшого заглиблення в роботу алгоритму, пропонуємо реалізувати алгоритм колабораційної фільтрації з нуля. Для цього ми можемо скористатись нашою домашньою роботою з 3-ого модуля. Якщо ми модифікуємо функцію втрат та розрахунок градієнтів, то зможемо побудувати алгоритм матричної факторизації.

[Тут](https://colab.research.google.com/drive/1biZdo4pc_Kkm-JvZsuadqDVphfUu1sGk?usp=sharing) ви можете побачити формули та завантаження датасету. А ось посилання на [назви фільмів](https://drive.google.com/file/d/12XeO4KXQfbvvTdLFbkYA-BeXzhlNnnuo/view) та на [рейтинги](https://drive.google.com/file/d/17V9OhXeZH9Wv17Nkh-Tqxa8svEmRZcIp/view).

Вдалої роботи!

# Install packages

In [None]:
pip install surprise

# Imports

In [64]:
import numpy as np

from surprise import Dataset
from surprise.model_selection import cross_validate
from surprise import SVD, SVDpp, NMF

# Main task

In [65]:
data_set_ml_100k = Dataset.load_builtin('ml-100k')
data_set_ml_1m = Dataset.load_builtin('ml-1m')
data_set_jester = Dataset.load_builtin('jester')

In [66]:
data_sets = {'ml-100k': data_set_ml_100k, 'ml-1m': data_set_ml_1m, 'jester': data_set_jester}

In [67]:
models = {'SVD': SVD, 'SVD++': SVDpp, 'NMF': NMF}

In [73]:
for data_set_name, data_set in data_sets.items():

  best_rmse_score = 0
  best_mae_score = 0
  best_rmse_model = None

  print(f'Cross validation for {data_set_name} dataset:\n')

  for model_name, model in models.items():
    output = cross_validate(model(), data_set, measures=['RMSE', 'MAE'], verbose=True)
    mean_rmse = np.mean(output['test_rmse'])
    mean_mae = np.mean(output['test_mae'])
    print('\n')

    if best_mae_score < mean_rmse:
      best_rmse_score = mean_rmse
      best_rmse_model = model_name
    if best_mae_score < mean_mae:
      best_mae_score = mean_mae
      best_mae_model = model_name

  print(f'Best RMSE score: {best_rmse_score.round(4)}')
  print(f'Best model by RMSE: {best_rmse_model}\n')

  print(f'Best MAE score: {best_mae_score.round(4)}')
  print(f'Best model by MAE: {best_mae_model}')
  print(f'{"-"*72}\n')

Cross validation for ml-100k dataset:

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9361  0.9358  0.9354  0.9439  0.9355  0.9374  0.0033  
MAE (testset)     0.7392  0.7377  0.7371  0.7436  0.7381  0.7391  0.0024  
Fit time          1.80    2.04    1.74    1.95    2.49    2.00    0.26    
Test time         0.15    0.14    2.17    0.22    0.23    0.58    0.79    


Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9160  0.9215  0.9281  0.9197  0.9183  0.9207  0.0041  
MAE (testset)     0.7198  0.7219  0.7295  0.7199  0.7187  0.7219  0.0039  
Fit time          28.86   30.40   29.32   28.92   29.18   29.34   0.56    
Test time         4.97    4.91    6.34    4.56    6.42    5.44    0.78    


Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  F