In [1]:
import pandas as pd
from surprise import SVD, SVDpp, NMF
from surprise import Dataset
from surprise.model_selection import cross_validate

In [2]:
data = Dataset.load_builtin('ml-100k', prompt=True)

## SVD

In [3]:
algorithm_svd = SVD()
result_svd = cross_validate(algorithm_svd, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)
result_svd = pd.DataFrame.from_dict(result_svd).mean(axis=0)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9378  0.9393  0.9373  0.9395  0.9344  0.9376  0.0018  
MAE (testset)     0.7411  0.7401  0.7388  0.7396  0.7355  0.7390  0.0019  
Fit time          0.80    0.80    0.79    0.79    0.89    0.81    0.04    
Test time         0.10    0.09    0.14    0.10    0.09    0.11    0.02    


## SVD++

In [4]:
algorithm_svdpp = SVDpp()
result_svdpp = cross_validate(algorithm_svdpp, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)
result_svdpp = pd.DataFrame.from_dict(result_svdpp).mean(axis=0)

Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9151  0.9216  0.9212  0.9184  0.9257  0.9204  0.0035  
MAE (testset)     0.7162  0.7212  0.7217  0.7235  0.7267  0.7219  0.0034  
Fit time          22.55   23.95   21.60   22.25   21.59   22.39   0.86    
Test time         3.89    3.37    3.02    3.04    3.15    3.30    0.32    


## NMF

In [5]:
algorithm_nmf = NMF()
result_nmf = cross_validate(algorithm_nmf, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)
result_nmf = pd.DataFrame.from_dict(result_nmf).mean(axis=0)

Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9661  0.9665  0.9679  0.9584  0.9610  0.9640  0.0036  
MAE (testset)     0.7620  0.7603  0.7607  0.7515  0.7549  0.7579  0.0040  
Fit time          1.46    1.49    1.49    1.50    1.48    1.48    0.01    
Test time         0.15    0.08    0.15    0.15    0.08    0.12    0.04    


## Aggregated results

In [6]:
agg_results = pd.DataFrame(columns=['SVD', 'SVD++', 'NMF'])

In [7]:
agg_results['SVD'] = result_svd
agg_results['SVD++'] = result_svdpp
agg_results['NMF'] = result_nmf

In [8]:
agg_results

Unnamed: 0,SVD,SVD++,NMF
test_rmse,0.937642,0.920391,0.963977
test_mae,0.738999,0.721853,0.757888
fit_time,0.813973,22.3883,1.48418
test_time,0.105622,3.295496,0.121356


Виходячи з наданих результатів, можна зробити наступні висновки:

1. **Точність моделей**:
   - **SVD++** має найнижчий показник RMSE і MAE, що свідчить про те, що це найбільш точна модель серед трьох, які були досліджені.
   - **SVD** також демонструє добру точність з RMSE і MAE, але трохи поступається SVD++.
   - **NMF** має найвищий показник RMSE і MAE, що вказує на те, що вона менш точна порівняно з SVD та SVD++.


2. **Час виконання**:
   - **SVD** має найменший час на тренування (fit_time) і найменший час на тестування (test_time), що робить його найшвидшим у цьому аспекті.
   - **NMF** також демонструє швидкість у тренуванні і тестуванні, але все ж трохи поступається SVD.
   - **SVD++** має значно більший час на тренування і тестування, що робить його найповільнішим серед трьох моделей.


3. **Вибір оптимальної моделі**:
   - Якщо пріоритетом є точність, то **SVD++** є найкращим вибором завдяки найнижчим значенням RMSE і MAE.
   - Якщо важливий баланс між точністю і швидкістю, то **SVD** може бути кращим варіантом, оскільки він майже такий же точний, як SVD++, але значно швидший у виконанні.
   - **NMF** може бути вибрана, якщо швидкість є ключовим фактором, але її точність є найнижчою серед досліджених моделей.

Отже, оптимальний вибір моделі залежатиме від конкретних потреб та пріоритетів, але загалом, SVD++ демонструє найкращу точність, тоді як SVD пропонує гарний баланс між точністю та швидкістю.