In [6]:
import pandas as pd
from surprise import SVD, SVDpp, NMF, Dataset, Reader
from surprise.model_selection import cross_validate
import time

# Зчитування даних з CSV файлів
ratings_data = pd.read_csv('ratings.csv')
reader = Reader(rating_scale=(0.5, 5.0))
data = Dataset.load_from_df(ratings_data[['userId', 'movieId', 'rating']], reader)

# Створення списку моделей для порівняння
alg_svd = SVD()
start_time = time.time()
result_svd = cross_validate(alg_svd, data, measures=['RMSE', 'MAE'], cv=10, verbose=True)
fit_time_svd = time.time() - start_time
SVD_result = pd.DataFrame.from_dict(result_svd).mean(axis=0)
SVD_result['fit_time'] = fit_time_svd

alg_svdpp = SVDpp()
start_time = time.time()
result_svdpp = cross_validate(alg_svdpp, data, measures=['RMSE', 'MAE'], cv=10, verbose=True)
fit_time_svdpp = time.time() - start_time
SVDPP_result = pd.DataFrame.from_dict(result_svdpp).mean(axis=0)
SVDPP_result['fit_time'] = fit_time_svdpp

alg_nmf = NMF()
start_time = time.time()
result_nmf = cross_validate(alg_nmf, data, measures=['RMSE', 'MAE'], cv=10, verbose=True)
fit_time_nmf = time.time() - start_time
NMF_result = pd.DataFrame.from_dict(result_nmf).mean(axis=0)
NMF_result['fit_time'] = fit_time_nmf

# Створення DataFrame для результатів
Final_result = pd.DataFrame(columns=['SVD', 'SVDpp', 'NMF'])
Final_result.loc['fit_time'] = [SVD_result['fit_time'], SVDPP_result['fit_time'], NMF_result['fit_time']]
Final_result.loc['test_rmse'] = [SVD_result['test_rmse'], SVDPP_result['test_rmse'], NMF_result['test_rmse']]
Final_result.loc['test_mae'] = [SVD_result['test_mae'], SVDPP_result['test_mae'], NMF_result['test_mae']]
Final_result.loc['test_time'] = [SVD_result['test_time'], SVDPP_result['test_time'], NMF_result['test_time']]

# Виведення результатів
print("Остаточний підсумок:")
print(Final_result)

# Знаходження індексів моделей з найкращими і найгіршими результатами
best_accuracy_model_name = Final_result.loc['test_rmse'].idxmin()
worst_accuracy_model_name = Final_result.loc['test_rmse'].idxmax()
fastest_fit_model_name = Final_result.loc['fit_time'].idxmin()
slowest_fit_model_name = Final_result.loc['fit_time'].idxmax()
fastest_test_model_name = Final_result.loc['test_time'].idxmin()
slowest_test_model_name = Final_result.loc['test_time'].idxmax()

print("\nНайкращі результати:")
print(f"Найкраща модель за точністю: {best_accuracy_model_name}")
print(f"Найгірша модель за точністю: {worst_accuracy_model_name}")
print(f"Найшвидша модель за часом навчання: {fastest_fit_model_name}")
print(f"Найповільніша модель за часом навчання: {slowest_fit_model_name}")
print(f"Найшвидша модель за часом тестування: {fastest_test_model_name}")
print(f"Найповільніша модель за часом тестування: {slowest_test_model_name}")


Evaluating RMSE, MAE of algorithm SVD on 10 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Fold 6  Fold 7  Fold 8  Fold 9  Fold 10 Mean    Std     
RMSE (testset)    0.8655  0.8685  0.8703  0.8668  0.8697  0.8799  0.8731  0.8656  0.8706  0.8595  0.8690  0.0051  
MAE (testset)     0.6606  0.6653  0.6692  0.6663  0.6646  0.6744  0.6721  0.6672  0.6692  0.6608  0.6670  0.0042  
Fit time          0.54    0.57    0.53    0.64    0.53    0.54    0.61    0.54    0.58    0.67    0.58    0.05    
Test time         0.04    0.04    0.04    0.04    0.04    0.04    0.04    0.04    0.04    0.04    0.04    0.00    
Evaluating RMSE, MAE of algorithm SVDpp on 10 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Fold 6  Fold 7  Fold 8  Fold 9  Fold 10 Mean    Std     
RMSE (testset)    0.8382  0.8580  0.8645  0.8537  0.8567  0.8511  0.8534  0.8489  0.8766  0.8547  0.8556  0.0095  
MAE (testset)     0.6463  0.6584  0.6600  0.6541  0.6531  0.6525  0.6536  0.6517  0