In [1]:
import pandas as pd
from surprise import Dataset, Reader
from surprise import SVDpp, SVD, NMF, NormalPredictor, BaselineOnly, SlopeOne, KNNBasic, KNNWithMeans, KNNBaseline, CoClustering
from surprise.model_selection import train_test_split, cross_validate
from surprise import accuracy
from hyperopt import hp

In [2]:
data = Dataset.load_builtin(name = 'ml-100k' , prompt = True)

In [3]:
# Определение модели SVD
model = SVD()

# Кросс валидация для оценки точности модели
cv_results = cross_validate(model, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

# Средние значения метрик кросс валидации 
mean_rmse = cv_results['test_rmse'].mean()
mean_mae = cv_results['test_mae'].mean()

print('Середня RMSE:', mean_rmse)
print('Середня MAE:', mean_mae)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9343  0.9334  0.9410  0.9413  0.9377  0.9375  0.0033  
MAE (testset)     0.7364  0.7360  0.7402  0.7415  0.7390  0.7386  0.0021  
Fit time          0.71    0.73    0.74    0.73    0.74    0.73    0.01    
Test time         0.14    0.08    0.08    0.08    0.14    0.11    0.03    
Середня RMSE: 0.9375287661260405
Середня MAE: 0.7386240297730693


In [4]:
# Определение модели SVD++
model_svdpp = SVDpp()

# Кросс валидация для оценки точности модели
cv_results_svdpp = cross_validate(model_svdpp, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

# Средние значения метрик кросс валидаци
mean_rmse_svdpp = cv_results_svdpp['test_rmse'].mean()
mean_mae_svdpp = cv_results_svdpp['test_mae'].mean()

print('Середня RMSE для SVD++:', mean_rmse_svdpp)
print('Середня MAE для SVD++:', mean_mae_svdpp)

Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9184  0.9186  0.9182  0.9187  0.9229  0.9194  0.0018  
MAE (testset)     0.7203  0.7223  0.7219  0.7175  0.7231  0.7210  0.0020  
Fit time          12.30   12.29   12.36   12.34   12.38   12.33   0.03    
Test time         3.02    3.06    3.08    2.99    3.00    3.03    0.03    
Середня RMSE для SVD++: 0.9193739396276712
Середня MAE для SVD++: 0.7210184712105903


In [5]:
# Определение модели NMF
model_nmf = NMF()

# Кросс валидация для оценки точности модели
cv_results_nmf = cross_validate(model_nmf, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

# Средние значения метрик кросс валидации
mean_rmse_nmf = cv_results_nmf['test_rmse'].mean()
mean_mae_nmf = cv_results_nmf['test_mae'].mean()

print('Середня RMSE для NMF:', mean_rmse_nmf)
print('Середня MAE для NMF:', mean_mae_nmf)

Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9664  0.9695  0.9599  0.9615  0.9627  0.9640  0.0035  
MAE (testset)     0.7591  0.7610  0.7542  0.7564  0.7537  0.7569  0.0028  
Fit time          1.33    1.37    1.35    1.33    1.42    1.36    0.03    
Test time         0.14    0.08    0.08    0.15    0.07    0.10    0.04    
Середня RMSE для NMF: 0.9640164219534402
Середня MAE для NMF: 0.7568713120657145


Выводы:

Алгоритм SVD++ демонстрирует более высокую точность, с более низкими значениями RMSE и MAE, по сравнению с алгоритмами SVD и NMF.
Однако, алгоритм SVD++ требует значительно больше времени для обучения и тестирования по сравнению с SVD и NMF.
Если точность является основным критерием и время выполнения не является проблемой, то алгоритм SVD++ может быть предпочтительным выбором.
В противном случае, если время выполнения имеет большее значение, алгоритм SVD может быть более эффективным выбором, так как он обеспечивает сравнимую точность с более низким временем обучения и тестирования.
В целом, выбор между этими алгоритмами зависит от конкретных требований приложения и баланса между точностью и временем выполнения.