In [146]:
from surprise import SVD, SVDpp, NMF, Dataset, accuracy
from surprise.model_selection import GridSearchCV, cross_validate, train_test_split
import pandas as pd

## Завантажимо датасет

In [13]:
data = Dataset.load_builtin('ml-100k')

## Розділимо на тренувальний та тестовий набір

In [118]:
trainset, testset = train_test_split(data, random_state=42)

## Функція для порівняння перших 10 правдивих результатів та передбачуваних

In [134]:
def test_model(model, testset):
    predictions = model.test(testset)
    for i, prediction in enumerate(predictions):
        print(f"User: {prediction.uid}, Item: {prediction.iid}, "
              f"True rating: {prediction.r_ui}, Predicted rating: {round(prediction.est, 2)}")
        if i == 9:
            break

## Тренуємо модель SVD на крос-валідації зі стандартними параметрами та перевіряємо точність результатів

In [122]:
svd = SVD()
svd_results = cross_validate(svd, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9354  0.9360  0.9303  0.9363  0.9441  0.9364  0.0044  
MAE (testset)     0.7372  0.7373  0.7346  0.7397  0.7409  0.7380  0.0022  
Fit time          0.80    0.81    0.81    0.81    0.81    0.81    0.01    
Test time         0.09    0.18    0.09    0.18    0.09    0.13    0.04    


In [124]:
svd.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x16ee71178f0>

In [136]:
test_model(svd, testset)

User: 907, Item: 143, True rating: 5.0, Predicted rating: 4.89
User: 371, Item: 210, True rating: 4.0, Predicted rating: 4.14
User: 218, Item: 42, True rating: 4.0, Predicted rating: 3.49
User: 829, Item: 170, True rating: 4.0, Predicted rating: 4.03
User: 733, Item: 277, True rating: 1.0, Predicted rating: 2.99
User: 363, Item: 1512, True rating: 1.0, Predicted rating: 3.51
User: 193, Item: 487, True rating: 5.0, Predicted rating: 3.93
User: 808, Item: 313, True rating: 5.0, Predicted rating: 4.81
User: 557, Item: 682, True rating: 2.0, Predicted rating: 3.64
User: 774, Item: 196, True rating: 3.0, Predicted rating: 2.13


In [148]:
svd_predictions = svd.test(testset)
accuracy.rmse(svd_predictions)

RMSE: 0.9373


0.9373043768714834

## Точність моделі SVD на тестовому наборі = 93.7%

## Тренуємо модель за алгоритмом SVD++

In [26]:
svdpp = SVDpp()
svdpp_results = cross_validate(svdpp, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9204  0.9194  0.9206  0.9197  0.9210  0.9202  0.0006  
MAE (testset)     0.7237  0.7216  0.7209  0.7231  0.7208  0.7220  0.0012  
Fit time          17.46   17.36   17.27   17.46   17.35   17.38   0.07    
Test time         2.79    2.73    2.89    2.73    2.70    2.77    0.07    


In [41]:
svdpp.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVDpp at 0x16eea193ce0>

In [138]:
test_model(svdpp, testset)

User: 907, Item: 143, True rating: 5.0, Predicted rating: 5
User: 371, Item: 210, True rating: 4.0, Predicted rating: 4.56
User: 218, Item: 42, True rating: 4.0, Predicted rating: 3.45
User: 829, Item: 170, True rating: 4.0, Predicted rating: 4.14
User: 733, Item: 277, True rating: 1.0, Predicted rating: 2.83
User: 363, Item: 1512, True rating: 1.0, Predicted rating: 2.85
User: 193, Item: 487, True rating: 5.0, Predicted rating: 4.16
User: 808, Item: 313, True rating: 5.0, Predicted rating: 4.95
User: 557, Item: 682, True rating: 2.0, Predicted rating: 3.2
User: 774, Item: 196, True rating: 3.0, Predicted rating: 2.18


In [150]:
svdpp_predictions = svdpp.test(testset)
accuracy.rmse(svdpp_predictions)

RMSE: 0.7566


0.7565959776300923

## Точність моделі SVD++ = 75.6%

## Тренуємо модель за алгоритмом NMF

In [27]:
nmf = NMF()
nmf_results = cross_validate(nmf, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9696  0.9525  0.9658  0.9684  0.9586  0.9630  0.0065  
MAE (testset)     0.7615  0.7495  0.7578  0.7619  0.7531  0.7568  0.0048  
Fit time          1.40    1.40    1.40    1.47    1.48    1.43    0.04    
Test time         0.15    0.08    0.15    0.08    0.18    0.13    0.04    


In [47]:
nmf.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.NMF at 0x16eea193fe0>

In [140]:
test_model(svd, testset)

User: 907, Item: 143, True rating: 5.0, Predicted rating: 4.89
User: 371, Item: 210, True rating: 4.0, Predicted rating: 4.14
User: 218, Item: 42, True rating: 4.0, Predicted rating: 3.49
User: 829, Item: 170, True rating: 4.0, Predicted rating: 4.03
User: 733, Item: 277, True rating: 1.0, Predicted rating: 2.99
User: 363, Item: 1512, True rating: 1.0, Predicted rating: 3.51
User: 193, Item: 487, True rating: 5.0, Predicted rating: 3.93
User: 808, Item: 313, True rating: 5.0, Predicted rating: 4.81
User: 557, Item: 682, True rating: 2.0, Predicted rating: 3.64
User: 774, Item: 196, True rating: 3.0, Predicted rating: 2.13


In [152]:
nmf_predictions = nmf.test(testset)
accuracy.rmse(nmf_predictions)

RMSE: 0.8166


0.8166414064280513

## Точність моделі NMF = 81.6%

## Висновок:

## У порівнянні з трьома алгоритмами (SVD, SVD++, NMF), найбільш точним є алгоритм SVD. з результатом: 93.7%.

## Проведемо оптимізацію гіперпараметрів з крос-валідацією на алгоритмах SVD та NMF з ціллю покращити кінцевий результат

## Алгоритм SVD

In [154]:
param_grid_svd = {
    'n_epochs': [5, 10],
    'lr_all': [0.002, 0.005],
    'reg_all': [0.4, 0.6]
}

gs_svd = GridSearchCV(SVD, param_grid_svd, measures=['rmse', 'mae'], cv=3)
gs_svd.fit(data)

best_params_svd = gs_svd.best_params['rmse']
print("Найкращі параметри для SVD:", best_params_svd)
print("RMSE для SVD:", gs_svd.best_score['rmse'])
print("MAE для SVD:", gs_svd.best_score['mae'])

Найкращі параметри для SVD: {'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4}
RMSE для SVD: 0.9635001862298441
MAE для SVD: 0.7723379633453877


In [155]:
best_svd = gs_svd.best_estimator["rmse"]
best_svd.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x16ee7117ef0>

In [158]:
test_model(svd, testset)

User: 907, Item: 143, True rating: 5.0, Predicted rating: 4.89
User: 371, Item: 210, True rating: 4.0, Predicted rating: 4.14
User: 218, Item: 42, True rating: 4.0, Predicted rating: 3.49
User: 829, Item: 170, True rating: 4.0, Predicted rating: 4.03
User: 733, Item: 277, True rating: 1.0, Predicted rating: 2.99
User: 363, Item: 1512, True rating: 1.0, Predicted rating: 3.51
User: 193, Item: 487, True rating: 5.0, Predicted rating: 3.93
User: 808, Item: 313, True rating: 5.0, Predicted rating: 4.81
User: 557, Item: 682, True rating: 2.0, Predicted rating: 3.64
User: 774, Item: 196, True rating: 3.0, Predicted rating: 2.13


In [160]:
best_svd_predictions = best_svd.test(testset)
accuracy.rmse(best_svd_predictions)

RMSE: 0.9634


0.9633933391682957

## Точність найкращого SVD алгоритму = 96.3%

## Найкращі гіперпараметри: 'n_epochs': 10, 'lr_all': 0.005, 'reg_all': 0.4

## Алгоритм NMF

In [162]:
param_grid_nmf = {
    'n_factors': [15, 30, 50],
    'reg_pu': [0.06, 0.1],
    'reg_qi': [0.06, 0.1]
}

gs_nmf = GridSearchCV(NMF, param_grid_nmf, measures=['rmse', 'mae'], cv=3)
gs_nmf.fit(data)

best_params_nmf = gs_nmf.best_params['rmse']
print("Найкращі параметри для NMF:", best_params_nmf)
print("RMSE для NMF:", gs_nmf.best_score['rmse'])
print("MAE для NMF:", gs_nmf.best_score['mae'])

Найкращі параметри для NMF: {'n_factors': 50, 'reg_pu': 0.1, 'reg_qi': 0.1}
RMSE для NMF: 0.9443392560927061
MAE для NMF: 0.742153483410013


In [163]:
best_nmf = gs_nmf.best_estimator["rmse"]
best_nmf.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.NMF at 0x16ee587db20>

In [164]:
test_model(best_nmf, testset)

User: 907, Item: 143, True rating: 5.0, Predicted rating: 4.9
User: 371, Item: 210, True rating: 4.0, Predicted rating: 4.12
User: 218, Item: 42, True rating: 4.0, Predicted rating: 3.29
User: 829, Item: 170, True rating: 4.0, Predicted rating: 3.87
User: 733, Item: 277, True rating: 1.0, Predicted rating: 3.11
User: 363, Item: 1512, True rating: 1.0, Predicted rating: 4.03
User: 193, Item: 487, True rating: 5.0, Predicted rating: 3.77
User: 808, Item: 313, True rating: 5.0, Predicted rating: 4.86
User: 557, Item: 682, True rating: 2.0, Predicted rating: 2.99
User: 774, Item: 196, True rating: 3.0, Predicted rating: 2.45


In [168]:
best_nmf_predictions = best_nmf.test(testset)
accuracy.rmse(best_nmf_predictions)

RMSE: 0.9386


0.9385789506374623

## Точність найкращого NMF алгоритму = 93.8%

## Найкращі гіперпараметри: 'n_factors': 50, 'reg_pu': 0.1, 'reg_qi': 0.1

## Висновок:

## У порівнянні моделей SVD та NMF, з оптимізованими гіперпараметрами, точність значно покращилась в обох моделях, проте алгоритм SVD всеодно відпрацював більш точно, ніж NMF. Точність SVD на тестовому наборі (96.3%) вища за точність NMF (93.8%).