In [8]:
#Візьміть датасет movielens і побудуйте модель матричної факторизації. У даній бібліотеці він має назву SVD. 
#Підберіть найкращі параметри за допомогою крос-валідації, також поекспериментуйте з іншими алгоритмами 
#розрахунків (SVD++, NMF) і оберіть той, який буде оптимальним.

#Підказки як саме побудувати дану модель ви знайдете в документації до даної бібліотеки.

In [9]:
from surprise import Dataset
from surprise import SVD, SVDpp, NMF
from surprise.model_selection import cross_validate
from surprise.model_selection import GridSearchCV
from joblib import parallel_backend
import numpy as np
import pandas as pd

In [10]:
def cross_validation_and_print(model, dataset, cv=5):
    results = cross_validate(model, dataset, measures=['RMSE', 'MAE'], cv=cv, verbose=True)
    for measure in ['test_rmse', 'test_mae']:
        print(f"{measure}: {np.round(results[measure].mean(), 4)}")

def perform_grid_search(model_class, dataset, param_grid, measures=['rmse', 'mae'], cv=5):
    model = model_class()
    cross_validation_and_print(model, dataset, cv=cv)
    with parallel_backend('threading'):
        grid_search = GridSearchCV(model_class, param_grid, measures=measures, cv=cv)
        grid_search.fit(dataset)
    return grid_search.best_params, grid_search.best_score

def svd_method(dataset, param_grid):
    return perform_grid_search(SVD, dataset, param_grid)

def svd_pp_method(dataset, param_grid):
    return perform_grid_search(SVDpp, dataset, param_grid)

def nmf_method(dataset, param_grid):
    return perform_grid_search(NMF, dataset, param_grid)

In [11]:
print('Завантаження даних датасету...')
data = Dataset.load_builtin('ml-100k')
param_grid_svd_svdpp = {'n_factors': [50, 100, 150],
            'n_epochs': [20, 30, 40],
            'lr_all': [0.002, 0.005, 0.01],
            'reg_all': [0.02, 0.04, 0.06]}

param_grid_nmf = {'n_factors': [50, 100, 150],
                'n_epochs': [20, 30, 40],
                'reg_pu': [0.06, 0.08, 0.1],
                'reg_qi': [0.06, 0.08, 0.1]}
print('Дані успішно завантажені :)\n')

Завантаження даних датасету...
Дані успішно завантажені :)



In [5]:
print('Обрахунок параметрів для алгоритма SVD...')
best_params_svd, best_score_svd = svd_method(data, param_grid_svd_svdpp)
best_params_svd_df = pd.DataFrame(best_params_svd)
best_score_svd_df = pd.DataFrame([best_score_svd], columns=['best_score'])
print('...виконано обрахунок параметрів для алгоритма SVD')

Обрахунок параметрів для алгоритма SVD...
Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9312  0.9407  0.9343  0.9319  0.9424  0.9361  0.0046  
MAE (testset)     0.7337  0.7408  0.7364  0.7354  0.7431  0.7379  0.0035  
Fit time          0.91    1.04    0.90    0.87    0.87    0.92    0.06    
Test time         0.14    0.12    0.09    0.14    0.08    0.12    0.03    
test_rmse: 0.9361
test_mae: 0.7379
...виконано обрахунок параметрів для алгоритма SVD


In [6]:
print('Обрахунок параметрів для алгоритма NMF...')
best_params_nmf, best_score_nmf = nmf_method(data, param_grid_nmf)
best_params_nmf_df = pd.DataFrame(best_params_nmf)
best_score_nmf_df = pd.DataFrame([best_score_nmf], columns=['best_score'])
print('...виконано обрахунок параметрів для алгоритма NMF')

Обрахунок параметрів для алгоритма NMF...
Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9599  0.9668  0.9733  0.9592  0.9668  0.9652  0.0052  
MAE (testset)     0.7553  0.7620  0.7621  0.7539  0.7602  0.7587  0.0035  
Fit time          1.24    1.19    1.21    1.01    1.16    1.16    0.08    
Test time         0.10    0.13    0.10    0.11    0.13    0.11    0.01    
test_rmse: 0.9652
test_mae: 0.7587
...виконано обрахунок параметрів для алгоритма NMF


In [None]:
print('Обрахунок параметрів для алгоритма SVD++...')
best_params_svdpp, best_score_svdpp = svd_pp_method(data, param_grid_svd_svdpp)
best_params_svdpp_df = pd.DataFrame(best_params_svdpp)
best_score_svdpp_df = pd.DataFrame([best_score_svdpp], columns=['best_score'])
print('...виконано обрахунок параметрів для алгоритма SVD++')

Обрахунок параметрів для алгоритма SVD++...
Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9211  0.9270  0.9171  0.9153  0.9195  0.9200  0.0041  
MAE (testset)     0.7227  0.7255  0.7195  0.7146  0.7229  0.7210  0.0038  
Fit time          18.93   17.26   19.05   17.44   17.94   18.13   0.74    
Test time         2.53    2.60    2.50    2.53    2.66    2.57    0.06    
test_rmse: 0.92
test_mae: 0.721
