In [32]:
from surprise import SVD
from surprise import Dataset
from surprise.model_selection import GridSearchCV

In [33]:
# Load the movielens-100k dataset
data = Dataset.load_builtin('ml-100k')

## SVD

In [34]:
# Define the parameter grid
param_grid = {'n_epochs': [10, 20], 'lr_all': [0.002, 0.005], 'reg_all': [0.4, 0.6]}

In [35]:
# Use the SVD algorithm
gs = GridSearchCV(SVD, param_grid, measures=['rmse', 'mae'], cv=5)

In [36]:
# Fit the grid search
gs.fit(data)

print(gs.best_score['rmse'])
print(gs.best_params['rmse'])

0.956471756110922
{'n_epochs': 20, 'lr_all': 0.005, 'reg_all': 0.4}


### SVD Conclusion
В данном случае мы решили настроить количество эпох (n_epochs), скорость обучения (lr_all) и термин регуляризации (reg_all), которые являются одними из наиболее важных параметров в SVD. Эффективность CV (перекрестной проверки) каждой комбинации измеряется с точки зрения RMSE (среднеквадратическая ошибка) и MAE (средняя абсолютная ошибка), общих показателей для оценки точности моделей прогнозирования.

После запуска Cross Validation поиска по сетке (grid) сценарий возвращает лучший показатель RMSE и параметры, которые достигли этого показателя. Это наша оптимизированная модель SVD.

P.S.
The number of epochs (n_epochs) в контексте обучения модели машинного обучения означает, сколько раз алгоритм обучения будет работать со всем набором обучающих данных.
Каждая эпоха представляет собой итерацию по всему набору данных (или его подмножеству), используемому во время обучения. Веса модели обновляются после каждой эпохи. Количество эпох — это гиперпараметр, который определяет, сколько раз алгоритм обучения будет работать со всем набором обучающих данных.

The learning rate (lr_all) представляет собой гиперпараметр, определяющий степень обновления весов модели во время обучения. Это играет решающую роль в оптимизации модели во время обучения.

The regularization term (reg_all) представляет собой гиперпараметр, используемый в контексте моделей машинного обучения для предотвращения переобучения.


## SVD++

In [37]:
from surprise import SVDpp

In [38]:
# Use the SVD++ algorithm
gs = GridSearchCV(SVDpp, param_grid, measures=['rmse', 'mae'], cv=5)

In [39]:
# Fit the grid search
gs.fit(data)

In [40]:
# Best RMSE score
print("Best RMSE Score: ", gs.best_score['rmse'])
# Combination of parameters that gave the best RMSE score
print("Parameter setting that gave the best RMSE score: ", gs.best_params['rmse'])

Best RMSE Score:  0.9566947456030036
Parameter setting that gave the best RMSE score:  {'n_epochs': 20, 'lr_all': 0.005, 'reg_all': 0.4}


### SVD++ Conclusion
SVD++ расширяет исходный алгоритм SVD, принимая во внимание неявную обратную связь от пользователей, что может привести к повышению точности, особенно когда явная обратная связь (рейтинги) немногочисленна.

Алгоритм SVD++ требует больших вычислительных ресурсов по сравнению с обычным SVD, следовательно, для него может потребоваться больше времени и ресурсов вычислений, особенно с большими наборами данных. Тем не менее, повышение точности прогнозирования может сделать этот компромисс целесообразным в определенных сценариях применения.

## NMF

In [41]:
from surprise import NMF

In [42]:
# Define the parameter grid
param_grid = {'n_epochs': [10, 50], 'n_factors': [10, 100]}

In [43]:
# Use the NMF algorithm
gs = GridSearchCV(NMF, param_grid, measures=['rmse', 'mae'], cv=5)

In [44]:
# Fit the grid search
gs.fit(data)

In [45]:
# Print best RMSE score
print("Best RMSE Score: ", gs.best_score['rmse'])
# Combination of parameters that gave the best RMSE score
print("Parameter setting that gave the best RMSE score: ", gs.best_params['rmse'])

Best RMSE Score:  0.9764601911332296
Parameter setting that gave the best RMSE score:  {'n_epochs': 50, 'n_factors': 10}


### NMF Conclusion
NMF, в отличие от SVD и SVD++, накладывает ограничение неотрицательности, что приводит к представлению данных на основе частей.

По завершении поиска по сетке мы смогли определить комбинацию n_epochs и n_factors, которая минимизировала RMSE, что привело к наиболее точным прогнозам с заданными данными.

P.S.
Параметр n_factors указывает количество скрытых факторов, которые алгоритм попытается вычислить. Проще говоря, он определяет уровень детализации функций, которые алгоритм узнает из данных.

Matrix factorization methods работают путем разложения исходной матрицы взаимодействия пользователя и элемента на две матрицы «факторов» меньшей размерности. Эти факторы представляют собой латентные или скрытые особенности данных. Например, в контексте фильмов это могут быть такие жанры, как «боевик», «комедия», «драма» или «научная фантастика».

Поиск подходящего значения n_factors — это баланс между сложностью модели и способностью изучать основные закономерности в данных.


## Conclusion
RMSE (среднеквадратическая ошибка) — это мера различий между значениями, предсказанными моделью, и фактическими значениями. Более низкое RMSE указывает на лучшее соответствие модели данным.

В нашем случае SVD++ имеет самое низкое среднеквадратическое отклонение из трех моделей и, следовательно, лучше всего работает с нашими данными, согласно этому показателю.

И SVD, и SVD++ имеют очень похожие RMSE и гиперпараметры, что указывает на то, что они одинаково работают с нашим набором данных. Небольшое преимущество SVD++ может быть связано с учетом неявных рейтингов в данных.

С другой стороны, NMF имеет более высокое RMSE по сравнению с SVD и SVD++. Большее количество эпох и факторов, использованных для NMF, возможно, привело к созданию более сложной модели, которая не обязательно улучшила уровень ошибок, что указывает на потенциальное переобучение.

В заключение, согласно оценкам RMSE, SVD++ является наиболее эффективной моделью из трех для нашего конкретного набора данных и проблемы.