Завантаження бібліотеки та датасету:

In [1]:
%pip install scikit-surprise
import pandas as pd
from surprise import Dataset, Reader, SVD, SVDpp, NMF, KNNBasic, KNNWithZScore
from surprise.model_selection import cross_validate

# Завантаження датасету
data = Dataset.load_builtin('ml-100k')

Note: you may need to restart the kernel to use updated packages.


Виведення частини датасету, щоб краще зрозуміти його структуру:

In [2]:
df = pd.DataFrame(data.raw_ratings, columns=['user_id', 'item_id', 'rating', 'timestamp'])
print(df.head())

  user_id item_id  rating  timestamp
0     196     242     3.0  881250949
1     186     302     3.0  891717742
2      22     377     1.0  878887116
3     244      51     2.0  880606923
4     166     346     1.0  886397596


Визначення читача та діапазону рейтингу:

In [3]:
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(df[['user_id', 'item_id', 'rating']], reader)

Визначення алгоритмів та виконання крос-валідацію для кожного з них:

In [4]:
algos = [SVD(), SVDpp(), NMF(), KNNBasic(), KNNWithZScore()]

results_list = []

for algo in algos:
    results = cross_validate(algo, data, measures=['RMSE'], cv=5, verbose=False)
    results_list.append((algo, results))

for algo, results in results_list:
    print(f'Algorithm: {algo.__class__.__name__}, RMSE: {results["test_rmse"].mean()}')

Algorithm: SVD, RMSE: 0.93541785978968
Algorithm: SVDpp, RMSE: 0.9186307507730526
Algorithm: NMF, RMSE: 0.9623197080929735
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Algorithm: KNNBasic, RMSE: 0.9792687268718657
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Computing the msd similarity matrix...
Done computing similarity matrix.
Algorithm: KNNWithZScore, RMSE: 0.9498487330831811


Візуалізація резульатів:

In [None]:
import matplotlib.pyplot as plt

algo_names = [algo.__class__.__name__ for algo in algos]
rmse_values = [results["test_rmse"].mean() for algo, results in zip(algos, results_list)]

plt.figure(figsize=(10, 5))
plt.bar(algo_names, rmse_values, color='skyblue')
plt.xlabel('Algorithms')
plt.ylabel('RMSE')
plt.title('RMSE for Different Algorithms')
plt.show()