In [None]:
!pip install scikit-surprise
import pandas as pd
import numpy as np
from surprise import SVD, NMF, SVDpp
from surprise import Dataset
from surprise import Reader
from surprise.model_selection import cross_validate

In [None]:
ratings = pd.read_csv('/content/ratings.csv')
movies = pd.read_csv('/content/movies.csv')
tags = pd.read_csv('/content/tags.csv')

In [None]:
merged_data = pd.merge(ratings, movies, on='movieId')
merged_data = pd.merge(merged_data, tags, on=['userId', 'movieId'])

In [None]:
reader = Reader(rating_scale=(1, 5))
data = Dataset.load_from_df(merged_data[['userId', 'movieId', 'rating']], reader)

In [None]:
svd = SVD()
svdpp = SVDpp()
nmf = NMF()

In [None]:
cross_validate(svd, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)


Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.3958  0.3789  0.3828  0.4173  0.4095  0.3969  0.0148  
MAE (testset)     0.2144  0.2083  0.2078  0.2259  0.2223  0.2157  0.0073  
Fit time          0.17    0.16    0.15    0.17    0.19    0.17    0.01    
Test time         0.02    0.02    0.03    0.05    0.03    0.03    0.01    


{'test_rmse': array([0.39579445, 0.37890207, 0.38282312, 0.41734902, 0.40951101]),
 'test_mae': array([0.21437142, 0.20827116, 0.20783267, 0.22588605, 0.22228031]),
 'fit_time': (0.16634178161621094,
  0.16364216804504395,
  0.15263700485229492,
  0.17004084587097168,
  0.1856064796447754),
 'test_time': (0.02122807502746582,
  0.02358841896057129,
  0.025414705276489258,
  0.045433998107910156,
  0.03316235542297363)}

**Висновки**

Середня квадратична помилка передбачення (RMSE) для моделі SVD складає 0.3969 зі стандартним відхиленням 0.0148. Це свідчить про те, що модель має низьку помилку у передбаченні.

Середня абсолютна помилка передбачення (MAE) для моделі SVD становить 0.2157 зі стандартним відхиленням 0.0073. Це також свідчить про високу точність моделі у передбаченні.

Час навчання моделі складає приблизно 0.17 секунди, а час тестування - 0.03 секунди. Це означає, що модель навчається досить швидко і має невеликий час виконання для передбачень.

Отже, модель матричної факторизації (SVD) має високу точність у передбаченні, низьку помилку та швидкість навчання, що робить її ефективним варіантом для рекомендаційних систем.

In [None]:
cross_validate(svdpp, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)


Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.3673  0.3925  0.3817  0.3636  0.3834  0.3777  0.0107  
MAE (testset)     0.1986  0.2170  0.2058  0.2000  0.2037  0.2050  0.0065  
Fit time          38.29   34.87   34.62   35.31   39.88   36.59   2.11    
Test time         4.82    5.62    4.88    4.87    4.82    5.00    0.31    


{'test_rmse': array([0.36733881, 0.39247479, 0.38173012, 0.36359439, 0.38342355]),
 'test_mae': array([0.19858937, 0.21697953, 0.20575702, 0.19997089, 0.20371672]),
 'fit_time': (38.287325382232666,
  34.86989498138428,
  34.624591588974,
  35.30998349189758,
  39.88260006904602),
 'test_time': (4.818500518798828,
  5.619095325469971,
  4.883431911468506,
  4.8720879554748535,
  4.824312686920166)}

**Висновки**

Середня квадратична помилка передбачення (RMSE) для моделі SVD++ складає 0.3777 зі стандартним відхиленням 0.0107. Це свідчить про високу точність моделі у передбаченні.

Середня абсолютна помилка передбачення (MAE) для моделі SVD++ становить 0.2050 зі стандартним відхиленням 0.0065. Це також свідчить про високу точність моделі.

Час навчання моделі складає приблизно 36.59 секунд, а час тестування - 5.00 секунд. Це означає, що модель SVD++ вимагає більше часу для навчання порівняно з SVD, але все ще забезпечує швидкість виконання передбачень на тестових даних.

Отже, можна зробити висновок, що модель SVD++ показує високу точність у передбаченні, з нижчим значенням RMSE та MAE порівняно з SVD. Втім, вона вимагає більше часу для навчання.

In [None]:
cross_validate(nmf, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)


Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.3852  0.4007  0.3659  0.4500  0.3743  0.3952  0.0298  
MAE (testset)     0.1986  0.2152  0.1904  0.2242  0.1951  0.2047  0.0128  
Fit time          0.41    0.40    0.43    0.44    0.37    0.41    0.03    
Test time         0.05    0.02    0.02    0.02    0.02    0.02    0.01    


{'test_rmse': array([0.38523899, 0.40067867, 0.36591266, 0.45001252, 0.37430863]),
 'test_mae': array([0.19861953, 0.21519768, 0.19041123, 0.22417653, 0.19505972]),
 'fit_time': (0.40869641304016113,
  0.39881157875061035,
  0.43105411529541016,
  0.4388144016265869,
  0.3662848472595215),
 'test_time': (0.0464785099029541,
  0.01801776885986328,
  0.01806926727294922,
  0.01755046844482422,
  0.017241239547729492)}

**Висновки**

Середня квадратична помилка передбачення (RMSE) для моделі NMF складає 0.3952 зі стандартним відхиленням 0.0298. Це свідчить про високу точність моделі у передбаченні.

Середня абсолютна помилка передбачення (MAE) для моделі NMF становить 0.2047 зі стандартним відхиленням 0.0128. Це також свідчить про високу точність моделі.

Час навчання моделі складає приблизно 0.41 секунд, а час тестування - 0.02 секунд. Модель NMF може займати більше часу для навчання порівняно зі SVD та SVD++, але її час тестування є швидким.

Отже, модель NMF також показує високу точність у передбаченні, але має трохи вищу помилку порівняно з SVD та SVD++. Проте, вона пропонує швидкий час тестування.

In [None]:
trainset = data.build_full_trainset()
svd.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7f6c79b3afb0>

In [None]:
trainset = data.build_full_trainset()
svdpp.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVDpp at 0x7f6c79b3b4f0>

In [None]:
trainset = data.build_full_trainset()
nmf.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.NMF at 0x7f6c79b3ae60>

**ДРУГА ЧАСТИНА**

In [8]:
ratings_data = pd.read_csv('/content/ratings.csv')
movies_data = pd.read_csv('/content/movies.csv')
genome_scores_data = pd.read_csv('/content/genome-scores.csv')
genome_tags_data = pd.read_csv('/content/genome-tags.csv')

In [9]:
users = ratings_data['userId'].unique()
movies = ratings_data['movieId'].unique()

In [10]:
num_users = len(users)
num_movies = len(movies)

In [11]:
ratings_matrix = np.zeros((num_users, num_movies))

In [12]:
user_indices = np.searchsorted(users, ratings_data['userId'])
movie_indices = np.searchsorted(movies, ratings_data['movieId'])

In [14]:
valid_indices = (user_indices < num_users) & (movie_indices < num_movies)
user_indices = user_indices[valid_indices]
movie_indices = movie_indices[valid_indices]
ratings_data = ratings_data[valid_indices]

In [15]:
ratings_matrix[user_indices, movie_indices] = ratings_data['rating']

In [16]:
user_similarity = np.dot(ratings_matrix, ratings_matrix.T)


In [17]:
genome_similarity_data = pd.pivot_table(genome_scores_data, index='movieId', columns='tagId', values='relevance').values

In [33]:
def predict_rating(user_id, movie_id):
    user_index = np.where(users == user_id)[0][0]
    movie_index = np.where(movies == movie_id)[0][0]

    rated_users = np.nonzero(ratings_matrix[:, movie_index])[0]

    similarities = user_similarity[user_index, rated_users]

    k = 5
    top_similarities = np.argsort(similarities)[-k:]

    weighted_ratings = np.sum(similarities[top_similarities] * ratings_matrix[rated_users[top_similarities], movie_index])
    similarity_sum = np.sum(np.abs(similarities[top_similarities]))

    if similarity_sum > 0:
        predicted_rating = weighted_ratings / similarity_sum
    else:
        predicted_rating = 0.0

    movie_title = movies_data[movies_data['movieId'] == movie_id]['title'].values[0]

    return predicted_rating, movie_title

**ПРИКЛАДИ ПРОГНОЗУВАННЯ ОЦІНКИ ОДНОГО ФІЛЬМУ ДЛЯ ОДНОГО КОРИСТУВАЧА**

In [34]:
user_id = 1
movie_id = 665

predicted_rating, movie_title = predict_rating(user_id, movie_id)
print(f"Прогнозований рейтинг користувача {user_id} для фільму '{movie_title} (ID: {movie_id})': {predicted_rating}")


Прогнозований рейтинг користувача 1 для фільму 'Underground (1995) (ID: 665)': 4.174919569170513


**Висновок**

З великою імовірністю, фільм 'Underground (1995) (ID: 665) сподобається користувачу з id 1

In [35]:
user_id = 1
movie_id = 33

predicted_rating, movie_title = predict_rating(user_id, movie_id)
print(f"Прогнозований рейтинг користувача {user_id} для фільму '{movie_title} (ID: {movie_id})': {predicted_rating}")


Прогнозований рейтинг користувача 1 для фільму 'Wings of Courage (1995) (ID: 33)': 0.0


**Висновок**

З фільм 'Wings of Courage (1995) (ID: 33) не сподобається користувачу з id 1

**ПРОГНОЗУВАННЯ ТОП-10 ФІЛЬМІВ, ЯКІ МОЖУТЬ СПОДОБАТИСЯ ОДНОМУ КОРИСТУВАЧУ**

In [36]:
def get_top_movies_for_user(user_id, top_n=10):
    user_index = np.where(users == user_id)[0][0]

    predicted_ratings = np.zeros(num_movies)
    for movie_index in range(num_movies):
        if ratings_matrix[user_index, movie_index] != 0:
            continue

        similarities = user_similarity[user_index, :]
        rated_users = np.nonzero(ratings_matrix[:, movie_index])[0]
        weighted_ratings = np.sum(similarities[rated_users] * ratings_matrix[rated_users, movie_index])
        similarity_sum = np.sum(np.abs(similarities[rated_users]))
        if similarity_sum > 0:
            predicted_ratings[movie_index] = weighted_ratings / similarity_sum

    top_movie_indices = np.argsort(predicted_ratings)[::-1][:top_n]

    top_movie_titles = [movies_data[movies_data['movieId'] == movies[index]]['title'].values[0] for index in top_movie_indices]

    return top_movie_indices, top_movie_titles

In [37]:
user_id = 1
top_movie_indices, top_movie_titles = get_top_movies_for_user(user_id)

print(f"Топ-10 фільмів для користувача {user_id}:")
for index, title in zip(top_movie_indices, top_movie_titles):
    print(f"{title} (ID: {movies[index]})")

Топ-10 фільмів для користувача 1:
Nightingale (2015) (ID: 133602)
Confidence (2003) (ID: 6322)
Easy Living (1937) (ID: 79832)
Replicant (2001) (ID: 65552)
Yu-Gi-Oh! (2004) (ID: 8811)
Standing Aside, Watching (2013) (ID: 128948)
Guess Who's Coming to Dinner (1967) (ID: 3451)
Jersey Girl (1992) (ID: 7417)
Hitman (Contract Killer) (Sat sau ji wong) (1998) (ID: 98854)
Get Out Your Handkerchiefs (Préparez vos mouchoirs) (1978) (ID: 5087)
