## Задание к теме «Гибридные рекомендательные системы»

Что делать?

Датасет ml-latest
1. Вспомнить подходы, которые мы разбирали
2. Выбрать понравившийся подход к гибридным системам
3. Написать свою

In [1]:
import pandas as pd
from surprise import KNNBaseline
from surprise import Dataset
from surprise import Reader
from surprise import accuracy

In [3]:
links = pd.read_csv('links.csv')
movies = pd.read_csv('movies.csv')
ratings = pd.read_csv('ratings.csv')
tags = pd.read_csv('tags.csv')

In [4]:
movies_with_ratings = movies.join(ratings.set_index('movieId'), on='movieId').reset_index(drop=True)
movies_with_ratings.dropna(inplace=True)

In [5]:
dataset = pd.DataFrame({
    'uid': movies_with_ratings.userId,
    'iid': movies_with_ratings.title,
    'rating': movies_with_ratings.rating
})

In [7]:
reader = Reader(rating_scale=(dataset.rating.min(), dataset.rating.max()))
data = Dataset.load_from_df(dataset, reader)

In [8]:
from surprise.model_selection import train_test_split
trainset, testset = train_test_split(data, test_size=0.15)

In [9]:
algo1 = KNNBaseline(k=40, min_k=20, sim_options={'name': 'pearson_baseline', 'user_based': True})
algo1.fit(trainset)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBaseline at 0x1b1bd5c10a0>

In [10]:
algo1.predict(uid=10, iid='Addams Family Values (1993)').est

2.9197234671106655

In [11]:
test_pred = algo1.test(testset)
accuracy.rmse(test_pred, verbose=True)

RMSE: 0.8489


0.8488803309301083

In [12]:
from surprise import CoClustering
algo2 = CoClustering()
algo2.fit(trainset)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  algo2.fit(trainset)


<surprise.prediction_algorithms.co_clustering.CoClustering at 0x1b1bfbcabb0>

In [13]:
algo2.predict(uid=10, iid='Addams Family Values (1993)').est

2.8068374432078604

In [14]:
test_pred = algo2.test(testset)
accuracy.rmse(test_pred, verbose=True)

RMSE: 0.9382


0.9382468057156881

### На основе приведенных выше моделей создадим гибридную модель. CoClustering имеет высокую ошибку, но высокую скорость действия -> им будем отбирать топ 10 фильмов из тестовой выборки. А более точный, но затратный алгоритм KNNBaseline будем использовать для ранжирования топ 10, полученного на прошлом шаге.

In [15]:
def complex_mod(algo1, algo2, testset, uid):
    
    user_df = pd.DataFrame(testset)
    user_df.columns = ['uid', 'iid', 'rating']
    user_df = user_df[user_df.uid == uid]
    
    user_df['Сс_rating'] = user_df.apply(lambda x: algo2.predict(uid=uid, iid=x[1]).est, axis=1)
    
    user_df = user_df.sort_values(by = ['Сс_rating'], ascending=False)
    user_df = user_df[0:10]
     
    user_df['KNN_rating'] = user_df.apply(lambda x: algo1.predict(uid=uid, iid=x[1]).est, axis=1)
    
    user_df = user_df.sort_values(by = ['KNN_rating'], ascending=False)
    user_df = user_df[:10][['iid','KNN_rating']]
    
    return user_df

Лист рекомендаций для пользователя с id = 10

In [16]:
complex_mod(algo1, algo2, testset, 40)

Unnamed: 0,iid,KNN_rating
186,Clerks (1994),4.262798
3365,Babe (1995),4.218581
14299,Mr. Holland's Opus (1995),4.113294
9904,"Lion King, The (1994)",4.087117
8348,Three Colors: Blue (Trois couleurs: Bleu) (1993),4.011141
2012,Carlito's Way (1993),3.98224
6472,Boys on the Side (1995),3.822895
1712,"Amazing Panda Adventure, The (1995)",3.717504
7637,Die Hard: With a Vengeance (1995),3.643939
5838,"River Wild, The (1994)",3.609537
