1. Датасет ml-latest
2. Вспомнить подходы, которые мы разбирали
3. Выбрать понравившийся подход к гибридным системам
4. Написать свою

In [None]:
import numpy as np
import pandas as pd

from surprise import AlgoBase, KNNWithMeans, SVD, Dataset, accuracy, Reader
from surprise.model_selection import train_test_split

import warnings
warnings.filterwarnings("ignore")

In [5]:
users = pd.read_csv(
    'users.dat',
    delimiter='::',
    names=['UserID', 'Gender', 'Age', 'Occupation', 'Zip-code'],
    index_col=False
                   )
users

Unnamed: 0,UserID,Gender,Age,Occupation,Zip-code
0,1,F,1,10,48067
1,2,M,56,16,70072
2,3,M,25,15,55117
3,4,M,45,7,02460
4,5,M,25,20,55455
...,...,...,...,...,...
6035,6036,F,25,15,32603
6036,6037,F,45,1,76006
6037,6038,F,56,1,14706
6038,6039,F,45,0,01060


In [6]:
movies = pd.read_csv(
    'movies.dat',
    delimiter='::',
    names=['MovieID', 'Title', 'Genres'],
    index_col=False,
    encoding='latin-1'
                   )
movies

Unnamed: 0,MovieID,Title,Genres
0,1,Toy Story (1995),Animation|Children's|Comedy
1,2,Jumanji (1995),Adventure|Children's|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama
4,5,Father of the Bride Part II (1995),Comedy
...,...,...,...
3878,3948,Meet the Parents (2000),Comedy
3879,3949,Requiem for a Dream (2000),Drama
3880,3950,Tigerland (2000),Drama
3881,3951,Two Family House (2000),Drama


In [7]:
ratings = pd.read_csv(
    'ratings.dat',
    delimiter='::',
    names=['UserID', 'MovieID', 'Rating', 'Timestamp'],
    index_col=False
                   )
ratings

Unnamed: 0,UserID,MovieID,Rating,Timestamp
0,1,1193,5,978300760
1,1,661,3,978302109
2,1,914,3,978301968
3,1,3408,4,978300275
4,1,2355,5,978824291
...,...,...,...,...
1000204,6040,1091,1,956716541
1000205,6040,1094,5,956704887
1000206,6040,562,5,956704746
1000207,6040,1096,4,956715648


Я попробую  получить взвешенную оценку по двум алгоритмам и посмотреть, удастся ли таким образом снизить rmse лучшего из использованных алгоритмов.
В качестве исходных алгоритмов я выбрала SVD и KNNWithMeans

In [8]:
dataset = pd.DataFrame({
    'uid': ratings.UserID,
    'iid': ratings.MovieID,
    'rating': ratings.Rating
})

In [9]:
reader = Reader(rating_scale=(0.5, 5.0))
data = Dataset.load_from_df(dataset, reader)
data

<surprise.dataset.DatasetAutoFolds at 0x246b3eaab80>

In [10]:
trainset, testset = train_test_split(data, test_size=.2)

In [11]:
algo = SVD(n_factors=50, n_epochs=19, lr_all=0.0055, reg_all=0.03)
algo.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x246b3eaac10>

In [12]:
test_pred = algo.test(testset)
accuracy.rmse(test_pred, verbose=True)

RMSE: 0.8674


0.8673540146328259

In [54]:
algo.predict(uid=1, iid=3)

Prediction(uid=1, iid=3, r_ui=None, est=3.2278765694844576, details={'was_impossible': False})

In [38]:
algo_2 = KNNWithMeans(k=35, sim_options={'name': 'pearson_baseline', 'user_based': True})
algo_2.fit(trainset)

Estimating biases using als...
Computing the pearson_baseline similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNWithMeans at 0x246cfc1b280>

In [39]:
test_pred_2 = algo_2.test(testset)
accuracy.rmse(test_pred_2, verbose=True)

RMSE: 0.8902


0.8902416996057917

In [59]:
algo_2.predict(uid=1, iid=2)

Prediction(uid=1, iid=2, r_ui=None, est=3.9530879417180604, details={'actual_k': 35, 'was_impossible': False})

In [91]:
# Я не смогу воспользоваться встроенной функцией для расчета RMSE,
# потому что придется перевести данные в изменяемый формат.
def rmse(dct):
    sum_mse = 0
    for pred in dct:
        mse = (pred['r_ui'] - pred['est']) ** 2
        sum_mse += mse

    rmse = np.sqrt(sum_mse / len(dct))
    return rmse

In [93]:
#Словарь, в котором будет подсчитываться взвешенная оценка
test_pred_combinations = [{'uid': x.uid, 'iid': x.iid, 'r_ui': x.r_ui, 'est': x.est} for x in test_pred]

#Цикл для подсчета RMSE при разных весах алгоритмов
for i in range(5, 10):
    for pred in test_pred_combinations:
        est_svd = algo.predict(uid=pred['uid'], iid=pred['iid']).est
        est_knn = algo_2.predict(uid=pred['uid'], iid=pred['iid']).est
        pred['est'] = (est_svd * i / 10) + (est_knn * (10 - i) / 10)
    print(f'weghts: est_svd={i / 10}, est_knn = {(10 - i) / 10}')
    print(rmse(test_pred_combinations))
    print()

weghts: est_svd=0.5, est_knn = 0.5
0.8663333435148602

weghts: est_svd=0.6, est_knn = 0.4
0.8645149271752401

weghts: est_svd=0.7, est_knn = 0.3
0.8637067270675863

weghts: est_svd=0.8, est_knn = 0.2
0.8639115784063846

weghts: est_svd=0.9, est_knn = 0.1
0.8651287615593628



Таким образом, при использовании оценок двух алгоритмов в сочетании SVD=0.7 и KNN=0.3, удалось снизить RMSE, полученное при использовании SVD, почти на 0.04. Проверим, отразилось ли это улучшение на топ-15 рекомендуемых пользователю фильмов.

In [134]:
#Чтобы иметь возможность обращаться к рекомендациям по всем парам пользователь-фильм, пришлось запустить этот огромный цикл.
#Надеюсь, существует более экономный способ получить взвешенные рекомендации нескольких алгоритмов
#Прошу прощения за огромный вывод. Очень не хочется еще раз это запускать.
combine_pred = dict()
for user in users.UserID.unique():
    for movie in movies.MovieID.unique():
        estim = algo.predict(uid=user, iid=movie).est * 0.7 + algo_2.predict(uid=user, iid=movie).est * 0.3
        combine_pred[(user, movie)] = estim
combine_pred

Exception ignored in: <function tqdm.__del__ at 0x00000246ED74F820>
Traceback (most recent call last):
  File "C:\Users\Solnotka\anaconda3\envs\env_3\lib\site-packages\tqdm\std.py", line 1147, in __del__
    self.close()
  File "C:\Users\Solnotka\anaconda3\envs\env_3\lib\site-packages\tqdm\notebook.py", line 286, in close
    self.disp(bar_style='danger', check_delay=False)
AttributeError: 'tqdm_notebook' object has no attribute 'disp'
Exception ignored in: <function tqdm.__del__ at 0x00000246ED74F820>
Traceback (most recent call last):
  File "C:\Users\Solnotka\anaconda3\envs\env_3\lib\site-packages\tqdm\std.py", line 1147, in __del__
    self.close()
  File "C:\Users\Solnotka\anaconda3\envs\env_3\lib\site-packages\tqdm\notebook.py", line 286, in close
    self.disp(bar_style='danger', check_delay=False)
AttributeError: 'tqdm_notebook' object has no attribute 'disp'


{(1, 1): 4.603395766499226,
 (1, 2): 3.601578139472334,
 (1, 3): 3.4438713373850875,
 (1, 4): 3.213277017215174,
 (1, 5): 3.427905253319022,
 (1, 6): 4.06127608783021,
 (1, 7): 3.7950886401168944,
 (1, 8): 3.4572238093227154,
 (1, 9): 3.01386448041492,
 (1, 10): 3.860917982398381,
 (1, 11): 4.284593870918082,
 (1, 12): 2.7897019270340273,
 (1, 13): 3.671211975849259,
 (1, 14): 3.73522124550913,
 (1, 15): 2.8603654871957445,
 (1, 16): 3.9386279731637464,
 (1, 17): 4.432953494265345,
 (1, 18): 3.521775710297028,
 (1, 19): 2.7030382976609926,
 (1, 20): 2.92769190688732,
 (1, 21): 3.7134614920194537,
 (1, 22): 3.8132348701994325,
 (1, 23): 3.262051381163856,
 (1, 24): 3.471720574270474,
 (1, 25): 4.011446049110878,
 (1, 26): 4.057791258787781,
 (1, 27): 3.360498174419094,
 (1, 28): 4.355113901351336,
 (1, 29): 3.9984118032334486,
 (1, 30): 3.7467308964728163,
 (1, 31): 3.5586895035299544,
 (1, 32): 4.058899858280278,
 (1, 33): 3.82955940360885,
 (1, 34): 4.213650819299646,
 (1, 35): 3.8185

In [135]:
#Рекомендации комбинированного алгоритма
current_user_id = 19

user_movies = ratings[ratings.UserID == current_user_id].MovieID.unique()

estims = dict()

for movie in ratings.MovieID.unique():
    if movie in user_movies:
        continue
    
    else:
        title = movies.loc[movies.MovieID==movie, 'Title'].values[0]
        estims[title] = combine_pred[(19, movie)]

for est in sorted(estims, key=lambda x: estims[x], reverse=True)[:15]:
    print(f'{est}: {estims[est]}')

Sanjuro (1962): 4.6622636289245305
For All Mankind (1989): 4.471563664405459
Usual Suspects, The (1995): 4.451391021111444
American History X (1998): 4.446990073189466
400 Blows, The (Les Quatre cents coups) (1959): 4.404431647875417
Pather Panchali (1955): 4.365764070520732
Gladiator (2000): 4.346566228913647
Lamerica (1994): 4.316452029926639
When We Were Kings (1996): 4.306001953604887
King of Masks, The (Bian Lian) (1996): 4.302146500216923
Face in the Crowd, A (1957): 4.293065127228317
Sunset Blvd. (a.k.a. Sunset Boulevard) (1950): 4.2921289136679075
42 Up (1998): 4.284709078228897
Close Shave, A (1995): 4.282712045639721
Austin Powers: International Man of Mystery (1997): 4.277162266378626


In [136]:
#Рекомендации SVD для сравнения
current_user_id = 19
user_movies = ratings[ratings.UserID == current_user_id].MovieID.unique()

estims = dict()

for movie in ratings.MovieID.unique():
    if movie in user_movies:
        continue
    
    else:
        estims[movies.loc[movies.MovieID==movie, 'Title'].values[0]] = algo.predict(uid=current_user_id, iid=movie).est

for est in sorted(estims, key=lambda x: estims[x], reverse=True)[:15]:
    print(f'{est}: {estims[est]}')

Sanjuro (1962): 4.638571707122121
400 Blows, The (Les Quatre cents coups) (1959): 4.497859196670953
Pather Panchali (1955): 4.449066605729424
American History X (1998): 4.439533130828911
Usual Suspects, The (1995): 4.420020317821797
Conformist, The (Il Conformista) (1970): 4.382571773735829
Happy Gilmore (1996): 4.366643787283966
Gladiator (2000): 4.358837029110571
For All Mankind (1989): 4.349495614735335
Castle, The (1997): 4.296740295684857
Face in the Crowd, A (1957): 4.287496896973288
General, The (1927): 4.282542768108222
Charade (1963): 4.2563930409467075
To Live (Huozhe) (1994): 4.253707920049659
Austin Powers: International Man of Mystery (1997): 4.243244801336314


Таким образом, уменьшение погрешности на четыре сотых привело к довольно важным изменениям в списке рекомендаций для пользователя с id 19: изменился порядок фильмов, произошло несколько замен в рейтинге.