### Реализация алгоритма коллаборативной фильтрации

In [103]:
import pandas as pd
import os
import numpy as np

DATA_PATH = '../data/'

ratings_main = pd.read_csv(
    os.path.join(DATA_PATH, 'ratings.csv'),
    dtype={
        'user_uid': np.uint32,
        'element_uid': np.uint16,
        'rating': np.uint8,
        'ts': np.float64,
    }
)

In [104]:
ratings_main.head(6)

Unnamed: 0,user_uid,element_uid,rating,ts
0,571252,1364,10,44305170.0
1,63140,3037,10,44305140.0
2,443817,4363,8,44305140.0
3,359870,1364,10,44305060.0
4,359870,3578,9,44305060.0
5,557663,1918,10,44305050.0


In [105]:
print('Number of unique users =', len(ratings_main['user_uid'].unique()))
print('Number of unique elements =', len(ratings_main['element_uid'].unique()))

Number of unique users = 104563
Number of unique elements = 7519


Уникальных элементов (то есть фильмов, которым выставлена хотя бы одна оценка) в датасете почти в 14 раз меньше, чем уникальных пользователей, поэтому имеет смысл производить фильтрацию по элементам.

Кроме того, стоит удалить из списка фильмов фильмы с одной единственной оценкой на весь датасет, так как оценки от одного пользователя недостаточно, чтобы как-то охарактеризовать фильм (мнение одного человека очень субъективно) и спрогнозировать оценки других пользователей, которые ему, предположительно, могли бы быть даны.

In [106]:
data = ratings_main.groupby('element_uid').agg({'element_uid': ['count']})
ind = set(data[data['element_uid']['count'] > 2].index)

In [107]:
grouped = ratings_main.groupby('element_uid')

ratings_main = grouped.filter(lambda x: set(x['element_uid']).issubset(ind))

In [108]:
ratings_main.shape

(436281, 4)

Далее отбираю 30_000 строк для обучения, так как обучение на всём датасете займёт большое время.
Делаю это с помощью стратифицированной по элементам выборки, иначе из-за большой разреженности матрицы рекомендации получатся неинформативными.

In [109]:
from sklearn.model_selection import StratifiedShuffleSplit

In [110]:
sss = StratifiedShuffleSplit(n_splits=1, train_size=30_000, random_state=0)

In [111]:
for _, (train_index, _) in enumerate(sss.split(ratings_main, ratings_main['element_uid'])):
    ratings_main = ratings_main.iloc[train_index]

In [112]:
ratings_main

Unnamed: 0,user_uid,element_uid,rating,ts
265211,249124,125,10,4.275606e+07
164880,269488,8344,10,4.329471e+07
296680,518023,793,10,4.254842e+07
47493,427046,5777,10,4.393893e+07
433322,529368,3916,8,4.175389e+07
...,...,...,...,...
387991,538047,9966,6,4.199625e+07
267002,453865,3757,8,4.274535e+07
409758,482593,6594,9,4.187928e+07
423263,429960,3478,10,4.180310e+07


In [113]:
print('Number of unique users =', len(ratings_main['user_uid'].unique()))
print('Number of unique elements =', len(ratings_main['element_uid'].unique()))

Number of unique users = 21367
Number of unique elements = 4173


Удаляю строки с оценкой фильма 0 (используется шкала от 1 до 10, поэтому это мусор)

In [114]:
ratings_main = ratings_main.drop(labels=ratings_main.groupby('rating').get_group(0).index)

In [115]:
from scipy.sparse import coo_matrix
from sklearn.metrics.pairwise import cosine_similarity

In [116]:
def normalize(x):
    x = x.astype(float)
    x_sum = x.sum()
    x_num = x.astype(bool).sum()
    if x_num == 0:
        print(x)
    x_mean = x_sum / x_num
    x_range = x.max() - x.min()

    if x_range == 0:
        return 0.0
    
    return (x - x_mean) / x.std()

In [117]:
def get_coo_matrix(ratings_main):
    
    # составляю разреженную матрицу оценок пользователями просмотренных фильмов
    # по датасету ratings_main
    # строки соответствуют пользователям, столбцы --- фильмам

    users = ratings_main['user_uid'].astype('category')
    elements = ratings_main['element_uid'].astype('category')
    ratings = ratings_main.groupby('user_uid')['rating'].transform(lambda x: normalize(x))
    
    coo = coo_matrix((ratings.astype(float),
                    (users.cat.codes.copy(), elements.cat.codes.copy())))
    
    return coo

In [118]:
def get_cor_matrix(ratings_main):
    
    coo = get_coo_matrix(ratings_main)
    
    # считаю матрицу перекрытия, которая показывает,
    # сколько пользователей оценили оба фильма i и j

    overlap_matrix = coo.T.astype(bool).astype(int) @ coo.astype(bool).astype(int) 
    
    # задаю минимальное допустимое число пользователей, оценивших оба фильма

    min_overlap = 3 
    
    # вычисляю матрицу сходства фильмов
    
    cor = cosine_similarity(coo.T, dense_output=False)
    cor = cor.multiply(cor > 0.4) # удаляю слишком низкие значения сходств
    
    # удаляю сходства с недостаточным перекрытием
    
    cor = cor.multiply(overlap_matrix > min_overlap) 
    
    return cor

In [119]:
def predict_rating(user, elem, ratings_main, coo, cor):
    
    # рассчитываю прогнозы, отталкиваясь от средней оценки пользователя,
    # так как разные пользователи по-разному оценивают свои впечатления
    # и могут иметь привычку завышать/занижать оценку
    mean_r = ratings_main.groupby('user_uid')['rating'].mean()[user] 
    i = ratings_main[ratings_main['user_uid']==user].index[0]
    j = ratings_main[ratings_main['element_uid']==elem].index[0]
    ind1 = ratings_main['user_uid'].astype('category').cat.codes.to_frame().loc[i]
    ind2 = ratings_main['element_uid'].astype('category').cat.codes.to_frame().loc[j]
    numerator = coo.toarray()[ind1[0]] @ cor.toarray()[ind2[0]]
    denominator = cor.toarray()[ind2[0]].sum()
    
    if denominator == 0:
        return 0.0
    
    return mean_r + numerator / denominator

In [120]:
# пример составления рекомендаций для пользователя 24124

import random

user = 24124

ratings_without_user = ratings_main.drop(labels=ratings_main.groupby('user_uid').get_group(user).index, 
                                         inplace=False)
elements_list = list(ratings_without_user['element_uid'].unique())
elements_sample = random.sample(elements_list, k=10)
predicted_ratings = {}

coo = get_coo_matrix(ratings_main)
cor = get_cor_matrix(ratings_main)

for elem in elements_sample:
    r = predict_rating(user, elem, ratings_main, coo, cor)
    predicted_ratings[elem] = round(r, 2)
    
predicted_ratings

{30: 7.76,
 5821: 0.0,
 7279: 0.0,
 5180: 0.0,
 6330: 0.0,
 2625: 0.0,
 9920: 0.0,
 9898: 0.0,
 4639: 7.76,
 6909: 0.0}

Многие прогнозы получаются нулевыми из-за большой разреженности матрицы - ниже можно наблюдать таблицу с количеством оценок по каждому фильму (в исходном датасете). У многих фильмов количество оценок несоизмеримо мало по сравнению с количеством пользователей (пара десятков оценок на более сотни тысяч пользователей), поэтому имеющиеся оценки вносят большой вклад.

In [121]:
data

Unnamed: 0_level_0,element_uid
Unnamed: 0_level_1,count
element_uid,Unnamed: 1_level_2
3,29
4,2
6,12
7,14
9,1
...,...
10187,2
10194,2
10196,4
10197,1
