## Совместная фильтрация элемент-элемент
1. Оффлайн часть
1.1. Получаем оценки всех пользователей
1.2. Нормализуем их (столбец mean)
1.3. Заменяем id пользователей и фильмов на категории (например фильм с id 100111 получает категорию 0, фильм c id 100112 получает категорию 1 и так далее)
1.4. Объединяем колонку mean, колонку категорий пользователей и колонку категорий фильм в разряженную матрицу coo
1.5. Создаём матрицу перекрытия, чтобы исключить фильмы у которых мало оценок. Матрица перекрытия показывает сколько пользователей одновременно оценили фильм x и фильм y. 
1.6. Получаем матрицу сходства между фильмами, для вычисления сходство используется косиносовое сходство. cor = cosine_similarity
1.7. В матрице сходства обнуляем ячейки у которых низкое сходство и укоторых маленькое перекрытие
1.8. Из полученной матрице сходств формируем таблицу сходств фильмов (similarity_table), в которой категории фильмов заменены на их настоящие id 
2. Онлайн часть
2.1. Получаем оценки текущего пользователя
2.2. Сортируем оценки по самым высоким
2.3. Вычисляем среднюю оценку пользователя (current_user_mean)
2.4. Из таблицы сходств получаем только те фильмы которые оценены текущим пользователем
2.5. Из таблицы сходств исключаем фильмы которые оценены текущим пользователем и находятся в колонки target_id. То есть мы не будем рекомендовать пользователю фильмы, которые он уже посмотрел.
2.6. Вычисляем рекомендации для пользователя, и получаем таблицу вида: target_id; prediction;sim_movies;
где target_id - id фильма рекомендуемого пользователю; prediction - ожидаемая оценка данному фильму; sim_movies- на основание каких фильмов оцененных пользователем ранее выдана данная рекомендация.

In [30]:
import requests
import time
import pandas as pd
import surprise as surprise
import numpy as np
from decimal import Decimal
from scipy.sparse import coo_matrix
from scipy import sparse
from tqdm import tqdm
# косинусовое сходство
from sklearn.metrics.pairwise import cosine_similarity

In [31]:
users_ratings = pd.read_csv("ratings.csv")
print(users_ratings.head())

   userId  movieId  rating  timestamp
0       1        1     4.0  964982703
1       1        3     4.0  964981247
2       1        6     4.0  964982224
3       1       47     5.0  964983815
4       1       50     5.0  964982931


In [32]:
users_ratings = users_ratings.drop('timestamp', axis=1)
# movie_data = pd.merge(ratings_data, movie_names, on='movieId')
users_ratings.head()

Unnamed: 0,userId,movieId,rating
0,1,1,4.0
1,1,3,4.0
2,1,6,4.0
3,1,47,5.0
4,1,50,5.0


In [33]:
users_ratings['rating'].isnull().any()

False

In [34]:
# Нормализуем оценки вычтя из оценки среднюю оценку пользователя
def normalize(x):
    x = x.astype(float)
    x_sum = x.sum()
    x_num = x.astype(bool).sum()
    x_mean = x_sum / x_num

    if x_num == 1 or x.std() == 0:
        return 0.0
    print(x)
    print(x_mean)
    print((x.max() - x.min()))
    return (x - x_mean) / (x.max() - x.min())

In [35]:
count_col = users_ratings.groupby(['userId'])['rating'].count()
std_col = users_ratings.groupby(['userId'])['rating'].std()
mean_col = users_ratings.groupby(['userId'])['rating'].mean()
max_col = users_ratings.groupby(['userId'])['rating'].max()
min_col = users_ratings.groupby(['userId'])['rating'].min()


for index, row in users_ratings.iterrows():
    users_ratings.at[index,'mean']= 0.0 if (count_col.at[row['userId']]==1) or (std_col.at[row['userId']]==0)  else(row['rating']-mean_col.at[row['userId']])/(max_col.at[row['userId']]-min_col.at[row['userId']])
    
users_ratings.head()

Unnamed: 0,userId,movieId,rating,mean
0,1,1,4.0,-0.091595
1,1,3,4.0,-0.091595
2,1,6,4.0,-0.091595
3,1,47,5.0,0.158405
4,1,50,5.0,0.158405


In [36]:
# проверяем, что нет пропусков
users_ratings['mean'].isnull().any()

False

In [37]:
users_values = users_ratings['userId'].sort_values().unique()
movies_values = users_ratings['movieId'].sort_values().unique()
# print(movies_values)
user_categories = dict(enumerate(users_ratings['userId'].sort_values().unique()))
movie_categories = dict(enumerate(users_ratings['movieId'].sort_values().unique()))
# print(movie_categories)
for index, row in users_ratings.iterrows():
    # np.where return index   
    users_ratings.at[index,'movieId'] = np.where(movies_values == row['movieId'])[0]
    users_ratings.at[index,'userId'] = np.where(users_values == row['userId'])[0]

In [38]:
coo = coo_matrix((users_ratings['mean'], (users_ratings['movieId'],users_ratings['userId'])))

## Матрица перекрытия
Матрица перекрытия показывает сколько пользователей одновременно оценили фильм x и фильм y. 
Например цифра 3 показывает сколько людей одновременно оценили Храброе сердце и Эйс-Вентура.
Матрица смимметричная.
min_overlap=4
Мы можем не учитывать элементы, у которых мало оценок (например <= 4), так как это можно привести к неправильному значению сходства между этими фильмами.
number_of_overlaps - показывает сколько элементов осталось после примененения матрицы перекрытия

In [39]:
overlap_matrix = coo.astype(bool).astype(int).dot(coo.transpose().astype(bool).astype(int))
min_overlap=4
number_of_overlaps = (overlap_matrix > min_overlap).count_nonzero()

In [40]:
overlap_matrix.toarray()

array([[215,  68,  32, ...,   0,   0,   0],
       [ 68, 110,  26, ...,   0,   0,   0],
       [ 32,  26,  52, ...,   0,   0,   0],
       ...,
       [  0,   0,   0, ...,   1,   1,   0],
       [  0,   0,   0, ...,   1,   1,   0],
       [  0,   0,   0, ...,   0,   0,   1]], dtype=int32)

In [41]:
M[-1,:]

array([0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.        ,
       0.        , 0.        , 0.        , 0.        , 0.     

In [42]:
M=coo.toarray()
print(M.shape)

def calculate_pearson_distance_cor(M):
    Res = np.empty((M.shape[0],M.shape[0]))
    def my_pearson_distance(i,j):
        a = np.sum(M[i,:])/(M[i,:]!=0).sum()
        b = np.sum(M[j,:])/(M[j,:]!=0).sum()
        aa = np.where((M[i,:]!=0) &(M[j,:]!=0), M[i,:]-a, 0)
        bb = np.where((M[i,:]!=0) &(M[j,:]!=0), M[j,:]-b, 0)
        c = np.sum(aa*bb)
        d = (np.sqrt(np.sum(np.square(aa)))*np.sqrt(np.sum(np.square(bb))))
   
        return c/d
    for i in tqdm(range(M.shape[0])):
        for j in range(i,M.shape[0]):
            calculated = my_pearson_distance(i,j);
            if (i==j):
                Res[i,j]=calculated
            else:
                Res[i,j]=Res[j,i]=calculated
    Res[np.isnan(Res)] = 0
    return sparse.csr_matrix(Res)

cor = calculate_pearson_distance_cor(M)
print(cor.toarray())

  0%|                                                                                         | 0/9724 [00:00<?, ?it/s]

(9724, 610)


  return c/d
  b = np.sum(M[j,:])/(M[j,:]!=0).sum()
  a = np.sum(M[i,:])/(M[i,:]!=0).sum()
100%|██████████████████████████████████████████████████████████████████████████████| 9724/9724 [32:58<00:00,  4.92it/s]


[[ 1.          0.00658734  0.39166453 ...  0.          0.
   0.        ]
 [ 0.00658734  1.         -0.02202997 ...  0.          0.
   0.        ]
 [ 0.39166453 -0.02202997  1.         ...  0.          0.
   0.        ]
 ...
 [ 0.          0.          0.         ...  0.          0.
   0.        ]
 [ 0.          0.          0.         ...  0.          0.
   0.        ]
 [ 0.          0.          0.         ...  0.          0.
   0.        ]]


In [None]:
def save_full_sims(cor,movies_categories):
    coo = coo_matrix(cor)
    csr = coo.tocsr()
    
    no_saved = 0
    xs, ys = coo.nonzero()

    columns = ['source_id', 'target_id', 'similarity']
    M = pd.DataFrame([],columns=columns)

    for x, y in tqdm(zip(xs, ys)):
    #     x это первый элемент кортежа, y второй; x,y это id строк описаний между которыми вычисляется сходство
    
        sim = float(csr[x, y])
        M.loc[M.shape[0]] = [int(movies_categories[x]),int(movies_categories[y]),sim]
       
        no_saved += 1
   
    M['source_id'] =  M['source_id'].astype(int)
    M['target_id'] =  M['target_id'].astype(int)
    return M

In [None]:
full_similarity_table = save_full_sims(cor,movie_categories)
print(full_similarity_table)

In [None]:
full_similarity_table.to_csv('full_similarity_table_pearson.csv',index=False)

In [43]:
min_sim=0.2
# Отбрасываем элементы с низким сходством (-1 фильмы совершенно непохожи, 1 фильмы одинаковы)
cor = cor.multiply(cor > min_sim)
cor = cor.multiply(overlap_matrix > min_overlap)
print(cor.toarray())

[[1.         0.         0.39166453 ... 0.         0.         0.        ]
 [0.         1.         0.         ... 0.         0.         0.        ]
 [0.39166453 0.         1.         ... 0.         0.         0.        ]
 ...
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]
 [0.         0.         0.         ... 0.         0.         0.        ]]


In [54]:
np.count_nonzero(cor.toarray() > 0.5)

328238

In [44]:
# movie_categories

In [57]:
def save_sims(cor,movies_categories):
    coo = coo_matrix(cor)
    csr = coo.tocsr()
    
    no_saved = 0
    min_sim=0.5
    xs, ys = coo.nonzero()
    print(xs.shape)

    columns = ['source_id', 'target_id', 'similarity']
    M = pd.DataFrame([],columns=columns)

    for x, y in tqdm(zip(xs, ys)):
    #     x это первый элемент кортежа, y второй; x,y это id строк описаний между которыми вычисляется сходство
    
    # нет смысл сравнить строку описания с самой собой это вернёт 1 или близко к этому
        if x == y:
            continue
        sim = float(csr[x, y])
        if sim < min_sim:
            continue
        M.loc[M.shape[0]] = [int(movies_categories[x]),int(movies_categories[y]),sim]
       
        no_saved += 1
   
    M['source_id'] =  M['source_id'].astype(int)
    M['target_id'] =  M['target_id'].astype(int)
    return M

In [58]:
similarity_table = save_sims(cor,movie_categories)
print(similarity_table)

467it [00:00, 4635.83it/s]

(925590,)


925590it [28:03, 549.75it/s] 

        source_id  target_id  similarity
0               1          8    0.897319
1               1         20    0.521969
2               1         86    0.626821
3               1        144    0.676011
4               1        164    0.736871
...           ...        ...         ...
324585     187593     122912    0.708287
324586     187595       2011    0.646321
324587     187595       7153    0.574039
324588     187595     112852    0.769190
324589     187595     122900    0.550415

[324590 rows x 3 columns]





In [59]:
similarity_table.to_csv('similarity_table_pearson.csv',index=False)


In [151]:
#онлайн часть

In [60]:
similarity_table = pd.read_csv("similarity_table_pearson.csv")
print(similarity_table)

        source_id  target_id  similarity
0               1          8    0.897319
1               1         20    0.521969
2               1         86    0.626821
3               1        144    0.676011
4               1        164    0.736871
...           ...        ...         ...
324585     187593     122912    0.708287
324586     187595       2011    0.646321
324587     187595       7153    0.574039
324588     187595     112852    0.769190
324589     187595     122900    0.550415

[324590 rows x 3 columns]


In [61]:
# получаем оценки текущего пользователя
current_user_ratings  = users_ratings[users_ratings['userId']==1]

In [62]:
current_user_mean = current_user_ratings['rating'].mean()
print(current_user_mean)
# сортируем оценки по самым высоким
current_user_ratings.sort_values(['rating'], ascending=[0],inplace=True)
current_user_ratings.reset_index(drop=True, inplace=True)
print(current_user_ratings)

3.9482758620689653
    userId  movieId  rating      mean
0        1     8810     5.0  0.350575
1        1     8663     5.0  0.350575
2        1     8287     5.0  0.350575
3        1     7679     5.0  0.350575
4        1     6784     5.0  0.350575
5        1     7419     5.0  0.350575
6        1     1283     4.5  0.183908
7        1     6693     4.5  0.183908
8        1     6993     4.5  0.183908
9        1     7398     4.5  0.183908
10       1      291     4.0  0.017241
11       1     8448     4.0  0.017241
12       1     7572     4.0  0.017241
13       1     7355     4.0  0.017241
14       1     7241     4.0  0.017241
15       1     6298     4.0  0.017241
16       1     6236     4.0  0.017241
17       1     4607     4.0  0.017241
18       1     2670     4.0  0.017241
19       1     7750     3.5 -0.149425
20       1     8045     3.5 -0.149425
21       1     5294     3.5 -0.149425
22       1     8532     3.5 -0.149425
23       1     7306     3.0 -0.316092
24       1     7137     3.0 -0.

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  current_user_ratings.sort_values(['rating'], ascending=[0],inplace=True)


In [63]:
# получаем только те фильмы которые оцнены текущим пользователем и находятся в таблице сходств
in_source=similarity_table['source_id'].isin(current_user_ratings['movieId']) 
# Исключаем из таблице сходств уже оцененные фильмы пользователи (не нужно рекомендовать, то, что уже было просмотренно)
not_in_target=~similarity_table['target_id'].isin(current_user_ratings['movieId'])

# Получаем таблиц сходств для текущего пользователя
top_by_sims = similarity_table.loc[in_source &  not_in_target].sort_values(['similarity'], ascending=[0])[:30]
top_by_sims.reset_index(drop=True, inplace=True)
print(top_by_sims)

    source_id  target_id  similarity
0        7419      30810    0.978793
1         277       3257    0.976776
2        7137       6297    0.954456
3        7419       1136    0.948530
4        5294       6936    0.941191
5        7137       5481    0.936978
6        6993       1343    0.922498
7        5294       8366    0.918147
8        6993       1304    0.915143
9        7137       3082    0.914081
10       6993       2791    0.912192
11       7419       1291    0.904695
12       7137       6059    0.901581
13       8810      31221    0.901008
14        277       1409    0.897530
15       7137       2002    0.893122
16       7137         16    0.892129
17       7137       3752    0.884229
18       6993       6281    0.878859
19       6993       8622    0.878610
20       7137      51255    0.877852
21       7137       4720    0.875088
22        277       4040    0.870136
23       6993        915    0.866241
24       6993      51255    0.864232
25       7137       8983    0.863895
2

In [64]:
columns = ['target_id', 'prediction', 'sim_movies']
recs = pd.DataFrame([],columns=columns)
targets = top_by_sims['target_id']

for target_row in targets:
    pre = 0
    sim_sum = 0

    rated_items = top_by_sims[top_by_sims['target_id']==target_row]

    if len(rated_items) > 0:
        for index, sim_item in rated_items.iterrows():
#             получаем оценку пользователя для фильма
            user_rating = current_user_ratings[current_user_ratings['movieId']==sim_item['source_id']].iloc[0]['rating']
#         вычитаем из оценки среднюю для пользователя
            r = user_rating- current_user_mean
#     умножаем схожесть на оценку
            pre += sim_item.similarity * r
            sim_sum += sim_item.similarity
        if sim_sum > 0:
# формируем прогноз
            recs.loc[recs.shape[0]] = [target_row,current_user_mean + pre/sim_sum,rated_items['source_id'].values]

recs.sort_values(['prediction'], ascending=[0],inplace=True)
recs.reset_index(drop=True, inplace=True)
print(recs)


   target_id  prediction    sim_movies
0      30810    5.000000        [7419]
1       1136    5.000000        [7419]
2      31221    5.000000        [8810]
3       1291    5.000000        [7419]
4       1304    4.500000        [6993]
5       6281    4.500000        [6993]
6        915    4.500000        [6993]
7       8376    4.500000        [6993]
8       2791    4.500000        [6993]
9       1343    4.500000        [6993]
10     81591    4.500000        [1283]
11      8622    4.500000        [6993]
12     51255    3.744136  [7137, 6993]
13     51255    3.744136  [7137, 6993]
14      8366    3.500000        [5294]
15      6936    3.500000        [5294]
16      8983    3.000000        [7137]
17      4040    3.000000         [277]
18      4720    3.000000        [7137]
19      2794    3.000000        [7137]
20      2002    3.000000        [7137]
21      3752    3.000000        [7137]
22        16    3.000000        [7137]
23      3257    3.000000         [277]
24      1409    3.000000 

In [65]:
def get_recs(userId, n=30):
    current_user_ratings  = users_ratings[users_ratings['userId']==userId]
    
    current_user_mean = current_user_ratings['rating'].mean()

    # сортируем оценки по самым высоким
    current_user_ratings.sort_values(['rating'], ascending=[0],inplace=True)
    current_user_ratings.reset_index(drop=True, inplace=True)
    
    # получаем только те фильмы которые оцнены текущим пользователем и находятся в таблице сходств
    in_source=similarity_table['source_id'].isin(current_user_ratings['movieId']) 
    # Исключаем из таблице сходств уже оцененные фильмы пользователи (не нужно рекомендовать, то, что уже было просмотренно)
    not_in_target=~similarity_table['target_id'].isin(current_user_ratings['movieId'])

    # Получаем таблиц сходств для текущего пользователя
    top_by_sims = similarity_table.loc[in_source &  not_in_target].sort_values(['similarity'], ascending=[0])[:n]
    top_by_sims.reset_index(drop=True, inplace=True)
    
    columns = ['target_id', 'prediction', 'sim_movies']
    recs = pd.DataFrame([],columns=columns)
    targets = top_by_sims['target_id']

    for target_row in targets:
        pre = 0
        sim_sum = 0

        rated_items = top_by_sims[top_by_sims['target_id']==target_row]

        if len(rated_items) > 0:
            for index, sim_item in rated_items.iterrows():
    #             получаем оценку пользователя для фильма
                user_rating = current_user_ratings[current_user_ratings['movieId']==sim_item['source_id']].iloc[0]['rating']
    #         вычитаем из оценки среднюю для пользователя
                r = user_rating- current_user_mean
    #     умножаем схожесть на оценку
                pre += sim_item.similarity * r
                sim_sum += sim_item.similarity
            if sim_sum > 0:
    # формируем прогноз
                recs.loc[recs.shape[0]] = [target_row,current_user_mean + pre/sim_sum,rated_items['source_id'].values]

    recs.sort_values(['prediction'], ascending=[0],inplace=True)
    recs.reset_index(drop=True, inplace=True)
    
    return recs
    

In [66]:
get_recs(1, n=30)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  current_user_ratings.sort_values(['rating'], ascending=[0],inplace=True)


Unnamed: 0,target_id,prediction,sim_movies
0,30810,5.0,[7419]
1,1136,5.0,[7419]
2,31221,5.0,[8810]
3,1291,5.0,[7419]
4,1304,4.5,[6993]
5,6281,4.5,[6993]
6,915,4.5,[6993]
7,8376,4.5,[6993]
8,2791,4.5,[6993]
9,1343,4.5,[6993]
