# Импортирование нужных библиотек

In [2]:
import pandas as pd
import numpy as np

# Данные

Создадим небольшой датасет, в котором будут оценки пользователей на конкретные фильмы

In [10]:
df = pd.DataFrame({
    "user": ["Дашуля", "Фридман", "Ася", "Дмитрий Юрьевич", "Иван", "Дашуля", "Фридман", "Ася", "Дмитрий Юрьевич", "Иван", "Дашуля", "Ася", "Иван", "Дашуля", "Фридман", "Дмитрий Юрьевич", "Иван", "Дашуля", "Фридман", "Ася", "Дмитрий Юрьевич"],
    "movie": ["Математики","Математики","Математики","Математики","Страх и ненависть на дифурах ", "Страх и ненависть на дифурах ","Страх и ненависть на дифурах ","Страх и ненависть на дифурах ","Страх и ненависть на дифурах ","Once Upon a Applied Math", "Once Upon a Applied Math",  "Once Upon a Applied Math", "Функции, производные, две матрицы","Функции, производные, две матрицы","Функции, производные, две матрицы","Функции, производные, две матрицы","Не грози южному централу, решая уравнения у себя в квартале", "Не грози южному централу, решая уравнения у себя в квартале","Не грози южному централу, решая уравнения у себя в квартале","Не грози южному централу, решая уравнения у себя в квартале", "Не грози южному централу, решая уравнения у себя в квартале"],
    "rating": [3, 5, 5, 2, 3, 5, 3, 5, 3, 4, 2, 5, 5, 2, 4, 2, 2, 5, 3, 4, 2]
})
df

Unnamed: 0,user,movie,rating
0,Дашуля,Математики,3
1,Фридман,Математики,5
2,Ася,Математики,5
3,Дмитрий Юрьевич,Математики,2
4,Иван,Страх и ненависть на дифурах,3
5,Дашуля,Страх и ненависть на дифурах,5
6,Фридман,Страх и ненависть на дифурах,3
7,Ася,Страх и ненависть на дифурах,5
8,Дмитрий Юрьевич,Страх и ненависть на дифурах,3
9,Иван,Once Upon a Applied Math,4


Построим **матрицу смежности** для оценок пользователей

In [11]:
interact_matrix = pd.pivot_table(df, index="user", columns="movie", values="rating")
source_interact_matrix = interact_matrix.copy()
interact_matrix

movie,Once Upon a Applied Math,Математики,"Не грози южному централу, решая уравнения у себя в квартале",Страх и ненависть на дифурах,"Функции, производные, две матрицы"
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ася,5.0,5.0,4.0,5.0,
Дашуля,2.0,3.0,5.0,5.0,2.0
Дмитрий Юрьевич,,2.0,2.0,3.0,2.0
Иван,4.0,,2.0,3.0,5.0
Фридман,,5.0,3.0,3.0,4.0


Обнулим среднуюю оценку для каждого польщователя
Так как каждый пользователь оценивает фильмы *по-своему*, то некоторые оценки могут быть информативны, а некоторые нет. Например, для пользователя, который ставит оценки ``8-10`` почти всем фильмам высокие оценки не информативны, в отличие от низких  ``0-4``

In [12]:
for i in range(len(interact_matrix)):
    interact_matrix.iloc[i] -= interact_matrix.iloc[i].mean()
interact_matrix.fillna(0, inplace=True)
interact_matrix

movie,Once Upon a Applied Math,Математики,"Не грози южному централу, решая уравнения у себя в квартале",Страх и ненависть на дифурах,"Функции, производные, две матрицы"
user,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Ася,0.25,0.25,-0.75,0.25,0.0
Дашуля,-1.4,-0.4,1.6,1.6,-1.4
Дмитрий Юрьевич,0.0,-0.25,-0.25,0.75,-0.25
Иван,0.5,0.0,-1.5,-0.5,1.5
Фридман,0.0,1.25,-0.75,-0.75,0.25


Создадим словарь, где ключем будет индекс столбца фильма, а значением его название

In [13]:
columns = source_interact_matrix.columns
id_to_movie = {i: columns[i] for i in range(len(columns))}
id_to_movie

{0: 'Once Upon a Applied Math',
 1: 'Математики',
 2: 'Не грози южному централу, решая уравнения у себя в квартале',
 3: 'Страх и ненависть на дифурах ',
 4: 'Функции, производные, две матрицы'}

# Построим модель колаборативной фильтрации

Импортируем метрику схожести объектов, в данном случае будем просто считать косинус угла между векторами, тем самым чем ближе косинус угла между векторами к **единице**, тем больше они похожи

In [14]:
from sklearn.metrics.pairwise import cosine_similarity

Попробуем предсказать оценку **Ивана** на фильм **Математики**

Все пропущенные значения заменим на среднюю оценку **Ивана**

In [None]:
ivan_ratings = source_interact_matrix.loc["Иван"].values
ivan_ratings[np.isnan(ivan_ratings)] = np.nanmean(ivan_ratings)
ivan_ratings

array([4. , 3.5, 2. , 3. , 5. ])

## user-based фильтрация

Построим матрицу схожести каждого пользователя с каждым

In [18]:
user_based_sim = cosine_similarity(interact_matrix)
np.fill_diagonal(user_based_sim, 0)
user_based_sim

array([[ 0.        , -0.47586687,  0.41666667,  0.5809475 ,  0.47871355],
       [-0.47586687,  0.        ,  0.47586687, -0.88465174, -0.64613475],
       [ 0.41666667,  0.47586687,  0.        , -0.19364917, -0.52223297],
       [ 0.5809475 , -0.88465174, -0.19364917,  0.        ,  0.5056499 ],
       [ 0.47871355, -0.64613475, -0.52223297,  0.5056499 ,  0.        ]])

**Как происходит оценка оценка рейтинга для фильму?**

Простой и логичный подход – приблизить новый рейтинг как средний рейтинг данного пользователя плюс отклонения от среднего рейтингов других пользователей, взвешенных этими самыми весами

$$r_{i, a} = \overline{r_i} + \frac{∑(r_{j, a} - \overline{r_j})*w_{i, j}}{∑|w_{i, j}|}$$

$\overline{r_i}$ - средний рейтинг пользователя

$w_{i, j}$ - "похожесть" между полльзователями

Возьмем строку из ``user_based_sim``, где рассчитаны соседи **Ивана**

In [20]:
ivan_sim = user_based_sim[3]

In [23]:
pred = ivan_ratings.mean() + interact_matrix.T.dot(ivan_sim) / abs(ivan_sim).sum()
for movie, rating in pred.items():
    print(f"Фильм: {movie},\nПредсказанная оценка: {rating}")

Фильм: Once Upon a Applied Math,
Предсказанная оценка: 4.139175200633995
Фильм: Математики,
Предсказанная оценка: 4.044862653131029
Фильм: Не грози южному централу, решая уравнения у себя в квартале,
Предсказанная оценка: 2.4921103761311945
Фильм: Страх и ненависть на дифурах ,
Предсказанная оценка: 2.6710094653312604
Фильм: Функции, производные, две матрицы,
Предсказанная оценка: 4.152842304772522


Таким образом мы видим, что **Иван** поставит фильму **Математики** оценку ``4``

## item-based фильтрация

Построим матрицу схожести каждого фильма с каждым

In [15]:
item_based_sim = cosine_similarity(interact_matrix.transpose())
np.fill_diagonal(item_based_sim, 0)
item_based_sim

array([[ 0.        ,  0.30380519, -0.86069342, -0.80540265,  0.86342137],
       [ 0.30380519,  0.        , -0.51145776, -0.62647055,  0.33038843],
       [-0.86069342, -0.51145776,  0.        ,  0.71429623, -0.90509054],
       [-0.80540265, -0.62647055,  0.71429623,  0.        , -0.80834412],
       [ 0.86342137,  0.33038843, -0.90509054, -0.80834412,  0.        ]])

**Теперь займемся предсказаниями оценок**

Чтобы предсказывать оценку пользователя на конретный фильм можем воспользоваться формулой

$r_i = \overline{r_i} + \frac{\sum(r_b - \overline{r_i})*w_{ab}}{∑|w_{ab}|}$

$\overline{r_i}$ - средний рейтинг пользователя

$w_{ab}$ - "похожесть" между объектами

Таким образом, из этой формулы ясно, что достаточно умножить матрицу ``item-item`` на вектор оценок польователя, где все пропущенные значения заменены средней оценкой пользователя

In [17]:
pred = ivan_ratings.mean() + (item_based_sim.dot(ivan_ratings - ivan_ratings.mean()) / abs(item_based_sim).sum(axis=1))
for i in range(len(pred)):
    print(f"Фильм: {id_to_movie[i]},\nПредсказанная оценка: {pred[i]}")

Фильм: Once Upon a Applied Math,
Предсказанная оценка: 4.55490051869921
Фильм: Математики,
Предсказанная оценка: 4.475049812455768
Фильм: Не грози южному централу, решая уравнения у себя в квартале,
Предсказанная оценка: 2.7829338375767456
Фильм: Страх и ненависть на дифурах ,
Предсказанная оценка: 2.5906584789819083
Фильм: Функции, производные, две матрицы,
Предсказанная оценка: 4.2545008969816775


Таким образом мы видим, что **Иван** поставит фильму **Математики** оценку ``4.4``