Рекомендательные системы в современном мире одно из популярнейших приложений машинного обучения и статистических методов. Зайдя на сайт продавца мебели и посмотрев пару вариантов, контекстная реклама из всех углов вам еще пару дней будет надоедать баннерами с диванами и стульями. 

Наиболее приятный результат работы рекомендательных систем мы можем видеть на ютубе и различных онлайн-кинотеатрах - нам пытаются показать тот контент, который интересует непосредственно нас.

На данном занятии мы рассмотрим некоторые популярные (в прошлом и настоящем) алгоритмы.



# Коллаборативная фильтрация

Допустим, у нас есть матрица оценок пользователей различным фильмам. Наша задача в данном случае - на основании исторических оценок юзеров определенных фильмов порекомендовать какому-то конкретному юзеру посмотреть фильм, который он бы с наибольшим желанием увидел (при том, что уже мог что-то у нас посмотреть, а мог и не посмотреть).

Рассмотрим основные методы коллаборативной фильтрации. Допустим, что у нас есть айтем (например, фильм) и рэйтинг (например, оценка фильма).

## Memory-based коллаборативная фильтрация

Данный вид фильтрации не требует настройки никаких гиперпараметров и использует только исторические данные о поведении пользователей.

1. **User-item** фильтрация берет определенного пользователя, ищет пользователей, которые наиболее похожи на него (например, при помощи косинусного расстояния), исходя из информации о рейтинге рекомендует нужный айтем, который был в среднем чаще выбран этими похожими пользователями.

2. **Item-item** фильтрация берет определенный item, ищет пользователей, которые наиболее высоко их оценили и ищет другие item, к которым в среднем были лояльны эти пользователи.

**User-Item** коллаборативная фильтрация: юзерам, которые похожи на определенного юзера, также нравится...

**Item-Item** коллаборативная фильтрация: юзерам, которым нравится этот item, также нравится...


Примерный алгоритм user-item коллаборативной фильтрации выглядит следующим образом.


1. Выбрать L пользователей, вкусы которых больше всего похожи на вкусы рассматриваемого юзера. Для этого для каждого из пользователей нужно вычислить выбранную меру (в нашем случае косинусную, подробней ниже) в отношении рассматриваемого пользователя, и выбрать L наибольших. 

2. Для каждого из пользователей умножить его оценки на вычисленное значение меры, таким образом оценки более «похожих» пользователей будут сильнее влиять на итоговую позицию продукта

3. Для каждого из продуктов посчитать сумму калиброванных оценок L наиболее близких пользователей, полученную сумму разделить на сумму мер L выбранных пользователей. 

Косинусная мера близости вычисляется следующим образом:

$$ \Large CosineSimilarity(u, u') = \frac{r_u r_u'} {||r_u|| \ ||r_u'||} = \sum_i \frac{r_{ui} r_{u'i}} {\sqrt{\sum_i r^2_{ui}}
\sqrt{\sum_i r^2_{u'i}} } $$

Рекомендуем юзеру $u$ айтем $i$ с наибольшим значеничем следующей дроби:

$$ \Large \hat{r_{ui}} = \frac{  \sum_{u'} CosineSimilarity(u, u') r_{u'i} } 
{ \sum_{u'}|CosineSimilarity(u, u')| } $$

$r_{ui}$ - рейтинг от пользователя $u$ айтему $i$

Давайте попробуем порекомендовать фильмы различным пользователем на примере датасета Movielens.

In [14]:
import os
import glob
import pandas as pd
import numpy as np
os.chdir("/Users/iakubovskii/Machine_Learning/RANEPA/Fintech_2020/Машинное обучение/Данные/ml-100k")
ratings =  pd.read_csv('u.data', sep="\t", header=None)
ratings.columns = ['user_id', 'item_id', 'rating', 'timestamp']



In [19]:
# Create sparse matrix 
from scipy import sparse
user_item_sparse = sparse.csr_matrix(ratings.pivot_table(
                                     index = 'user_id', columns = 'item_id',
                                                values = 'rating'))

In [24]:
# !pip install scikit-surprise
from surprise import Dataset
data = Dataset.load_builtin('ml-100k')

In [20]:
user_item_sparse

<943x1682 sparse matrix of type '<class 'numpy.float64'>'
	with 1586126 stored elements in Compressed Sparse Row format>

In [26]:
data.load_builtin()

<surprise.dataset.DatasetAutoFolds at 0x7f89b2446970>