# Рекомендательные системы

Основано на материалах курса Д. И. Игнатова "Рекомендательные системы"

## План

1. Постановка задачи
2. Данные
3. Методы оценки
4. Подходы к решению
5. Практика

## Постановка задачи

У нас есть множество пользователей. Для каждого пользователя есть множество объектов, которые он оценил (поставил рейтинг). Именно этот рейтинг мы будем предсказывать.

Задача: для каждой пары пользователь-объект оценить рейтинг и предсказать топ наиболее "релевантных" пользователю объектов.

<img src="https://d2l.ai/_images/rec-intro.svg" alt="rec" width=800/>

При этом оценка от пользователя обычно делится на два вида:
- Явная, когда пользователь точно выразил свое отношение к объекту (поставил лайк, написал отзыв)
- Неявная, когда мы вынужжены по косвенным признакам определять оценки (время просмотра видео, клики)

***

Бывает, что задачу ставят в более общем виде как задачу предсказания наличия ребер в двудольном графе. Тогда мы считаем, что у нас есть:
- Два набора объектов (обычно) различной природы (авторы и статьи, покупатели и продукты, книги и ключевые слова). При этом принято один набор называть объектами, а второй - атрибутами.
- Информация о наличии связей между объектами. Причем связи могут быть только между объектами из разных наборов.


<img src="https://www.researchgate.net/publication/369199718/figure/fig4/AS:11431281183703059@1692966061534/K-partite-graph-illustration-a-A-user-item-bipartite-graph-with-nodes-representing-user.png" alt="rec"/>


И здесь есть два варианта постановки задачи:
- Object-Attribute task: предсказываем, должен ли данный объект иметь связь с данным атрибутом (является ли челоывек автором статьи, купит ли клиент продукт)
- Object-Object task: предсказываем, должны ли два объекта иметь связт с одним атрибутом (могут ли два человека быть соавторами, будут ли два продукта куплены вместе)

***

Отличие от задачи информационного поиска (и вообще поиска) заключается в отсутствии явно выраженного запроса.



## Данные

Чаще всего данные представляют собрй матрицу, где по строкам и столбцам расположены два набора объектов, а в ячейках стоят оценки. Иногда это длинная форма такой матрицы.

| user_id <br> item_id | 1 | 2 | 3 | 4 | 5 |
| -- | -- | -- | -- | -- | -- |
| 1 | 5.0 | 3.0 | 4.0 | 3.0 | 3.0 |
| 2 | 4.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| 3 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| 4 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0 |
| 5 | 4.0 | 3.0 | 0.0 | 0.0 | 0.0 |

Хорошие датасеты:
- [GroupLens](https://grouplens.org/datasets/movielens/)
- [RecSys Challenge](https://www.recsyschallenge.com/2024/)
- [Kinopoisk's movies reviews](https://www.kaggle.com/datasets/mikhailklemin/kinopoisks-movies-reviews): русскоязычный и подходит для content-based решений
- [Netflix Movies and TV Shows](https://www.kaggle.com/datasets/shivamb/netflix-shows) - англоязычный, подходит для content-based

## Методы оценки

Так как мы фактически решаем две задачи: предсказание наличия связи (и это классификация) и предсказание силы связи - оценки (это регресиия), мы имеем два набора метрик:
1. MSE, MAE etc - для предсказания оценки
2. Precision, Recall, F-score - для предсказания связи

Также мы можем использовать метрики для сравнения множеств (коэффициент Жаккара), корреляционные оценки (коэффициент Пирсона) и метрики для ранжирования (precision-top-k, precision@k).

## Подходы

### Content-based

Здесь мы делаем предсказания на основе похожести объектов с точки зрения контента. При этом под контеннтом может пониматься как реальное соджержание объекта (текст книги/песни, картинка), так и метаинформация о нем (актеры и кассовые сборы, описание картинки или песни).

Обычно у данного подхода выделяют несколько недостатков:
- Большая вычислительная сложность (тяжело работать с музыкой или большими текстами)
- Нужны сложные доменные модели. Мы не можем считать картинку и текст похожими объектами, если у нас нет мультимодальных моделей
- Для многих типов объектов не очень понятно, что такое контент в целом
- Нужно много данных для первичного обучения

### Collaborative filtering

Здесь есть два набора подходов:
1. Item-based: рекомендуем новые объкуты на основе их похожести на выбранные пользователем ранее. Какие здесь могут быть сложности? Что значит "похожесть" в данном случае?

2. User-based: рекомендуем пользователю новые объекты на основе того, что выбирают похожие на него пользователи. Какие здесь могут быть сложности? Что значит "похожесть" в данном случае?

<img src="https://www.researchgate.net/profile/Prakash-Upadhyaya/publication/366902172/figure/fig2/AS:11431281111439652@1672973053129/User-based-and-Item-based-Collaborative-Filtering.png" alt="rec"/>

На практике часто используются комбинированные методы.

### Возможные алгоритмы решения

- Методы на основе векторного расстояния между пользователями/объектами
- Методы на основе FCA (Formal Concept Analysis)
- Матричные разложения (и в целом весь спектр методов для задачи восстанволения пропусков в матрице)
- NLP подходы (считаем объекты/пользователей токенами и учимся их векторизовать)

## Практика

Давайте на небольшом кусочке датасета movielens попробуем реализовать простейшую версию Collaborative filtering.

Скачаем данные

In [None]:
!wget -q https://files.grouplens.org/datasets/movielens/ml-100k.zip
!unzip -q ml-100k.zip

In [None]:
from pathlib import Path

import pandas as pd
import numpy as np

from scipy.spatial.distance import correlation, euclidean

from sklearn.metrics import root_mean_squared_error, mean_absolute_error
from sklearn.preprocessing import normalize, MinMaxScaler, LabelEncoder
from sklearn.neighbors import NearestNeighbors

Прочитаем и подготовим их

In [None]:
def read_data(path, splits=('base', 'test')):
    res = []
    for split in splits:
        for filename in path.glob(f'*[0-9].{split}'):
            num = filename.stem[-1]
            cur = pd.read_csv(filename, sep='\t', header=None,
                names=['user id', 'item id', 'rating', 'timestamp'])
            cur['split_type'] = split
            cur['split_num'] = int(num) - 1
            res.append(cur)

    items = pd.read_csv(path / 'u.item', encoding='cp1252', sep='|',
                        header=None)[[0, 1]]
    items.columns = ['item_id', 'item_name']
    return pd.concat(res, ignore_index=True), items

In [None]:
def prepare_data(data, split_num):
    # get the matrix with ratings
    cur_data = data[data.split_num == split_num].reset_index(drop=True)

    # transfroming ids so that they match indexes in array
    le_user = LabelEncoder()
    cur_data['user_id'] = le_user.fit_transform(cur_data['user_id'])
    le_item = LabelEncoder()
    cur_data['item_id'] = le_user.fit_transform(cur_data['item_id'])

    cur = pd.pivot_table(
        cur_data, values='rating',
        index='user_id', columns='item_id',
        fill_value=0).sort_index().to_numpy()

    # masking test data to avoid using it during training
    tmp = cur_data[cur_data.split_type == 'test']
    cur[tmp.user_id, tmp.item_id] = 0

    # these matrix is user-item but can be transposed to item-user
    return cur, cur_data, le_user, le_item

Наши данные

In [None]:
df, items = read_data(Path('ml-100k'))
df.columns = ['user_id', 'item_id', 'rating', 'timestamp', 'split_type', 'split_num']
df.head(2)

Unnamed: 0,user_id,item_id,rating,timestamp,split_type,split_num
0,1,1,5,874965758,base,3
1,1,2,3,876893171,base,3


In [None]:
matrix, data, le_user, le_item = prepare_data(df, 0)
matrix.shape

(943, 1682)

In [None]:
matrix

array([[5., 3., 4., ..., 0., 0., 0.],
       [4., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [5., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 5., 0., ..., 0., 0., 0.]])

Найдем для каждого пользователя/объекта топ-5 ближайших.

In [None]:
nn = NearestNeighbors(n_neighbors=5, metric='cosine')
nn.fit(matrix)

In [None]:
res = nn.kneighbors(n_neighbors=5, return_distance=True)

In [None]:
res

(array([[0.59427149, 0.60518062, 0.61820833, 0.62828658, 0.6322421 ],
        [0.52553875, 0.54555288, 0.54728956, 0.55862954, 0.56454717],
        [0.59319158, 0.63887727, 0.64347507, 0.64678767, 0.65282597],
        ...,
        [0.49830971, 0.53576001, 0.58437442, 0.5961833 , 0.59620126],
        [0.59224456, 0.6192453 , 0.62202048, 0.63421442, 0.64215192],
        [0.45239179, 0.4906137 , 0.49853545, 0.50678107, 0.50802767]]),
 array([[822, 513, 863, 591, 520],
        [519, 734, 677, 700, 265],
        [655, 610, 783, 586, 488],
        ...,
        [688, 816, 729, 741, 581],
        [453, 473, 779, 487, 478],
        [681, 932, 550, 708, 585]]))

Предскажем отсутствующие оценки как среднее оценок ближайших

In [None]:
matrix[res[1][0]].mean(axis=0)

array([4. , 1.4, 0.8, ..., 0. , 0. , 0. ])

Посчитаем качество получившихся оценок

### Surprise

А еще есть библиотека surprise, в которой собраны многие методы и датасеты для рексистем

In [None]:
!pip install surprise --q

[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/154.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━[0m [32m81.9/154.4 kB[0m [31m2.9 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m154.4/154.4 kB[0m [31m2.9 MB/s[0m eta [36m0:00:00[0m
[?25h  Installing build dependencies ... [?25l[?25hdone
  Getting requirements to build wheel ... [?25l[?25hdone
  Preparing metadata (pyproject.toml) ... [?25l[?25hdone
  Building wheel for scikit-surprise (pyproject.toml) ... [?25l[?25hdone


In [None]:
from surprise import SVD
from surprise import Dataset
from surprise.model_selection import cross_validate

In [None]:
# Load the movielens-100k dataset (download it if needed).
data = Dataset.load_builtin('ml-100k')
data

Dataset ml-100k could not be found. Do you want to download it? [Y/n] Y
Trying to download dataset from https://files.grouplens.org/datasets/movielens/ml-100k.zip...
Done! Dataset ml-100k has been saved to /root/.surprise_data/ml-100k


<surprise.dataset.DatasetAutoFolds at 0x7db555ab7e80>

In [None]:
# Use the famous SVD algorithm.
algo = SVD()
algo

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x7db5552ff550>

In [None]:
# Run 5-fold cross-validation and print results.
cv_res = cross_validate(algo, data, measures=['RMSE', 'MAE'], cv=5, verbose=True)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9349  0.9311  0.9354  0.9396  0.9394  0.9361  0.0032  
MAE (testset)     0.7364  0.7342  0.7361  0.7437  0.7405  0.7382  0.0034  
Fit time          2.98    1.70    1.82    1.39    1.37    1.85    0.59    
Test time         0.29    0.28    0.11    0.21    0.11    0.20    0.08    


In [None]:
cv_res

{'test_rmse': array([0.9349106 , 0.93112037, 0.93540734, 0.9396431 , 0.93939263]),
 'test_mae': array([0.73644459, 0.73421179, 0.73605624, 0.74373255, 0.74047462]),
 'fit_time': (2.9752635955810547,
  1.6991918087005615,
  1.815857172012329,
  1.3855199813842773,
  1.3693408966064453),
 'test_time': (0.29216980934143066,
  0.27733898162841797,
  0.11218833923339844,
  0.20679688453674316,
  0.11165857315063477)}