# MATH&ML-14 Рекомендательные системы. Част I
###  Содержание <a class="anchor" id=0></a>

- [2. Подходы к построению. Примеры](#2)
- [3. Данные для рекомендательных систем](#3)
- [4. Метрики в рекомендательных системах](#4)
- [5. Проблема холодного старта](#5)
- [6. Практика](#6)
- [7. Итоги](#7)

## 2. Подходы к построению. Примеры <a class="anchor" id=2></a>

[к содержанию](#0)

<img src= ml14_img1.png width=1000>


### Неперсонализированные (Non-personalized)

Этот вид рекомендательных систем никак не зависит от действий и характеристик конкретного пользователя.
***

### На основе популярности (Popularity-based)

Рекомендации могут быть основаны на популярности: пользователям рекомендуют наиболее востребованные продукты, например топ-10 фильмов, самые продаваемые книги/товары.

Именно по такому принципу будет построена ваша первая рекомендательная система, которую мы реализуем уже в этом модуле.
***
### Персонализированные (Personalized) 
Такие рекомендательные системы базируются на детальном анализе данных пользователей, изучении их действий, покупок, взаимодействия с другими пользователями. Таким образом, каждый человек получает индивидуальную рекомендацию конкретно под его особенности и предпочтения.

Наиболее популярными типами персонализированных рекомендательных систем являются системы, основанные на контенте (`content-based`) и коллаборативной фильтрации (`collaborative filtering`).
***

### На основе контента (Content-based)

Рекомендательные системы на основе контента используют метаданные (дополнительные данные о данных) о товарах или пользователях для создания конкретных рекомендаций. Например, если пользователь уже читал книгу одного автора или покупал товар определённой марки, то предполагается, что он отдаёт предпочтение этому автору или этой марке, и существует вероятность, что он купит аналогичный товар в будущем.

Предположим, пользователю Ане нравятся научно-фантастические книги, и её любимый писатель — Уолтер Джон Уильямс. Если она прочитала книгу "Aristoi", то рекомендуемой ей книгой будет "Angel Station" — ещё одна научно-фантастическая книга, написанная Уолтером Джоном Уильямсом.

<img src= ml14_img2.png width=400>

*** 
### Коллаборативная фильтрация (Collaborative Filtering)

Идея коллаборативной фильтрации проста: поведение группы пользователей применяется для составления рекомендаций другим пользователям. К примеру, если пользователь предпочитает фильмы ужасов, то ему можно посоветовать те фильмы, которые понравились другим поклонникам жанра «хоррор».

Поскольку рекомендации основаны на предпочтениях других пользователей, они называются коллаборативными. 

Существует два типа коллаборативной фильтрации: на основе памяти (`memory-based`)  и на основе модели (`model-based`).
***

### Гибридные (Hybrid)

Такие системы представляют собой комбинацию нескольких РС. Предполагается, что сочетание нескольких методов даст лучшие результаты по сравнению с одним алгоритмом.
***
### На основе памяти (Memory-based)

Методы, основанные на памяти, применяются сразу ко всем накопленным данным. Они просты в реализации, а получаемые рекомендации, как правило, легко объяснить.

Такой рекомендательной системе необходимо каждый раз делать прогнозы по всем данным, что замедляет её работу.

Важная особенность этого метода — здесь не составляются модели, как при решении задач машинного обучения.

Существует два типа memory-based-методов: коллаборативная фильтрация на основе пользователей (`user-based`) и коллаборативная фильтрация на основе элементов (`item-based`).
***
### На основе пользователей (User-based)

Такая система работает по принципу «Пользователям, похожим на вас, также понравилось…». Продукты рекомендуются пользователю на основании того, что они были куплены/понравились пользователям, похожим на наблюдаемого пользователя.

Как определить, что пользователи похожи? Например, Дженни и Том любят научно-фантастические книги. Когда появляется новая научно-фантастическая книга и Дженни её покупает, мы можем рекомендовать книгу, которую купила Дженни, Тому, так как он тоже любит научно-фантастические книги.

<img src=ml14_img3.png width=600>

***

### На основе элементов (Item-based)

Такая система работает по принципу «Пользователям, которым понравился этот элемент, также понравились...».

Если Джон, Роберт и Дженни поставили научно-фантастическим книгам «451° по Фаренгейту» и «Машина времени» по пять звёзд, то, когда Том купит книгу «451° по Фаренгейту», книга «Машина времени» также будет ему рекомендована, поскольку система определила эти книги как похожие на основе оценок пользователей.

<img src=ml14_img4.png width=600>

***



### На основе моделей (Model-based)

Такая рекомендательная система создаётся на основе модели, а не всех имеющихся данных, что ускоряет работу системы.

При таком подходе достигается лучшая масштабируемость, а также часто используется снижение размерности.

Наиболее известный вид РС, основанной на моделях — матричная факторизация.
***

### Матричная факторизация (Matrix Factorization)

Если от пользователя поступила обратная связь (например, он посмотрел определённый фильм/прочитал определённую книгу и поставил оценку), её можно представить в виде матрицы, где каждая строка представляет определённого пользователя, а каждый столбец — определённый элемент. Поскольку практически невозможно, чтобы пользователь оценил каждый элемент, эта матрица будет иметь много незаполненных значений, то есть, она будет разрежённой.

Методы матричной факторизации используются для нахождения набора латентных факторов и определения предпочтений пользователей с помощью этих факторов. Латентные факторы иначе называются признаками — это информация, которая не выражена в наборе данных явным образом. Например, может быть латентный фактор, который отражает любовь пользователя к мелодрамам, и это будет явным образом выражаться в конкретных оценках и поведении пользователя на платформе.

Матрица оценок является произведением двух меньших матриц — матрицы «элемент-характеристика» (например, фильм и его жанр) и матрицы «пользователь-характеристика» (к примеру, это может быть показатель любви пользователя к фильмам с неожиданным концом).

<img src=ml14_img5.png width=600>

На иллюстрации выше показана матрица, где для каждой книги есть рейтинг соответствия некоторому жанру (т. е. матрица «элемент-характеристика»), и матрица, где для каждого пользователя отмечено, предпочитает ли он этот жанр (т. е. матрица «пользователь-характеристика»). В итоге получается матрица, в которой отображено отношение пользователей к книгам.
***

### Amazon

<img src=ml14_img6.png width=600>

Amazon использует на своём сайте рекомендации в качестве целевого маркетингового инструмента. Когда клиент нажимает на ссылку «Ваши рекомендации», то попадает на другую страницу, где рекомендации могут быть дополнительно отфильтрованы по тематике, типам товаров и рейтингам предыдущих товаров и покупок. Покупатель может даже увидеть, почему тот или иной товар был ему рекомендован.

Для создания рекомендаций на Amazon используется коллаборативная фильтрация. В данном случае она не просто подбирает каждому потребителю похожие товары, но также связывает покупку каждого пользователя с похожими товарами и составляет на этой основе список рекомендаций. Например, если вы увлекаетесь новейшими технологиями, на странице с рекомендациями Amazon вам могут предложить новейшие устройства и гаджеты, а если ваш конёк — кулинария, то вы наверняка найдёте множество рекомендаций по книгам рецептов и посуде.

***
### SPOTIFY

<img src=ml14_img7.png width=600>

Яркий пример применения возможностей искусственного интеллекта и рекомендательных систем — популярные плейлисты Release Radar и Discover Weekly на Spotify.

Алгоритм плейлиста Release Radar еженедельно обновляет персональные плейлисты, чтобы пользователи не пропустили недавно вышедшие треки понравившихся им исполнителей. Release Radar ориентируется не на последние прослушанные песни, а на уже сохранённые треки и исполнителей в целом.

В Discover Weekly пользователю предлагается музыка на основе последних прослушанных им композиций. Его алгоритм изучает два миллиарда плейлистов, созданных пользователями. Затем Spotify сопоставляет эту информацию с собственными плейлистами компании и заполняет пробелы, сравнивая привычки пользователя с привычками пользователей со схожими музыкальными вкусами. Чтобы улучшить еженедельные подборки, этот подход также использует коллаборативную фильтрацию в сочетании с глубоким обучением для выявления закономерностей в огромном объёме данных.

Новая система рекомендаций помогла Spotify увеличить количество уникальных пользователей сервиса с 75 до 100 миллионов в месяц.

***
### YOUTUBE

<img src=ml14_img8.png width=600>

Онлайн-видеосообщество YouTube использует РС для создания персонализированных рекомендаций, чтобы пользователи могли быстро и легко находить видеоролики, соответствующие их интересам.

Учитывая важность привлечения пользователей, YouTube стремится регулярно обновлять рекомендации, чтобы отразить активность каждого пользователя на сайте и одновременно подчеркнуть широкий спектр доступного контента.

Рекомендательная система YouTube работает на основе проекта искусственного интеллекта Google Brain и состоит из двух нейронных сетей:

1. Первая собирает и обобщает информацию об истории просмотров пользователей и применяет коллаборативную фильтрацию для отбора сотен видео. Этот процесс, известный как генерация кандидатов, использует отзывы пользователей для обучения модели.

2. Вторая нейронная сеть ранжирует отобранные видео, чтобы сформировать рекомендации для пользователей.

>По данным YouTube, после внедрения рекомендательных систем на долю рекомендаций приходится около 60 % кликов на видео с главной страницы.

## 3. Данные для рекомендательных систем <a class="anchor" id=3></a>

[к содержанию](#0)

## 4. Метрики в рекомендательных системах <a class="anchor" id=4></a>

[к содержанию](#0)

## 5. Проблема холодного старта <a class="anchor" id=5></a>

[к содержанию](#0)

## 6. Практика <a class="anchor" id=6></a>

[к содержанию](#0)

## 7. Итоги <a class="anchor" id=7></a>

[к содержанию](#0)