# **MATH&ML-14. Рекомендательные системы. Часть I**

# 1. Введение

✍ [По последним оценкам](https://www.oberlo.com/statistics/how-many-people-shop-online), более двух миллиардов человек совершают покупки в интернете и используют опубликованный там контент. Это число постоянно растёт. Для того чтобы увеличивать прибыль и делать использование интернет-ресурсов более продуктивным для пользователей, большинство современных компаний стараются интегрировать в свои веб-сервисы рекомендательные системы (РС) и таким образом персонализировать предложения для клиентов. Этот и последующий модули будут посвящены именно рекомендательным системам.

Самый простой пример РС, с которым сталкивались практически все, — это системы рекомендации фильмов. Например, такая есть у русскоязычного сайта [kinopoisk.ru](https://www.kinopoisk.ru/): пользователи сервиса выставляют оценки просмотренным фильмам и отмечают те, которые им не понравились. После получения некоторой доли оценок сайт предлагает киноленты, которые, скорее всего, понравятся конкретному пользователю.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/a342c31bcc4a6f4d14b368aeba278c47/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_1_1.png)

Похожие рекомендательные системы существуют и в музыкальных сервисах, и в социальных сетях. К примеру, в социальной сети ВКонтакте пользователю предлагается музыка на основе его аудиозаписей.

Интернет-магазины также активно используют РС: если вы совершили покупку (или просто добавили определённые товары в избранное), магазин начинает предлагать товары, которые могут вам пригодиться. Так магазин помогает покупателю определиться с выбором и повышает уровень своих продаж. Кстати, объём последних может вырасти весьма значительно: у гиганта интернет-торговли Amazon на рекомендованные товары приходится [35 % всех продаж](https://www.mckinsey.com/industries/retail/our-insights/how-retailers-can-keep-up-with-consumers).

На основе информации о пользователе можно рекомендовать ему новости, статьи, концерты, шоу, выставки, спектакли, видео, книги, игры, приложения... В этом модуле мы научимся самостоятельно разрабатывать простые системы рекомендаций.

Если при ответе на какие-то вопросы вы допустили ошибки, рекомендуем вам вернуться и ещё раз повторить соответствующий материал. Если же вы справились с заданиями без проблем, самое время погрузиться в изучение рекомендательных систем.

В этом модуле мы затронем базовые аспекты РС, а в следующем углубимся в более сложные алгоритмы и тонкости.

Цели этого модуля:

1. Ознакомиться с типами РС.
2. Изучить метрики РС.
3. Разобраться с типовыми проблемами при проектировании РС.
4. Изучить виды моделей, применяемых в РС.
5. Научиться выбирать метрики в зависимости от типа рекомендательной системы.
6. Разработать простейшую рекомендательную систему для сервиса общедоступных статей CI&T's Internal Communication Platform (DeskDrop).

# 2. Подходы к построению рекомендательных систем. Примеры реализации

✍ Рекомендательные системы — очень ценный инструмент для компаний, которые нацелены на персонализированное обслуживание клиентов. Подобные компании, например Amazon или Netflix, собирают и анализируют огромные объёмы социодемографических данных своих пользователей, а также информацию об использовании ими сервисов, чтобы на этой основе представить наиболее релевантные предложения.

Прежде чем перейти к рассмотрению конкретных вариантов реализации рекомендательных систем в известных компаниях и онлайн-сервисах, давайте познакомимся с подходами к построению РС. Сейчас мы лишь поверхностно рассмотрим существующие алгоритмы, а в следующих юнитах разберём каждый из них детально.

Методы построения рекомендательных систем можно представить следующим образом:

![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/f0971280-58e9-442e-8262-cae479ad4b39.png)

**РЕКОМЕНДАТЕЛЬНЫЙ СИСТЕМЫ:**

* **Персонализированные (Personalized)**

    Такие рекомендательные системы базируются на детальном анализе данных пользователей, изучении их действий, покупок, взаимодействия с другими пользователями. Таким образом, каждый человек получает индивидуальную рекомендацию конкретно под его особенности и предпочтения.

    Наиболее популярными типами персонализированных рекомендательных систем являются системы, основанные на контенте (content-based) и коллаборативной фильтрации (collaborative filtering).

    * **На основе контента (Content-based)**

        Рекомендательные системы на основе контента используют метаданные (дополнительные данные о данных) о товарах или пользователях для создания конкретных рекомендаций. Например, если пользователь уже читал книгу одного автора или покупал товар определённой марки, то предполагается, что он отдаёт предпочтение этому автору или этой марке, и существует вероятность, что он купит аналогичный товар в будущем.

        Предположим, пользователю Ане нравятся научно-фантастические книги, и её любимый писатель — Уолтер Джон Уильямс. Если она прочитала книгу "Aristoi", то рекомендуемой ей книгой будет "Angel Station" — ещё одна научно-фантастическая книга, написанная Уолтером Джоном Уильямсом.

        ![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/1666691717244-Untitled.png)

    * **Коллаборативная фильтрация (Collaborative Filtering)**

        Идея коллаборативной фильтрации проста: поведение группы пользователей применяется для составления рекомендаций другим пользователям. К примеру, если пользователь предпочитает фильмы ужасов, то ему можно посоветовать те фильмы, которые понравились другим поклонникам жанра «хоррор».

        Поскольку рекомендации основаны на предпочтениях других пользователей, они называются коллаборативными. 

        Существует два типа коллаборативной фильтрации: на основе памяти (memory-based)  и на основе модели (model-based).

        * **На основе памяти (Memory-based)**

            Методы, основанные на памяти, применяются сразу ко всем накопленным данным. Они просты в реализации, а получаемые рекомендации, как правило, легко объяснить.

            Такой рекомендательной системе необходимо каждый раз делать прогнозы по всем данным, что замедляет её работу.

            Важная особенность этого метода — здесь не составляются модели, как при решении задач машинного обучения.

            Существует два типа memory-based-методов: коллаборативная фильтрация на основе пользователей (user-based) и коллаборативная фильтрация на основе элементов (item-based).

            * **На основе пользователей (User-based)**

                Такая система работает по принципу «Пользователям, похожим на вас, также понравилось…». Продукты рекомендуются пользователю на основании того, что они были куплены/понравились пользователям, похожим на наблюдаемого пользователя.

                Как определить, что пользователи похожи? Например, Дженни и Том любят научно-фантастические книги. Когда появляется новая научно-фантастическая книга и Дженни её покупает, мы можем рекомендовать книгу, которую купила Дженни, Тому, так как он тоже любит научно-фантастические книги.

                ![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/1666692081192-Untitled+(1).png)

            * **На основе элементов (Item-based)**

                Такая система работает по принципу «Пользователям, которым понравился этот элемент, также понравились...». 

                Если Джон, Роберт и Дженни поставили научно-фантастическим книгам «451° по Фаренгейту» и «Машина времени» по пять звёзд, то, когда Том купит книгу «451° по Фаренгейту», книга «Машина времени» также будет ему рекомендована, поскольку система определила эти книги как похожие на основе оценок пользователей.

                ![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/1666692232855-Untitled+(2).png)            

        * **На основе моделей (Model-based)**

            Такая рекомендательная система создаётся на основе модели, а не всех имеющихся данных, что ускоряет работу системы.

            При таком подходе достигается лучшая масштабируемость, а также часто используется снижение размерности.

            Наиболее известный вид РС, основанной на моделях — матричная факторизация. 

            * **Матричная факторизация (Matrix Factorization)**

                Если от пользователя поступила обратная связь (например, он посмотрел определённый фильм/прочитал определённую книгу и поставил оценку), её можно представить в виде матрицы, где каждая строка представляет определённого пользователя, а каждый столбец — определённый элемент. Поскольку практически невозможно, чтобы пользователь оценил каждый элемент, эта матрица будет иметь много незаполненных значений, то есть, она будет разрежённой.

                Методы матричной факторизации используются для нахождения набора латентных факторов и определения предпочтений пользователей с помощью этих факторов. Латентные факторы иначе называются признаками — это информация, которая не выражена в наборе данных явным образом. Например, может быть латентный фактор, который отражает любовь пользователя к мелодрамам, и это будет явным образом выражаться в конкретных оценках и поведении пользователя на платформе.

                Матрица оценок является произведением двух меньших матриц — матрицы «элемент-характеристика» (например, фильм и его жанр) и матрицы «пользователь-характеристика» (к примеру, это может быть показатель любви пользователя к фильмам с неожиданным концом).

                ![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/1666692426040-pasted+image+0.png)

                На иллюстрации выше показана матрица, где для каждой книги есть рейтинг соответствия некоторому жанру (т. е. матрица «элемент-характеристика»), и матрица, где для каждого пользователя отмечено, предпочитает ли он этот жанр (т. е. матрица «пользователь-характеристика»). В итоге получается матрица, в которой отображено отношение пользователей к книгам.

                * **SVD**

                    Это продвинутый алгоритм построения РС — мы разберём его в следующем модуле.

* **Неперсонализированные (Non-personalized)**

    Этот вид рекомендательных систем никак не зависит от действий и характеристик конкретного пользователя.

    * **На основе популярности (Popularity-based)**

        Рекомендации могут быть основаны на популярности: пользователям рекомендуют наиболее востребованные продукты, например топ-10 фильмов, самые продаваемые книги/товары.

        Именно по такому принципу будет построена ваша первая рекомендательная система, которую мы реализуем уже в этом модуле.

Теперь, когда мы изучили принципы построения рекомендательных систем и связанную с ними терминологию, давайте рассмотрим, как рекомендательные системы используются в популярных сервисах и компаниях.

## AMAZON

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/c06a8b97cb1156080d5416d390a9a466/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_2_1.png)

Amazon использует на своём сайте рекомендации в качестве целевого маркетингового инструмента. Когда клиент нажимает на ссылку «Ваши рекомендации», то попадает на другую страницу, где рекомендации могут быть дополнительно отфильтрованы по тематике, типам товаров и рейтингам предыдущих товаров и покупок. Покупатель может даже увидеть, почему тот или иной товар был ему рекомендован.

Для создания рекомендаций на Amazon используется коллаборативная фильтрация. В данном случае она не просто подбирает каждому потребителю похожие товары, но также связывает покупку каждого пользователя с похожими товарами и составляет на этой основе список рекомендаций. Например, если вы увлекаетесь новейшими технологиями, на странице с рекомендациями Amazon вам могут предложить новейшие устройства и гаджеты, а если ваш конёк — кулинария, то вы наверняка найдёте множество рекомендаций по книгам рецептов и посуде.

## SPOTIFY

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/257bfdb4d11e8a590245ebd1fb94f9c6/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_2_2.png)

Яркий пример применения возможностей искусственного интеллекта и рекомендательных систем — популярные плейлисты Release Radar и Discover Weekly на Spotify.

Алгоритм плейлиста Release Radar еженедельно обновляет персональные плейлисты, чтобы пользователи не пропустили недавно вышедшие треки понравившихся им исполнителей. Release Radar ориентируется не на последние прослушанные песни, а на уже сохранённые треки и исполнителей в целом.

В Discover Weekly пользователю предлагается музыка на основе последних прослушанных им композиций. Его алгоритм изучает два миллиарда плейлистов, созданных пользователями. Затем Spotify сопоставляет эту информацию с собственными плейлистами компании и заполняет пробелы, сравнивая привычки пользователя с привычками пользователей со схожими музыкальными вкусами. Чтобы улучшить еженедельные подборки, этот подход также использует коллаборативную фильтрацию в сочетании с глубоким обучением для выявления закономерностей в огромном объёме данных.

Новая система рекомендаций помогла Spotify увеличить количество уникальных пользователей сервиса с 75 до 100 миллионов в месяц.

## YOUTUBE

Онлайн-видеосообщество YouTube использует РС для создания персонализированных рекомендаций, чтобы пользователи могли быстро и легко находить видеоролики, соответствующие их интересам.

Учитывая важность привлечения пользователей, YouTube стремится регулярно обновлять рекомендации, чтобы отразить активность каждого пользователя на сайте и одновременно подчеркнуть широкий спектр доступного контента.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/bb124afb54cefa92283ac4a39ff176d6/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_2_3.png)

Рекомендательная система YouTube работает на основе проекта искусственного интеллекта Google Brain и состоит из двух нейронных сетей:

1. Первая собирает и обобщает информацию об истории просмотров пользователей и применяет коллаборативную фильтрацию для отбора сотен видео. Этот процесс, известный как генерация кандидатов, использует отзывы пользователей для обучения модели.

2. Вторая нейронная сеть ранжирует отобранные видео, чтобы сформировать рекомендации для пользователей.

По данным [YouTube](https://arxiv.org/pdf/1908.08328.pdf), после внедрения рекомендательных систем на долю рекомендаций приходится около 60 % кликов на видео с главной страницы.

В этом юните мы начали знакомиться с методами построения рекомендательных систем. Каждый из них мы разберём подробнее чуть позже: неперсонализированные рекомендации — в этом модуле, остальные методы — в следующем.

# 3. Данные для рекомендательной системы

✍ Мы рассмотрели варианты использования рекомендательных систем и убедились, что это очень полезный инструмент для увеличения количества клиентов и прибыли компании. Теперь давайте перейдём к практической стороне и обсудим, как выглядят данные для построения РС.

Существует два способа сбора данных для рекомендательных систем — явный (англ. explicit feedback, explicit ratings) и неявный (англ. implicit feedback, implicit ratings). Далее мы рассмотрим оба подхода и связанные с ними проблемы.

## ЯВНЫЙ СБОР ДАННЫХ (EXPLICIT FEEDBACK)

В рамках явного сбора данных получают ту информацию, которую передают сами пользователи, например это оценки фильмов на Netflix или товаров на Amazon. Явные отзывы учитывают мнение пользователя о том, насколько ему понравился или не понравился продукт. Данные явных отзывов легко поддаются количественной оценке.

Однако использование таких данных сопряжено с рядом **проблем**:

* После сбора явных отзывов вы с большой вероятностью получите набор оценок с **ярко выраженной полярностью**.

    Когда вы последний раз оставляли отзыв на какой-то товар или фильм? Очень часто люди ставят оценку только в случае, если что-либо вызвало у них очень сильные эмоции, преимущественно негативные.

* Явные отзывы **не учитывают контекст**, в котором был оценён тот или иной продукт.

    Допустим, вам срочно нужно подтянуть уровень английского, чтобы пройти собеседование. Вы находите отличный самоучитель и ставите ему наивысшую оценку. Однако это вовсе не значит, что теперь для вас релевантны рекомендации учебников по иностранным языкам.

* Также есть **сложности с выстраиванием системы оценок**: необходимо придумать такую шкалу, чтобы пользователям было легко выражать своё мнение и это действие не вызывало у них раздражение.

    К примеру, если вы создадите только кнопки «Понравилось» и «Не понравилось», то не оставите подходящей реакции для тех, чьё мнение не столь однозначно. Если же вы предложите шкалу от 1 до 100, у пользователя уйдёт масса времени, чтобы понять, понравился ему фильм на 77 или всё же на 78 баллов.

    **Примечание**. Разумеется, продумывание шкалы — это не область компетенций дата-сайентиста, однако вам следует понимать, какие риски может нести некорректно сделанная шкала.

Обычно данные с явной обратной связью выглядят следующим образом:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/af2a2367f1a222eaf86ef61ecfedc67d/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_3_1.png)

Здесь есть некоторый id пользователя (user_id), id оцениваемого этим пользователем продукта (item_id), выставленный рейтинг (rating) и некоторая дополнительная информация, например временная отсечка (timestamp).

**Примечание**. В качестве timestamp здесь фиксируется часто используемый показатель, отражающий количество секунд, прошедших с 1 января 1970 года.

## НЕЯВНЫЙ СБОР ДАННЫХ (IMPLICIT FEEDBACK)

Неявная обратная связь не отражает непосредственный интерес пользователя, но действует как косвенный показатель этого интереса.

Примерами неявных данных являются история просмотров, клики по ссылкам, подсчёт количества проигрываний песни, процент прокрутки веб-страницы или даже движение курсора по странице. Такие данные собирают практически все интернет-сервисы. Любая социальная сеть (ВК, TikTok и т. д.) регистрируют все возможные действия пользователя.

Если вы только что посмотрели товар, это не обязательно означает, что он вам понравился, но если вы просматривали его несколько раз, это даёт некоторую уверенность в том, что вы можете быть заинтересованы в товаре.

Объёмы данных неявной обратной связи огромны, и их легко собирать, ведь они не требуют дополнительных действий от пользователя — как только вы получаете разрешение пользователя на сбор его данных, вы можете спокойно использовать информацию о его действиях.

**Источники неявной обратной связи:**

* Просмотр страницы

    Просмотр страницы может быть сигналом, что пользователь заинтересован в информации или товарах на ней. Однако иногда пользователь может заходить на все страницы подряд, пытаясь найти что-то определённое — такое поведение идентифицируется по большому числу кликов за краткий промежуток времени и не может быть свидетельством интереса к посещённым страницам.

* Длительность просмотра страницы

    Кроме информации о том, что пользователь посетил конкретную страницу, нас интересует и длительность просмотра этой страницы. Рекомендуется ориентироваться на следующие соотношения:

    Время|Интерес
    -|-
    Менее 5 секунд|Нет интереса
    Более 5 секунд|Есть интерес
    Более 1 минуты|Повышенный интерес
    Более 5 минут|Есть вероятность, что пользователь отвлёкся и ушёл.
    Более 10 минут|Скорее всего, пользователь перестал изучать страницу и ушёл.
    .

* Переход на страницы с подробностями

    Ещё одним индикатором интереса пользователя к товару является переход на страницы с подробностями, клики на подробные характеристики. Разумеется, если клиент хочет узнать о чём-то более детально, это можно считать признаком повышенного интереса.

    ![](https://img.genial.ly/5fdc5ca1853b5759f6e69400/1666707514782-MATHML_md14_3_2.png)

* Репосты в социальные сети

    Скорее всего, вы неоднократно видели на разных ресурсах кнопки, предлагающие поделиться контентом или страницей товара в социальных сетях.

    Такое действие может свидетельствовать о том, что содержимое страницы настолько интересно для пользователя, что он решил поделиться им с кем-то ещё.

* Сохранение в избранное

    На многих ресурсах и в интернет-магазинах есть функция, позволяющая сохранять что-либо в список избранного, откладывать на потом и т. д. Такие возможности также позволяют определять интересы пользователя.

* Покупка товара или услуги

    Если клиент приобретает предлагаемый товар, это также может говорить о его отношении к ресурсу (интернет-магазину) и интересу к конкретному товару/услуге.

* Характер использования медиа-контента

    Если мы создаём рекомендации для сервиса, позволяющего просматривать видео, читать книги и т. д., то мы также можем использовать в качестве дополнительной информации данные о том, как пользователь использует контент. Какие видео он смотрит до конца, а какие выключает сразу? В каких книгах делает много закладок? Какую песню слушает каждый день? Вся эта информация наиболее точно отражает интересы человека.


Также стоит упомянуть о некоторых **особенностях неявных данных**:

* **Отсутствие прямого измерения негативных предпочтений.**

    В отличие от явных отзывов, когда пользователь ставит плохую оценку, у нас нет прямого способа измерить негативное отношение пользователя к продукту. Если пользователь много раз слушает одну и ту же песню, мы можем сделать вывод, что она ему нравится, и посоветовать похожую. Однако если какую-то песню он вообще не слушает, это не значит, что он негативно к ней относится — возможно, он даже не знает о её существовании. Таким образом, через неявные реакции мы можем точно оценивать лишь положительное отношение.

* **Возможность делать верные выводы по численному выражению обратной связи.**

    Если выразить неявную обратную связь в численном эквиваленте, мы сможем однозначно определять, насколько какой-то товар или контент привлекают пользователя. К примеру, если человек слушает Бетховена намного больше, чем песни группы Rammstein, то мы можем сделать вывод, что произведения Бетховена привлекают его больше.

* **Большой объём зашумлённых данных.**

    Прежде чем использовать данные неявной обратной связи для построения рекомендательной системы, придётся потратить много времени на их предобработку.

Мы разобрались с тем, какие данные используются для построения рекомендательных систем. В следующем юните нас ждут метрики, позволяющие оценить качество созданной РС.

# 4. Метрики в рекомендательных системах

✍ Представим, что мы уже создали рекомендательную систему и она работает. Возможно, мы даже внедрили её в продакшн. Разумеется, нам необходимо оценить, насколько качественно построена наша РС.

Все метрики для оценки качества РС можно разделить на две группы:

* офлайн-метрики (оценивают качество алгоритма);
* онлайн-метрики (оценивают производительность и бизнес-показатели).

## ОФЛАЙН-МЕТРИКИ

Существует несколько категорий офлайн-метрик:

* **Prediction Accuracy** — оценка точности предсказываемого рейтинга.
* **Decision Support** — оценка релевантности рекомендаций.
* **Rank Accuracy** — оценка качества рекомендаций с учётом ранжирования.

Рассмотрим каждую категорию подробнее.

### PREDICTION ACCURACY

Метрики Prediction Accuracy сравнивают прогнозируемые значения рейтинга с реальными оценками пользователей. Для того чтобы количественно оценить схожесть фактических и предсказанных данных, обычно используются уже знакомые вам метрики MAE, MSE и RMSE, которые вычисляются следующим образом:

НАЗВАНИЕ|ФОРМУЛА|ОПИСАНИЕ
-|-|-
MAE (Mean Absolute Error)|$E(\mid P-R \mid)$|Среднее абсолютное отклонение
MSE (Mean Squared Error)|$E(\mid P-R \mid^2)$|Среднеквадратичная ошибка
RMSE (Root Mean Squared Error)|$\sqrt{E({\mid P-R \mid}^2)}$|Корень из среднеквадратичной ошибки

Здесь $P$ — предсказанные оценки, $R$ — реально выставленные оценки, $E$ — математическое ожидание.

Чем ниже MAE и RMSE, тем лучше, ведь они дают нам представление о том, насколько точны наши прогнозные оценки и рекомендации.

Попробуем рассчитать значения метрик MAE и RMSE для некоторого алгоритма, если мы знаем реально выставленные и предсказанные алгоритмом оценки для четырёх фильмов:

\ |ФИЛЬМ 1|ФИЛЬМ 2|ФИЛЬМ 3|ФИЛЬМ 4
-|-|-|-|-
Предсказания|5|4|3|5
Реальные оценки|5|2|1|3

Чтобы вычислить MAE, сначала необходимо вычислить все разницы между предсказанными и реальными оценками:

$5 - 5 = 0$  
$4 - 2 = 2$  
$3 - 1 = 2$  
$5 - 3 = 2$  

Теперь сложим модули всех получившихся разниц и разделим результат на общее количество оценок:

$MAE=\frac{0+2+2+2}{4}=1.5$



Теперь для этого же случая рассчитаем RMSE. Напомним, что рассматриваемые оценки выглядят следующим образом:

\ |ФИЛЬМ 1|ФИЛЬМ 2|ФИЛЬМ 3|ФИЛЬМ 4
-|-|-|-|-
Предсказания|5|4|3|5
Реальные оценки|5|2|1|3

Мы уже нашли разницы между реальными и предсказанными значениями: $0, 2, 2, 2$.

Теперь нам необходимо возвести их в квадрат — получаем $0, 4, 4, 4$.

После этого ищем среднее арифметическое для суммы квадратов разниц и извлекаем из результата корень:

$RMSE=\sqrt{\frac{0+4+4+4}{4}}=\sqrt{3}\approx 1.73$

Для того чтобы вычислить MAE и RMSE при построении рекомендательной системы, можно воспользоваться уже известными вам готовыми функциями из модуля sklearn:

* [sklearn.metrics.mean_absolute_error(y_true, y_pred)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html);
* [sklearn.metrics.mean_squared_error(y_true, y_pred)](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html).

### DECISION SUPPORT

Следующие метрики — это уже знакомые вам по задаче классификации recall и precision.

По результатам построения рекомендательной системы мы можем создать матрицу ошибок, которая будет выглядеть следующим образом:

\ |**RELEVANT**|**NOT RELEVANT**
-|-|-
Recommended|True Positive (TP)|False Positive (FP)
Not recommended|False Negative (FN)|True Negative (TN)

и рассчитать интересующие нас метрики:

$Точность \ рекомендательной \ системы \ (Precision): P = \frac{количество \ релевантных \ рекомендаций}{общее \ количество \ рекомендованных \ элементов}$

$Полнота \ рекомендательной \ системы \ (Recall): R = \frac{количество \ релевантных \ рекомендаций}{общее \ количество \ релевантных \ элементов}$

Однако при вычислении этих метрик мы совершенно не учитываем ранжирование рекомендаций, хотя должно иметь значение, определены правильно самые первые рекомендации (например, те фильмы, которые понравятся пользователю в первую очередь и заслужат у него наивысшие оценки) или лишь последние. Чтобы преодолеть эту проблему, эти метрики используются с отсечением $k$ рекомендаций.

Precision и recall в точке отсечения $k$, $P@k$ и $R@k$ — это просто precision и recall, рассчитанные с учётом только подмножества рекомендаций от ранга $1$ до $k$.

К примеру, ниже представлены расчёты для $P@3$ (precision c отсечением $3$) и $P@5$ (precision с отсечением $5$):

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/ef1c8d1cf233ee7520c53d62e0e99287/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_4_3.png)

В таблице слева мы отсекаем до $k=3$, поэтому берём только первые три рекомендации. Среди них рекомендованы все три продукта (значение $1$ в столбце “Is recom.”). Мы видим, что лишь одна рекомендация сделана корректно (значение TP в столбце “Result”). Поэтому показатель $P@3 = \frac{1}{3}$.

В примере справа мы отсекаем до $k=5$, поэтому отбираем первые пять рекомендаций. Из них все пять рекомендованы пользователю и три сделаны верно. Поэтому показатель $P@5 = \frac{3}{5}$.

Теперь рассмотрим вычисление метрики recall с отсечением.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/ca5d35bc056ae5727871e7424f18d293/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_4_4.png)

В данной таблице зелёным выделены релевантные рекомендации, белым — нерелевантные.

Среди трёх рекомендаций в таблице слева есть лишь один релевантный продукт, и он подобран верно. Поэтому $R@3=1$.

Среди пяти рекомендаций в таблице справа есть три релевантных объекта, и все они верно определены. Так что получаем также $R@5=1$.

К сожалению, в известных нам библиотеках для машинного обучения эти функции не реализованы. Для оценки качества рекомендуем использовать модуль [cute_ranking](https://github.com/ncoop57/cute_ranking).

### RANK ACCURACY

Рекомендательные системы должны быть способны помещать наиболее релевантные элементы на высокие позиции в списке рекомендаций. Первый рекомендуемый элемент всегда самый важный, следующий — второй по важности и т. д.

Сейчас мы рассмотрим метрики, которые как раз учитывают положение продукта в рейтинге:

* **MRR** (Mean Reciprocal Rank);
* **MAP** (Mean Average Precision);
* **NDCG** (Normalized Discounted Cumulative Gain).

#### MRR (СРЕДНИЙ РЕЦИПРОКНЫЙ РАНГ)

Это самая простая метрика из трёх перечисленных. Она определяет, где среди рекомендованных находится первый релевантный элемент.

В общем виде формулу для этой метрики можно записать следующим образом:

$$MRR=\frac{1}{\left| Q\right|}\sum_{i=1}^{\left| Q\right|}\frac{1}{rank_i}$$

Здесь:

$|Q|$ — общее количество запросов;

$rank_i$ — позиция первого релевантного элемента для $i$-го запроса.

Ниже представлен пример вычисления MRR. Для каждого пользователя мы находим первый релевантный элемент и вычисляем, сколько элементов к этому моменту уже было предложено пользователю. Далее делим $1$ на это количество. После этого находим среднее арифметическое для всех полученных долей.

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/68ec1f89e05ca10e4dd1be20c06e83c9/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_4_5.png)

**ПРЕИМУЩЕСТВА И НЕДОСТАТКИ MRR**

ПРЕИМУЩЕСТВА 

* Метод прост в вычислениях и легко интерпретируется.
* Метод уделяет большее внимание первому релевантному элементу списка, что в целом отражает логику рекомендательных систем.

НЕДОСТАТКИ

* Метрика фокусируется на одном элементе из списка и не оценивает остальные рекомендуемые элементы.
* Список с одним релевантным элементом имеет такой же вес в вычислении итогового показателя, как и список с большим количеством релевантных элементов. Это не всегда хорошо.
* Метрика плохо подходит для случаев, когда важно получить именно ряд рекомендаций, а не одну рекомендацию.

Для вычисления MRR в Python рекомендуем использовать функцию mean_reciprocal_rank() из библиотеки [cute_ranking](https://github.com/ncoop57/cute_ranking).

#### MAP (СРЕДНЯЯ ТОЧНОСТЬ)

Допустим, у нас есть набор данных и мы хотим оценить весь список рекомендуемых элементов до определённого отсечения $N$, как мы делали, к примеру, с $P@k$. Метрика $P@N$ вычисляет долю рекомендаций, которые являются хорошими. Её недостатком является то, что она рассматривает весь список как набор элементов и одинаково относится ко всем ошибкам в рекомендуемом списке (т. е. неважно, ошиблись мы в первой рекомендации или в десятой). Нам же важно придать больший вес ошибкам в верхней части списка, а затем постепенно уменьшать их значимость по мере продвижения вниз по списку.

Метрика MAP помогает достичь этой цели. Посмотрим, как она вычисляется:

![](https://lms-cdn.skillfactory.ru/assets/courseware/v1/fe5cfa959b689342a82fc5ea66d4c8df/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/MATHML_md14_4_6.png)

Для каждого пользователя мы вычисляем долю релевантных рекомендаций для всех возможных отсечений по релевантным элементам и далее усредняем для каждого пользователя получившиеся доли. Для итогового результата усредняем показатели по всем пользователям.

**ПРЕИМУЩЕСТВА И НЕДОСТАТКИ MAP**

ПРЕИМУЩЕСТВА

* Метрика естественным образом обрабатывает ранжирование списков рекомендованных элементов.
* Метрика способна придавать вес ошибкам пропорционально их месту в списке: больший вес — ошибкам в верхней части, меньший вес — ошибкам ниже по списку. Это соответствует необходимости показать как можно больше релевантных элементов в верхней части списка рекомендаций.

НЕДОСТАТКИ

* Метрика отлично подходит для бинарных (релевантных/нерелевантных) оценок, однако не подходит для рейтинговых числовых оценок.

#### NDCG (НОРМАЛИЗОВАННЫЙ ДИСКОНТИРОВАННЫЙ КУМУЛЯТИВНЫЙ ВЫИГРЫШ)

Подход к вычислению этой метрики схож с подходом к вычислению MAP: в обоих случаях высоко ценится выдача релевантных продуктов на первых позициях. Однако метрика NDCG позволяет использовать информацию о том, что разные продукты имеют разную степень релевантности, то есть учитывает их рейтинг.

Чтобы понять, как вычисляется NDCG, реализуем вычисления последовательно.

Представим, что поисковая система выдаёт пять статей с именами D1, D2, D3, D4, D5, которые выводятся в таком же порядке. Определим шкалу релевантности (0–3), где:

* 0 — не релевантно;
* 1–2 — в некоторой степени релевантно;
* 3 — полностью релевантно.
Предположим, статьи имеют следующие оценки релевантности:

* D1 — 3;
* D2 — 2;
* D3 — 0;
* D4 — 0;
* D5 — 1.

Кумулятивный выигрыш представляет собой сумму этих оценок релевантности и может быть рассчитан как:

$$CG=\sum_{i=1}^{5}(rel)_i=3+2+0+0+1=6$$



Дисконтированный кумулятивный выигрыш можно рассчитать по формуле:

$$DCG=\sum_{i=1}^{5}\frac{(rel)_i}{log_2(i+1)}$$

Таким образом, дисконтированный кумулятивный выигрыш в приведённом выше примере составляет:

$$DCG_5=\frac{3}{log_2(2)}+\frac{2}{log_2(3)}+\frac{0}{log_2(4)}+\frac{0}{log_2(5)}+\frac{1}{log_2(6)}$$

$$DCG_5=3+\frac{2}{1.585}+0+0+\frac{1}{2.585}$$

$$DCG_5=3+1.26+0.3868$$

$$DCG_5\simeq4.67$$

Теперь нам нужно расположить статьи в порядке убывания рейтинга и рассчитать DCG, чтобы получить рейтинг идеального дисконтированного кумулятивного выигрыша (IDCG):

$$IDCG_5=\frac{3}{log_2(2)}+\frac{2}{log_2(3)}+\frac{1}{log_2(4)}+\frac{0}{log_2(5)}+\frac{0}{log_2(6)}$$

$$IDCG_5=3+\frac{2}{1.585}+\frac{1}{2}+0+0$$

$$IDCG_5=3+1.26+0.5$$

$$IDCG_5=4.76$$

Рассчитаем нормализованный DCG по следующей формуле:

$$nDCG=\frac{DCG_5}{IDCG_5}$$

$$nDCG=\frac{4.67}{4.76}$$

$$nDCG\simeq 0.98$$



Можно получить то же значение, если воспользоваться готовой функцией из модуля sklearn:

In [2]:
from sklearn.metrics import ndcg_score, dcg_score
import numpy as np

true = np.asarray([[3, 2, 1, 0, 0]])
relevance = np.asarray([[3, 2, 0, 0, 1]])

print(ndcg_score(true, relevance))

#0.980840401274087

0.980840401274087


### Задание 4.5

Пусть у нас есть реальные оценки, выставленные пользователем, и предсказанные оценки:
```py
Реальные оценки: [2, 4, 1, 1, 1]
Предсказанные оценки: [2, 5, 2, 3, 1]
```
Вычислите коэффициент NDCG. Округлите результат до двух знаков после точки-разделителя.

In [3]:
true = np.asarray([[2, 4 , 1 , 1 , 1]])
relevance = np.asarray([[2, 5, 2, 3, 1]])

print(ndcg_score(true, relevance).round(2))

0.97


## ОНЛАЙН-МЕТРИКИ

Выделяют пять групп бизнес-показателей, на которые рекомендательные системы оказывают самое существенное влияние:

**Бизнес-показатели:**

* СTR (кликабельность)
* Применение и конверсия
* Продажи и выручка
* Охват различных категорий товаров
* Поведение пользователей

[По данным Netflix](https://www.theverge.com/2012/4/8/2934375/netflix-recommendation-system-explained), пользователи выбирают 75 % контента на основе рекомендаций. Компании также удалось снизить отток клиентов на несколько процентов, что в конечном итоге приносит около миллиарда долларов в год (компания использует модель подписки). В свою очередь [YouTube сообщает](https://arxiv.org/pdf/1908.08328.pdf), что 60 % кликов на домашней странице приходится на блок с рекомендациями.

Однако во многих случаях выгода от рекомендательных систем может быть не такой очевидной — следует понимать, на какие метрики смотреть. Так, например, после внедрения рекомендательных систем в [онлайн-магазине](https://arxiv.org/pdf/1908.08328.pdf) было замечено, что рост по рекомендуемым товарам составил всего 0.3 %. При этом средний рост по товарам в той же категории достиг 26 %. Получается, что внедрение рекомендаций может стимулировать дополнительные продажи, несмотря на то что пользователь не выбирал продукт из рекомендуемого списка.

Так как выстраивание бизнес-процессов выходит за рамки компетенций дата-сайентиста, мы не будем останавливаться на перечисленных выше бизнес-метриках подробнее, однако рекомендуем вам помнить о них при построении вашей РС.

Итак, мы рассмотрели основные метрики, с помощью которых можно оценить качество построенной рекомендательной системы. Уже совсем скоро вы сможете применить их на практике в реальных задачах.

# 5. Проблема холодного старта и popularity-based model

✍ Рекомендательные системы строятся на данных о товарах и о пользователях. Но что делать, если какой-то информации не хватает или если данных вообще нет?

В таком случае говорят о **проблеме холодного старта**. Требуется потратить немного времени или сделать несколько шагов, чтобы «разогреть» сервис рекомендаций, прежде чем он начнёт выдавать релевантные результаты с достаточной эффективностью.

Можно выделить два вида проблем холодного старта:

* проблема холодного старта пользователя;
* проблема холодного старта продукта.

## ХОЛОДНЫЙ СТАРТ ПОЛЬЗОВАТЕЛЯ

Когда система сталкивается с новыми посетителями веб-сайта, не имеющими истории просмотров или известных предпочтений, создание персонализированного опыта для них становится сложной задачей, поскольку данные, обычно используемые для создания рекомендаций, отсутствуют.

Рекомендательные системы не могут дать корректную рекомендацию не только для тех, кто впервые заходит на сайт. Пользовательский «холодный старт» может возникнуть даже у постоянных посетителей, если их поведение и предпочтения меняются от одной сессии к другой. С этой проблемой обычно сталкиваются сайты объявлений. К примеру, какое-то время пользователь может искать и сравнивать надувные байдарки, но после того как он купит нужный ему товар, он перейдёт к чему-то другому, совершенно не связанному с предыдущим интересом, например к подержанным укулеле. В таком случае история просмотров пользователя не даст полезных подсказок для угадывания его следующего выбора.

В более широком смысле определённая степень «холодного старта» пользователей будет сохраняться всегда, пока пользователи сервиса будут изучать новые темы, пока их образ жизни, обстоятельства и потребности будут развиваться.

Зачастую основной метод при работе с новыми пользователями — попросить их в явном виде сообщить свои предпочтения, чтобы создать первоначальный профиль пользователя. Вы могли видеть формат такого взаимодействия на Netflix, когда про интересы и любимые сериалы спрашивают при регистрации.

## ХОЛОДНЫЙ СТАРТ ПРОДУКТА

Когда новый товар добавляется в интернет-магазин или когда свежий контент загружается на медиаплатформу, первое время о нём никто не знает. С нулевым количеством взаимодействий или оценок он практически невидим для рекомендательной системы независимо от того, насколько релевантным он будет для пользователей.

Среди тех, кто больше всего страдает от этого явления, — сайты объявлений и новостные платформы. Здесь свежие продукты, как правило, самые «горячие», но их ценность быстро снижается: вчерашняя новость сегодня уже устарела, а велосипед, выставленный на продажу на прошлой неделе, уже продан.

## POPULARITY-BASED MODEL

О том, как можно преодолеть холодный старт продукта, мы поговорим в следующем модуле, а сейчас давайте рассмотрим один из вариантов построения рекомендаций в случае холодного старта пользователя.

Если к нам приходит клиент, про которого мы ничего не знаем, мы можем создать для него рекомендации с использованием popularity-based-модели. Это тип РС, которая формирует рекомендации на основе популярности продуктов. Например, если большинство людей часто покупает определённый продукт, то система знает, что он наиболее востребован среди аудитории, поэтому каждому новому пользователю, который только что зарегистрировался, система будет рекомендовать этот продукт.

**ПРЕИМУЩЕСТВА И НЕДОСТАТКИ РЕКОМЕНДАТЕЛЬНОЙ СИСТЕМЫ НА ОСНОВЕ ПОПУЛЯРНОСТИ:**

ПРЕИМУЩЕСТВА

* Не страдает от проблем холодного старта.
* Нет необходимости в исторических данных для пользователя.

НЕДОСТАТКИ

* Не персонализирована (будет рекомендовать одинаковые продукты всем пользователям).

Примеры использования popularity-based-моделей в известных сервисах:

* Google Новости — новости, отфильтрованные по трендам и самым популярным новостям;
* YouTube — самые популярные видео.

Давайте на примере рассмотрим, как можно построить систему рекомендаций на основе популярности.

Мы будем работать с набором данных Movie Lens. Он содержит идентификаторы для каждого фильма и пользователя, который его смотрел, а также оценку, которую пользователь поставил фильму. В датасете представлено 25 000 095 оценок фильмов от 162 541 пользователя со шкалой оценок от 0.5 до 5.0.

Из этого набора нам понадобится два файла:

* [данные о фильмах (movies)](https://lms-cdn.skillfactory.ru/assets/courseware/v1/4dc5c1a1e1cc649c1c263450521a00b1/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/movie.zip);
* [данные о выставленных оценках (ratings)](https://drive.google.com/file/d/1HwsPtZ3I9skYVI0EQCGO_nyagJH9aG-E/view?usp=sharing).

Объединим их:

In [4]:
import pandas as pd

ratings = pd.read_csv('data\dst-3.0_mathml_14_5_rating.csv')
movies = pd.read_csv('data\movie.csv')

In [5]:
df=pd.merge(ratings,movies, how='left',on='movieId')
df.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,2,3.5,2005-04-02 23:53:47,Jumanji (1995),Adventure|Children|Fantasy
1,1,29,3.5,2005-04-02 23:31:16,"City of Lost Children, The (Cité des enfants p...",Adventure|Drama|Fantasy|Mystery|Sci-Fi
2,1,32,3.5,2005-04-02 23:33:39,Twelve Monkeys (a.k.a. 12 Monkeys) (1995),Mystery|Sci-Fi|Thriller
3,1,47,3.5,2005-04-02 23:32:07,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,3.5,2005-04-02 23:29:40,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


* userId — id пользователя;
* movieId — id фильма;
* rating — выставленный пользователем рейтинг для фильма;
* timestamp — время выставления рейтинга;
* title — название фильма;
* genres — жанры, к которым относится фильм.

### Задание 5.1

Подсчитайте, сколько раз каждый фильм встречается в наборе данных. Отметьте среди перечисленных ниже фильмов те, что встречаются в топ-5 по популярности.

In [6]:
df.groupby(by='title').count()['movieId'].sort_values(ascending=False).head(5)

title
Pulp Fiction (1994)                 67310
Forrest Gump (1994)                 66172
Shawshank Redemption, The (1994)    63366
Silence of the Lambs, The (1991)    63299
Jurassic Park (1993)                59715
Name: movieId, dtype: int64

### Задание 5.2

Отлично, мы нашли самые востребованные фильмы. Однако если фильм посмотрело много людей, это ещё не значит, что он им понравился. Чтобы понять, как зритель на самом деле относится к фильму, нужны более чёткие данные. К счастью, в наборе данных Movie Lens есть оценки каждого из зрителей.

Найдите средний рейтинг для каждого из фильмов.
Найдите фильмы с наивысшим средним рейтингом.
Введите в качестве ответа фильм, занимающий последнее место среди фильмов с наивысшим рейтингом, если предварительно отсортировать их по алфавитному порядку.

In [7]:
df.groupby(by='title')[['rating']].mean().sort_values(by=['rating', 'title'], ascending=[False, False]).head(5)

Unnamed: 0_level_0,rating
title,Unnamed: 1_level_1
Yonkers Joe (2008),5.0
Year Zero: The Silent Death of Cambodia (1979),5.0
Who Killed Vincent Chin? (1987),5.0
When I Walk (2013),5.0
Welcome to Australia (1999),5.0


### Задание 5.3

В двух предыдущих заданиях вы использовали два самых простых метода для создания неперсонализированных рекомендаций. Однако у них обоих есть свои недостатки: поиск наиболее часто просматриваемых фильмов не учитывает того, насколько фильм нравится аудитории, а поиск среднего рейтинга может вывести в рекомендуемые фильмы малоизвестные специфические картины с одной-двумя оценками.

Чтобы решить эти проблемы, объединим два подхода и будем искать средний рейтинг только для фильмов, которые были оценены более 50 раз.

Сколько таких фильмов?

In [8]:
df.groupby(by='title').agg({'rating':['count', 'mean']})[
    df.groupby(by='title').agg({'rating':['count', 'mean']}).rating[
        'count']>50].shape[0]

10472

### Задание 5.4

Постройте простейшую рекомендацию: возьмите фильмы, которые смотрели более 50 раз, и найдите среди них фильм с наивысшей оценкой. В качестве ответа запишите название этого фильма без артикля и года выхода на экран.

In [9]:
df.groupby(by='title').agg({'rating':['count', 'mean']})[
    df.groupby(by='title').agg({'rating':['count', 'mean']})['rating']['count']
    >50].rating.sort_values(by=['mean'], ascending = False)

Unnamed: 0_level_0,count,mean
title,Unnamed: 1_level_1,Unnamed: 2_level_1
"Shawshank Redemption, The (1994)",63366,4.446990
"Godfather, The (1972)",41355,4.364732
"Usual Suspects, The (1995)",47006,4.334372
Schindler's List (1993),50054,4.310175
"Godfather: Part II, The (1974)",27398,4.275641
...,...,...
Barney's Great Adventure (1998),419,1.163484
Glitter (2001),685,1.124088
Bratz: The Movie (2007),180,1.105556
From Justin to Kelly (2003),426,0.973005


# 6. Практика

✍ В этом модуле мы обсудили, как используются рекомендательные системы, как получают данные для них и как оценивают результаты работы РС. Мы начали знакомиться с алгоритмами построения систем рекомендаций и пока успели изучить более подробно один из них — РС на основе популярности. В этом юните мы построим систему рекомендаций, основываясь именно на этом методе. Вы сможете усовершенствовать её в следующем модуле, после того как освоите другие алгоритмы.

Для начала загрузим датасет ["Articles sharing and reading from CI&T DeskDrop"](https://www.kaggle.com/gspmoreira/articles-sharing-reading-from-cit-deskdrop), включающий в себя собранные за один год логи DeskDrop — платформы для внутренних коммуникаций, разработанной CI&T и ориентированной на компании, использующие Google Workspace (Google G Suite). Среди прочего, эта платформа позволяет сотрудникам компаний делиться актуальными статьями со своими коллегами.

В датасете содержится около 73 тысяч записей о взаимодействии пользователей с более чем тремя тысячами публичных статей, размещённых на платформе.

**Информация в наборе данных:**

* Оригинальный URL, название и текст статьи.
* Контекст посещений пользователей, например дата/время, клиент (мобильное приложение/браузер) и геолокация.
* Различные типы взаимодействия, что позволяет сделать вывод об уровне заинтересованности пользователя в статьях, например комментарии → лайки → просмотры.

Данные включают в себя два файла:

* [shared_articles.csv](https://lms-cdn.skillfactory.ru/assets/courseware/v1/9f0e8eb4ddd03415fdd4db4a89a2b0d3/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/shared_articles.zip);
* [users_interactions.csv](https://lms-cdn.skillfactory.ru/assets/courseware/v1/186647c8bd3fdb43b78fbc84ace97aed/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/users_interactions.zip).

Начнём работать с файлом shared_articles.csv. Он содержит информацию о статьях, опубликованных на платформе DeskDrop.

Для каждой статьи есть:

* дата публикации (временная метка),
* исходный URL-адрес,
* заголовок,
* содержание в виде обычного текста,
* язык статьи (португальский — pt или английский — en),
* информация о пользователе, который поделился статьёй (автор).

Для временной метки существует два возможных типа событий:

```CONTENT SHARED``` — статья была опубликована на платформе и доступна для пользователей;

```CONTENT REMOVED``` — статья была удалена с платформы и недоступна для дальнейших рекомендаций.

Для простоты мы рассматриваем здесь только тип события CONTENT SHARED.

### Задание 6.1

Отфильтруйте данные так, чтобы остались только объекты с типом события CONTENT SHARED. Сколько таких объектов в получившейся таблице?

In [331]:
import pandas as pd

articles_df = pd.read_csv('data\shared_articles.csv')
display(articles_df.info())

articles_df[articles_df['eventType']=='CONTENT SHARED'].shape[0]

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3122 entries, 0 to 3121
Data columns (total 13 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   timestamp        3122 non-null   int64 
 1   eventType        3122 non-null   object
 2   contentId        3122 non-null   int64 
 3   authorPersonId   3122 non-null   int64 
 4   authorSessionId  3122 non-null   int64 
 5   authorUserAgent  680 non-null    object
 6   authorRegion     680 non-null    object
 7   authorCountry    680 non-null    object
 8   contentType      3122 non-null   object
 9   url              3122 non-null   object
 10  title            3122 non-null   object
 11  text             3122 non-null   object
 12  lang             3122 non-null   object
dtypes: int64(4), object(9)
memory usage: 317.2+ KB


None

3047

Теперь откроем второй файл — users_interactions.csv.

Давайте предварительно преобразуем столбцы personId, contentId в таблицах к строкам. Это преобразование пригодится нам в дальнейшем:

In [333]:
interactions_df = pd.read_csv('data/users_interactions.csv')

interactions_df.personId = interactions_df.personId.astype(str)
interactions_df.contentId = interactions_df.contentId.astype(str)
articles_df.contentId = articles_df.contentId.astype(str)

interactions_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72312 entries, 0 to 72311
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   timestamp    72312 non-null  int64 
 1   eventType    72312 non-null  object
 2   contentId    72312 non-null  object
 3   personId     72312 non-null  object
 4   sessionId    72312 non-null  int64 
 5   userAgent    56918 non-null  object
 6   userRegion   56907 non-null  object
 7   userCountry  56918 non-null  object
dtypes: int64(2), object(6)
memory usage: 4.4+ MB


В колонке eventType описаны действия, которые могли совершать пользователи при взаимодействии со статьёй:

* VIEW — просмотр,
* LIKE — лайк,
* COMMENT CREATED — комментарий,
* FOLLOW — подписка,
* BOOKMARK — добавление в закладки.

В первую очередь нам необходимо понять, как определить, что какая-то статья популярнее других. Если бы из возможных реакций у нас были только лайки или только просмотры, то статьи было бы легко ранжировать в соответствии с этими значениями. Однако у нас есть информация о различных действиях пользователя, и на её основе мы должны создать некий универсальный индекс популярности. Составим его из реакций пользователей, придав им разные веса:

In [334]:
event_type = {
   'VIEW': 1.0,
   'LIKE': 2.0, 
   'BOOKMARK': 2.5, 
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

Веса здесь подобраны исходя из важности каждого действия: оставить комментарий — значит, показать наибольшую вовлечённость, а обычный просмотр, напротив, демонстрирует наименьшую вовлечённость.

### Задание 6.2

Создайте признак, который будет отражать числовой вес для взаимодействия со статьёй (в соответствии с приведёнными выше весами). Вычислите среднее значение для полученного признака. Округлите его до двух знаков после точки-разделителя.

In [335]:
interactions_df['eventWeight'] = interactions_df['eventType'].apply(
    lambda x: event_type[x])
interactions_df['eventWeight'].mean().round(2)

1.24

Ранее мы говорили, что рекомендательные системы подвержены проблеме холодного старта — в таких случаях создавать рекомендации намного сложнее.

### Задание 6.3

Чтобы получить хоть какую-то информацию, на которую можно будет опираться, оставьте только тех пользователей, которые взаимодействовали хотя бы с пятью статьями. Сколько всего таких пользователей?

In [336]:
person_df = interactions_df.groupby(
    by=['personId', 'contentId']).count().reset_index() \
    [['personId', 'contentId']].groupby(by='personId').count()[['contentId']]
    
person_df = person_df[person_df.values >= 5]
person_df

Unnamed: 0_level_0,contentId
personId,Unnamed: 1_level_1
-1007001694607905623,6
-1032019229384696495,648
-108842214936804958,270
-1119397949556155765,6
-1130272294246983140,112
...,...
953707509720613429,18
983095443598229476,16
989049974880576288,19
997469202936578234,17


### Задание 6.4

Теперь оставим только те взаимодействия, которые касаются только отфильтрованных пользователей (то есть тех, которые взаимодействовали как минимум с пятью статьями). Сколько всего таких взаимодействий?

In [337]:
import numpy as np

selected_interactions_df = interactions_df.loc[np.in1d(
    interactions_df.personId, person_df.index)]


selected_interactions_df.shape[0]

69868

Сейчас каждое отдельное взаимодействие пользователя со статьёй выделено в отдельную запись, то есть пользователь мог просмотреть статью, лайкнуть и прокомментировать её, и всё это отразилось в трёх действиях. Давайте для удобства соединим все эти действия в некоторый коэффициент, который будет отражать интерес пользователя к статье. Так как каждому возможному действию мы ранее уже присвоили вес, то, по сути, нам нужно просто сложить все действия. Однако полученное число будет увеличиваться с количеством действий, и будет очень большой разброс возможных значений. В таких случаях обычно логарифмируют полученный результат с помощью следующей функции:

In [338]:
import math

In [339]:
def smooth_user_preference(x):
    return math.log(1+x, 2)

In [345]:
event_sum_df = selected_interactions_df[['contentId','personId', 'timestamp' ,'eventWeight']] \
    .groupby(by=['personId', 'contentId']).agg({'eventWeight':['sum'],
                                                'timestamp':['max']}).reset_index()
    
event_sum_df['eventWeight'] = event_sum_df['eventWeight']['sum'].apply(smooth_user_preference)

print(round(event_sum_df['timestamp'].mean(), 2))

event_sum_df

max    1.470605e+09
dtype: float64


Unnamed: 0_level_0,personId,contentId,eventWeight,timestamp
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,sum,max
0,-1007001694607905623,-5065077552540450930,1.000000,1470395911
1,-1007001694607905623,-6623581327558800021,1.000000,1487240080
2,-1007001694607905623,-793729620925729327,1.000000,1472834892
3,-1007001694607905623,1469580151036142903,1.000000,1487240062
4,-1007001694607905623,7270966256391553686,1.584963,1485994342
...,...,...,...,...
39101,998688566268269815,-401664538366009049,1.000000,1474567449
39102,998688566268269815,3456674717452933449,2.584963,1478802088
39103,998688566268269815,6881796783400625893,1.000000,1474567675
39104,998688566268269815,7174452660053929140,2.321928,1478812905


Разумеется, для того чтобы впоследствии оценить качество построенной рекомендательной системы, нам нужно разделить выборку на обучающую и тестовую. Так как в реальности рекомендации строятся на основе исторических данных о пользователе и контенте, сделаем в нашей задаче разбиение на обучающую и тестовую выборки по временной отсечке.

### Задание 6.6

Разделите данные на обучающую и тестовую выборки, выбрав в качестве временной отсечки значение 1475519545. Значение отсечки включите в тестовую выборку. Сколько объектов попало в обучающую выборку?

In [346]:
train = event_sum_df[event_sum_df['timestamp']['max'] < 1475519545]
test = event_sum_df[event_sum_df['timestamp']['max'] >= 1475519545]

train.shape[0]

29325

Для удобства дальнейшего измерения качества рекомендаций преобразуйте данные так, чтобы получить таблицу в формате, где строка соответствует пользователю, а столбцы будут истинными предпочтениями и рекомендациями в формате списков. На место пустых ячеек поместите пустые списки.

In [347]:
final_df = (
    train.reset_index()
    .groupby('personId')['contentId'].agg(lambda x: list(x))
    .reset_index()
    .rename(columns={'contentId': 'true_train'})
    .set_index('personId')
)

final_df['true_test'] = (
    test.reset_index()
    .groupby('personId')['contentId'].agg(lambda x: list(x))
)

final_df['true_test'] = [ [] if x is np.NaN else x for x in final_df['true_test'] ]
final_df.head()

Unnamed: 0_level_0,true_train,true_test
personId,Unnamed: 1_level_1,Unnamed: 2_level_1
-1007001694607905623,"[-5065077552540450930, -793729620925729327]","[-6623581327558800021, 1469580151036142903, 72..."
-1032019229384696495,"[-1006791494035379303, -1039912738963181810, -...","[-1415040208471067980, -2555801390963402198, -..."
-108842214936804958,"[-1196068832249300490, -133139342397538859, -1...","[-2780168264183400543, -3060116862184714437, -..."
-1130272294246983140,"[-1150591229250318592, -1196068832249300490, -...","[-1606980109000976010, -1663441888197894674, -..."
-1160159014793528221,"[-133139342397538859, -387651900461462767, 377...",[-3462051751080362224]


### Задание 6.7

Осталось совсем немного — скоро вы получите свою первую систему рекомендаций! Мы будем строить popular-based-модель, а значит, нам необходимо найти самые популярные статьи.

Посчитайте популярность каждой статьи как сумму всех логарифмических «оценок» взаимодействий с ней (используя только обучающую выборку). Выберите ID самой популярной статьи:

In [370]:
top_movies = train.groupby(by = 'contentId').sum()[['eventWeight']]['eventWeight'].sort_values(by='sum', ascending=False)

  top_movies = train.groupby(by = 'contentId').sum()[['eventWeight']]['eventWeight'].sort_values(by='sum', ascending=False)


Теперь необходимо сформировать рекомендации для каждого пользователя. Будем рекомендовать десять самых популярных статей. Также необходимо помнить, что следует предлагать пользователю только то, что он ещё не читал.

### Задание 6.8

Постройте систему рекомендаций. Оцените качество с помощью precision@10 для каждого пользователя (доля угаданных рекомендаций). После этого усредните результат по всем пользователям.

Для вычисления precision@10 воспользуйтесь следующей функцией:

In [359]:
def precision(column):
    return (final_df.apply(lambda row:
            len(set(row['true_test']).intersection(set(row[column]))) /
            min(len(row['true_test']) + 0.001, 10.0),axis=1)).mean()

In [440]:
top_list = list(top_movies.reset_index()['contentId'].values)

In [441]:
def get_recomendation(train_list, top_list):
    
    recomendation=[]

    for n in range(len(top_list)):
        if len(recomendation) < 10:
            if top_list[n] in train_list:
                pass
            else:
                recomendation.append(top_list[n])
        else:
            return recomendation
            
    return recomendation
        

In [445]:
final_df['recomendation'] = np.nan
final_df['recomendation'] = final_df['true_train'].apply(lambda x: get_recomendation(x , top_list))
precision('recomendation')

0.006454207722621089

Качество получилось не очень высоким, но ведь и рекомендации у нас были неперсонализированными.

Примечание. Стоит отметить, что качество РС оценивается не так, как в задачах классификации: показателей выше 0.5 добиться практически невозможно, и даже результат 0.1–0.2 — индикатор высокого качества.

Уже в следующем модуле вы сможете улучшить качество, изучив более продвинутые алгоритмы. Однако уже сейчас у вас получилось построить простейшую систему рекомендаций — это большое достижение!

# 7. Итоги

⭐ Вы закончили изучение первого модуля, посвящённого рекомендательным системам.

Вы:

* узнали, какие виды рекомендательных систем существуют;
* рассмотрели, как получают данные для построения РС;
* научились оценивать качество рекомендательных сервисов;
* построили простейшую РС.

Вы изучили и уже умеете многое, однако это лишь начало погружения в построение рекомендательных систем. Пока мы научились создавать рекомендательные системы, которые основаны на популярности того или иного контента. Однако есть множество других аспектов, которые могут помочь в построении более качественной системы рекомендаций — в следующем модуле мы рассмотрим другие подходы и алгоритмы и решим объёмный кейс.

[Скачайте](https://lms-cdn.skillfactory.ru/assets/courseware/v1/da20518b5215c191dca1030d433c2c85/asset-v1:SkillFactory+DST-3.0+28FEB2021+type@asset+block/DST_%D0%91%D0%BB%D0%BE%D0%BA_7_%D0%9C%D0%BE%D0%B4%D1%83%D0%BB%D1%8C_MATH_ML-14._%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B._%D0%A7%D0%B0%D1%81%D1%82%D1%8C_I.pdf) конспект к модулю ↓ — он поможет вам лучше структурировать материал и время от времени возвращаться к самым важным понятиям и принципам.