### 1. Введение

✍ В предыдущем модуле мы начали знакомиться с рекомендательными системами — кратко разобрали существующие подходы к их построению и научились оценивать качество РС. Более подробно мы пока успели изучить только popularity-based подход. В этом модуле мы рассмотрим остальные алгоритмы и научимся реализовывать их на практике.

Основные цели, которые стоят перед нами в этом модуле:

1. Разобрать принципы работы моделей рекомендательных систем:
    - content-based-модели,
    - коллаборативной фильтрации,
    - гибридной модели.
2. Познакомиться с основами применения глубокого обучения для построения рекомендательных систем.
3. Отработать изученные алгоритмы на решении практических задач.

В юните «Практика» мы достроим начатую в предыдущем модуле модель рекомендательной системы для статей, а в промежуточных юнитах рассмотрим применение методов построения рекомендательных систем на других датасетах из различных областей.

_______________

#### 2. Content-based model

✍ В этом юните мы рассмотрим систему рекомендаций на основе контента, или, как её чаще называют, content-based model.

<img src="data\392c8cc2-df07-48b3-88f4-088149cb53fe.png" alt="drawing" width="800"/>

Подход **content-based** предполагает, что пользователю рекомендуются товары или контент на основе его предпочтений и вкусов.

Профиль интересов пользователя формируется исходя из его оценок, а также неявной обратной связи: лайков, количества просмотров и так далее. В качестве рекомендаций пользователю предлагаются похожие элементы.

<img src="data\DST_MATH_ML_15_2_1.png" alt="drawing" width="300"/>

Вы наверняка уже сталкивались с content-based-рекомендациями в тех или иных сервисах. Например, на сайте Netflix можно использовать фильтрацию по контенту, чтобы создавать рекомендации из аналогичных элементов, которые размещаются в разделе More Like This.

<img src="data\DST_MATH_ML_15_2_2.png" alt="drawing" width="600"/>

Давайте на примере рассмотрим построение рекомендательной системы на основе контента для конкретного пользователя.
Допустим, пользователь Михаил выставил лайки и дизлайки для фильмов на одном из веб-сервисов:

<img src="data\pic-1.png" alt="drawing" width="900"/>

Предположим, что по правилам сервиса лайк прибавляет 4.5 балла к фильмам с таким жанром, а дизлайк вычитает 6 баллов. Теперь создадим вектор пользователя для Михаила на основе трёх его оценок:

<img src="data\DST_MATH_ML_15_2_3.png" alt="drawing" width="600"/>

Присваиваем значение 9 боевикам, так как Михаил поставил лайк двум фильмам с жанром «боевик». Михаил не смотрел анимационные фильмы, так что присваиваем 0 анимации, и, поскольку он оставил плохой отзыв фильму в жанре «дети», присваиваем -6 детским фильмам.

Таким образом, вектор пользователя для Михаила — это (9, 0, -6) для шкал (Боевик, Анимация, Дети).
Теперь попробуем предсказать отношение Михаила к фильмам, которые он ещё не смотрел, например «Звёздные войны» и «История игрушек».

«Звёздные войны» — это боевик, который не относится к анимации или детским фильмам, поэтому по шкалам (Боевик, Анимация, Дети) у этого фильма будут координаты (1,0,0). У фильма «История игрушек» будут координаты (0,1,1), так как он относится и к жанру детских фильмов, и к анимации.
Теперь нам необходимо найти произведения вектора пользователя и вектора фильма: чем больше будет скалярное произведение, тем более подходящим для Михаила будет фильм.

Скалярное произведение для «Истории игрушек» равно -6, а для «Звёздных войн» оно равно 9. Следовательно, из этих двух вариантов именно «Звёздные войны» будут рекомендованы Михаилу, что вполне логично, ведь ему больше нравятся боевики.
Аналогично можно вычислить скалярные произведения векторов для всех фильмов на сайте и рекомендовать Михаилу десять наиболее подходящих фильмов.

В данном примере мы опирались лишь на схожесть фильмов по жанрам: скалярное произведение будет увеличиваться в том случае, если у фильма ненулевая координата для того жанра, который пользователь уже оценил положительно. Однако в реальности всё намного сложнее: например, мы можем использовать одновременно жанр фильма, теги, описание, актёров и т. д. Для этого случая нам нужен способ измерить сходство между набором параметров.

Рассмотрим два наиболее популярных метода измерения такого сходства:

- **индекс Жаккара**,
- **косинусная близость**.


#### ИНДЕКС ЖАККАРА

Индекс Жаккара измеряет сходство между двумя наборами A и B как мощность множества пересечения, делённую на мощность множества объединения каких-то характеристик объекта. Его удобно применять для категориальных признаков.

$J(A,B) = \frac{\left|A \cap B \right|}{\left|A \cup B \right|} = \frac{\left|A \cap B \right|}{\left|A \right| + \left|B \right| - \left|A \cap B \right|}$

Например, с помощью индекса Жаккара мы можем оценить, насколько похожи фильмы, основываясь на наборах ключевых слов (тегов) для них:

- фильм А : {фантастика, школа, романтика};
- фильм B : {приключения, фантастика, школа};
- фильм C : {ужасы, триллер, драма}.

Мы можем предположить, что фильм A больше похож на фильм B, чем на фильм C, так как фильмы A и B имеют два общих тега (фантастика, школа), в то время как фильмы A и C не имеют ни одного общего тега.

Если бы мы рассматривали вычисление этого индекса для фильмов А и В, то получили бы $\frac{2}{4}$, так как в пересечении два тега, а в объединении — четыре. Для фильмов А и C мы получили бы 0, так как пересечение множеств их тегов является пустым. Таким образом, показатель близости для фильмов А и В получился бы больше, и это подтвердило бы наши предположения об их большей схожести.

#### КОСИНУСНАЯ БЛИЗОСТЬ

Подход с использованием индекса Жаккара помог нам создать интуитивное представление о том, что означает сходство набора категориальных значений. Подход с косинусным сходством немного сложнее и применяется для оценки близости массивов с числами. Он требует, чтобы мы представляли объекты в виде вектора.

Например, мы можем представить те же самые фильмы как набор из трёх вещественных чисел:

- фильм A = (1.1, 2.3, 5.1);
- фильм B = (1.3, 2.1, 4.9);
- фильм C = (5.1, 6.2, 1.1).

Глядя на эти векторы, кажется, что фильмы А и В похожи друг на друга больше, чем, например, фильмы А и С, так как координаты фильмов А и В очень близки и различаются гораздо меньше, чем координаты фильмов А и С.
Чтобы вычислить косинусную близость, нам понадобится следующая формула:

<img src="data\DST_MATH_ML_15_2_5.png" alt="drawing" width="500"/>

По сути, мы ищем угол между векторами. Если два вектора совпадут (т. е. будут максимально близкими), то угол между ними будет равен нулю, а значит, косинус будет равен 1. Если векторы будут направлены в противоположные стороны, косинус будет равен -1. Таким образом, мы можем получить для любых двух векторов значение в пределах от -1 до 1 включительно, по которому можно определить, насколько векторы близки друг к другу.
Давайте вычислим косинусную близость, чтобы оценить, насколько наши догадки о близости фильмов соответствуют реальности.

Косинусная близость для фильмов А и B:

$\operatorname{sim}(A, B)=\frac{1.1\cdot 1.3+2.3 \cdot 2.1+5 \cdot 1^* 4.9}{\sqrt{1.1^2+2 .3^2+5.1^2} \sqrt{1.3^2+2.1^2+4.9^2}} \approx 0,999$

**Задание 2.1**

Вычислите косинусную близость между векторами А и С. Результат округлите до трёх знаков после точки-разделителя.

<img src="data\pic-2.png" alt="drawing" width="900"/>

Как нам известно, чем выше значение косинусной близости, тем больше сходство между векторами. Таким образом, наши изначальные предположения совпали с реальностью: векторы А и В действительно схожи между собой сильнее, чем векторы А и С. Значит, если человек поставил высокую оценку фильму А, то мы должны порекомендовать ему фильм В.

Итак, чтобы построить рекомендательную систему на основе контента, необходимо:

- Для каждого продукта создать характеризующие его признаки.
- Найти показатель близости между всеми продуктами.
- Порекомендовать пользователю продукты, которые показывают наибольшую близость с теми продуктами, которые он высоко оценил.

Давайте реализуем подобную рекомендательную систему на практике. Будем работать с датасетом https://lms-cdn.skillfactory.ru/assets/courseware/v1/747dae7bf99b18ce3b24bd34aa7bc29b/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/netflix_titles.zip, содержащим информацию об оценивании фильмов на платформе Netflix.

Признаки в данных:

- show_id — id фильма,
- type — его тип (фильм или сериал),
- title — название,
- director — режиссер,
- cast — актерский состав,
- country — страна,
- date_added — дата добавления,
- release_year — год выхода на экраны,
- rating — рейтинг,
- duration — продолжительность,
- listened_in — жанр(-ы),
- description — описание.

В первую очередь нам необходимо определить, на основании чего мы будем рассматривать близость фильмов. Выберем для этой задачи описание фильма, ведь в нём, скорее всего, содержится много информации. Однако описание — это текст. Есть много подходов к преобразованию текста в вектор, и мы будем использовать подход **TF-IDF** (Term Frequency-Inverse Document Frequency).

**Показатель TD-IDF** — это индикатор того, насколько релевантно слово в контексте документа.
Его можно определить следующим образом:

$\text{TF-IDF(слова) = TF(слова) * IDF (слова)}$, где:

$\text{TF слова} = \frac{\text{Количество раз, когда слово встретилось в тексте}}{\text{Количество всех слов в тексте}}$;  

$\text{IDF слова} = log \left (\frac{\text{Общее кол-во документов}}{\text{Кол-во документов, в которых встречается слово}}\right )$.  

Этот показатель возрастает пропорционально количеству раз, когда слово встречается в тексте, и уменьшается пропорционально количеству слов во всех текстах в целом.

Таким образом:

- Коэффициент будет выше, если слово характерно именно для этого текста, то есть встречается в данном тексте часто, но не встречается в других текстах.
- Коэффициент будет ниже, если слово не встречается почти нигде или встречается одинаковое количество раз во всех текстах, то есть не характеризует никакой текст в отдельности.

Если вам интересно подробнее изучить алгоритм создания такого представления, рекомендуем прочитать статью https://medium.com/analytics-vidhya/tf-idf-term-frequency-technique-easiest-explanation-for-text-classification-in-nlp-with-code-8ca3912e58c3.

Чтобы преобразовать текст по этому принципу, нам понадобится соответствующая **функция из библиотеки sklearn** — импортируем её:

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

Далее учтём **стоп-слова**, т. е. предлоги и другие служебные части речи, которые не несут содержательной информации, и с учётом этого определим нашу модель:

In [2]:
df = pd.read_csv('data\\netflix_titles.csv')
df.shape

(7787, 12)

In [3]:
model = TfidfVectorizer(stop_words='english')

Заполним пропуски пустыми строками:

In [4]:
df['description'] = df['description'].fillna('')

Трансформируем наши описания в матрицу:

In [5]:
feature_matrix = model.fit_transform(df['description'])

**Задание 2.2**

Сколько столбцов в получившейся матрице?

In [6]:
feature_matrix.shape

(7787, 17905)

Теперь необходимо вычислить косинусную близость. Можно сделать это так:

In [7]:
from sklearn.metrics.pairwise import linear_kernel
cosine_sim = linear_kernel(feature_matrix, feature_matrix)

**Обратите внимание**! Мы используем здесь linear_kernel(), а не cosine_similarity() https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.cosine_similarity.html#sklearn.metrics.pairwise.cosine_similarity, так как в косинусном расстоянии в знаменателе реализуется нормировка векторов, а TF-IDF создаёт уже нормализованные векторы.

Вернём индексацию и уберём дубликаты из данных:

In [8]:
indices = pd.Series(df.index,index=df['title']).drop_duplicates()

Теперь пропишем функцию для создания рекомендаций:

In [9]:
def get_recommendations(title):
    idx = indices[title]
    #вычисляем попарные коэффициенты косинусной близости
    scores = list(enumerate(cosine_sim[idx]))
    #сортируем фильмы на основании коэффициентов косинусной близости по убыванию
    scores = sorted(scores, key=lambda x: x[1], reverse=True)
    #выбираем десять наибольших значений косинусной близости; нулевую не берём, т. к. это тот же фильм
    scores =   scores[1:11]
    #забираем индексы
    ind_movie = [i[0] for i in scores]
    #возвращаем названия по индексам
    return df['title'].iloc[ind_movie]

Например, если мы хотим найти рекомендации по фильму "Star Trek", то функция будет выдавать следующий результат:

In [10]:
get_recommendations('Star Trek')


5788             Star Trek: The Next Generation
5787                      Star Trek: Enterprise
5786                 Star Trek: Deep Space Nine
5557                     She's Out of My League
134                                  7 Days Out
6664                        The Midnight Gospel
6023                                     Teresa
4863    Pinkfong & Baby Shark's Space Adventure
5104                                       Rats
5970                             Tales by Light
Name: title, dtype: object

**Задание 2.3**

Найдите вторую рекомендацию для детского фильма "Balto", вышедшего на экраны в 1995 году:

In [11]:
get_recommendations('Balto')

709                Balto 2: Wolf Quest
7446                           Vroomiz
1338    Chilling Adventures of Sabrina
7388                          Vampires
1770                          Dinotrux
2767                     Hold the Dark
5540                 Shanghai Fortress
4041                             Mercy
2582                       Half & Half
1365        Christmas in the Heartland
Name: title, dtype: object

Итак, мы смогли создать рекомендации на основе контента и разобрались с принципом работы этого алгоритма. Теперь давайте посмотрим на **преимущества и недостатки данного подхода**.

<img src="data\happy-icon.png" alt="drawing" width="50"/>

- **Для создания рекомендаций не требуются данные от других пользователей**. Как только пользователь выполнил поиск, просмотрел несколько продуктов и/или совершил несколько покупок, система фильтрации на основе контента может начать создавать соответствующие рекомендации. Это делает её идеальной для компаний и сервисов, у которых нет огромного количества пользователей для формирования выборки.    
- **Рекомендации получаются очень релевантными для пользователя**. Рекомендации на основе контента могут быть в значительной степени адаптированы к интересам пользователя, включая рекомендации по нишевым товарам, поскольку метод основан на сопоставлении характеристик или атрибутов объекта базы данных с интересами пользователя.  
- **Рекомендации прозрачны для пользователя**. Высокорелевантные рекомендации создают ощущение понятности алгоритмов для пользователя, повышая уровень его доверия к предлагаемым рекомендациям.  
- **Вы избегаете проблемы «холодного старта»**. Хотя фильтрация на основе контента требует первоначального ввода данных от пользователей, чтобы начать давать рекомендации, качество ранних рекомендаций обычно намного выше, чем у других подходов.  
- **Системы фильтрации на основе содержания обычно проще в создании**. Основная работа заключается в создании характеристик, на основании которых будет вычисляться близость.

<img src="data\sad-icon.png" alt="drawing" width="50"/>

- **Отсутствие новизны и разнообразия**. Вполне возможно, что человеку, который любит боевики, могли бы понравиться и фильмы ужасов. Однако мы не сможем ему их порекомендовать, если он сам не отметит подобные фильмы как понравившиеся.  
- **Присвоенные характеристики могут быть неверными**. Рекомендации на основе контента хороши настолько, насколько хороши атрибуты (характеристики), присвоенные продуктам

Итак, мы разобрались с первым персонализированным методом для построения рекомендательных систем. В следующих юнитах мы детально изучим другие алгоритмы.

_________________

### 3. Коллаборативная фильтрация

✍ Следующий подход к построению рекомендательных систем, который мы изучим, — это коллаборативная фильтрация. Она основана на поиске сходства между пользователями или между продуктами. Используя этот метод, мы можем прогнозировать рейтинги на основе оценок похожих пользователей или похожих продуктов.

<img src="data\pic-7.png" alt="drawing" width="800"/>

<img src="data\DST_MATH_ML_15_3_1.png" alt="drawing" width="600"/>

Однако для начала давайте рассмотрим очень часто встречающуюся в рекомендательных системах концепцию — **матрицу предпочтений**.

Чтобы её получить, расположим в матрице клиентов по строкам, а продукты — по столбцам. На пересечении строк и столбцов разместим оценки, поставленные клиентами соответствующим продуктам: первый клиент поставил второму товару 3, третий клиент поставил первому товару 2 и так далее.

<img src="data\pic-4.png" alt="drawing" width="700"/>

На основе этих данных мы можем разделить пользователей на кластеры. Чтобы это сделать, можно взять некоторую **меру близости** для пользователей по их истории оценок и на основе полученных значений объединить пользователей в кластеры таким образом, чтобы похожие пользователи оказались в одной группе, а сильно отличающиеся — в разных. В таком случае оценку пользователя для продукта можно прогнозировать как среднюю оценку пользователей этого кластера, оценивших этот продукт.

Таким образом, если нам необходимо предсказать, как конкретный пользователь оценил фильм, мы анализируем оценки, поставленные данному фильму пользователями, которые принадлежат к тому же кластеру, что и изучаемый пользователь, и усредняем эти оценки. Так получается предсказание оценки фильма для нашего пользователя.

В целом, такой подход можно применять, однако у него есть ряд существенных недостатков:

- **Нечего рекомендовать новым/нетипичным пользователям**. Если появляется пользователь, который ни на кого не похож, мы не знаем, к какому кластеру его отнести. На начальных стадиях мы определяем его в случайный кластер, и рекомендации в таком случае будут плохими.
- **Не учитывается специфика каждого пользователя**. По сути, мы выявляем некоторые паттерны поведения и предпочтений и для каждого паттерна выделяем свои рекомендации. Однако на самом деле даже пользователи из одного кластера немного отличаются друг от друга, поэтому возникают неточности.
- **Если оценок нет, то среднее арифметическое невозможно вычислить**. Если в кластере никто не оценивал объект, сделать предсказание не получится, так как для предсказания нужно вычислить среднее арифметическое для оценок.

#### КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ НА ОСНОВЕ ПАМЯТИ (MEMORY-BASED)

Чтобы решить перечисленные выше проблемы, обратимся к коллаборативной фильтрации, а точнее к memory-based-подходу, основанному на близости пользователей (user-based).

Напомним, что при memory-based-подходе хранится полная матрица взаимодействий (лайков, просмотров и т. д .) пользователя с продуктом.

##### КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ НА ОСНОВЕ ПОЛЬЗОВАТЕЛЕЙ (USER-BASED-ПОДХОД)

**Коллаборативная фильтрация на основе пользователей** — это метод, используемый для предсказания продуктов, которые могут понравиться пользователю, на основе оценок, выставленных этому продукту другими пользователями, имеющими схожие с целевым пользователем вкусы.

<img src="data\DST_MATH_ML_15_3_2_ed.png" alt="drawing" width="300"/>

В этом алгоритме мы заменяем жёсткую кластеризацию на следующую формулу и получаем предсказанную оценку пользователя u, которую он поставил элементу $i$:

$\hat{r}_{u i}=\bar{r}_u+\frac{\sum_{v \in U_i} \operatorname{sim}(u, v)\left(r_{v i}-\bar{r}_v\right)}{\sum_{v \in U_i} \operatorname{sim}(u, v)}$

Здесь используются следующие обозначения:

$u$ и $v$ — индексы пользователей;  
$\hat{r}_{u}$ — средняя оценка пользователя u;  
$\hat{r}_{v}$ — средняя оценка пользователя v;    
$sim$ — функция схожести;    
$i$ — номер оцениваемого элемента.

Средняя оценка пользователя может быть никак не привязана к его интересам. По сути, это просто показатель того, как в среднем пользователь привык оценивать фильмы.

Оценка пользователя, которую мы предсказываем для него, состоит из **двух частей**:

- Непосредственно его средняя оценка.
- Слагаемое, состоящее из разницы в оценках с другими пользователями, т. е. похожести пользователей. Эта разница домножается на похожесть пользователей, то есть в числителе — средневзвешенная разница в оценках, а в знаменателе — сумма показателей схожести.

Каждому клиенту мы подбираем релевантный для него товар в рамках группы клиентов, но не решаем задачу кластеризации, а усредняем интересы данной группы в дистанции нескольких соседей. По сути, здесь мы руководствуемся идеей, что, например, видео можно порекомендовать человеку, если оно понравилось его друзьям.

Давайте разберём пример применения этого алгоритма.

В матрице четыре пользователя — Алиса, Рома, Катя и Женя. Они оценивают различные приложения из AppStore. Диапазон оценок — от 1 до 5. Знак '?' означает, что данный пользователь не оценил это приложение.
<img src="data\pic-5.png" alt="drawing" width="700"/>

Вычислим сходство как коэффициент корреляции — такой подход также популярен.

Для начала найдём среднее значение рейтинга для каждого пользователя:

$\bar{r}_i=\frac{\sum_p r_{i p}}{\sum p}$

Таким образом получаем:

$\bar{r}_{\text {Алиса }}=3.5$  
$\bar{r}_{Рома}=2.25$  
$\bar{r}_{Катя}=3.5$ 
$\bar{r}_{Женя}=3$  

Теперь вычисляем сходство между Алисой и всеми остальными пользователями:

$\operatorname{Sim}(Алиса, Рома)=\frac{((1.5 \cdot 0.75)+(0.5 \cdot (-1.25))+(-2.5 \cdot(-0.25))+(0.5 \cdot 0.75))}{\sqrt{\left(1.5^2+0.5^2+2.5^2+0.5^2\right)} \sqrt{\left(0.75^2+1.25^2+0.25^2+0.75^2\right)}}=0.301$  
$\operatorname{Sim}(Алиса, Катя)=\frac{((1.5 \cdot 0.5)+(0.5 \cdot (-0.5))+(-2.5 \cdot 0.5)+(0.5 \cdot (-0.5))}{\sqrt{\left(1.5^2+0.5^2+2.5^2+0.5^2\right)} \sqrt{\left(0.5^2+0.5^2+0.5^2+0.5^2\right)}}=-0.33$  
$\operatorname{Sim}(Алиса, Женя)=\frac{((1.5 \cdot 0)+(0.5 \cdot 0)+(-2.5 \cdot(-2))+(0.5 \cdot 2))}{\sqrt{\left(1.5^2+0.5^2+2.5^2+0.5^2\right)} \sqrt{\left(0^2+0^2+2^2+2^2\right)}}=0.707$  

Теперь спрогнозируем рейтинг Алисы для приложения App5:

$r_{(\text {Алиса }, I 5)}=\bar{r}_{\text {Алиса }}+\frac{\left(\operatorname{sim}(\text { Алиса, } U 1) *\left(r_{U 1, I 5}-\bar{r}_{U 1}\right)\right)+\left(\operatorname{sim}(\text { Алиса,U2 }) *\left(r_{U 2, I 5}-\bar{r}_{U 2}\right)\right)+\left(\operatorname{sim}(Алиса, U 3) *\left(r_{U 3, I 5}-\bar{r}_{U 3}\right)\right.}{\operatorname{sim}(\text { Алиса, } U 1)+\operatorname{sim}(\text { Алиса,U2 })+\operatorname{sim}(Алиса, U 3)}$  
$r_{(\text {Алиса, I5 })}=3.5+\frac{(0.301 * 0.75)+(-0.33 * 1.5)+(0.707 * 1)}{|0.301|+|-0.33|+|0.707|}=3.83$  

Итак, мы смогли реализовать предсказание для user-based-подхода.

#### КОЛЛАБОРАТИВНАЯ ФИЛЬТРАЦИЯ НА ОСНОВЕ ЭЛЕМЕНТОВ (ITEM-BASED-ПОДХОД)

Если мы транспонируем матрицу предпочтений и будем решать ту же самую задачу не для пользователей, а для объектов (items), то получим аналогичную задачу, которая является item-based-моделью коллаборативной фильтрации и даёт нам возможность предсказывать оценку следующим образом:

$\hat{r}_{u i}=\bar{r}_i+\frac{\sum_{j \in I_u} \operatorname{sim}(i, j)\left(r_{u j}-\bar{r}_j\right)}{\sum_{j \in I_u} \operatorname{sim}(i, j)}$  

По формуле можно понять, что этот подход использует идею предыдущего, только теперь похожи не пользователи, а объекты. Возвращаясь к примеру с рекомендациями фильмов, теперь мы рекомендуем пользователю фильм, который похож на те фильмы, которые уже понравились этому пользователю ранее.

Кроме того, продуктов обычно больше, чем пользователей, поэтому векторы получатся большей размерности. Это даёт возможность получить более устойчивую модель с большей статистической значимостью.

Может показаться, что коллаборативная фильтрация в рамках item-based-подхода очень похожа на модель на основе контента. Однако это не так: item-based-модель рассматривает взаимодействия пользователей с продуктом, а content-based-модель — метаинформацию продукта.

Теперь давайте рассмотрим преимущества и недостатки коллаборативной фильтрации, основанной на памяти (memory-based):

<img src="data\happy-icon.png" alt="drawing" width="50"/>

- Может помочь пользователям обнаружить новые релевантные продукты из новых категорий, даже если пользователи не проявляют интерес к новым типам продуктов.
- Не требует подробных характеристик и контекстных данных о продуктах. По сути, для реализации нужна только матрица взаимодействий пользователей и продуктов.

<img src="data\sad-icon.png" alt="drawing" width="50"/>

- Нехватка данных может привести к трудностям при рекомендации новых продуктов или при появлении новых пользователей, поскольку предложения основаны на исторических данных и взаимодействии. Таким образом, для этого подхода актуальна проблема холодного старта.  
- По мере роста пользовательской базы алгоритмы страдают из-за большого объёма данных (очень ресурсоёмкие вычисления) и недостаточной масштабируемости.  
- Отсутствие разнообразия в долгосрочной перспективе. Это может показаться нелогичным, поскольку смысл коллаборативной фильтрации заключается в том, чтобы рекомендовать пользователю новые товары. Однако поскольку алгоритмы функционируют на основе исторических рейтингов, они не будут рекомендовать товары с небольшим количеством оценок или ограниченным количеством данных. Популярные товары будут более популярны в долгосрочной перспективе, а новых и разнообразных вариантов будет не хватать.

Итак, мы рассмотрели memory-based-подходы коллаборативной фильтрации. Давайте перейдём к следующим подходам, которые относятся к категории model-based и основаны на разложениях матриц. После этого мы сможем сравнить изученные модели при решении практической задачи.

#### MODEL-BASED-ПОДХОД

В подходе на основе моделей используются модели машинного обучения для прогнозирования и ранжирования взаимодействий между пользователями и элементами, с которыми они ещё не взаимодействовали. Эти модели обучаются на основе информации, уже имеющейся в матрице взаимодействий, с помощью различных алгоритмов, например матричной факторизации.

**Матричная факторизация** используется для генерации **латентных признаков** путём разложения **разрежённой** матрицы взаимодействия пользователя и продукта на две меньшие и **плотные** матрицы особенностей пользователей и продуктов

<img src="data\DST_MATH_ML_15_3_3.png" alt="drawing" width="800"/>

Слева на иллюстрации мы видим разрежённую матрицу (X), а справа — матрицу пользователей U с их характеристиками (размерности k) и матрицу товаров V с их характеристиками (размерности k).

Рассмотрим два варианта матричной факторизации — SVD и ALS.

SVD — это сингулярное разложение, с которым вы уже подробно знакомились в модуле по кластеризации. Давайте вспомним суть SVD.

Любую прямоугольную матрицу A размера (n, m) можно представить в виде произведения трёх матриц:

$A_{n \times m}=U_{n \times n} \cdot D_{n \times m} \cdot V_{m \times m}^{T}$

В этой формуле:

- U — матрица размера (n, n). Все её столбцы ортогональны друг другу и имеют единичную длину. Такие матрицы называются **ортогональными**. Эта матрица содержит нормированные собственные векторы матрицы $AA^{T}$.
- D — матрица размера (n, m). На её главной диагонали стоят числа, называемые **сингулярными** числами (они являются корнями из собственных значений матриц $AA^{T}$ и $A^{T}A$), а вне главной диагонали стоят нули. Если мы решаем задачу снижения размерности, то элементы этой матрицы, если их возвести в квадрат, можно интерпретировать как дисперсию, которую объясняет каждая компонента.
- V — матрица размера (m, m). Она тоже **ортогональная** и содержит нормированные собственные векторы матрицы $A^{T}A)$.

Данное разложение используют для того, чтобы представить матрицу предпочтений как разложение на матрицу с характеристиками пользователей и матрицу с характеристиками продуктов. Матрица U представляет связь между пользователями и латентными факторами, D — диагональная матрица, описывающая силу каждого латентного фактора, а V — матрица, описывающая связь между продуктами и латентными факторами.

Однако SVD — не единственная возможность для разложения матрицы. Второй популярный алгоритм — ALS (Alternating Least Square).

ALS — итеративный алгоритм разложения матрицы предпочтений на произведение двух матриц.

Чтобы понять лучше суть этого алгоритма, вспомним одну из известных нам функций потерь — RMSE.

$RMSE = \sqrt{(y-\hat{y})^2 /n}$

Предположим, что есть m пользователей и n продуктов. Тогда у нас будут следующие матрицы:

- R размерности m * n;
- U размерности m * k;
- P размерности n * k, где k — количество латентных факторов.

Тогда функция потерь, которую мы будем минимизировать, будет следующей:

$\begin{aligned} \text { loss } & =\min (y-\hat{y})^2 \\ & =\min \left(R-U * P^T\right)^2 \\ & =\min \sum_{m, n}\left(R_{m, n}-U_m * P_n^T\right)^2\end{aligned}$

Здесь:

- $R$ — истинные показатели взаимодействия пользователя и продукта;
- $U*P^{T}$ — прогнозируемые показатели взаимодействия пользователя и продукта.
Далее мы, по сути, решаем метод наименьших квадратов для разницы матриц, на каждом шаге уменьшая ошибку сначала по факторам пользователей, а затем — по факторам товаров. Чтобы избежать ситуации переобучения, к ошибке добавляются регуляризационные коэффициенты.

ALS — это итерационный процесс оптимизации, в котором мы на каждой итерации пытаемся приблизиться к факторизованному представлению исходных данных.

Давайте рассмотрим реализацию ALS на «игрушечном» примере. Допустим, у нас есть некоторая матрица, которая содержит информацию про пользователей и их отношение к фильмам:

<img src="data\pic-6.png" alt="drawing" width="700"/>

Однако нам неизвестно, какую оценку поставил Пользователь 1 Фильму 2 — её мы и будем пытаться предсказать с помощью ALS.

В соответствии с методом ALS мы хотим получить следующее разложение:

$\left(\begin{array}{ccc}0.5 & ? & 4 \\ 1 & 3 & 5\end{array}\right)=\left(\begin{array}{l}u_1 \\ u_2\end{array}\right)\left(\begin{array}{lll}p_1 & p_2 & p_3\end{array}\right)$

Для начала фиксируем матрицу U (вектор-столбец). Для неё можно выбрать любые случайные числа, но для удобства вычислений примем оба значения за единицу:

$\left(\begin{array}{ccc}0.5 & ? & 4 \\ 1 & 3 & 5\end{array}\right)=\left(\begin{array}{l}1 \\ 1\end{array}\right)\left(\begin{array}{lll}p_1 & p_2 & p_3\end{array}\right)$

Если мы перемножим матрицы в правой части равенства, то получим пять уравнений, в которых участвуют компоненты из вектора p:

<img src="data\DST_MATH_ML_15_3_eq4.png" alt="drawing" width="500"/>

Поскольку существует единственное уравнение, определяющее вторую компоненту P, мы задаём её равной 3. Нам необходимо выбрать оставшиеся две компоненты так, чтобы средняя квадратичная ошибка была минимальной. Таким образом, вычисляем:

<img src="data\DST_MATH_ML_15_3_eq5.png" alt="drawing" width="500"/>     

<img src="data\DST_MATH_ML_15_3_eq6.png" alt="drawing" width="500"/>

Разумеется, мы умеем вычислять точки минимума для функции, используя производные. Находим точки минимума для обоих случаев и получаем первую оценку для матрицы:

<img src="data\DST_MATH_ML_15_3_eq7.png" alt="drawing" width="300"/>

Теперь мы оставляем компоненты матрицы P фиксированными и оптимизируем матрицу U. Это аналогично даёт нам следующие уравнения для U:

<img src="data\DST_MATH_ML_15_3_eq8.png" alt="drawing" width="450"/>

Далее мы можем минимизировать среднеквадратичную ошибку для компонентов матрицы U, как мы это делали ранее для компонентов матрицы P.

Повторяя эти итерации, мы в какой-то момент сходимся к оптимальным матрицам U и P. В данном примере после 20 итераций можно определить, что U и P даны в виде:

<img src="data\DST_MATH_ML_15_3_eq9.png" alt="drawing" width="500"/>

Теперь из этих матриц мы можем получить восстановленную матрицу прогнозируемых взаимодействий пользователей и продуктов, на основе которой мы можем составлять рекомендации.

#### ПРАКТИКА

Мы рассмотрели несколько вариантов коллаборативной фильтрации на простейших примерах, и теперь пришло время практики с настоящими данными. Сначала мы будем использовать подход memory-based в модификации item-based, а затем SVD. В результате применения обоих алгоритмов мы сможем сравнить получившееся качество.

Для создания алгоритмов рекомендательной системы будем использовать библиотеку surprise https://surpriselib.com/.  
Установим её:

In [12]:
# %pip install numpy cython
# git clone https://github.com/NicolasHug/surprise.git
# cd surprise
# python setup.py install

In [13]:
%pip install Cmake

Collecting Cmake
  Downloading cmake-3.26.4-py2.py3-none-win_amd64.whl (33.0 MB)
     ---------------------------------------- 33.0/33.0 MB 6.8 MB/s eta 0:00:00
Installing collected packages: Cmake
Successfully installed Cmake-3.26.4
Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [14]:
%pip install nes-py

Collecting nes-py
  Downloading nes_py-8.2.1.tar.gz (77 kB)
     -------------------------------------- 77.7/77.7 kB 539.4 kB/s eta 0:00:00
  Preparing metadata (setup.py): started
  Preparing metadata (setup.py): finished with status 'done'
Collecting gym>=0.17.2
  Downloading gym-0.26.2.tar.gz (721 kB)
     -------------------------------------- 721.7/721.7 kB 1.3 MB/s eta 0:00:00
  Installing build dependencies: started
  Installing build dependencies: finished with status 'done'
  Getting requirements to build wheel: started
  Getting requirements to build wheel: finished with status 'done'
  Preparing metadata (pyproject.toml): started
  Preparing metadata (pyproject.toml): finished with status 'done'
Collecting pyglet<=1.5.21,>=1.4.0
  Downloading pyglet-1.5.21-py3-none-any.whl (1.1 MB)
     ---------------------------------------- 1.1/1.1 MB 2.3 MB/s eta 0:00:00
Collecting gym-notices>=0.0.4
  Downloading gym_notices-0.0.8-py3-none-any.whl (3.0 kB)
Building wheels for collected 


[notice] A new release of pip available: 22.3 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


In [15]:
%pip install scikit-surprise

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


**Примечание**. Заметьте, что в названии библиотеки содержится название уже известного нам модуля scikit — это не просто так: названия функций и аргументов, да и сам принцип работы этих модулей похожи.

В нашей задаче мы будем использовать датасет movielens https://lms-cdn.skillfactory.ru/assets/courseware/v1/6e47046882bad158b0efbb84cd5cb987/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/u.data.txt, который содержит информацию о фильмах и выставленных рейтингах с сайта https://movielens.org/.

Импортируем необходимые нам компоненты и считаем данные с помощью специального метода Reader:

In [16]:
from surprise import Dataset
from surprise import Reader
from surprise.dataset import BUILTIN_DATASETS #с помощью данного объекта мы можем использовать встроенные датасеты

data = Dataset.load_from_file(
    "data\\u.data.txt",
    reader=Reader(line_format="user item rating timestamp", sep="\t"),
)

Чтобы обучать рекомендательные системы с помощью surprise, мы создали объект Dataset. Объект surprise.dataset — это набор данных, который содержит следующие поля в указанном порядке:

- идентификаторы пользователей,
- идентификаторы элементов,
- соответствующая оценка.

Преобразуем данные к формату pandas DataFrame для удобной работы с ними:

In [17]:
import pandas as pd
df = pd.DataFrame(data.raw_ratings, columns=['userId', 'movieId', 'rating', 'timestamp'])

В данных присутствуют следующие признаки:

- userId — идентификаторы пользователей сайта movielens;
- movieId — идентификаторы фильмов;
- rating — оценки фильмов, выставленные пользователями по шкале от 1 до 5;
- timestamp — время оценки фильма пользователем. Данный формат представления времени показывает, сколько секунд прошло с 1 января 1970 года.

**Задание 3.1**

Сколько уникальных фильмов в наборе данных?

In [18]:
df.apply('nunique')

userId         943
movieId       1682
rating           5
timestamp    49282
dtype: int64

**Задание 3.2**

Сколько уникальных пользователей в наборе данных?

In [19]:
df.apply('nunique')

userId         943
movieId       1682
rating           5
timestamp    49282
dtype: int64

**Задание 3.3**

Какая оценка встречается в наборе данных чаще всего? Введите ответ в виде целого числа.

In [20]:
df['rating'].value_counts()

4.0    34174
3.0    27145
5.0    21201
2.0    11370
1.0     6110
Name: rating, dtype: int64

Библиотека surprise очень похожа на библиотеку sklearn, и тоже позволяет разбить данные на обучающую и тестовую выборки всего одной функцией — train_test_split() https://surprise.readthedocs.io/en/stable/getting_started.html#train-test-split-and-the-fit-method. 

**Задание 3.4**

Разбейте данные на обучающую и тестовую выборки. Объём тестовой выборки должен составлять 25 % от общего объёма данных. В качестве значения параметра random_state возьмите число 13.

Сколько объектов попало в тестовую выборку?

In [21]:
from surprise.model_selection import train_test_split
trainset, testset = train_test_split(data, test_size=0.25, random_state=13)
len(testset)

25000

Импортируем функции для построения рекомендательных систем (SVD — для model-based-подхода и KNNBasic — для memory-basic-подхода) и для оценки качества результата.

In [22]:
from surprise import SVD, KNNBasic, accuracy

Теперь реализуем обычную коллаборативную фильтрацию. Выберем оценку схожести через косинусную близость и item-based-подход:

In [23]:
sim_options = {
    'name': 'cosine',
    'user_based': False
}
 
knn = KNNBasic(sim_options=sim_options)

Обучим алгоритм:

In [24]:
knn.fit(trainset)

Computing the cosine similarity matrix...
Done computing similarity matrix.


<surprise.prediction_algorithms.knns.KNNBasic at 0x253ac4fe020>

Теперь давайте посмотрим, какие рекомендации мы получили, с помощью следующей программы:

In [25]:
predictions = knn.test(testset)
predictions

[Prediction(uid='7', iid='633', r_ui=5.0, est=4.199452349030111, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='422', iid='287', r_ui=3.0, est=3.4703437660463736, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='804', iid='163', r_ui=3.0, est=3.5716736533692854, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='189', iid='480', r_ui=5.0, est=4.222825780855538, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='238', iid='546', r_ui=3.0, est=3.473417286928204, details={'actual_k': 17, 'was_impossible': False}),
 Prediction(uid='804', iid='216', r_ui=4.0, est=3.922551907749182, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='350', iid='204', r_ui=4.0, est=4.345238219480267, details={'actual_k': 38, 'was_impossible': False}),
 Prediction(uid='708', iid='993', r_ui=4.0, est=3.4458505791534115, details={'actual_k': 40, 'was_impossible': False}),
 Prediction(uid='193', iid='1078', r_ui=4.0, es

После этого можно вывести результат, записанный в переменную predictions.

Информация о каждой паре будет содержать следующие характеристики:

- uid — id пользователя;  
- iid — id элемента;  
- r_ui (float) — реальный рейтинг, который этот пользователь поставил этому элементу;  
- est (float) — предсказанный рейтинг.  

**Задание 3.5**

1. Каков реальный рейтинг, выставленный пользователем с ID 500 для фильма с ID 699?  
2. Каков прогнозируемый рейтинг для пользователя с ID 500 и фильма с ID 699?   
Ответ округлите до двух знаков после точки-разделителя.


In [26]:
for prediction in predictions:
    if prediction.uid == '500' and prediction.iid == '699':
        print(prediction.r_ui)
        print(round(prediction.est, 2))
        break

3.0
3.47


In [27]:
uid = str(500)
iid = str(699)
pred = knn.predict(uid, iid, verbose=True)

user: 500        item: 699        r_ui = None   est = 3.47   {'actual_k': 40, 'was_impossible': False}


Теперь необходимо вычислить RMSE для получившихся предсказаний:

In [28]:
accuracy.rmse(predictions)

RMSE: 1.0272


1.0271678039029761

Если округлить результат до сотых, получаем 1.03.

Итак, мы построили систему рекомендаций и даже оценили её качество. Но как же вывести рекомендации для конкретного пользователя?
Для начала давайте оформим наши предсказания в таблицу и отсортируем их по прогнозируемому рейтингу:

In [29]:
pred = pd.DataFrame(predictions)
pred.sort_values(by=['est'],inplace=True,ascending = False)

Теперь мы можем вывести рекомендуемые для конкретного пользователя фильмы, начиная от наиболее релевантного (с точки зрения рекомендаций) и заканчивая наименее релевантным.

In [30]:
recom = pred[pred.uid =='849']['iid'].to_list()

**Задание 3.6**

Реализуйте user-based-алгоритм. Какое значение RMSE получилось для коллаборативной фильтрации типа user-based? Ответ округлите до двух знаков после точки-разделителя.

In [31]:
sim_options = {
'name': 'cosine',
'user_based': True
}
knn = KNNBasic(sim_options=sim_options)
knn.fit(trainset)
predictions = knn.test(testset)
accuracy.rmse(predictions)

Computing the cosine similarity matrix...
Done computing similarity matrix.
RMSE: 1.0175


1.0174852296380237

**Задание 3.7**

Теперь давайте сравним полученные результаты с результатами SVD-алгоритма. Реализуйте SVD с параметрами по умолчанию.  
Какое значение RMSE получилось для SVD? Ответ округлите до двух знаков после точки-разделителя.

In [32]:
model = SVD()
model.fit(trainset)
predictions = model.test(testset)
accuracy.rmse(predictions)

RMSE: 0.9406


0.9406089111043356

В этом юните мы не только разобрались с принципом работы различных вариаций коллаборативной фильтрации, но и реализовали их на практике, а также сравнили результаты, полученные с помощью разных подходов. В следующем юните вы познакомитесь с ещё одним подходом к построению рекомендательных систем, а также изучите ещё одну библиотеку, с помощью которой можно строить рекомендации.

____________________________________

### 4. Гибридные модели

✍  В предыдущих юнитах мы рассмотрели отдельные модели для построения рекомендательных систем. Иногда эти модели используются вместе — такой способ построения рекомендательной системы называется **гибридным**.

<img src="data\3c95a584-7f39-4a42-b05e-b3e8ea656de2.png" alt="drawing" width="700"/>

**Гибридная РС** — это особый тип рекомендательной системы, который представляет собой комбинацию из нескольких методов. Обычно это комбинация контентного подхода и коллаборативной фильтрации. Такое сочетание может помочь преодолеть недостатки, с которыми мы сталкиваемся при использовании этих методов по отдельности, а также в некоторых случаях может быть более эффективным.

Гибридные подходы к рекомендательным системам можно реализовать по-разному, например используя комбинацию из рекомендаций, полученных обеими системами, или используя взвешенную сумму предсказанных рейтингов.

<img src="data\DST_MATH_ML_15_4_1.png" alt="drawing" width="700"/>

Давайте на практике рассмотрим, как создать рекомендательную систему с помощью гибридного подхода.

Разумеется, можно комбинировать различные подходы самостоятельно, однако для удобства уже реализован модуль LightFM — установим библиотеку через следующую команду:

In [33]:
# pip install --upgrade pip

In [34]:
pip install lightfm

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 23.1.2
[notice] To update, run: python.exe -m pip install --upgrade pip


**Примечание**. К сожалению, при локальном использовании данной библиотеки очень часто возникают ошибки. Если вы столкнулись с этим, рекомендуем использовать Google Colab.

Импортируем нужные нам функции из этой библиотеки. На этом этапе сразу же загрузим инструменты оценки модели:

In [35]:
from lightfm import LightFM
from lightfm.cross_validation import random_train_test_split
from lightfm.evaluation import precision_at_k, recall_at_k 



Работать мы будем с датасетом goodreads_book https://lms-cdn.skillfactory.ru/assets/courseware/v1/c977535583bf2f85a2d15617e672d8f4/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/Gooddreadbooks.zip.

Goodreads — это сайт, на котором люди могут добавлять книги в каталоги, искать их, изучать аннотации и отзывы. Пользователи также могут создавать сообщества, в которых они рекомендуют друг другу различную литературу, ведут блоги и устраивают обсуждения.

Сначала посмотрим на набор данных books: в этих данных есть обычный id книги, а есть id книги в системе Goodreads — этот id отображён в признаке goodreads_book_id. В других данных (book_tags) указан только id книги в системе Goodreads, поэтому нам необходимо добавить туда обычный id.

**Задание 4.1**

Добавьте в набор данных book_tags признак с обычным id книги, используя соответствие обычного id и id в системе Goodreads.

Какой обычный id у книги, которая имеет id 5 в системе Goodreads?

In [36]:
import pandas as pd
book_tags = pd.read_csv('data\\book_tags.csv')
book_tags.shape

(999912, 3)

In [37]:
books = pd.read_csv('data\\books.csv')
books.shape

(10000, 23)

In [38]:
dict_map = dict(zip(books.goodreads_book_id,books.book_id))
book_tags['id'] = book_tags.goodreads_book_id.apply(lambda x: dict_map[x])
book_tags[book_tags['goodreads_book_id']==5]

Unnamed: 0,goodreads_book_id,tag_id,count,id
300,5,11557,40087,18
301,5,11305,39330,18
302,5,8717,17944,18
303,5,33114,12856,18
304,5,30574,11909,18
...,...,...,...,...
395,5,20781,299,18
396,5,32345,298,18
397,5,12600,282,18
398,5,3379,277,18


**Задание 4.2**

Далее нам необходимо оставить в наборе данных book_tags только те записи, теги для которых есть в данных tags.

Отфильтруйте данные таким образом, чтобы в наборе данных book_tags остались только те строки, в которых находятся теги, информация о которых есть в наборе данных tags.

Сколько объектов осталось?

In [39]:
tags = pd.read_csv('data\\tags.csv')
tags.shape

(334, 2)

In [40]:
book_tags = book_tags[book_tags.tag_id.isin(tags.tag_id)]
book_tags.shape

(300738, 4)

Отлично, мы подготовили информацию о тегах книг — это будет метаинформацией для построения рекомендательной системы. Теперь нам необходимо подготовить данные о взаимодействии пользователей и книг. Для этого нам понадобится файл ratings.

Оба набора данных (и про взаимодействия, и про метаинформацию) необходимо преобразовать в разрежённые матрицы. Это можно сделать с помощью специальной функции из модуля scipy:

In [41]:
#pip install scipy==1.10
from scipy.sparse import csr_matrix

Нам важно преобразовать данные в специальный формат, в котором хранятся разрежённые матрицы — будем использовать формат Compressed Sparse Row (CSR), подразумевающий подсчёт кумулятивной суммы количества элементов в строке вместо индексов строк.

Выглядит результат так:

<img src="data\DST_MATH_ML_15_4_2.png" alt="drawing" width="400"/>

Здесь хранится информация о том, сколько суммарно ненулевых элементов в данной строке и выше, индексы столбцов с ненулевыми значениями, сами значения и размерность матрицы.

- В первой строке обозначено, сколько накоплено ненулевых значений (в первой строке — суммарно 1, после второй строки — суммарно 4, после третьей строки — суммарно 4, после четвёртой строки — суммарно 6).
- Во второй строке показано, в каком столбце находится ненулевое значение.
- В третьей строке указаны сами значения.

Осуществляем преобразование следующим образом:

In [42]:
ratings = pd.read_csv('data\\ratings.csv')
ratings.shape

(981756, 3)

In [43]:
ratings_matrix = csr_matrix((ratings.rating,(ratings.user_id,ratings.book_id))) 
# Передаём в качестве аргументов в функцию выставленный рейтинг (это будут значения матрицы), 
# а также id пользователя и id книги (это будут индексы для строк и столбцов матрицы)

Теперь нам необходимо составить матрицу с метаданными. В качестве индексов будут выступать id книги и id тега, и если у этой книги есть рассматриваемый тег, то на пересечении соответствующих строки и столбца будет выставлена единица.

In [44]:
meta_matrix  = csr_matrix(([1]*len(book_tags),(book_tags.id,book_tags.tag_id)))

**Задание 4.4**

Давайте проверим, что всё получилось правильно.  
Каково среднее арифметическое значений разрежённой матрицы с рейтингами? Ответ округлите до трёх знаков после точки-разделителя.

Отлично, данные подготовлены — теперь настало время определить модель, которую мы будем использовать. Сделаем это следующим образом:

In [45]:
model = LightFM(
    loss='warp-kos', # Определяем функцию потерь
    random_state=42, # Фиксируем случайное разбиение
    learning_rate=0.05, # Темп обучения
    no_components=100 # Размерность вектора для представления данных в модели
)

В качестве функции потерь мы выбрали значение 'warp', хотя, разумеется, это не единственный вариант. В модуле LightFM представлены следующие функции потерь:

- 'logistic' — логистическая функция. Полезна в случаях, когда есть как положительные, так и отрицательные взаимодействия, например 1 и -1.
- 'bpr' — байесовский персонализированный рейтинг. Можно применять, когда присутствуют только положительные взаимодействия.
- 'warp' — парный взвешенный приблизительный ранг. Используется, если необходимо повысить качество именно в верхней части списка рекомендаций.
- 'warp-kos' — модификация warp.

Разобьём данные на обучающую и тестовую выборки:

In [46]:
train, test = random_train_test_split(
    ratings_matrix, # Общая выборка
    test_percentage=0.2, # Размер тестовой выборки
    random_state=42 # Генератор случайных чисел
)

Теперь обучим модель на наших данных о взаимодействии, также используя метаданные о книгах. Для этого воспользуемся методом fit(). В этот метод передадим обучающую выборку, признаки товаров — item_features, количество эпох обучения (сколько раз мы будем показывать модели исходный датасет, чтобы она лучше выучила данные) — epochs, а также параметр verbose для отслеживания процесса обучения:

In [47]:
model = model.fit(
    train, # Обучающая выборка
    item_features=meta_matrix, # Признаки товаров
    epochs=10, # Количество эпох
    verbose=True # Отображение обучения
)

Epoch:   0%|          | 0/10 [00:00<?, ?it/s]

: 

: 

In [None]:
ratings_matrix.mean()

**Обратите внимание**: из-за трудоёмкости вычислений обучение модели и оценка качества могут занимать вплоть до 15-20 минут (зависит от мощности компьютера). Не волнуйтесь, это нормальная ситуация.

**Примечание**. Если вы работаете через Google Collab, то для того, чтобы ускорить процесс обучения, вы можете в метод fit() передать параметр num_threads, в котором необходимо указать количество используемых потоков процессора. Задайте его значение, например, равным 6.

**Задание 4.5**

Оцените качество полученной модели с помощью функции precision_at_k, передав в неё три аргумента: модель, тестовые данные и обозначение метаданных (item_features = meta_matrix).

Примечание. Процесс расчёта метрик рекомендательной системы также является довольно затратным по времени. Для ускорения этого процесса вы можете передать параметр num_threads, чтобы указать количество потоков процессора, используемых для вычислений.

Выведите среднее арифметическое и округлите его до двух знаков после точки-разделителя.

In [None]:
prec_score = precision_at_k(
    model,
    test,
    item_features = meta_matrix).mean()
print(prec_score)

In [None]:
# Для предсказания рейтинга для нового пользователя можно воспользоваться методом predict():

scores = model.predict(<индекс интересующего пользователя>, np.arange(n_items),user_features=new_user_feature)

В рекомендательных системах метрики интерпретируются иначе, чем в задачах классификации. Показатели точности РС считаются хорошими, если они находятся в районе 0.1-0.3.

У нас получился не слишком высокий, но довольно неплохой результат. Чтобы его улучшить, можно попробовать следующее:

- Поработать над предобработкой данных, добавив в них дополнительную информацию о товарах. Также можно попробовать воспользоваться иным способом создания разреженной матрицы, например, форматом coo_matrix() или csc_matrix(), которые также входят в библиотеку scipy. Подробнее почитать о них вы можете здесь https://python-school.ru/blog/sparse-matrix-scipy/.
- Поиграться с параметрами модели LightFM — поуправлять темпом обучения (learning_rate), размерностью вектора для представления (no_components), количеством эпох обучения (epochs) и функцией потерь (loss).  
  
**Примечание**. Для предсказания рейтинга нового пользователя можно воспользоваться методом predict():

scores = model.predict(<индекс интересующего пользователя>, np.arange(n_items), user_features=new_user_feature)
Подробнее об этом можно узнать здесь https://making.lyst.com/lightfm/docs/lightfm.html#lightfm.LightFM.predict.

Итак, мы реализовали гибридную РС и оценили её качество. **Какие преимущества и недостатки есть у данного подхода**?

<img src="data\happy-icon.png" alt="drawing" width="50"/>

- Использование разных моделей позволяет компенсировать их недостатки и использовать преимущества каждой модели для составления рекомендаций.
- Благодаря использованию сразу нескольких методов такой подход позволяет получить более персонализированные и точные рекомендации.

<img src="data\sad-icon.png" alt="drawing" width="50"/>

- Такие модели обычно имеют высокую вычислительную сложность и из-за этого долго обучаются.
- Для обучения таких моделей требуются большие объёмы данных и поступление новых данных для обновления рекомендаций.

В этом юните мы обсудили, что такое гибридная рекомендательная система, и познакомились с библиотекой LightFM, с помощью которой можно обучать подобные системы. В следующем юните вас ожидает последний в этом модуле подход к построению рекомендательных систем — искусственные нейронные сети.

___________________________

### 5. Современные методы: глубокое обучение

✍ В этом юните мы познакомимся с последним подходом к построению рекомендательных систем — использование глубокого обучения.

**Глубокое обучение (Deep Learning, DL)** — это современное и эффективное решение для многих задач машинного обучения, таких как компьютерное зрение или обработка естественного языка. Deep Learning во многих случаях превосходит классические методы, которые мы рассматривали ранее. Поэтому в последнее время глубокое обучение всё чаще применяется и в рекомендательных системах. Многие крупные компании, такие как AirBnB, Google, Home Depot, LinkedIn и Pinterest, используют рекомендательные системы, построенные именно на основе глубокого обучения.

Преимущества использования нейронных сетей:

- **Как правило, DL-модели дают более высокое качество**. Стандартные ML-модели проигрывают глубокому обучению, особенно в ситуациях с большим объёмом данных.
- **DL-модели обладают большей гибкостью**. В рамках одной модели вы можете получить ответы на такие вопросы, как «Добавит ли пользователь товар в корзину?», «Начнёт ли он оформление заказа с этим товаром?» или «Купит ли он этот товар?».
- **Можно включать в модель данные совершенно разных типов**, в т. ч. текстовые данные (используя на них все инструменты NLP) или изображения (используя свёрточные нейронные сети).
Существует множество архитектур нейронных сетей, которые можно использовать для разработки рекомендательных систем. Сейчас мы рассмотрим простейшую архитектуру, чтобы в целом разобраться с принципом создания РС с использованием глубокого обучения.

Прежде чем погрузиться в архитектуру модели, давайте познакомимся с концепцией эмбеддингов.

**Эмбеддинг** — это пространство низкой размерности, которое отражает взаимосвязь векторов из пространства более высокой размерности.

Чтобы лучше понять эту концепцию, давайте рассмотрим пример создания эмбеддингов пользователей.

Представим, что у нас есть различные данные о пользователях, которые мы хотим преобразовать в векторы с двумя координатами, отражающие всего две характеристики:

- степень симпатии к триллерам;
- степень симпатии к мелодрамам.

<img src="data\DST_MATH_ML_15_5_1.png" alt="drawing" width="600"/>

Теперь давайте представим некоторого пользователя Алису. Алиса предпочитает смотреть триллеры и не очень любит мелодрамы. Если в зависимости от её действий и оценок фильмов мы сможем оценить её любовь к триллерам и нелюбовь к мелодрамам в численном эквиваленте, то мы получим вектор, характеризующий предпочтения Алисы в плане жанров:

<img src="data\DST_MATH_ML_15_5_2.png" alt="drawing" width="600"/>

Рассмотрим ещё одного пользователя — Машу. Маша в целом является киноманом, так что примерно одинаково любит и триллеры, и мелодрамы. По аналогии с Алисой попробуем создать вектор, который характеризует предпочтения Маши.

<img src="data\DST_MATH_ML_15_5_3.png" alt="drawing" width="600"/>

Создав такие векторы-представления для всех пользователей, мы получим полный набор эмбеддингов.

По сути, эмбеддинги уменьшают размерность данных, оставляя осмысленность в их отображении. При таком преобразовании пользователи, предпочтения которых похожи, находятся рядом в плоскости (или пространстве), а пользователи, предпочтения которых отличаются, находятся далеко друг от друга.

Конечно, необязательно использовать для формирования эмбеддинга только два числа — для вектора можно взять любое количество компонент. Причём чем больше будет измерений, тем выше будет точность представления всех особенностей пользователя и, как следствие, выше будет точность модели. Однако следует понимать, что такое увеличение точности происходит за счёт **роста сложности** модели и **увеличения количества времени**, необходимого для её обучения.

Ровно таким же образом мы можем создать эмбеддинги и для фильмов, отобразив информацию о них в пространство меньшей размерности.

Теперь, когда мы разобрались с эмбеддингами, можно переходить к самой архитектуре нейронной сети. Рассмотрим следующий пример архитектуры:

<img src="data\DST_MATH_ML_15_5_4.png" alt="drawing" width="600"/>

В качестве входных данных для нейронной сети мы передаём вектор характеристик пользователя и вектор для фильма (Inputs на схеме выше).

Из обоих этих векторов получаются эмбеддинги, о которых мы поговорили ранее (обозначены как Embedded User Vector и Embedded Item Vector). Далее эти эмбеддинги проходят через несколько полносвязных слоёв, на выходе из которых они преобразуются в вектор-предсказание. Например, на схеме выше видно, что вероятность первого класса (показывает, что элемент нерелевантен) — 0.2, а второго (показывает, что элемент релевантен) — 0.8. Следовательно, мы делаем выбор в пользу второго и рекомендуем этот продукт пользователю. Собственно, по такому алгоритму и обучается эта нейронная сеть.

Конечно, наше знакомство с глубоким обучением получилось очень поверхностным, но сейчас для вас важно просто понимать его принцип.

Давайте разберём несложную задачу, при решении которой мы обучим настоящую нейронную сеть и используем её для создания рекомендаций.

Мы будем использовать модуль tensorflow, в котором реализовано много полезных методов для имплементации (внедрения) нейронных сетей. Установим его:

In [None]:
%pip install tensorflow

Collecting tensorflow
  Downloading tensorflow-2.12.0-cp310-cp310-win_amd64.whl (1.9 kB)
Collecting tensorflow-intel==2.12.0 (from tensorflow)
  Downloading tensorflow_intel-2.12.0-cp310-cp310-win_amd64.whl (272.8 MB)
     ------------------------------------ 272.8/272.8 MB 476.6 kB/s eta 0:00:00
Collecting absl-py>=1.0.0 (from tensorflow-intel==2.12.0->tensorflow)
  Downloading absl_py-1.4.0-py3-none-any.whl (126 kB)
     ------------------------------------ 126.5/126.5 kB 497.0 kB/s eta 0:00:00
Collecting astunparse>=1.6.0 (from tensorflow-intel==2.12.0->tensorflow)
  Downloading astunparse-1.6.3-py2.py3-none-any.whl (12 kB)
Collecting flatbuffers>=2.0 (from tensorflow-intel==2.12.0->tensorflow)
  Downloading flatbuffers-23.5.26-py2.py3-none-any.whl (26 kB)
Collecting gast<=0.4.0,>=0.2.1 (from tensorflow-intel==2.12.0->tensorflow)
  Downloading gast-0.4.0-py3-none-any.whl (9.8 kB)
Collecting google-pasta>=0.1.1 (from tensorflow-intel==2.12.0->tensorflow)
  Downloading google_pasta-0.



Для начала импортируем из него функции, которые понадобятся нам для решения задачи:

In [None]:
from tensorflow.keras.layers import Input, Embedding, Flatten, Dot, Dense, Concatenate
from tensorflow.keras.models import Model

Мы будем использовать данные из предыдущего юнита, но лишь те, которые содержат информацию об оценках, выставленных книгам пользователями. Загрузим данные:

In [None]:
import pandas as pd
df = pd.read_csv('data\\ratings.csv')

**Задание 5.1**

Разбейте данные на обучающую и тестовую выборки в отношении 4:1. В качестве значения параметра random_state возьмите число 42.  
Сколько объектов теперь находится в обучающей выборке?

In [None]:
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.2, random_state=42)
print(train.shape)

(785404, 3)


**Задание 5.2**

Запишите количество уникальных книг в переменную n_books.  
Сколько в наборе данных уникальных книг?

In [None]:
len(df.book_id.unique())

10000

**Задание 5.3**

Запишите количество уникальных пользователей в переменную n_users.  
Сколько в наборе данных уникальных пользователей?

In [None]:
n_users = len(df.user_id.unique())
n_users

53424

Предварительно вычислим количество уникальных пользователей и книг:

In [None]:
n_books = df["book_id"].nunique()
print(n_books)
n_users = df["user_id"].nunique()
print(n_users)

10000
53424


В первую очередь нам необходимо создать эмбеддинги для книг и пользователей.   
Создаём эмбеддинги для книг:

In [None]:
book_input = Input(shape=[1], name="Book-Input")
book_embedding = Embedding(n_books+1, 5, name="Book-Embedding")(book_input)
book_vec = Flatten(name="Flatten-Books")(book_embedding)

Сначала мы задаём размерность входного слоя. После этого определяем размер эмбеддинга — в данном случае снижаем размерность до 5. Далее мы разворачиваем результат в массив с одним измерением с помощью слоя Flatten().

Делаем то же самое для пользователей:

In [None]:
user_input = Input(shape=[1], name="User-Input")
user_embedding = Embedding(n_users+1, 5, name="User-Embedding")(user_input)
user_vec = Flatten(name="Flatten-Users")(user_embedding)

Теперь, когда мы создали представления как для книг, так и для пользователей, нам необходимо соединить их:

In [None]:
conc = Concatenate()([book_vec, user_vec])

Далее начинаем «собирать» нашу нейронную сеть из слоёв. Dense обозначает полносвязный слой. Также мы обозначаем для него количество нейронов и данные, которые идут на вход.

In [None]:
fc1 = Dense(128, activation='relu')(conc)
fc2 = Dense(32, activation='relu')(fc1)
out = Dense(1)(fc2)

Собираем модель — передаём входные данные для книг и пользователей, а также архитектуру нейронной сети:

In [None]:
model2 = Model([user_input, book_input], out)

Также нам необходимо задать алгоритм оптимизации и метрику, которую мы будем оптимизировать. В данном случае будем использовать метод adam и хорошо известную вам среднеквадратичную ошибку:

In [None]:
model2.compile(optimizer = 'adam',loss =  'mean_squared_error')

Теперь будем обучать нашу модель:

In [None]:
history = model2.fit([train.user_id, train.book_id], train.rating, epochs=5, verbose=1)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


В параметр эпох передаём значение 5: у нас будет реализовано пять эпох — пять обучений нейронной сети. На каждой из эпох обновляются веса для минимизации ошибки.

Теперь можно оценить качество:

In [None]:
model2.evaluate([test.user_id, test.book_id], test.rating)



0.7054723501205444

**Примечание**. К сожалению, результаты этого алгоритма нельзя зафиксировать стандартным ramdom_state, к которому мы привыкли: применяемые методы не используют такой параметр. Поэтому мы опустим здесь сравнение результатов, однако посмотрим, как можно настроить нейронную сеть.

Обычно для улучшения качества модели каким-то образом модифицируют нейронную сеть: дополняют её, увеличивают время обучения. Добавим ещё один полносвязный слой с восемью нейронами после полносвязного слоя с 32 нейронами. Обучим нейронную сеть, реализовав десять эпох:

In [None]:
fc1 = Dense(128, activation='relu')(conc)
fc2 = Dense(32, activation='relu')(fc1)
fc3 = Dense(8, activation='relu')(fc2)
out = Dense(1)(fc3)

model2 = Model([user_input, book_input], out)
model2.compile('adam', 'mean_squared_error')
result = model2.fit([train.user_id, train.book_id], train.rating, epochs=10, verbose=1)
model2.evaluate([test.user_id, test.book_id], test.rating)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


0.771532416343689

Качество получившейся модели не будет выше качества предыдущей, так как усложнение сети или увеличение количества эпох не всегда даёт высокое качество. Здесь главное, что вы научились корректировать архитектуру нейронной сети.

Теперь вы познакомились со всеми методами построения рекомендательных систем — самое время перейти к последнему, практическому юниту.

______________________

### 6. Практика

✍ Итак, вы познакомились с основными методами построения рекомендательных систем, и теперь настало время закрепить полученные знания на практике. В предыдущем модуле мы начали строить РС для сервиса чтения статей CI&T DeskDrop. В этом юните мы продолжим работу над ней.

**Примечание**. Если у вас не сохранился код, который мы использовали ранее, вы можете найти его в ноутбуке https://lms-cdn.skillfactory.ru/assets/courseware/v1/6252d08b38b4695df97217fc7b8822ba/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/RecSys_unit6.ipynb.

Так как теперь вам известны более сложные алгоритмы построения рекомендательных систем, начнём с них.

Для начала необходимо построить матрицу, в которой по столбцам будут находиться id статей, по строкам — id пользователей, а на пересечениях строк и столбцов — оценка взаимодействия пользователя со статьёй. Если взаимодействия не было, в соответствующей ячейке должен стоять ноль.

In [None]:
import pandas as pd
import numpy as np
import math

**Задание 6.1**

Найдите оценку взаимодействия пользователя с ID -1032019229384696495 со статьёй с ID 943818026930898372. Результат округлите до двух знаков после точки-разделителя.

Примечание. Здесь и далее (пока не будет указано иное) необходимо работать с обучающей выборкой.

In [None]:
articles_df = pd.read_csv('data\\shared_articles.csv')
articles_df = articles_df[articles_df['eventType'] == 'CONTENT SHARED']

In [None]:
interactions_df = pd.read_csv('data\\users_interactions.csv')
interactions_df.personId = interactions_df.personId.astype(str)
interactions_df.contentId = interactions_df.contentId.astype(str)

event_type_strength = {
   'VIEW': 1.0,
   'LIKE': 2.0, 
   'BOOKMARK': 2.5, 
   'FOLLOW': 3.0,
   'COMMENT CREATED': 4.0,  
}

interactions_df['eventStrength'] = interactions_df.eventType.apply(lambda x: event_type_strength[x])
# interactions_df['eventStrength'].mean()

In [None]:
users_interactions_count_df = (
    interactions_df
    .groupby(['personId', 'contentId'])
    .first()
    .reset_index()
    .groupby('personId').size())

users_with_enough_interactions_df = \
    users_interactions_count_df[users_interactions_count_df >= 5].reset_index()[['personId']]

In [None]:
interactions_from_selected_users_df = interactions_df.loc[np.in1d(interactions_df.personId,
            users_with_enough_interactions_df)]

In [None]:
def smooth_user_preference(x):
    return math.log(1+x, 2)
    
interactions_full_df = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId']).eventStrength.sum()
    .apply(smooth_user_preference)
    .reset_index().set_index(['personId', 'contentId'])
)
interactions_full_df['last_timestamp'] = (
    interactions_from_selected_users_df
    .groupby(['personId', 'contentId'])['timestamp'].last()
)
        
interactions_full_df = interactions_full_df.reset_index()

In [None]:
from sklearn.model_selection import train_test_split

split_ts = 1475519545
interactions_train_df = interactions_full_df.loc[interactions_full_df.last_timestamp < split_ts].copy()
interactions_test_df = interactions_full_df.loc[interactions_full_df.last_timestamp >= split_ts].copy()
print(interactions_train_df.shape)

(29329, 4)


In [None]:
ratings = pd.pivot_table(
    interactions_train_df,
    values="eventStrength",
    index="personId",
    columns="contentId",
).fillna(0)
round(ratings.loc["-1032019229384696495", "943818026930898372"], 2)

2.32

Теперь давайте попробуем применить memory-based-подход коллаборативной фильтрации.

**Примечание**. Данных достаточно много, поэтому для увеличения скорости работы преобразуйте таблицу в массив numpy.

**Задание 6.2**

Найдите среднее арифметическое всех чисел в получившемся массиве. Результат округлите до трёх знаков после точки-разделителя.

In [None]:
ratings_m = ratings.values
ratings_m.mean()

0.016673743043640697

Перейдём к реализации коллаборативной фильтрации. Ранее мы делали это с помощью библиотеки surprise, однако это не всегда удобно, так как эта библиотека имеет ограниченное количество метрик для оценки качества и небольшой потенциал для более тонкой настройки алгоритма. Поэтому давайте попробуем реализовать алгоритмы коллаборативной фильтрации «с нуля». Такая практика применяется, если необходимо выстроить более сложную систему, чем могут предложить готовые модули. Кроме того, «ручная» реализация алгоритмов позволит лучше понять принцип их работы.

**Задание 6.3**

Постройте матрицу схожести. Для этого вычислите все попарные коэффициенты корреляции для матрицы, полученной в предыдущем задании. Для каждой пары учитывайте только ненулевые значения (так как нулевые обозначают отсутствие взаимодействия и не интересуют нас). Выведите результат, полученный в ячейке с третьим индексом по строкам и сороковым — по столбцам.

In [None]:
similarity_users = np.zeros((len(ratings_m), len(ratings_m)))
for i in (range(len(ratings_m)-1)):
    for j in range(i+1, len(ratings_m)):
        mask_uv = (ratings_m[i] != 0) & (ratings_m[j] != 0)
        ratings_v = ratings_m[i, mask_uv]
        ratings_u = ratings_m[j, mask_uv]
        similarity_users[i,j] = np.corrcoef(ratings_v, ratings_u)[0, 1]
        similarity_users[j,i] = similarity_users[i,j]
similarity_users[3,40]

  avg = a.mean(axis, **keepdims_kw)
  ret = um.true_divide(
  c = cov(x, y, rowvar, dtype=dtype)
  c *= np.true_divide(1, fact)
  c *= np.true_divide(1, fact)
  c /= stddev[:, None]
  c /= stddev[None, :]


-0.3333333333333333

Теперь у нас есть матрицы схожести пользователей. Их можно использовать для построения рекомендаций. Чтобы это сделать, надо реализовать следующий алгоритм.

**Для каждого пользователя**:

- Найти пользователей с похожестью больше 0.
- Для каждой статьи вычислить долю пользователей (среди выделенных на первом шаге), которые взаимодействовали со статьёй.
- Порекомендовать статьи (не более 10) с наибольшими долями со второго шага (среди тех, которые пользователь ещё не видел).

**Задание 6.4**

Постройте рекомендательную систему по алгоритму, описанному выше. Найдите первую рекомендацию для строки 35 (если считать с нуля).

In [None]:
interactions = (
    interactions_train_df.groupby('personId')['contentId'].agg(lambda x: list(x)).reset_index().rename(columns={'contentId': 'true_train'}).set_index('personId')
)
interactions['true_test'] = (interactions_test_df.groupby('personId')['contentId'].agg(lambda x: list(x))
)
interactions['true_test'] = [ [] if x is np.NaN else x for x in
interactions['true_test'] ]
prediction_user_based = []
for i in range(len(similarity_users)):
    users_sim = similarity_users[i] > 0
    if not any(users_sim):
        prediction_user_based.append([])
    else:
        tmp_recommend = np.argsort(ratings_m[users_sim].sum(axis=0))[::-1]
        tmp_recommend = ratings.columns[tmp_recommend]
        recommend = np.array(tmp_recommend)[~np.in1d(tmp_recommend,
interactions.iloc[i]["true_train"])][:10]
        prediction_user_based.append(list(recommend))
interactions['prediction_user_based'] = prediction_user_based
prediction_user_based[35][0]

'-5148591903395022444'

После того как сделаны предсказания, можно вычислить качество по метрике, которую мы определили в предыдущем модуле при решении этой задачи:

In [None]:
def calc_precision(column):
    return ( interactions.apply(  lambda row:len(set(row['true_test']).intersection(
                set(row[column]))) /min(len(row['true_test']) + 0.001, 10.0), axis=1)).mean()

**Задание 6.5**

Вычислите точность полученного предсказания. Ответ округлите до трёх знаков после точки-разделителя.

In [None]:
round(calc_precision('prediction_user_based'), 3)

0.005

**Задание 6.6**

Теперь реализуем рекомендательную систему с использованием SVD.

Разложите матрицу взаимодействий пользователей со статьями с помощью функции svd из модуля scipy. Найдите максимальное значение в получившейся матрице U. Результат округлите до двух знаков после точки-разделителя.

In [None]:
from scipy import linalg

U, sigma, V = linalg.svd(ratings)
U.max()

0.7071067811865469

Значения матрицы с сингулярными числами отсортированы по убыванию. Допустим, мы хотим оставить только первые 100 компонент и получить скрытые представления размерности 100. Для этого необходимо оставить 100 столбцов в матрице U, только первые 100 значений из sigma (и сделать из них диагональную матрицу) и 100 столбцов в матрице V. Затем необходимо перемножить преобразованные матрицы.

**Задание 6.7**

Найдите сумму всех элементов в новой сингулярной матрице. Ответ округлите до двух знаков после точки-разделителя.

In [None]:
k = 100
s = np.diag(sigma[:k])
U = U[:, 0:k]
V = V[0:k, :]
round(s.sum(), 2)

2096.53

Теперь мы можем сделать предсказание по полученной матрице.

**Примечание**. Помните, что не нужно учитывать статьи, которые уже были просмотрены пользователем.  
Найдите для каждого пользователя статьи с наибольшими оценками в восстановленной матрице.

**Задание 6.8**

Вычислите качество полученного предсказания, используя всё ту же метрику точности. Ответ округлите до трёх знаков после точки-разделителя

In [None]:
new_ratings = pd.DataFrame(
    U.dot(s).dot(V), index=ratings.index, columns=ratings.columns
)
top_k = 10
predictions = []
for personId in interactions.index:
    prediction = (
        new_ratings.loc[personId].sort_values(ascending=False).index.values
    )
    predictions.append(
        list(
            prediction[
                ~np.in1d(prediction, interactions.loc[personId, "true_train"])
            ]
        )[:top_k]
    )
interactions["prediction_svd"] = predictions
calc_precision("prediction_svd")

0.012212989310270756

Итак, мы реализовали два алгоритма коллаборативной фильтрации буквально с нуля! Теперь для полноты картины давайте реализуем на этих данных гибридную модель и посмотрим, какое качество получится. Для этого воспользуемся уже изученной библиотекой LightFM.

**Задание 6.9**

Возьмите матрицу, подготовленную в задании 6.1. Преобразуйте её в разреженную матрицу:

In [None]:
# from scipy.sparse import csr_matrix
# ratings_matrix = csr_matrix(ratings)

Воспользовавшись функцией random_train_test_split() из библиотеки lightfm, разделите данные на валидационную и обучающую выборки в соотношении 1:2 (30% на валидационную выборку, 70% на обучающую). В качестве значения параметра random_state возьмите число 13.

Обучите модель LightFM со 100 компонентами, параметром random_state = 13, темпом обучения 0.05 и функцией потерь 'warp'. Обратите внимание на то, что так как в данном случае у нас нет item-признаков, то параметр item_features задавать не нужно.

Вычислите показатель точности (precision@k) при k = 10. Ответ округлите до двух знаков после точки-разделителя

In [None]:
from lightfm import LightFM
from lightfm.cross_validation import random_train_test_split
from lightfm.evaluation import precision_at_k, recall_at_k
from scipy.sparse import csr_matrix
ratings_matrix = csr_matrix(ratings) # передаём в качестве аргументов в функцию выставленный рейтинг 
# (это будут значения матрицы), а также id
# пользователя и id книги (это будут индексы для строк и столбцов матрицы)
model = LightFM(loss='warp', #определяем функцию потерь
    random_state=13, #фиксируем случайное разбиение
    learning_rate=0.05, #темп обучения
    no_components=100) #размерность вектора для представления данных в модели
train,test = random_train_test_split(ratings_matrix, test_percentage=0.3,
random_state=13)
model.fit(train)
prec_score = precision_at_k(model, test).mean()
print(round(prec_score, 2))

ModuleNotFoundError: No module named 'lightfm'

В данном случае модель «из коробки» показала наилучший результат, однако это совсем не показатель того, что стоит пользоваться исключительно готовыми функциями. Зная тонкости работы алгоритмов, вы можете создавать собственные гибридные системы, настраивать отдельные алгоритмы и добиваться ещё лучших результатов.

__________________________

### 7. Итоги

⭐ Вы закончили изучение рекомендательных систем — поздравляем!

В этом модуле вы:

- разобрались с принципом работы всех основных моделей рекомендательных систем;
- научились реализовывать их на практике;
- смогли построить рекомендательную систему, использовав различные подходы.
  
Выполните несколько заданий, чтобы закрепить пройденный материал ↓

**Задание 7.4**

Вычислите метрику MRR, если у нас есть следующие результаты рекомендаций (красным цветом отмечены неверные, зелёным — верные, ранжирование — слева направо). Округлите до двух знаков после точки-разделителя.

<img src="data\DST_MATH_ML_15_7_1.png" alt="drawing" width="100"/>

<img src="data\pic-8.png" alt="drawing" width="700"/>

Если вы хотите подробнее изучить **продвинутые алгоритмы построения РС**, рекомендуем обратить внимание на следующие источники:

- Разбор конфигураций гибридных рекомендательных моделей https://medium.com/analytics-vidhya/7-types-of-hybrid-recommendation-system-3e4f78266ad8.  
- Обзорная статья об использовании глубокого обучения для построения рекомендательных систем https://arxiv.org/pdf/1707.07435.pdf.

________________________