# Рекомендательные системы 

### Классические подходы в рекомендательных системах

1. Коллаборативная фильтрация - технология прогнозирования предпочтений пользователя с учетом интересов других посетителей интернет-ресурса. На основе собираемой информации система рекомендует те товары, которыми аудитория со схожими интересами уже интересовалась, а конкретный человек — еще нет.

    а) основанная на соседстве - составляется разреженная матрица оценок, запоминается и идет поиск по метрике близости ближайших товаров или пользователей.
    
    б) основанная на модели - аппроксимирует близость товаров и пользователей. Предполагается, что есть некоторое сходство между пользователем и объектом и  вызвано это некоторой скрытой низкоразмерной структурой данных.
    
2. Основанная на контенте - базируется на наличии информации о товаре: надпись, картинка, характеристики и тд; информации о пользователе: пол, возраст, география и тд. 

3. Гибридная - сочетает лучшее из коллаборативной фильтрации и основанной на контенте и снижает ошибку каждой. 

#### Плюсы и минусы

**1. Коллаборативная фильтрация:**
- Плюсы

    -Прост в реализации и понимании

    -Важен лишь факт взаимодействия 
    
    -Может быть эффективным для небольших и средних наборов данных
- Минусы

    -Проблема холодного старта
    
    -Разреженность данных 
    
    -Плохо масштабируется на больших данных
    
**2. Основанная на контенте**
- Плюсы

    -Могут использовать текстовые характеристики товаров или описания пользователей для построения рекомендаций
    
    -Могут быть эффективными при отсутствии достаточного количества взаимодействий между пользователями и товарами
    
    -Позволяют создавать персонализированные рекомендации даже для новых пользователей или товаров
    
- Минусы

    -Требуют обработки и анализа текстовых данных, что может быть ресурсозатратным
    
    -Могут быть менее эффективными для товаров без текстовых описаний или характеристик
    
    -Не учитывается контекст и опыт других пользователей
    
**3. Гибридная**
- Плюсы

    -Комбинируют преимущества нескольких методов для улучшения качества рекомендаций

    -Могут компенсировать недостатки одного метода другим

- Минусы

    -Требуют дополнительных усилий по разработке и интеграции различных моделей
    
    -Могут быть сложными в настройке и поддержке из-за сложности комбинации различных методов

Исходя из имеющихся данных, наиболее подходящим вариантом будет контентная рекомендация, так как у нас очень много информации о клиентах и курсах, заодно это решит нашу проблему с холодным стартом. В идеале, это гибридный вариант с коллаборативной фильтрацией, так как, во-первых, будет учтена история взаимодействия других пользоваталей, а во-вторых, сможем качественнее отобрать только самые важные признаки, так как их очень много и часть из них излишняя. Однако, все зависит от конкретных результатов, поэтому окончательное решение будет принято уже в процессе разработки. 

#### Рассмотрим подробнее подходы в коллаборативной фильтрации

**Memory-based Collaborative Filtering (CF):**

Memory-based CF основывается на простом принципе анализа сходства между пользователями или элементами. Он не использует математических моделей для построения предсказаний, а вместо этого полагается на данные о предыдущих взаимодействиях пользователей с элементами.

- User-based CF (CF на основе пользователей): Этот подход определяет сходство между пользователями на основе их предпочтений похожих элементов. Для предсказания рейтинга или рекомендации для конкретного пользователя используются предпочтения аналогичных пользователей.

- Item-based CF (CF на основе элементов): Этот метод определяет сходство между элементами на основе того, как они оцениваются пользователями. Для предсказания рейтинга или рекомендации для конкретного пользователя используются оценки похожих элементов. [1][2]

Примеры моделей Memory-based CF:

- K-Nearest Neighbors (KNN): Для каждого пользователя (или элемента) находятся K наиболее похожих пользователей (или элементов), и на основе их предпочтений строится предсказание для данного пользователя (или элемента).

- Pearson Correlation: Используется коэффициент корреляции Пирсона для определения сходства между пользователями или элементами.



In [7]:
from IPython.display import Image
Image(url='https://www.researchgate.net/publication/340361119/figure/fig1/AS:962178941214731@1606412744374/Concepts-of-user-based-and-item-based-filtering.png')

**Model-based Collaborative Filtering (CF):**

Model-based CF использует математические модели для изучения данных и предсказания рейтингов или рекомендаций. Эти модели обычно требуют обучения на основе набора данных.

- Matrix Factorization (Матричное разложение): Этот метод разлагает матрицу взаимодействий пользователей с элементами на две или более низкоранговых матрицы. Эти матрицы представляют латентные признаки пользователей и элементов, которые затем используются для предсказания рейтингов или рекомендаций. Примеры моделей матричного разложения включают Singular Value Decomposition (SVD) и Alternating Least Squares (ALS).

- Probabilistic Methods (Вероятностные методы): Этот подход использует вероятностные модели, такие как байесовские сети или методы машинного обучения, для предсказания рейтингов или рекомендаций.Примеры моделей вероятностных методов включают Latent Dirichlet Allocation (LDA) и Probabilistic Matrix Factorization (PMF). [3]

Memory-based CF обычно более прост в понимании, но может иметь проблемы с масштабируемостью и точностью, также он работает с данными, где есть явный фидбек (оценка, рейтинг и тд). Model-based CF обеспечивает лучшую масштабируемость и точность благодаря использованию математических моделей и алгоритмов машинного обучения и способен работать с неявным фидбеком. 

In [8]:
from IPython.display import Image
Image(url='https://bigdataschool.ru/wp-content/uploads/2022/05/Recommender-Systems-Advanced-Algorithms-02.jpg')

*Пример работы методов матричной факторизации*

Следует начать с **SVD** и **Matrix Factorization**, так как здесь требуется меньше мощностей, но эффективность как правило выше, так как учитываются скрытые закономерности, а в SVD можно выявить информацию о более значимых признаках, отсеив менее значимые, тем самым снизив размерность. В перспектике можно опробовать также **ALS**, так как он итеративный и это позволяет ему получать лучшие результаты, также он легко масштабируется засчет параллелизации и в процессе могут быть добавлены дополнительные характеристики. 

Таким образом, при получении хороших результатов, можно добавить ранжирование и сгладить проблему холодного старта. В противном случае, имеет смысл реализовывать гибридный подход, добавив контентную фильтрацию (проблема холодного старта автоматически отпадает)

#### Рассмотрим подробнее подходы в контентных рекомендациях

- **Модель TF-IDF** (Term Frequency-Inverse Document Frequency): Это классический метод анализа текста, который оценивает важность слова в документе в контексте коллекции документов. TF-IDF используется для определения ключевых слов и их весов, что может быть полезно при анализе текстового контента для рекомендаций.

Плюсы:

- Простота и понятность концепции.
- Эффективное выделение ключевых слов.
    
Минусы:

- Не учитывает семантические связи между словами.
- Может привести к проблеме разреженности при работе с большими текстовыми корпусами.


- **Word Embeddings** (векторные представления слов): Модели, такие как Word2Vec, GloVe и FastText, могут преобразовать слова в векторные представления, которые учитывают семантические и синтаксические свойства слов. Это позволяет выявлять сходство между словами и использовать эту информацию для анализа текстового контента.

Плюсы:

- Учитывает семантические и синтаксические связи между словами.
- Может использоваться для измерения сходства между словами и текстами.

Минусы:

- Требует больших объемов обучающих данных для эффективного обучения.
- Не всегда удается корректно захватить специфические особенности контента.

- **Модели машинного обучения для классификации и кластеризации**: Различные модели машинного обучения, такие как классификаторы на основе метода опорных векторов (SVM), случайные леса, нейронные сети и кластеризация K-means, могут быть использованы для анализа текстового или метаданных контента и его классификации или кластеризации по различным критериям.

Плюсы:

- Могут обрабатывать разнообразные типы данных (текст, изображения, звук и т.д.).
- Обладают гибкостью в настройке и оптимизации под конкретные задачи.

Минусы:

- Требуют больших вычислительных ресурсов для обучения и прогнозирования.
- Могут страдать от переобучения при недостаточном объеме данных или неправильной настройке гиперпараметров.

- **Модели с использованием алгоритмов обработки естественного языка (Natural Language Processing, NLP)**: NLP-модели, такие как рекуррентные нейронные сети (RNN), сверточные нейронные сети (CNN) и трансформеры, могут использоваться для анализа текстового контента и извлечения его смысла, что может быть полезно для предсказания интересов пользователя на основе текста.

Плюсы:

- Могут понимать смысл текстового контента и учитывать его контекст.
- Позволяют работать с различными языками и форматами текста.

Минусы:

- Требуют сложной предобработки данных.
- Могут быть чувствительны к качеству данных и культурным особенностям языка.

In [5]:
from IPython.display import Image
Image(url='https://habrastorage.org/getpro/habr/upload_files/4c7/4ce/2fe/4c74ce2fe7a1a1a7fda6f567ebb50a88.jpg')

### Холодный старт

**Фолдинг** может смягчить эффект холодного старта. Новые данные о пользователях, элементах или их взаимодействиях начинают поступать в систему с течением времени. Вместо того чтобы обучать модель заново на всех данных (что может быть дорого и затратно по времени), с использованием метода фолдинга можно обновлять или расширять существующую модель с учетом новых данных. Новые данные интегрируются в модель с минимальными затратами на ресурсы. Это может включать в себя обновление весов модели, пересчет статистических параметров или другие операции в зависимости от используемого алгоритма.

**Рекомендации построенные на основе контента** - для новых пользователей, у которых еще нет истории взаимодействий, контентные рекомендации могут предложить рекомендации на основе их текущих интересов или предпочтений, выявленных из анализа характеристик элементов, поскольку контентные рекомендации базируются на анализе характеристик элементов, таких как ключевые слова, описания, жанры и теги. Также возможно использоваться данные о пользователе, такие как география, возраст, пол и тд.  

**Популярные товары и случайные рекомендации** - начальная рекомендация для новых пользователей может быть основана на популярных товарах или случайно выбранных товарам. Это позволяет предоставить пользователям некоторую информацию о разнообразии ассортимента без учета их предпочтений.

#### Глубинное обучение

**Сети глубокого обучения (Deep Learning Networks):**
- Суть подхода: Сети глубокого обучения представляют собой модели, состоящие из множества слоев нейронов, которые могут обучаться из данных. Примеры таких моделей включают в себя многослойные перцептроны (MLP), сверточные нейронные сети (CNN), рекуррентные нейронные сети (RNN) и их модификации, такие как LSTM и GRU.

- Плюсы: Сети глубокого обучения могут обнаруживать сложные нелинейные взаимосвязи в данных, что делает их мощным инструментом для моделирования пользовательских предпочтений и поведения. Они способны извлекать высокоуровневые признаки из данных, что обычно приводит к улучшению качества предсказаний.

- Минусы: Требуется большое количество данных для эффективного обучения глубоких моделей, что может быть проблемой для некоторых приложений с небольшими объемами данных. Кроме того, глубокие модели могут быть сложными в настройке и требовательными к вычислительным ресурсам для обучения и инференса.

**Использование Torch с поддержкой CUDA:**
- Суть подхода: Использование библиотеки Torch с поддержкой CUDA позволяет выполнять вычисления на графическом процессоре (GPU), что может значительно ускорить процесс обучения и применения модели. CUDA - это платформа параллельных вычислений, разработанная NVIDIA, которая позволяет использовать вычислительные ресурсы GPU для выполнения операций с тензорами.

- Плюсы: Основное преимущество заключается в значительном ускорении процесса обучения и выполнения инференса благодаря параллельным вычислениям на GPU. Это особенно полезно при работе с большими объемами данных и сложными моделями, такими как нейронные сети.

- Минусы: Недостатки включают в себя дополнительные затраты на оборудование, поскольку GPU-устройства могут быть дороже и сложнее в установке и поддержке по сравнению с CPU. Кроме того, не всегда возможно использование CUDA, если требуется совместимость с другими аппаратными или программными средствами.

#### Иные подходы

По мере увеличения объемов данных и усложнения задач появлялись новые подходы, отличные от рассмотренных ранее простых коллаборативных моделей:

**Learn to Rank** алгоритмы, которые улучшают ранжирование за счет оценивания всего списка в совокупности, а не поэлементно.

**Sequential** алгоритмы, которые учитывают последовательность действий, за счет чего точнее предсказывают следующий элемент в цепочке действий.

**Variational Autoencoders**, которые позволяют генерировать эмбеддинги из совокупности коллаборативной информации и содержимого контента.

Главное отличие алгоритмов **LTR** от традиционного ML в том, что, если традиционно предсказание строится для одного объекта в один момент времени, то LTR работает со всем списком, оценивая ранжирование в целом. Это дает возможность отсортировать не просто по признаку «посмотрел пользователь или нет», а используя реальный порядок просмотра и оценивая взаимное расположение объектов в ленте. Тренировочные данные для LTR состоят из некоторого истинного порядка расположения рекомендаций, который модель обучается повторять. Есть несколько подходов к построению ранжирования.

**Pointwise** — это обычная задача регрессии: нужно проассоциировать каждый объект с неким числом (оценкой) и затем в соответствии с ним ранжировать.

**Pairwise-подход** — это попытка задать функцию отношения на множестве объектов. То есть, модель получает на вход два объекта и должна выдать вероятность того, что первый из них больше подходит пользователю, чем второй. Вообще говоря, при таком подходе мы не получаем математически выверенной операции, могут быть накладки в виде невыполнения ассоциативности, транзитивности или других свойств — методы обучения Pairwise модели не всегда гарантируют их соблюдение. Тем не менее, он гораздо лучше отвечает задаче ранжирования, чем Pointwise.

И, наконец, **listwise-подход**, когда оценивается все ранжирование целиком. Можно прямо оптимизировать такие метрики, как NDCG (метрики ранжирования рассматривались в предыдущей части этого обзора).

**Плюсы Learn to Rank**:
- Учет множества факторов: LTR позволяет учитывать множество различных факторов при ранжировании объектов, таких как текстовые признаки, структура документа, пользовательские предпочтения и другие, что позволяет создавать более точные и персонализированные рекомендации.

- Адаптация к контексту запроса: Модель LTR может быть обучена учитывать контекст запроса, что позволяет создавать более релевантные рекомендации в зависимости от конкретного запроса пользователя или ситуации.

- Гибкость в определении функции ранжирования: LTR предоставляет гибкость в определении функции ранжирования, что позволяет адаптировать модель к конкретным потребностям и характеристикам данных.

- Итеративный подход к улучшению ранжирования: Поскольку LTR модель обучается на основе обратной связи от пользователей или экспертов, это позволяет использовать итеративный подход к улучшению качества ранжирования, постепенно адаптируя модель к изменяющимся потребностям пользователей и новым данным.

**Минусы Learn to Rank**:
- Необходимость в большом объеме размеченных данных: Обучение модели LTR требует большого объема размеченных данных, то есть данных, в которых для каждого запроса имеется информация о релевантности объектов. Это может быть затруднительно для некоторых прикладных задач, особенно если данных о релевантности недостаточно или их сложно получить.

- Сложность обучения и интерпретации модели: Модели LTR могут быть сложными в обучении и интерпретации, особенно если они используют глубокое обучение или другие сложные методы. Это может потребовать наличия специалистов по машинному обучению для разработки и настройки моделей.

- Возможность переобучения: Как и в случае с другими моделями машинного обучения, существует риск переобучения модели LTR на обучающих данных, что может привести к плохому обобщению на новые данные и ухудшению качества ранжирования.

- Необходимость постоянного обновления модели: Поскольку пользовательские запросы и предпочтения могут меняться со временем, модель LTR может требовать постоянного обновления и переобучения для поддержания актуальности и качества ранжирования.

Следующая большая категория это **sequential** рекомендательные алгоритмы.

Большой недостаток многих моделей в том, что они рассматривают действия пользователя без учета временного фактора: то есть, только как факт взаимодействия пользователя с контентом, но не как последовательность. 

**Плюсы sequential рекомендательных алгоритмов**:
- Учет контекста и последовательности действий: Подход sequential позволяет учитывать контекст текущего действия и историю предыдущих действий пользователя, что позволяет создавать более релевантные и персонализированные рекомендации.

- Поддержка динамических предпочтений пользователей: Sequential алгоритмы могут обнаруживать изменения в предпочтениях пользователей со временем и адаптировать рекомендации в соответствии с этими изменениями.

- Поддержка сериализованных данных: Sequential подходы могут эффективно работать с сериализованными данными, такими как текстовые, временные или последовательные данные, что позволяет моделировать широкий спектр пользовательских взаимодействий.

- Возможность создания персонализированных и динамических рекомендаций: Sequential алгоритмы могут предлагать рекомендации, которые адаптированы к индивидуальным предпочтениям и поведению каждого пользователя, учитывая контекст и историю его действий.

**Минусы sequential рекомендательных алгоритмов**:
- Сложность моделирования длинных последовательностей: Моделирование длинных последовательностей действий пользователей может быть сложной задачей из-за сложности обучения моделей с длинными зависимостями.

- Необходимость большого объема данных: Обучение моделей sequential рекомендаций может требовать большого объема данных о взаимодействиях пользователей, чтобы модель могла эффективно обнаруживать паттерны и зависимости в последовательностях.

- Интерпретируемость моделей: Некоторые sequential модели могут быть сложными в интерпретации из-за их структуры и использования сложных архитектур глубокого обучения или рекуррентных сетей.

- Недостаток контекста в начале последовательности: В начале пользовательской последовательности могут отсутствовать контекст и история, что затрудняет предсказание следующего действия или элемента.

**Collaborative Variational Autoencoder (CVAE)**
Сейчас в рекомендациях широко используются адаптации моделей, хорошо зарекомендовавших себя в других различных областях. Например, вариационные автоэнкодеры (VAE).

Это модель 2017 года, которая учитывает и коллаборативную информацию, и содержание (в данном случае текст, но можно адаптировать под другие типы контента) внутри одной VAE-модели. 

Гибридные (учитывающие оба вида информации) системы делятся на слабосвязные и сильносвязные. Слабосвязные по сути представляют собой две отдельные модели, связанные отдельной моделью или эвристиками. Большей отказоустойчивостью обладают, разумеется, сильносвязные модели. По сути, это модель генерации эмбеддингов, которые генерируются как из содержания (unsupervised), так и из коллаборативный информации.

**Плюсы Collaborative Variational Autoencoder (CVAE)**:
- Учет латентных представлений: CVAE позволяет моделировать скрытые факторы взаимодействий между пользователями и элементами, что позволяет получать более глубокие и информативные представления данных.

- Вероятностная модель: CVAE основана на вероятностной постановке, что позволяет модели оценивать неопределенность в данных и получать апостериорные распределения для лучшего понимания неопределенности рекомендаций.

- Генерация новых рекомендаций: CVAE может быть использован для генерации новых рекомендаций путем генерации элементов, которые могут заинтересовать пользователя на основе их предпочтений и латентных представлений.

- Интерпретируемость: Поскольку CVAE моделирует латентное пространство, оно может предоставить интерпретируемые представления пользователей и элементов, что помогает понять причины рекомендаций.

**Минусы Collaborative Variational Autoencoder (CVAE)**:
- Сложность обучения и интерпретации: Обучение CVAE может быть сложным из-за использования сложных вероятностных методов и архитектур нейронных сетей. Кроме того, интерпретация латентных представлений может быть сложной.

- Необходимость большого объема данных: Как и в случае с другими моделями глубокого обучения, CVAE требует большого объема данных для эффективного обучения, особенно если мы говорим о рекомендательных системах с большим количеством пользователей и элементов.

- Оверфиттинг: Сложные модели, такие как CVAE, могут быть подвержены оверфиттингу на обучающих данных, особенно если данных недостаточно или если модель слишком сложная для представления структуры данных.

- Сложность настройки гиперпараметров: CVAE требует настройки множества гиперпараметров, таких как размерность латентного пространства, коэффициенты регуляризации и т. д., Что может быть сложно для оптимизации.