## Введение в задачу выдачи рекомендаций

#### Постановка

Задачи выдачи рекомендаций предполагает, что имеются:
* множество $U$, составленное из элементов, для которых или к которым делаются рекомендации;
* множество $I$, составленное из элементов, которые могут быть порекомендованы;
* множество $\Omega$, составленное из различных контекстов, в которых могут делаться рекомендации.

В зависимости от ситуации дать рекомендации для $u \in U$ при условии контекста $\omega \in \Omega$ может означать:
* отранжировать всё множество $I$;
* отобрать $k$ элементов из множества $I$, где $k$ — заранее заданная константа;
* вернуть отранжированный список из $k$ элементов множества $I$ (т.е. это комбинация двух предыдущих вариантов).

Довольно часто в качестве множества $U$ берётся множество пользователей. Из исключений можно отметить так называемые item2item-рекомендации, где множество $U$ совпадает со множеством $I$. Впрочем, если говорить про персонализированные item2item-рекомендации, то там $U$ всё-таки будут составлять пользователи, а текущий объект, к которому подбираются рекомендации, является частью контекста $\omega$. Так или иначе, далее ради наглядности элементы множества $U$ будут называться пользователями.

Множество $I$ может состоять, например, из товаров в интернет-магазине, фильмов в онлайн-кинотеатре или публикаций для ленты в соцсети. Далее эти объекты будут называться предметами по аналогии с англоязычным «items», хотя они и не обязаны быть материальными. Такое обозначение выбрано, потому что слово «объект» применительно к машинному обучению означает элемент обучающей выборки (т.е. строку матрицы признакового описания $X$) и не хочется его перегружать.

Контекст позволяет учитывать признаки, относящиеся к ситуации, в которой делаются рекомендации: например, тип рекомендательного блока. Но контекста может и не быть — тогда используются только признаки пользователей и предметов. В частности, если вернуться к примеру с типом блока, то можно обойтись без контекста, построив по отдельной рекомендательной системе для каждого типа.

Рекомендательные системы нужны, чтобы автоматизировать или хотя бы облегчить пользовательский выбор, а также чтобы направить его в нужное русло. Выбирать самостоятельно пользователи могут не желать по целому ряду причин. В случае с выбором трека на стриминговой платформе это отвлекает от непрерывного прослушивания музыки; в случае с покупкой дорогой бытовой техники качественный выбор может требовать поиска и анализа определённого количества информации; в случае заказа в сервисе доставки продуктов необходимо ничего не забыть из десятков позиций.

Хорошие рекомендательные системы не просто подбирают наиболее подходящие варианты, но и имеют дополнительные эффекты в виде открытия для пользователей новых предметов, о которых те сами навряд ли бы узнали.

#### Этапы, на которые разбивается выдача рекомендаций

В общем случае генерация рекомендаций для текущего пользователя $u \in U$ при текущем контексте $\omega \in \Omega$ может включать следующие стадии:
* легковесное извлечение кандидатов (retrieval); этот этап нужен, если количество предметов $\vert I \vert$ слишком большое, чтобы их все можно было полноценно обработать;
* фильтрация кандидатов, то есть удаление тех кандидатов, которые не подходят по каким-либо требованиям, налагаемым предметной областью;
* ранжирование (или отбор top-$k$ финальных кандидатов, если их нужно лишь отобрать);
* переранжирование; на этом этапе в сортировку предметов по убыванию предсказаний ранжирующей модели вносятся корректировки; примеры таких внешних правок:
    - обеспечение [разнообразия](__home_url__/notes/Разнообразие через DPP (Determinantal Point Processes)) (diversity),
    - продвижение предметов, которые нехарактерны для пользователя (user-based exploration),
    - продвижение предметов, реакцию на которые было бы [полезно узнать](__home_url__/tags/активное_обучение) для улучшения модели (system-based exploration),
    - адаптивная подстройка в режиме реального времени под результаты взаимодействия пользователя с предыдущими рекомендациями.
  
#### Методы ранжирования

В число методов, которыми можно провести ранжирование, входят:
* [подсчёт простой статистики](__home_url__/notes/Выдача рекомендаций универсальными методами) и [поиск баланса между изучением и применением](__home_url__/notes/Баланс между изучением и применением в задаче о многоруком бандите);
* [коллаборативная фильтрация](__home_url__/notes/Коллаборативная фильтрация):
    - классическая,
    - SLIM (Sparse Linear Models);
* [матричные разложения и факторизационные машины](__home_url__/notes/Матричные разложения и факторизационные машины);
* [нейросетевые методы для заполнения кросс-табуляционной матрицы](__home_url__/notes/Нейросетевые методы для заполнения кросс-табуляционной матрицы):
    - нейросетевые разложения,
    - очищающий от шума автокодировщик;
* [сведение задачи к обучению с учителем](__home_url__/notes/Выдача рекомендаций универсальными методами):
    - с использованием градиентного бустинга,
    - с использованием нейронных сетей:
        - адаптации [DSSM](__home_url__/notes/DSSM (Deep Semantic Similarity Model)) под рекомендательные системы,
        - BERT4REC.

Некоторые из перечисленных вариантов могут быть использованы и для извлечения кандидатов, если они достаточно быстры в рантайме. Действительно, top-$k$ товаров, отранжированных каким-либо методом, можно рассматривать в качестве кандидатов для более сложного метода.

Также оценки релевантности предмета пользователю, полученные каким-либо методом, можно использовать как признаки в мета-модели, обучаемой с учителем (разумеется, при условии, что используется разделение по времени и/или пользователям, чтобы избежать перетекания целевой переменной в эти признаки).

#### Открытые практические вопросы

Иногда бывает важно, чтобы после рекомендаций происходило то, чего без них не произошло бы. Иными словами, рекомендации должны привносить некоторый инкремент/аплифт в целевые метрики. Строго говоря, вышеперечисленные методы не гарантируют, что этот инкремент появится и не произойдёт того, что пользователю будет порекомендовано то, что он и сам бы купил или и сам бы просмотрел. Как добиться от рекомендаций аплифта — во многом всё ещё не решённый вопрос.

## Кросс-табуляционная матрица

#### Введение

Многие методы, используемые в [рекомендательных системах](__home_url__/notes/Введение в задачу выдачи рекомендаций) для решения задач извлечения кандидатов или ранжирования, настраиваются на данных, хранящихся в специальном формате. Этот формат называется кросс-табуляционной матрицей.

Пусть $U$ — множество пользователей, а $I$ — множество предметов (от англоязычного «items», хотя они и могут не быть материальными). Тогда кросс-табуляционная матрица $R$ имеет размер $\vert U \vert \times \vert I \vert$, а на пересечении $i$-й строки и $j$-го столбца в ней стоит число $R_{ij}$, прямо или косвенно показывающее степень соответствия $j$-го предмета $i$-му пользователю. При этом важно отметить, что матрица $R$ может содержать пропущенные значения. На практике она оказывается сильно разреженной, а такие методы, как [коллаборативная фильтрация](__home_url__/notes/Коллаборативная фильтрация) или [факторизационные машины](__home_url__/notes/Матричные разложения и факторизационные машины), как раз тем и занимаются, что заполняют пропуски. Как только все ячейки станут заполнены, рекомендации для $i$-го пользователя можно будет получать, сортируя предметы по убыванию их $R_{i\cdot}$. 

В матрице $R$ могут храниться оценки предметов, проставляемые пользователями. Тогда матрица $R$ содержит информацию, прямо указывающую на степени соответствия предметов пользователям (в англоязычной литературе это называют explicit feedback). Но может быть и так, что в матрице $R$ хранится количество покупок пользователем какого-либо предмета или бинарный индикатор того, что пользователь хотя бы раз покупал предмет. Тогда информация из матрицы $R$ лишь косвенно указывает на степени соответствия предметов пользователям, а именно делает это лишь в той мере, в какой можно считать, что всё, что пользователь приобретает, ему нравится (это называют implicit feedback).

При косвенной релевантности может всплыть проблема подбора отрицательных примеров. Например, если в $R$ хранится бинарный индикатор покупки, то все значения $R$ или равны 1, или не заполнены. В этом случае обучение только на заполненных ячейках бессмысленно. Но даже если бы в $R$ было количество покупок, важнее научиться отличать то, что пользователь никогда не купит, от того, что он может купить, так что и тут только от заполненных ячеек пользы мало. Разумеется, в незаполненные ячейки можно вписывать 0 (так называемый positive-unlabeled learning). Метод [IALS](https://www.researchgate.net/publication/220765111_Collaborative_Filtering_for_Implicit_Feedback_Datasets) (Implicit Alternating Least Squares) делает так со всеми пустыми ячейками и обучается на полной матрице $R$ за приемлемое время. Однако в общем случае при большом $\vert I \vert$ для $i$-го пользователя в качестве отрицательных примеров приходится использовать лишь часть незаполненных ячеек из строки $R_{i\cdot}$. При этом есть смысл не ограничиваться случайным сэмплированием, а подбирать более сложные отрицательные примеры. 

Если же матрица $R$ хранит явные оценки релевантности, заполненных ячеек может оказаться достаточно, особенно если для большинства пользователей встречается почти весь диапазон возможных значений. Но, например, в случае с товарами пользователи гораздо чаще ставят одну звезду, когда им что-то не понравилось, чем пять звёзд, когда всё понравилось. Чтобы выправить это смещение, можно добавить в качестве положительных примеров те товары, у которых оценки нет, но которые пользователь покупал (желательно, несколько раз).

В идеале, при явной обратной связи значения ячеек $R$ должны содержать унифицированную количественную меру того, подошёл ли предмет пользователю или нет, но на практике субъективная интерпретация шкалы может вносить искажения. Поэтому лучше или использовать бинарную шкалу («понравилось» и «не понравилось»), или уделить достаточно внимания сбору данных (например, разместить над формой отправки оценки краткую инструкцию).

#### Сравнение с матрицей признакового описания

В задаче выдачи рекомендаций альтернативой кросс-табуляционной матрице могут быть матрицы «объекты-признаки» (design matrix; то, что обычно используют при обучении с учителем). Например, такие:
* положительными примерами являются предметы, с которыми пользователь органически совершил целевое действие (скажем, заказал товар), отрицательные примеры сэмплируются случайно, а признаки рассчитываются на момент перед соответствующим целевым действием;
* примерами являются фактические показы в рекомендациях, признаки рассчитываются на момент таких показов (возможно, с задержкой, имитирующей задержку данных в реальном сервисе), а целевая переменная зависит от того, привёл ли показ к совершению каких-либо целевых действий.

Главное отличие кросс-табуляционной матрицы от матрицы признакового описания связано с тем, что именно она ожидается на вход многими методами, успешно работающими с идентификаторами пользователей и предметов. А вот в матрице признакового описания эти идентификаторы являются категориальными признаками, имеющими большое количество уникальных значений, каждое из которых встречается не так много раз. С такими признаками классические методы обучения на табличных данных работают не очень хорошо. 

Ещё одно отличие в том, что в кросс-табуляционной матрице пара из пользователя и предмета не может встретиться более одного раза. Стало быть, степень соответствия $j$-го предмета $i$-му пользователю всего одна, и можно считать, что она берётся по состоянию на текущий момент. Напротив, в матрицах «объекты-признаки» может получиться так, что в один момент времени некий предмет был отрицательным примером для пользователя, а позже стал положительным, но противоречия тут нет, потому что и признаки должны были поменяться. Отсюда вытекает, что только модели ранжирования, обученные на матрице «объекты-признаки», могут в режиме реального времени перестраивать рекомендации под текущие цели пользователя.

## Выдача рекомендаций универсальными методами

#### Вступление

В этой заметке речь пойдёт о формировании рекомендаций через подходы, которые не были созданы специально для рекомендательных систем и могут быть использованы для решения широкого класса задач. Как это проговаривалось во [введении в рекомендательные системы](__home_url__/notes/Введение в задачу выдачи рекомендаций), предполагается, что рекомендации делаются для пользователей, а рекомендуемые сущности называются предметами, хотя они и не обязаны быть материальными.

#### Ранжирование по убыванию статистики

Допустим, ведётся подсчёт некоторого показателя, характеризующего популярность или приоритетность каждого из предметов.

Для примера возьмём в качестве предметов товары в интернет-магазине. Тогда вышеописанным показателем могут быть:
* конверсия из просмотра информации о товаре в его покупку или в его откладывание в корзину;
* произведение какой-либо конверсии на маржу (наценку магазина);
* средние за день продажи (в штуках или денежном выражении), подсчитанные по $D$ последним дням или по всем дням, когда товар был в наличии;
* средняя оценка пользователей, купивших данный товар.

Что именно брать в качестве такого показателя, зависит от особенностей задачи и целей внедрения рекомендательной системы. Скорее всего, знание предметной области позволит включить в формулу для показателя и дополнительные факторы. Например, если разрабатывается система, посетителю новостного сайта рекомендующая новости, необходимо учитывать время с момента публикации, чтобы не рекомендовать устаревшие материалы.

Теперь перейдём к тому, как можно давать рекомендации.

Наивное решение заключается в том, что предметы можно просто отранжировать по значениям их показателя. Главный недостаток этого решения — риск выдачи некачественных рекомендаций из-за нехватки данных по части предметов. Например, предположим, что рекомендации даются на основании пользовательских оценок и один товар получил среднюю оценку 4,9 по тысяче отзывам, а другой товар получил всего один отзыв с оценкой 5. Формально говоря, второй товар имеет более высокий показатель и, значит, рекомендован должен быть он, однако ясно, что надёжнее было бы рекомендовать первый.

Для решения обозначенной проблемы можно посмотреть на задачу как на задачу о «многоруком бандите» и применить соответствующий [аппарат](__home_url__/notes/Баланс между изучением и применением в задаче о многоруком бандите).

К плюсам рассматриваемого подхода (неважно, наивного или модифицированного) относятся:
* простота и прозрачность (актуально, если есть высокие требования к интерпретируемости);
* отсутствие высоких требований к данным (можно использовать сразу же на старте проекта);
* лёгкость в реализации (просто добавить в качестве ещё одного бейзлайна).

К минусам же относятся:
* неперсонализированность (все пользователи видят одно и то же);
* тривиальность рекомендаций (возможно, о том, что рекомендуется, пользователи и так знают).

#### Сведение задачи к задаче обучения с учителем

Объектами (в терминологии машинного обучения) будем считать ситуации, благодаря которым некоторый пользователь провзаимодействовал с некоторым предметом. Например, такой ситуацией может быть:
* просмотр информации о предмете (скажем, посещение страницы с товаром в интернет-магазине);
* простановка предмету оценки;
* показ предмета пользователю в рекомендациях (желательно, фактический показ, то есть показ там, где пользователь увидел рекомендацию, а не мог бы увидеть, если бы пролистал вниз или вбок).

Эти ситуации или выливаются в какие-нибудь целевые действия пользователя с предметом, или нет. От подобных действий (или их отсутствия) зависит целевая переменная, ассоциированная с объектом. Она может быть вещественной или категориальной (в частности, бинарной). Как следствие, задача может быть сформулирована как задача регресии или как задача классификации. Однако и в том, и в другом случае задачу можно переформулировать и как задачу [ранжирования](__home_url__/tags/ранжирование). Для ранжирования в примерах с просмотром информации о предмете и с простановкой оценки разбиение на группы может делаться по пользователю, а в примере с показами в рекомендациях группы могут быть образованы всеми объектами, относящимися к одному заходу пользователя на страницу с рекомендациями.

У задач регрессии и классификации есть то преимущество, что предсказания модели проще интерпретировать: например, в задаче регрессии при использовании MSE предсказания имеют ту же размерность, что и целевая переменная, а в задаче классификации предсказанные вероятности можно [откалибровать](__home_url__/notes/Калибровка предсказанных вероятностей). Однако даже если задача не была поставлена как задача ранжирования, рекомендательная система всё равно будет проводить ранжирование по убыванию предсказаний, возвращаемых моделью. Поэтому у функций потерь, предназначенных для ранжирования, больше преимуществ с точки зрения оптимизации [метрик качества ранжирования](__home_url__/notes/Метрики качества ранжирования).

Убедимся в этом на примерах. В задаче классификации с бинарной целевой переменной, кодирующей, будет ли товар куплен пользователем, логарифмическая функция потерь чувствительна к тому, отличает ли модель тех, кто более склонен покупать всё подряд, от тех, кто в принципе не склонен к покупкам. Однако для задачи ранжирования это не важно, и поэтому функции потерь для ранжирования сфокусированы лишь на том, как расставлены объекты внутри каждой из групп. Или вот иной пример. Если пользователи оценивают предметы по пятибалльной шкале, то с этой оценкой в качестве целевой переменной задача может быть задачей регрессии. Но если для одной и той же группы для всех объектов ошибиться на одну и ту же константу, то ранжирование объектов не изменится, а, значит, и штрафовать за такую ошибку не надо. Это соображение отражено в функциях потерь для задачи ранжирования, таких как QueryRMSE.

Любопытно, что выбор между оптимизацией метрик качества и интерпретируемостью не всегда является компромиссным. В статье [Bai et al., 2023](https://arxiv.org/pdf/2211.01494.pdf) показывается, что логарифмическую функцию потерь можно бесконфликтно оптимизировать совместно с некоторой модификацией функции потерь QuerySoftmax.

Среди признаков, возникающих при сведении выдачи рекомендаций к обучению с учителем, можно выделить следующие:
* признаки, описывающие пользователя:
    - социально-демографические характеристики (пол, возраст и т.д.);
    - информация из специализированных форм и анкет (интересы, список подписок и т.д.);
* признаки, описывающие предмет:
    - параметры предмета из его табличного описания;
    - признаки, извлечённые из текстового описания предмета;
    - векторные вложения изображений с предметом;
* признаки, описывающие взаимодействие пользователей с предметами:
    - признаки, описывающие прошлую историю действий текущего пользователя (агрегация вложений предметов, с которыми были положительные взаимодействия, средний чек, количество предыдущих покупок того же самого предмета, средний интервал между ними и т.д.);
    - статистики взаимодействия пользователей с текущим предметом (счётчики взаимодействий тех или иных видов, конверсии и т.д.);
    - признаки, описывающие текущую корзину пользователя и соответствие предмета ей;
    - признаки, являющиеся рангами или оценками, выдаваемыми какой-либо другой рекомендательной системой (например, рекомендательной системой на базе коллаборативной фильтрации или на базе матричных разложений);
* прочие признаки:
    - время суток, день недели, время года и т.д.;
    - погода;
    - курсы валют.

К сильным сторонам данного подхода относятся:
* разносторонность (т.е. способность учитывать данные разной природы);
* универсальность (в принципе, при помощи данного подхода можно строить мета-модели, дающие рекомендации по оценкам от других рекомендательных систем);
* поддержка предсказаний для новых пользователей или предметов без предварительного накопления истории по взаимодействиям с их участием.

К слабым сторонам данного подхода можно отнести такие:
* при обучении для вычисления целевой переменной обязательно требуются данные, детализированные до отдельных взаимодействий пользователей с предметами, а агрегированные статистики не подойдут;
* детализация постановки задачи машинного обучения может включать неочевидные места, как, скажем, такие:
  - как подбирать значения целевой переменной, соответствующие разным видам действий (в примере с интернет-магазином это могут быть добавление в корзину, добавление в избранное и заказ).
  - каким брать максимальный интервал времени между первичной ситуацией и целевым действием (за секунду после просмотра рекомендации пользователь не успеет заказать товар, но если он закажет его через год, то навряд ли это заслуга той рекомендации).

## Коллаборативная фильтрация

#### Введение

В этой заметке будет описан один из способов [выдавать рекомендации](__home_url__/notes/Введение в задачу выдачи рекомендаций). Как всегда, пользователями называются те, для кого делаются рекомендации (или то, к чему делаются рекомендации), а предметами называется то, что рекомендуется, даже если оно нематериально.

Коллаборативная фильтрация — способ выдавать рекомендации, отталкиваясь от сходства между пользователями или предметами. Прилагательное «коллаборативная» в данном контексте как раз и указывает на то, что информация о разных сущностях совмещается. Альтернативой коллаборативности является так называемая контентность, то есть использование характеристик пользователей и предметов. В коллаборативной фильтрации эти признаки игнорируются. Ну а слово «фильтрация» восходит к тому, что изначально этот метод использовался для отбора top-$k$ кандидатов из всех возможных.

Коллаборативная фильтрация бывает двух типов:
* «пользователь-пользователь» (она же коллаборативная фильтрация от пользователя, user-based collaborative filtering);
* «предмет-предмет» (она же коллаборативная фильтрация от предмета, item-based collaborative filtering).

Оба типа используют [кросс-табуляционную матрицу](__home_url__/notes/Кросс-табуляционная матрица) $R$, и оба сводятся к тому, что пропущенные значения в этой матрице заполняются, а потом рекомендуется то, что имеет наибольшее оценённое значение. Разница только в том, как это делается.

#### Тип «пользователь-пользователь»

В варианте «пользователь-пользователь» формула для заполнения матрицы $R$ имеет вид:
$$\hat{R}_{ij} = \frac{\sum_{i' \in U_j} w_{ii'} R_{i'j}}{\sum_{i' \in U_j} |w_{ii'}|},$$
где $U_j$ — множество всех пользователей $i'$, для которых известно $R_{i'j}$, а веса $w_{ii'}$ показывают степень схожести $i$-го пользователя и $i'$-го пользователя. Эти веса могут быть как положительными, так и отрицательными, причём большие по модулю отрицательные значения говорят о том, что пользователи противоположны друг другу по своим предпочтениям и что поэтому действия одного из них всё равно проливают свет на предпочтения другого. Один из вариантов, как можно определить веса, таков:
$$w_{ii'} = \frac{(1 / |I_{ii'}|) \sum_{j \in I_{ii'}} (R_{ij} - \overline{R}_{i\cdot})(R_{i'j} - \overline{R}_{i'\cdot})}{\sqrt{(1 / |I_{i}|) \sum_{j \in I_i} (R_{ij} - \overline{R}_{i\cdot})^2} \sqrt{(1 / |I_{i'}|) \sum_{j \in I_i'} (R_{i'j} - \overline{R}_{i'\cdot}})^2},$$
где $I_i$ — множество предметов, для которых есть значение в $i$-й строке матрицы $R$, $I_{ii'}$ — множество предметов, для которых есть значения и в $i$-й, и в $i'$-й строках матрицы $R$, а $\overline{R}_{i\cdot}$ — среднее (разумеется, без учёта пропусков) $i$-й строки матрицы $R$. По сути, так определённый вес $w_{ii'}$ — это коэффициент корреляции Пирсона между $i$-й и $i'$-й строками матрицы $R$, модифицированный для случая, когда часть значений пропущена.

На практике формулу для $w_{ii'}$ немного меняют. Во-первых, можно положить $w_{ii'} = 0$, если множество $I_{ii'}$ содержит слишком мало элементов. Тогда из формирования рекомендаций для $i$-го пользователя будут исключены те пользователи, о схожести или несхожести которых с $i$-м недостаточно информации. Во-вторых, для увеличения скорости работы веса $w_{ii'}$ можно предрассчитать заранее, а потом для каждого $i$ оставить только сколько-то из них с наибольшими модулями, положив остальные равными нулю.

#### Тип «предмет-предмет»

Вариант «предмет-предмет» довольно похож на вариант «пользователь-пользователь»:
$$\hat{R}_{ij} = \frac{\sum_{j' \in I_i} w_{jj'} R_{ij'}}{\sum_{j' \in I_i} |w_{jj'}|},$$
где $I_i$ — множество всех предметов $j'$, для которых известно $R_{ij'}$, а веса $w_{jj'}$ могут быть вычислены как поддерживающие пропуски модификации коэффициента корреляции Пирсона между $j$-м и $j'$-м столбцами матрицы $R$. С точки зрения интерпретации это означает, что если в варианте «пользователь-пользователь» рекомендовались предметы, которые предпочитают похожие пользователи, то в варианте «предмет-предмет» рекомендуются предметы, похожие на те, что предпочитаются пользователем.

#### Сравнение

Строгих доказательств того, что какой-то один тип коллаборативной фильтрации имеет более высокое качество, нет. В некоторых [экспериментах](http://www.diva-portal.org/smash/get/diva2:1111865/FULLTEXT01.pdf) вариант «пользователь-пользователь» победил.

Впрочем, помимо качества важно ещё и быстродействие на стадии выдачи рекомендаций. Тут, введя дополнительные предположения, можно получить строгие результаты. Например, если предположить, что пользователей сильно больше, чем предметов, а ещё предположить, что каждый пользователь провзаимодействовал лишь с малым количеством предметов, то для варианта «предмет-предмет» вполне можно заранее предрассчитать матрицу схожести между предметами. Если даже появится какое-либо новое взаимодействие, из-за большой длины столбцов матрицы $R$ оно не сильно изменит результаты. Однако для варианта «пользователь-пользователь» может потребоваться каждый раз заново рассчитывать матрицу схожести между пользователями, потому что любое новое взаимодействие способно сильно изменить веса для пользователя, совершившего это взаимодействие.

#### Sparse Linear Models (SLIM)

В статье [Ning, Karypis, 2011](http://glaros.dtc.umn.edu/gkhome/node/774) предложена модификация коллаборативной фильтрации типа «предмет-предмет». Формула предсказания упрощается:
$$\hat{R}_{ij} = \sum_{j' \in I_i} w_{jj'} R_{ij'},$$
а веса $w_{jj'}$ становятся обучаемыми параметрами с ограничением, что $w_{jj} = 0$, чтобы $\hat{R}_{ij}$ не строилась по $R_{ij}$. Обучение весов проводится численной оптимизацией функции потерь, являющейся среднеквадратичной ошибкой (MSE) с $L_1$- и и $L_2$-[регуляризациями](__home_url__/notes/Регуляризация штрафом, накладываемым на норму обучаемых параметров).

## Матричные разложения и факторизационные машины

#### Матричные разложения

Как правило, для выдачи рекомендаций раскладывают на множители [кросс-табуляционную матрицу](__home_url__/notes/Кросс-табуляционная матрица) $R$. Искать её разложение можно, в частности, в следующих видах:
* $R \approx WV^T$, где $W$ — матрица размера $\vert U \vert \times k$, $V$ — матрица размера $\vert I \vert \times k$, $U$ — множество пользователей (то есть тех, для кого делаются рекомендации, или, что реже, того, к чему делаются рекомендации), $I$ — множество так называемых предметов (то есть того, что может быть порекомендовано), а $k$ — гиперпараметр (как правило, $k$ берут много меньше, чем и $\vert U \vert$, и $\vert I \vert$). Эта форма разложения интерпретируется так. В матрице $W$ находятся $k$ скрытых признаков пользователей, в матрице $V$ находятся $k$ скрытых признаков предметов, а чем больше скалярное произведение вектора скрытых признаков пользователя на вектор скрытых признаков предмета, тем выше для этого пользователя должен быть отранжирован этот предмет.
* $R \approx WV^T + b + c + m$, где $m$ — среднее значение известных ячеек матрицы $R$, $b$ — вектор-столбец размера $\vert U \vert \times 1$, $c$ — вектор-строка размера $1 \times \vert I \vert$, а операция сложения матрицы с вектором, одна из размерностей которого меньше, определена через бродкастинг. По сравнению с предыдущей формой интерпретация меняется так. Предполагается, что каждый пользователь дополнительно имеет свой собственный сдвиг, выраженный в $b$, каждый предмет имеет свой собственный сдвиг, выраженный в $c$, и есть глобальный сдвиг $m$.

Чтобы найти $W$, $V$ и, если они есть, $b$ и $c$ ($m$ находится по своему определению), можно ввести какую-либо функцию потерь (чаще всего берут MSE или MSE с $L_2$-[регуляризацией](__home_url__/notes/Регуляризация штрафом, накладываемым на норму обучаемых параметров)), а потом, считая эти неизвестные величины оптимизируемыми параметрами, применить какой-нибудь численный метод:
* градиентный спуск (или его модификации);
* покоординатный спуск (в контексте выдачи рекомендаций часто называемый alternating least squares): значения $W$, $V$, $b$ и $c$ как-то инициализируются, а затем по очереди все эти переменные кроме одной рассматриваются как константы и ищется значение одной незафиксированной, минимизирующее функцию потерь, после чего её старое значение заменяется на найденное, очередь переходит к следующей переменной и так далее вплоть до выполнения некоторого критерия остановки.

Иногда находимое таким образом разложение матрицы $R$ называют её сингулярным разложением (SVD). Более того, некоторые конкретные спецификации обсуждаемого метода получили названия FunkSVD и SVD++. На самом деле, если понимать под SVD ровно [то](__home_url__/notes/Применение SVD в задачах анализа данных), что понимается под этим термином в линейной алгебре, то никакого отношения к SVD это не имеет. В частности, линейно-алгебраическое SVD не может работать, если в раскладываемой матрице есть пропущенные значения, а эти методы работают. Поэтому в контексте таких методов правильнее говорить просто о матричном разложении, а не о сингулярном разложении.

#### Факторизационные машины

Обобщением разложений матрицы $R$ являются факторизационные машины. Начнём с частного случая факторизационной машины, который эквивалентен матричному разложению.

По матрице $R$ строится матрица признакового описания как для задачи обучения с учителем. Каждая заполненная ячейка $R_{ij}$ сопоставляется объекту, у которого есть $\vert U \vert + \vert I \vert$ признаков, из которых все нули кроме двух, которые равны единице и стоят на позициях, соответствующих индексу пользователя $i$ и индексу предмета $\vert U \vert + j$. Целевой переменной для такого объекта является $R_{ij}$. Нелишне отметить, что стандартные методы обучения с учителем с получившейся матрицей признакового описания не справились бы, потому что в ней слишком много признаков, каждый из которых почти всегда нулевой.

Пусть предсказания делаются по следующей формуле:
$$\hat{R_{ij}} = w_0 + \left( \sum_{l=1}^{\vert U \vert + \vert I \vert} w_l X_{rl} \right) + W_{i\cdot} (V_{j\cdot})^T,$$
где $X$ — матрица обучающих данных из предыдущего абзаца, $r$ — индекс строки в матрице $X$, соответствующей $R_{ij}$ (нельзя считать, что $r = (i-1) \vert I \vert + j$, потому что в матрице $R$ есть ячейки с пропусками), а вектор $w$ размера $1 + \vert U \vert + \vert I \vert$, матрица $W$ размера $\vert U \vert \times k$ и матрица $V$ размера $\vert I \vert \times k$ — обучаемые параметры. Настраиваются они, как и в матричных факторизациях, градиентным спуском или покоординатным спуском. Видно, что матрицы $W$ и $V$ играют ту же роль, что и одноимённые матрицы в матричном разложении, $w_0$ соответствует $m$, а элементы $w$ с первого по $\vert U \vert$-й соответствуют $b$ и с $(\vert U \vert + 1)$-го по $(\vert U \vert + \vert I \vert)$-й — $c$. То есть просто задача матричного разложения оказалась переформулированной в терминах немного других переменных. 

Теперь ту же самую формулу для предсказаний перепишем в более громоздком виде:
$$\hat{R_{ij}} = w_0 + \sum_{l=1}^{\vert U \vert + \vert I \vert} w_l X_{rl} + \sum_{p=1}^{\vert U \vert} \sum_{q=1}^{\vert I \vert} W_{p\cdot} (V_{q\cdot})^T X_{rp} X_{r(\vert U \vert + q)}.$$
В двойной сумме среди всех слагаемых ненулевое только одно: при $p = i$ и $q = j$, потому что так была определена матрица $X$. Это и доказывает, что суть не изменилась. Зато теперь на правую часть можно посмотреть под другим углом: каждый признак вносит линейный вклад, а ещё есть взаимодействия признаков второго порядка, но только между такими парами признаков, где один относится к идентификатору пользователя, а другой — к идентификатору предмета.

Более общие версии факторизационных машин возникают, когда матрица обучающих данных $X$ помимо one-hot encoded идентификаторов пользователя и предмета содержит ещё какие-либо признаки. Они могут быть как вещественными, так и категориальными, представленными в виде one-hot encoded идентификаторов своих значений (то есть вместо одного исходного признака далее будет рассматриваться столько признаков, сколько у него было уникальных значений). Пусть $L$ — множество индексов тех признаков, которые вносят линейный вклад, а $Q$ — множество, составленное из пар множеств индексов признаков, таких что вклад вносят взаимодействия второго порядка между парами признаков из их декартова произведения. В частности, для матричного разложения $Q$ выглядит так:
$$Q = \left\{(\{1, \dots, \vert U \vert \}, \{ \vert U \vert + 1, \dots, \vert U \vert + \vert I \vert \} )\right\}.$$
Или вот ещё иллюстрация. Пусть рассматривается сервис музыкальных рекомендаций и предметы — это треки. В матрицу $X$ можно включить также среднюю оценку трека и идентификатор жанра. Тогда $Q$ может включать в себя любые пары, составленные из следующих групп: идентификатор пользователя, идентификатор трека, оценка, идентификатор жанра. При этом для оценки её матрица будет иметь размер $1 \times k$, потому что это одиночный вещественный признак, а не совокупность бинарных признаков, получающихся после one-hot кодирования.

Общая формула для предсказаний принимает вид:
$$\hat{R_{ij}} = w_0 + \sum_{l \in L} w_l X_{rl} + \sum_{(P_1, P_2) \in Q} \sum_{p \in P_1} \sum_{q \in P_2} W^{(P_1, P_2)}_{p\cdot} (V^{(P_1, P_2)}_{q\cdot})^T X_{rp} X_{rq},$$
где вместо одной пары обучаемых матриц $W$ и $V$ этих пар теперь столько, сколько элементов в $Q$ (на что указывает их верхняя индексация этими элементами).

Таким образом, факторизационные машины образуют семейство моделей, сочетающих способность поддерживать разнообразные признаки (как при обучении с учителем) со способностью работать с разреженной матрицей $R$ (как её разложения).

## Нейросетевые методы для заполнения кросс-табуляционной матрицы

#### Введение

В этой заметке речь пойдёт о том, как при помощи нейронных сетей можно заполнять пропуски в [кросс-табуляционной матрице](__home_url__/notes/Кросс-табуляционная матрица) $R$. На всякий случай, отметим, что эти методы не являются частным случаем [сведения](__home_url__/notes/Выдача рекомендаций универсальными методами) задачи выдачи рекомендаций к задаче обучения с учителем, потому что для такого сведения матрица признакового описания (design matrix) должна строиться на исходах отдельных взаимодействий пользователей с предметами, а тут она строится на основании данных из $R$ (зачастую агрегированных). Впрочем, архитектуры, возникающие в нейросетевом разложении, легко переносятся на обучение по матрице признакового описания.

#### Нейросетевые разложения с поздним связыванием

Рассмотрим нейронную сеть со следующей [архитектурой](https://dl.acm.org/doi/pdf/10.1145/2959100.2959190):
* есть два входа:
    - на первый вход подаётся вектор длины $\vert U \vert$, являющийся one-hot encoded вектором $i$-го пользователя,
    - на второй вход подаётся вектор длины $\vert I \vert$, являющийся one-hot encoded вектором $j$-го предмета;
* за входным слоем идёт слой получения обучаемого вложения по индексу (embedding lookup):
    - one-hot encoded вектор пользователя преобразуется в непрерывный вектор фиксированной размерности $k$,
    - one-hot encoded вектор предмета преобразуется в непрерывный вектор той же размерности $k$;
* скалярное произведение этих векторов интерпретируется как $\hat{R}_{ij}$, оценка $R_{ij}$.

По сути, просто задача поиска [матричного разложения](__home_url__/notes/Матричные разложения и факторизационные машины) вида $R \approx WV^T$ была переформулирована в терминах нейронных сетей, но содержательно ничего не поменялось.

Однако в такую архитектуру можно добавлять произвольные вещественные и one-hot encoded категориальные признаки. Вся информция о пользователе представляется в виде единого вещественного вектора, являющегося конкатенацией вещественных признаков и обучаемых вложений категориальных признаков (включая идентификатор пользователя). Далее этот вектор прогоняется через сколько-то полносвязных слоёв, а на выходе последнего из них получается векторное представление пользователя размерности $k$. Аналогично вся информация о предмете представляется в виде единого вектора, который тоже прогоняется через сколько-то полносвязных слоёв, на выходе последнего из которых получается векторное представление предмета размерности $k$. Как и ранее, их скалярное произведение становится  $\hat{R}_{ij}$.

Подобную архитектуру называют «двубашенной», потому что есть две отдельные «башни» для пользователя и предмета. А поскольку взаимодействие информации о пользователе с информацией о предмете происходит лишь в скалярном произведении под самый конец, говорят, что используется позднее связывание.

#### Нейросетевые разложения с ранним связыванием

Рассмотрим модификацию предыдущей архитектуры (ради краткости в виде, где из признаков есть только идентификаторы пользователя и предмета):
* снова есть два входа, принимающих one-hot encoded векторы пользователя и предмета;
* снова за каждым входом идёт слой получения обучаемого вложения по индексу (embedding lookup), но размерности вложений пользователя и предмета могут отличаться;
* векторные вложения пользователя и предмета конкатенируются;
* далее идёт сколько-то полносвязных слоёв;
* выходом является одно число, интерпретирующееся как $\hat{R}_{ij}$.

Образно говоря, тут ищется разложение матрицы $R$, где вместо матричного умножения используется операция, задаваемая многослойным перцептроном. Так как информация о пользователе и предмете начинает использоваться совместно ещё в слоях, близких к входным, говорят, что в этой архитектуре применяется раннее связывание.

#### Сравнение раннего и позднего связываний

При позднем связывании финальные вложения пользователей или предметов, получившиеся после прогона через соответствующую «башню», можно рассчитать один раз, а для заполнения матрицы $R$ вычислять лишь скалярные произведения между ними и сами «башни» не использовать. Более того, если интересуют лишь top-$n$ предметов для каждого пользователя (как это бывает при извлечении кандидатов), то на вложениях предметов можно построить kNN-индекс (например, HNSW или ScaNN) и даже полный перебор не делать.

Платой за это является потенциально меньшая выразительная сила, ведь вложения пользователя и предмета теперь взаимодействуют друг с другом лишь под самый конец в скалярном произведении. Впрочем, сказывается ли это на практике — вопрос дискуссионный. С одной стороны, было [показано](https://arxiv.org/pdf/2005.09683.pdf), что многослойным перцептронам сложно выучить скалярное произведение, а то, что они выучивают вместо него, как правило, хуже. Таким образом, второе отличие может даже повышать качество предсказаний. С другой стороны, раннее связывание выбирают чаще, если признаков много, среди них есть недавняя история пользовательских действий, а вместо многослойных перцептронов используются [трансформеры](__home_url__/notes/Трансформер).

#### Очищающий от шума автокодировщик

Ещё один из [подходов](http://users.cecs.anu.edu.au/~u5098633/papers/www15.pdf) предполагает обучение очищающего от шума автокодировщика. В обучающих данных объектами являются пользователи, представленные в виде строк матрицы $R$. Шумом же считается замена каких-либо значений на пропуски (или на плэйсхолдер пропуска, если пропуски не поддерживаются конкретным программным инструментом). Получив на вход строку с искусственно добавленными пропусками, автокодировщик должен вернуть строку без этих пропусков (но с исходно существовавшими пропусками).

## Разнообразие через DPP (Determinantal Point Processes)

#### Введение

В задаче выдачи рекомендаций ранжирующая модель в том или ином виде предсказывает степень соответствия «предмета» (то есть того, что ранжируется, даже если оно нематериально) пользователю. Если рекомендации сформировать просто по убыванию предсказаний модели, результат может получиться однообразным и избыточным. Это означает, что если положительный отклик на рекомендации будет, то для него было бы достаточно нескольких первых «предметов», а все остальные лишь занимают место, которое можно было бы отдать иным «предметам» на тот случай, когда первые всё-таки окажутся неинтересны пользователю.

Для решения вышеописанной проблемы после ранжирования можно проводить переранжирование. В нём так называемые определительные поточечные процессы (DPP) могут быть использованы, чтобы сбалансировать в выдаче релевантность и разнообразие.

#### Базовые понятия

Поточечным процессом на множестве $\mathbb{S}$ называют вероятностное распределение на множестве $2^\mathbb{S}$, то есть множестве подмножеств $\mathbb{S}$. Положим, что $\mathbb{S} = \{1, 2, \dots, n\}$. Тогда любой поточечный процесс на $\mathbb{S}$ является дискретным распределением, задающимся $2^n$ вероятностями каждого из подмножеств.

Рассмотрим некую положительно полуопределённую матрицу $L$ размера $n \times n$. Для подмножества $Y \subseteq \mathbb{S}$ матрицей $L_Y$ назовём матрицу, получающуюся из $L$ оставлением только тех строк и столбцов, индексы которых входят в $Y$. Тогда можно ввести поточечный процесс, параметризованный матрицей $L$ и выглядящий так:
$$\mathbb{P}(Y) = \frac{\det(L_Y)}{\sum_{Y^\prime \subseteq \mathbb{S}} \det(L_{Y^\prime})} = \frac{\det(L_Y)}{\det(L + I_n)},$$
где $I_n$ — тождественная матрица размера $n \times n$, последнее равенство доказывается как теорема 2.1 в обзоре [Kulesza, Taskar, 2013](https://arxiv.org/pdf/1207.6083.pdf), а вероятность любого подмножества неотрицательна в силу положительной полуопределённости матрицы $L$.

Поточечный процесс, заданый вышеописанным образом через матрицу $L$, называется «определительным», что по-английски звучит как Determinantal Point Process.

#### Архитектура

Переранжирование через DPP принимает два входа:
* предсказания модели $s_i \in \mathbb{R}_{\ge 0}$;
* векторные представления объектов $v_i \in \mathbb{R}^l$, где $l$ не обязано совпадать с $n$.

В простейшем случае матрица $L$ может быть построена так:
$$L_{ij} = (s_i v_i)^T (s_j v_j).$$
Тут предполагается, что $\Vert v_i \Vert_2 = 1$, а косинусная мера близости $v_i^T v_j$ отражает сходство между $i$-м и $j$-м объектами. Положительная полуопеделённость вытекает из того, что это матрица Грама для векторов $s_i v_i$.

На примере данной $L$ можно увидеть, за счёт чего происходит балансирование между релевантностью и разнообразием. Напомним, что определитель матрицы равен ориентированному объёму $n$-мерного параллелепипеда, натянутого на её строки. С одной стороны, чем выше некое $s_i$, тем больше стороны параллелепипеда, соответствующего $L_Y$, где $i \in Y$. С другой стороны, чем выше по модулю $v_i^T v_j$, тем более параллельными становятся некоторые прилегающие стороны параллелепипеда, соответствующего $L_Y$, где $\{i, j\} \subseteq Y$.

Если в рамках одного просмотра страницы с рекомендациями пользователь редко имеет более одного положительного отклика, то вышеприведённая матрица $L$ хороша тем, что у неё нет обучаемых параметров. Например, в интернет-магазине пользователь мало когда заказывает сразу несколько товаров, которые ему показали в рекомендациях. Однако бывает и так, что пользователь активно взаимодействует с рекомендациями. Скажем, в приложениях с короткими видео пользователи кликают на значительную часть того, что им предлагается в ленте. Благодаря этому появляется возможность настраивать некоторые параметры матрицы $L$ по данным.

В статье [Wilhelm et al., 2018](https://dl.acm.org/doi/pdf/10.1145/3269206.3272018) предложено семейство матриц $L$, параметризованных величинами $\alpha > 0$ и $\sigma > 0$:
* $L_{ii} = s_i^2$,
* $L_{ij} = \alpha \, s_i s_j \, \exp\left(-\frac{D_{ij}}{2\sigma^2}\right)$ при $i \ne j$, где $D_{ij} \in \mathbb{R}_{\ge 0}$ — некое расстояние между $v_i$ и $v_j$, как, допустим, $D_{ij} = \Vert v_i - v_j \Vert_2$.

При $0 \le \alpha \le 1$ матрица $L$ точно будет положительно полуопределённой, а вот при $\alpha > 1$ это не гарантировано.

#### Обучение

Объектом в терминологии машинного обучения (то есть не «предметом», а примером из обучающей выборки) считается фактический просмотр пользователем в рекомендациях $n$ «предметов» (если их больше, то можно оставить лишь $n$ из них, а если их меньше, то объект выкидывается как неполный). Целевой переменной на этом объекте является множество $Y$, состоящее из индексов тех «предметов», с которыми у пользователя были положительные взаимодействия.

Поскольку речь идёт о переранжировании, предполагается, что ранжирующая модель зафиксирована, то есть обучающие данные собирались с использованием той же ранжирующей модели, которая предсказывает $s_i$. В противом случае возникает смещение обучающей выборки. Впрочем, выборка всё равно является смещённой с той точки зрения, что в неё попадают лишь объекты с более высокими $s_i$, ведь низкие $s_i$ препятствуют фактическим просмотрам. Такое смещение можно подправить, если некоторые высокие позиции отдавать случайным «предметам».

Вектор обучаемых параметров (в разобранном ранее примере это $\alpha$ и $\sigma$) обозначим за $w$, а матрицу $L$, получающуюся с ним, обозначим за $L(w)$. Поиск оптимального $w$ делается путём максимизации правдоподобия обучающей выборки (как всегда, это эквивалентно минимизации отрицательного логарифма от правдоподобия):
$$\min_{w} \: - \sum_{j=1}^m \log \mathbb{P}_{L(w)} Y_j,$$
где $m$ — размер обучающей выборки, а $Y_j$ — целевая переменная на $j$-м объекте.

Если длина вектора $w$ мала, оптимизацию можно провести перебором по сетке и заодно пересечь эту сетку с ограничениями на допустимые значения параметров. Если же длина вектора $w$ достаточно велика, можно использовать градиентный спуск, а ограничения внести в оптимизационную задачу.

#### Применение

После ранжирования есть список из $N$ предметов. Переранжирование проводится итеративно с некоторым шагом $k$, то есть сначала заполняются позиции с первой по $k$-ю, потом позиции с $(k+1)$-й по $2k$-ю и так далее. Если у матрицы $L$ нет обучаемых параметров, то $k$ формально можно брать любым, но слишком низкие $k$ могут привести к недостаточному разнообразию (в частности, при $k=1$ от переранжирования вообще ничего не изменится). Если же обучаемые параметры есть, то желательно брать $k \le n$, чтобы корректнее оценивались вероятности подмножеств размера $k$.

Из формулы для вероятности подмножества теперь интересует только числитель, потому что нормирующий знаменатель одинаков для всех подмножеств. Если за $\mathbb{S}_i$ обозначить множество индексов, для которых «предметы» не были выбраны к началу $i$-й итерации, то на этой итерации будет решаться задача:
$$\max_{Y \in \mathbb{S}_i, \vert Y \vert = k} \det(L_Y).$$
Всего потребуется перебрать $C_{N - (i-1)k}^k$ вариантов, что может оказаться вычислительно неподъёмным. В таких случаях используют жадный алгоритм, итеративно строящий множество $Y$ элемент за элементом на основании максимизации текущего $\det(L_Y)$. Кстати, порядок, в котором в $Y$ добавлялись элементы, можно считать тем порядком, в котором будут стоять эти $k$ элементов после переранжирования. Если же множество $Y$ было найдено по-честному, порядок внутри него можно по-прежнему выводить из $s_i$.