# Ассоциативные правила.

Алгоритм построения ассоциативных правил сводится к простому статистическому анализу совместной встречаемости покупок в потребительской корзине.  

В общем виде ассоциативные правила  можно описать так: 

**«КТО КУПИЛ X, ТАКЖЕ КУПИЛ Y»**

Например, простое правило может выглядеть следующим образом: «Если куплен бородинский хлеб, то будет куплено молоко "Домик в деревне" с вероятностью 40 %. При этом оба товара покупаются с вероятностью 3 %».

В основе лежит анализ транзакций, внутри каждой из которых лежит свой уникальный itemset (например, в качестве айтемсета может выступать чек с покупками) из набора items (покупок).

Набор данных для анализа можно представить следующим образом. В качестве столбцов у нас будут продукты (или какие-то ещё товары, представленные в магазине). Для каждой транзакции мы будем проставлять единицу (если товар куплен) или ноль (если товар не куплен).  В идеальном случае данные представляются именно в бинарном виде, то есть так:

<img src="../images/ml9_1.png" alt="Binary-cross-entropy" width="400" align="center">

В качестве примера мы привели пиво и подгузники не просто так — с ними связана интересная история, иллюстрирующая силу работы ассоциативных правил.

В 1992 году консалтинговая компания исследовала 1,2 миллиона транзакций в магазинах сети Osco Drug. В результате анализа ассоциативных правил самым сильным оказалось «Между 17:00 и 19:00 чаще всего пиво и подгузники покупают вместе». Такое правило показалось руководителям компании контринтуитивным, и они не стали обращать на него внимание.

Однако объяснение такому правилу вскоре всё же нашлось. Когда жены отправляли мужей в ближайший магазин за подгузниками для детей, те захватывали ещё и пиво для себя.

Таким образом, если бы руководство магазина полагалось бы на ассоциативные правила, а не на собственную интуицию, они могли бы поднять продажи и упростить покупателям жизнь, расположив пиво рядом с подгузниками.

При помощи специальных алгоритмов находятся те самые ассоциативные «правила» совпадения items внутри одной транзакции, которые потом сортируются по их силе.  Нам надо научиться сравнивать ассоциативные правила по их силе. Для этого введем несколько предназначенных для этого метрик.

Для того чтобы сравнить ассоциативные правила по их силе (значимости) необходимо ввести несколько метрик — Support, Confidence и Lift.

**SUPPORT**
$$\begin{equation}\operatorname{supp}(X)=\frac{\{t \in T ; X \in t\}}{|T|}\end{equation}$$

Здесь $X$ — это itemset, в котором находится items, $T$ — количество транзакций.

Можно охарактеризовать этот показатель как индекс частоты встречаемости конкретного продукта в имеющихся транзакциях. Это для того случая, если нам интересен один конкретный продукт (item).

Чаще нам бывает важно, насколько часто какие-то два продукта встречаются вместе. Для такого случая мы будем рассчитывать следующий вариант показателя:
$$\begin{equation}\operatorname{supp}\left(x_{1} \cup x_{2}\right)=\frac{\sigma\left(x_{1} \cup x_{2}\right)}{|T|}\end{equation}$$

**Как считается Support?**

Предположим, что  есть несколько транзакций, в которых присутствует пиво, подгузники и кола. Мы считаем количество совместных транзакций, в которых есть пиво и подгузники, и делим на общее количество транзакций. Получается, Support такого правила равен 3/5, или 60 %.
$$\begin{equation}s u p p=\frac{3}{5}=60 \%\end{equation}$$


**CONFIDENCE**

Этот показатель высчитывается на основе метрики Support.
$$\begin{equation}\operatorname{conf}\left(x_{1} \cup x_{2}\right)=\frac{\operatorname{supp}\left(x_{1} \cup x_{2}\right)}{\operatorname{supp}\left(x_{1}\right)}\end{equation}$$

Он определяет, как часто правило срабатывает для всего датасета.

У нас есть Support пива и подгузников, которое мы посчитали. Также мы можем посчитать Support только пива. Отношение этих двух Support будет равно 3/4, или 75 %.
$$\begin{equation}\operatorname{con} f=\frac{3}{4}=75 \%\end{equation}$$

**LIFT**

Ещё одна метрика — Lift. Она вычисляется следующим образом:

- вычисляется Support совместной встречаемости двух продуктов;
- делится на произведение Support каждого из этих продуктов.

$$\begin{equation}\operatorname{lift}\left(x_{1} \cup x_{2}\right)=\frac{\sup p\left(x_{1} \cup x_{2}\right)}{\operatorname{supp}\left(x_{1}\right) \times \operatorname{supp}\left(x_{2}\right)}\end{equation}$$

Lift показывает, насколько items зависят друг от друга.
$$lift=\frac{Confidence}{Expected confidence} = \frac{P(Подгузники | Пиво)}{P(Подгузники)}$$
$$lift=\frac{\frac{3}{4}}{\frac{3}{5}} = 1.25$$

**АЛГОРИТМ APRIORI**

Рассмотрим один из алгоритмов для построения ассоциативных правил — Apriori.

Apriori использует следующее утверждение: 

если X⊆Y, то supp(X) ≥ supp(Y).

Отсюда следуют два свойства:

- если $X$ встречается часто, то любое подмножество X: X⊆Y также встречается часто
- если $X$ встречается редко, то любое супермножество Y: Y ⊇X также встречается редко

Древовидная структура совместной встречаемости различных продуктов.

<img src="../images/ml9_2.png" alt="Binary-cross-entropy" width="600" align="center">
<img src="../images/ml9_3.png" alt="Binary-cross-entropy" width="700" align="center">

Apriori по уровням проходит по префиксному дереву и рассчитывает частоту встречаемости подмножеств  в . 

Таким образом:

- исключаются редкие подмножества и все их супермножества.
- рассчитывается supp(X) для каждого подходящего кандидата  размера  на уровне .


**Плюс**

Получаем красивый граф связей между покупками продуктов.
<img src="../images/ml9_4.png" alt="Binary-cross-entropy" width="700" align="center">

**Минусы**

- Можем рекомендовать только старые товары.
- Не всегда можем получить требуемое число рекомендаций.

# Коллаборативная фильтрация

## МАТРИЦА ПРЕДПОЧТЕНИЙ

Расположим в матрице клиентов по строкам, а продукты — по столбцам. На пересечении строк и столбцов разметим оценку клиентов на эти продукты.  То есть первый клиент поставил второму товару 3, а третий клиент поставил первому товару 2 и так далее.

<img src="../images/ml9_5.png" alt="Binary-cross-entropy" width="400" align="center">

## КЛАСТЕРИЗАЦИЯ ПОЛЬЗОВАТЕЛЕЙ

Далее мы можем применить алгоритм кластеризации для того, чтобы объединить людей.
Выберем условную меру схожести пользователей по их истории оценок:
$$\begin{equation}\operatorname{sim}(u, v)\end{equation}$$

Объединим пользователей в группы (кластеры): 
$$\begin{equation}u \mapsto F(u)\end{equation}$$

Разбиваем их на кластеры так, чтобы похожие пользователи оказались в одном кластере, а непохожие — в разных.

Оценку пользователя объекту будем предсказывать как среднюю оценку кластера этому объекту:
$$\hat{r_{ui}}=\frac{1}{\left | F(u) \right |}\sum_{\upsilon \epsilon F(u)}^{ }r_{\upsilon i}$$

Итак, у нас есть пользователь, и у нас спрашивают, как он оценил данный фильм. Мы смотрим на кластер пользователя. Смотрим оценки пользователей из этого кластера на этот фильм (оценки тех пользователей, которые смотрели этот фильм и поставили оценку). Берем их и усредняем. Это и есть предсказание оценки фильма для нашего пользователя.

**Проблемы алгоритма:**

- Нечего рекомендовать новым/нетипичным пользователям. Если у нас появляется пользователь, который не похож ни на кого, то мы не знаем, в какой кластер его отнести. Конечно, мы первоначально относим его в какой-то случайный кластер, но рекомендации в таком случае будут плохие.
- Не учитывается специфика каждого пользователя. По сути, мы выявляем некоторые шаблонные паттерны поведения и предпочтений, и для каждого паттерна выделяем свои рекомендации. Но на самом деле, все пользователи немного отличаются друг от друга даже в одном кластере, поэтому возникают неточности.
- Если в кластере никто не оценивал объект, то предсказание сделать не получится.

## USER-BASED

Для того, чтобы преодолеть эти сложности, можно обратиться к другому алгоритму, который позволяет уйти от решения задачи кластеризации — User-based.

В этом алгоритме мы заменяем жесткую кластеризацию на следующую формулу:
$$\begin{equation}\hat{r}_{u i}=\bar{r}_{u}+\frac{\sum_{v \in U_{i}} \operatorname{sim}(u, v)\left(r_{v i}-\bar{r}_{v}\right)}{\sum_{v \in U_{i}} \operatorname{sim}(u, v)}\end{equation}$$

Разберемся с обозначениями, которые используются в этой формуле:

- $\bar{r}_{u}$ — средняя оценка пользователя u
- $\bar{r}_{v}$ — средняя оценка пользователя v

Средняя оценка пользователя никак не привязана к его интересам. По сути, это просто показатель того, как в среднем пользователь привык оценивать фильмы.

Оценка пользователя $\hat{r}_{u i}$, которую мы предсказываем для него, состоит из двух частей:

- Непосредственно его средняя оценка.
- Слагаемое, состоящее из: $r_{v i}-\bar{r}_{v}$ — разница в оценках с другими пользователями, т. е. похожесть пользователей. Эта разница домножается на похожесть пользователей. То есть в числителе оказалась средневзвешенная разница в оценках. А в знаменателе находится сумма показателей схожести.

По каждому клиенту подбираем релевантный для него товар в рамках группы клиентов, но не решаем задачу кластеризации, а усредняем интересы данной группы в дистанции нескольких соседей.

Здесь мы руководствуемся по сути идеей, что видео можно порекомендовать человеку, если оно понравится его друзьям.

## ITEM-BASED

Однако, если мы транспонируем матрицу предпочтений и будем решать ту же самую задачу не в рамках клиентов, а в рамках items, то мы получим более устойчивое решение.
$$\begin{equation}\hat{r}_{u i}=\bar{r}_{i}+\frac{\sum_{j \in I_{u}} \operatorname{sim}(i, j)\left(r_{u j}-\bar{r}_{j}\right)}{\sum_{j \in I_{u}} \operatorname{sim}(i, j)}\end{equation}$$

По формуле (которая очень похожа на формулу из предыдущего подхода) можно понять, что этот подход симметричен и использует ту же самую идею. Только теперь у нас не пользователи похожи, а объекты (items) похожи.

То есть, если мы говорим о рекомендации фильмов, то мы теперь рекомендуем пользователю фильм, который похож на те фильмы, которые уже понравились этому пользователю ранее.

Кроме того, у нас будет больше размерность на каждый вектор items, чем размерность вектора клиентов по items. За счёт этого будет больше оценок, выше статистическая значимость и модель будет более устойчива к переобучению. 

**Преимущества**

- Меньше размерность матрицы расстояний
- Легче вычислять
- Модель более устойчива к переобучению
- Можно реже обновлять
- Меньше подвержены изменению предпочтений со временем

**Недостатки**

- Проблема холодного старта
- Плохие предсказания для новых/нетипичных пользователей/объектов
- Тривиальность рекомендаций
- Ресурсоемкость вычислений