<img src="img/header.jpg">

In [58]:
from IPython.display import display, Math, Latex
from IPython.core.display import HTML 

# Введение в теорию или как связаны подгузники и пиво?

   Обучение на ассоциативных правилах (далее Associations rules learning - ARL) представляет из себя с одной стороны, простой, с другой - довольно часто применимый в реальной жизни метод поиска взаимосвязей (ассоциаций) в датасетах или, если точнее, айтемсетах (itemsests).
   Впервые подробно об этом заговорил Piatesky-Shapiro G [1] в работе “Discovery, Analysis, and Presentation of Strong Rules.” (1991) Более подробо тему развивали Agrawal R, Imielinski T, Swami A в работах “Mining Association Rules between Sets of Items in Large Databases” (1993) [2] и “Fast Algorithms for Mining Association Rules.” (1994) [3].

    
   


   
  В общем виде ARL можно описать как "Who bought x also bought y" ("Кто купил x, также купил y"). В основе лежит анализ транзакций (transactions), внутри каждой из которых лежит свой уникальный itemset из набора items. При помощи ARL алогритмов нахоядтся те самые "правила" совпадения items внутри одной транзакции, которые потом сортируются по их силе. 

   Да, вот все так просто и логично.

   За этой простотой, однако, могут скрываться поразительные вещи, о которых common sense даже не подозревал:) 

   Классический случай такого когнитивного диссонанса описан в статье D.J. Power "Ask Dan!", опубликованной в DSSResources.com [4]: 

   В 1992 году группа по консалтингу в области ритейла компании Teradata под руководством Томаса Блишока провела исследование 1.2 миллиона транзакций в 25 магазинах для ритейлера Osco Drug (нет, там продавали не наркотики и даже не лекарства, точнее, не только лекартсва. Drug Store в стране вероятного противника - формат разнокалиберных магазинов у дома). 
   После анализа всех этих транзакций самым сильным правилом получилось "Между 17:00 и 19:00 чаще всего пиво и подгузники покупают вместе". 
   К сожалению такое правило показалось руководству Osco Drug настолько контринтуитивным, что ставить подгузники на полках рядом с пивом они не стали:) Хотя объяснение паре пиво-подгузники вполне себе нашлось: когда оба члена молодой семьи возвращались с работы домой (как раз часам к 5 вечера), жены обычно отправляли мужей за подгузниками в ближайший магазин. И мужья, не долго думая, совмещали приятное с полезным - покупали подгузники по заданию жены и пиво для собственного вечернего времяпрепровождения

# Описание Association rule

Итак мы выяснили, что пиво и подгузники - хороший джентельменский набор, а что дальше? 

Пусть у нас имеется некий датасет (или коллекция) D, такой, что D = {d_0 ... d_j}, где d - уникальная транзакция-itemset (например, кассовый чек).
Внутри каждой d представлен набор items (i - item), причем в идеальном случае он представлен в бинарном виде: d1 = [{Пиво: 1}, {Вода: 0}, {Кола: 1}, {...}], d2 = [{Пиво : 0}, {Вода: 1}, {Кола : 1}, {...}]. Принято каждый itemset описывать через количество ненулевых значений (k-itemset), например, [{Пиво: 1}, {Вода: 0}, {Кола: 1}] является 2-itemset.

Если в изначальном виде не представлен, можно при желании руками его преобразовать (OHE и pd.get_dummies вам в помощь).

Таким образом, датасет представляет собой разреженную матрицу со значениями {1,0}. Это будет бинарный датасет. Существуют и другие виды записи - вертикальный датасет (показывает для каждого отдельного item вектор транзакций, где он присутствует) и транзакционный датасет (примерно как в кассовом чеке).

ОК, данные преобразовали, как найти правила?

Существует целый ряд ключевых (если хотите - базовых) понятий в ARL, которые нам помогут эти правила вывести.

##### Support (поддержка)

Первое понятие  в ARL - support:


$supp(X) = \frac{\{t\in T;\ X \in t\}}{|T|}$

, где X - itemset, содержащий в себе i-items, а T - количество транзакций. Т.е. в общем виде это показатель "частотности" данного itemset во всех анализируемых транзакциях. Но это касается только X. Нам же интересен скорее вариант, когда у нас в одном itemset встречаются x1 и x2 (например).
Ну тут тоже все просто. Пусть x1 = {Пиво}, а x2 = {Подгузники}, значит нам нужно посчитать, во скольких транзакциях втречается эта парочка. 

$supp(x_1\cup x_2) = \frac{\sigma(x_1 \cup x_2)}{|T|}$, где $\sigma $ - количество транзакций, содержащих $x_1$ и $x_2$

Разберемся с этим понятием на игрушечном датасете

In [64]:
play_set = pd.read_csv('data/play_set.csv', sep = ';')
play_set
# микродатасет, где указаны номера транзакций, а также в бинарном виде представлено, что покупалось на каждой транзакции

Unnamed: 0,Transaction,Пиво,Подгузники,Кола
0,1,1,1,1
1,2,0,1,0
2,3,1,0,1
3,4,1,0,1
4,5,1,1,0


$supp = \frac{\text{Транзакции с пивом и подгузниками}}{\text{Все транзакции}}$ = $P(\text{Пиво}\cap\text{Подгузники})$

$supp = \frac{2}{5}$ = 40%

##### Confidence (достоверность)

Следующее ключевое понятие - confidence. Это показатель того, как часто наше правило срабатывает для всего датасета. 

$conf(x_1\cup x_2) = \frac{supp(x_1 \cup x_2)}{supp(x_1)}$

Приведем пример: мы хотим посчитать confidence для правила "кто покупает пиво, тот покупает и подгузники".

Для этого сначала посчитаем, какой support у правила "покупает пиво", потом посчитаем support у правила "покупает пиво и подгузники", и просто поделим одно на другое. Т.е. мы посчитаем в скольких случаях (транзакциях) срабатывает правило "купил пиво $supp(X)$, купил подгузники и пиво $supp(X \cup Y)$"
Ничего не напоминает? Байес смотрит на все это несколько недоуменно и с презрением:)

Посмотрим на нашем микродатасете

$conf(\text{Пиво}\cup \text{Подгузники}) = \frac{supp(\text{Пиво}\cup \text{Подгузники})}{supp(\text{Подгузники})}$ = $P(\text{Пиво}\mid\text{Подгузники})$

$conf = \frac{2}{3}$ = 67%

<img src="img/thomas-bayes.png">

##### Lift (поддержка)

Следующее понятие в нашем списке - lift. Грубо говоря, lift - это отношение "зависимости" items к их "независимости". Lift показывает, насколько items зависят друг от друга. Это очевидно из формулы:

$lift(x_1\cup x_2) = \frac{supp(x_1 \cup x_2)}{supp(x_1) \times supp(x_2)}$

Например, мы хотим понять зависимость покупки пива и покупки подгузников. Для этого считаем support правила "купил пиво и подгузники" и делим его на произведение правил "купил пиво" и "купил подгузники". В случае, если lift = 1, мы говорим, что items независимы и правил совместной покупки тут нет. Если же lift > 1, то величина, на которую lift, собственно, больше этой самой единицы, и покажет нам "силу" правила. Чем больше единицы, тем круче. По-другому lift можно определить как отношение confidence к expected confidence, т.е. отношение достоверности правила, когда оба (ну или сколько там захотите) элемента покупаются вместе к достоверности правила, когда один из элементов покупался (неважно, со вторым или без)

$lift = \frac{\text{Confidence}}{\text{Expected confidence}}$ = $\frac{P(\text{Пиво} \mid \text{Подгузники})}{P(\text{Подгузники})}$

$lift = \frac{\frac{2}{3}}{\frac{3}{5}}$ = 1,(11)

Т.е. наше правило, что пиво покупают с подгузникми, на 11% мощнее правила, что подгузники просто покупают

##### Conviction (убедительность)

В общем виде Conviction - это "частотность ошибок" нашего правила. Т.е., например, как часто покупали пиво без подгузников и наоборот.

$conv(x_1\cup x_2) = \frac{1 - supp(x_2)}{1 - conf(x_1 \cup x_2)}$

$conv(\text{Пиво}\cup \text{Подгузники} ) = \frac{1 - supp(\text{Подгузники})}{1 - conf(\text{Пиво} \cup \text{Подгузники})}$ = $\frac{1 - 0.4}{1 - 0.67}$ = $1,(81)$

Чем результат по формуле выше ближе к 1, тем лучше. Например, если conviction покупки пива и подгузников вместе был бы равен 1.2, это значит, что правило "купил пиво и подгузники" было бы в 1.2 раза (на 20%) более верным, чем если бы совпадение этих items в одной транзакции было бы чисто случайным. Немного не интуитивное понятие, но оно и используется не так часто, как предыдущие три. 

Существует ряд часто используемых классических алгоритмов, позволяющих находить правила в itemsets согласно перечисленным выше понятиям - Наивный или брутфорс-алгоритм, Apriori- алгоритм, ECLAT-алгоритм, FP-growth алгоритм и другие.

### Брутфорс

Найти правила в itemsets в общем не сложно, сложно сделать это эффективно. Брутфорс-алгоритм самый простой и, в то же время, самый неэффективный способ.

В псевдо-коде алгоритм выглядит так:

**ВХОД**: Датасет $D$, содержащий список транзакций

**ВЫХОД**: Наборы itemsets $F_1, F_2, F_3, ... F_q$, где $F_i$ - набор itemsets размера $I$, которые встречаются как минимум $s$ раз в $D$

**ПОДХОД:**

1. $R \leftarrow$  целочисленный array, содержащий в себе все комбинации items в $D$, размера $2^{|D|}$
2. **for** $n \leftarrow  [1, |D|]$ **do**:
<br>
$F \leftarrow$  все возможные комбинации из $D_n$
<br>
Увеличить каждое значение в $R$ согласно значениям в каждом $F[]$
5. **return** Все itemsets в $R \geq s$

Сложность брутфорс-алгоритма очевидна:
Для того чтобы найти все возможные Association rules применяя брутфорс-алгоритм нам необходимо перечислить все подмножества $X$ из набора $I$ и для каждого подмножества $X$ рассчитать $supp(X)$. Данный подход будет состоять из следующих шагов:
-  генерация **кандидатов**. Данный шаг состоит из перебора всех возможных подмножеств $X$ подмножества $I$. Данные подмножества называются **кандидатами**, поскольку каждое подмножество теоретически может являться часто встречаемым подмножеством, то множество потенциальных кандидатов будет состоять из $2^{|D|}$ элементов (здесь $|D|$ обозначается число элементов множества $I$, а $2^{|D|}$ часто называется булеаном множества $I$, то есть множество всех подмножеств $I$)
-  расчет **support**. На данном шаге рассчитывается $supp(X)$ каждого кандидата $X$

Таким образом, сложность нашего алгоритма будет: $O(|I|*|D|*2^{|I|})$, где
<br>$O(2^{|I|})$ - количество возможных кандидатов</br>
<br>$O(|I|*|D|)$ - сложность расчета $supp(X)$, поскольку для расчета  $supp(X)$ нам необходимо перебрать все элементы в $I$ в каждой транзакции $t \in T$</br>

В нотации O-большое нам понадобится $O(N)$ операций, где $N$ - количество itemsets.
Таким образом, для применения брутфорс-алгоритма нам понадобится $2^i$ ячеек памяти, где $i$ - индивидуальный itemset. Т.е. для хранения и обсчета 34 items нам понадобится 128GB RAM (для 64-битных целосчисленных ячеек). 
<br>Таким образом брутфорс поможет нам в обсчете транзакций в палатке с шаурмой у вокзала, но для чего-то более серьезного он совершенно не пригоден.

### Apriori Algorithm

#### Теория

Используемые понятия:
<br> -  Множество объектов (**itemset**): $X \subseteq I = \{x_1, x_2, ..., x_n\}$</br>
<br> -  Множество идентификаторов транзакций (**tidset**): $T = \{t_1, t_2, ..., t_m\}$</br>
<br> -  Множество транзакций (**transactions**): $\{(t,\ X):\ t\in T,\ X \in I\}$</br>

Введем дополнительно еще несколько понятий.
<br>Будем рассматривать дерево префиксов (prefix tree), где 2 элемента $X$ и $Y$ соединены, если $X$ является прямым подмножеством $Y$. Таким образом мы можем пронумеровать все подмножества множества $I$. Рисунок приведен ниже</br>

<img src="img/prefix-based search.PNG">

Итак, рассмотрим Apriori алгоритм.
<br>
Apriori алгоритм использует следующее утверждение: если $X \subseteq Y$, то $supp(X) \geq supp(Y)$. Отсюда следуют следующие 2 свойства:
 -  если $Y$ встречается часто, то любое подмножество $X: X \subseteq Y$  так же встречается часто
 -  если $X$ встречается редко, то любое супермножество $Y: Y \supseteq X$ так же встречается редко
 </br>

Apriori алгоритм по-уровнево проходит по префиксному дереву и рассчитывает частоту встречаемости подмножеств $X$ в $D$. Таким образом, в соответствии с алгоритмом:
 -  исключаются редкие подмножества и все их супермножества
 -  рассчитывается $supp(X)$ для кадого подходящего кандидата $X$ размера $k$ на уровне $k$

<img src="img/Intersections.PNG">

В псевдо-код нотации Априори-алгоритм выглядит следующим образом:

**ВХОД**: Датасет $D$, содержащий список транзакций, и $\sigma$ - задаваемый пользователем порог $supp$

**ВЫХОД**: Список itemsets $F(D, \sigma)$

**ПОДХОД**:

1. $C_1$ $\leftarrow$ $[{i}|i \in J]$
2. $k \leftarrow 1$
3. **while** $C_k \neq 1$ **do**:
4. #Считаем все support для всех кандидатов
<br>
**for all** транзакций (tid, I) $\in D$ **do**:
<br>
    **for all** кандидатов $X \in C_k$ **do**:
<br>
**if** $X \subseteq I$:
<br>
$X.support++$
5. #Вытаскиваем все частые itemsets:
<br>
$F_k = $ {X|X.support > $\sigma$}
6. #Генерируем новых кандидатов
<br>
**for all** $X,Y \in F_i, X[i] = Y[i]$ **for** $1 \leq i \leq k-1$ **and** $X[k] \leq Y[k]$ **do**:
<br>
$I = X \cup$ {$Y$|$k$|}
<br>
**if** $\forall J \subset I,|J| = k: J \in F_k$ **then**
<br>
$C_k+1$ $\leftarrow C_k+1 \cup I$
<br>
$k++$


Таким образом, Apriori-алгоритм сначала ищет все единичные (содержащие 1 элемент) itemsets, удовлетворяющие заданному пользователем $supp$, затем составляет из них пары по принципу иерархической монотонности, т.е. если $x_1$ встречается часто и $x_2$ встречается часто, то и $[x_1, x_2]$ встречается часто.

Явным минусом такого подхода является то, что необходимо "просканировать" весь датасет, посчитать все $supp$ на всех уровнях breadth-first search (поиск в ширину - подробнее [тут](https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA_%D0%B2_%D1%88%D0%B8%D1%80%D0%B8%D0%BD%D1%83))
Это также может подъесть RAM на больших датасетах, хотя и намного эффективнее брутфорса

#### Реализация в Python

from sklearn import... эммм... а импортировать-то и нечего:) На данный момент модулей для ALR в sklearn нет. Ну ничего, погуглим или напишем свои, правда?

По сети гуляет целый ряд реализаций, например [вот](https://github.com/asaini/Apriori), [вот](http://adataanalyst.com/machine-learning/apriori-algorithm-python-3-0/), и даже [вот](https://codereview.stackexchange.com/questions/38101/apriori-algorithm-using-pandas)

Мы же на практике придерживаемся алгоритма apyori, написанного Ю Мочиузки (Yu Mochizuki). Полный код приводить не будем, желающие могут посмотреть [тут](https://github.com/ymoch/apyori) , а вот архитектуру решения и пример использования покажем.

Условно решение Мочизуки можно разделить на 4 части: Структура данных, Внутренние функции, API и Прикладные функции.

Первая часть модуля (Структура данных) работает с изначальным датасетом. Реализуется класс TransactionManager, методы которого объединяют транзакции в матрицу, формируют список правил-кандидатов и считают support для каждого правила. Внутренние функции дополнительно по support'у формируют списки правил и соответственно их ранжируют. API логично позволяет работать напрямую с датасетами, а Прикладные функции позволяют обрабатывать транзакции и выводить результат в читаемый вид. Никакого rocketscience.  

Посмотрим, как использовать модуль на реальном (ну, в данном случае - игрушечном) датасете.

In [2]:
# подгрузим модули
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

In [3]:
# загрузим данные
dataset = pd.read_csv('data/Market_Basket_Optimisation.csv', header = None)

In [4]:
# посомтрим на датасет
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [5]:
dataset.fillna(method = 'ffill',axis = 1, inplace = True)

Видим, что датасет у нас представляет разреженную матрицу, где в строках у нас набор items в каждой транзакции.

In [6]:
dataset.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs,eggs
2,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney,chutney
3,turkey,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado,avocado
4,mineral water,milk,energy bar,whole wheat rice,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea,green tea


In [7]:
#создаим из них матрицу
transactions = []
for i in range(0, 7501): 
    transactions.append([str(dataset.values[i,j]) for j in range(0, 20)])

In [8]:
#загружаем apriori
import apriori

In [9]:
%%time
# и обучимся правилам. Обратите внимание, что пороговые значения мы вибираем сами в зависимости от того,
# насколкьо "сильные" правила мы хотим получить
# min_support -- минимальный support для правил (dtype = float).
# min_confidence -- минимальное значение confidence для правил (dtype = float)
# min_lift -- минимальный lift (dtype = float)
# max_length -- максимальная длина itemset (вспоминаем про k-itemset)  (dtype = integer)

result = list(apriori.apriori(transactions, min_support = 0.003, min_confidence = 0.2, min_lift = 4, min_length = 2))

Wall time: 504 ms


Визуализируем выход

In [10]:
import shutil, os 

In [11]:
try:
    from StringIO import StringIO
except ImportError:
    from io import StringIO

In [12]:
import json #преобразовывать будем в json, используя встроенные в модуль методы

In [14]:
output = []
for RelationRecord in result:
    o = StringIO()
    apriori.dump_as_json(RelationRecord, o)
    output.append(json.loads(o.getvalue()))
data_df = pd.DataFrame(output)

In [15]:
# и взгялнем на итоги
pd.set_option('display.max_colwidth', -1)

from IPython.display import display, HTML

display(HTML(data_df.to_html()))

Unnamed: 0,items,ordered_statistics,support
0,"[chicken, light cream]","[{'items_base': ['light cream'], 'items_add': ['chicken'], 'confidence': 0.29059829059829057, 'lift': 4.84395061728395}]",0.004533
1,"[escalope, pasta]","[{'items_base': ['pasta'], 'items_add': ['escalope'], 'confidence': 0.3728813559322034, 'lift': 4.700811850163794}]",0.005866
2,"[fromage blanc, honey]","[{'items_base': ['fromage blanc'], 'items_add': ['honey'], 'confidence': 0.2450980392156863, 'lift': 5.164270764485569}]",0.003333
3,"[olive oil, whole wheat pasta]","[{'items_base': ['whole wheat pasta'], 'items_add': ['olive oil'], 'confidence': 0.2714932126696833, 'lift': 4.122410097642296}]",0.007999
4,"[pasta, shrimp]","[{'items_base': ['pasta'], 'items_add': ['shrimp'], 'confidence': 0.3220338983050847, 'lift': 4.506672147735896}]",0.005066
5,"[cake, frozen vegetables, tomatoes]","[{'items_base': ['cake', 'frozen vegetables'], 'items_add': ['tomatoes'], 'confidence': 0.2987012987012987, 'lift': 4.367560314928736}]",0.003066
6,"[cereals, ground beef, spaghetti]","[{'items_base': ['cereals', 'spaghetti'], 'items_add': ['ground beef'], 'confidence': 0.45999999999999996, 'lift': 4.681763907734057}]",0.003066
7,"[chocolate, ground beef, herb & pepper]","[{'items_base': ['chocolate', 'herb & pepper'], 'items_add': ['ground beef'], 'confidence': 0.4411764705882354, 'lift': 4.4901827759597746}]",0.003999
8,"[eggs, ground beef, herb & pepper]","[{'items_base': ['eggs', 'ground beef'], 'items_add': ['herb & pepper'], 'confidence': 0.2066666666666667, 'lift': 4.178454627133872}]",0.004133
9,"[french fries, ground beef, herb & pepper]","[{'items_base': ['french fries', 'ground beef'], 'items_add': ['herb & pepper'], 'confidence': 0.23076923076923078, 'lift': 4.665768194070081}, {'items_base': ['french fries', 'herb & pepper'], 'items_add': ['ground beef'], 'confidence': 0.46153846153846156, 'lift': 4.697421981004071}]",0.0032


Итого мы видим:

1. Пары items
2. items_base - первый элемент пары
3. items_add - второй (добавленный алгоритмом) элемент пары
4. confidence - значение confidence для пары
5. lift - значение lift для пары
6. support - значение support для пары. При желании, по нему можно отсортировать 


Результаты логичные: эскалоп и макароны, эскалоп и сливочно-грибной соус, курица и нежирная сметана, мягкий сыр и мед и т.д. - все это вполне логичные и, главное, вкусные сочетания:)

#### Реализация в R

ARL тот случай,скогда R-филы могут злорадно похихикать (java-филы вообще смотрят на нас смертных с презрением, но об этом ниже). В R реализована библиотека arules, где присутствует и apriori, и другие алгоритмы. Официальную доку можно посмотреть [тут](https://cran.r-project.org/web/packages/arules/arules.pdf)

Посмотрим на нее в действии:

Для начала установим ее (если еще не установили):
<br>
install.packages('arules')

Считаем данные и преобразуем их в матрицу транзакций:
<BR>
<br>
$library(arules)$
<br>
$dataset = read.csv('Market_Basket_Optimisation.csv', header = FALSE)$
<br>
$dataset = read.transactions('Market_Basket_Optimisation.csv', sep = ',', rm.duplicates = TRUE)$

Посмотрим на данные:
<BR>
$summary(dataset)$
<br>
$itemFrequencyPlot(dataset, topN = 10)$

Выучим наши правила:
<br>
В общем виде фнкция вызова apriori выглядит так:  $apriori(data, parameter = NULL, appearance = NULL, control = NULL)$, где
<br>

$data$ - наш датасет
<br>
$paramter$ - список (list) параметров для модели: минимальные support, confidence и lift
<br>
$appearance$ - отвечает за отображение данных. Может принимать значения lhs, rhs, both, items, none, которые определяют положение items в output
<br>
$control$ - отвечает за сортировку вывода (ascending, descending, без сортировки), а также за то, отображать ли прогрессбар или нет (параметр verbose)



Обучим модель:

$rules = apriori(data = dataset, parameter = list(support = 0.004, confidence = 0.2))$

И посмотрим на результаты:
<br>
$inspect(sort(rules, by = 'lift')[1:10])$

Убедимся, что на выходе имеем примерно те же результаты, что при использовании модуля apyori в Python:
<br>

1. {light cream}                               => {chicken}       0.004532729
2. {pasta}                                     => {escalope}      0.005865885
3. {pasta}                                     => {shrimp}        0.005065991
4. {eggs,ground beef}                          => {herb & pepper} 0.004132782
5. {whole wheat pasta}                         => {olive oil}     0.007998933
6. {herb & pepper,spaghetti}                   => {ground beef}   0.006399147
7. {herb & pepper,mineral water}               => {ground beef}   0.006665778
8. {tomato sauce}                              => {ground beef}   0.005332622
9. {mushroom cream sauce}                      => {escalope}      0.005732569
10. {frozen vegetables,mineral water,spaghetti} => {ground beef}   0.004399413

Как видно, в R apriori использовать на данный момент намного удобнее, чем в Python.

### ECLAT Algorithm

#### Теория

Идея алгоритма ECLAT (Equivalence CLAss Transformation) заключается в ускорении подсчета $supp(X)$. Для этого нам необходимо проиндексировать нашу базу данных $D$ так, чтобы это позволило быстро рассчитывать $supp(X)$

Легко заметить, что если $t(X)$ обозначает множество всех транзакций, где встречается подмножество $X$, то
<br>$t(XY) = t(X) \cap t(Y)$</br>
<br>и</br>
<br>$supp(XY) = |t(XY)|$</br>
<br> то есть $supp(XY)$ равен кардинальности (размеру) множества $t(XY)$

<img src="img/Pruning.PNG">

Данный подход может быть значительно усовершенствован путем уменьшения размера промежуточных множеств идентификаторов транзакций (tidsets). А именно, мы можем хранить не все множество транзакций на промежуточном уровне, а только множество различий этих транзакций. Предположим, что
<br>$X_a = \{x_1, x_2,..., x_{n-1}, a\}$</br>
<br>$X_b = \{x_1, x_2,..., x_{n-1}, b\}$</br>
<br>Тогда, мы получим: </br>
<br>$X_{ab} = \{x_1, x_2,..., x_{n-1}, a, b\}$</br>
<br>$diffset(X_{ab})$ это множество всех id транзакций, которые содержат префикс $X_a$ но не содержат элемент $b$: </br>
<br>$d(X_{ab}) =t(X_a)/t(X_{ab})=t(X_a)/t(X_{b})$</br>

<img src="img/Diffsets.PNG">

В отличие от Apriori-алгоритма, ECLAT производит поиск в глубину (DFS, [подробнее тут](https://ru.wikipedia.org/wiki/%D0%9F%D0%BE%D0%B8%D1%81%D0%BA_%D0%B2_%D0%B3%D0%BB%D1%83%D0%B1%D0%B8%D0%BD%D1%83)). Иногда его называют "вертикальным" (в отличие от "горизонтального" для Apriori)

**ВХОД**: Датасет $D$, содержащий список транзакций, $\sigma$ - задаваемый пользователем порог $supp$ и новый элемент префикс $I \subseteq J$

**ВЫХОД**: Список itemsets $F[I](D, \sigma)$ для соответсвующего префикса $I$

**ПОДХОД:**

1. $F[i] \leftarrow$ {}
<br>
2. **for** all $i \in J$ in $D$ **do**:
<br>
$F[I] := F[I] \cup$ {I $\cup$ {i}} 
<br>
3. #Создаем $D_i$
<br>
$D_i \leftarrow$ {}
<br>
**for** all $j \in J$ in $D$ таких, что $j > i$ **do:**
<br>
$C \leftarrow$ покрывает ({$i$} $\cap$ покрывает {$j$})
<br>
**if** $|C| \geq \sigma$ **then**
<br>
$D_i \leftarrow D_i \cup$ {$C$,$i$}
<br>
4. #DFS - рекурсия:
<br>
Считаем $F|I \cup$ {$i$}| $(D_i, \sigma)$
<br>
$F[I]: F[I] \cup F[I \cup i]$


Ключевым понятием для ECLAT-алгоритма является I-префикс. В началае генерируется пустое множество I, это позволяет нам на первом проходе выделить все частотные itemsets. Затем алгоритм будет вызывать сам себя и увеличивать I на 1 на каждом шаге до тех пор, пока не будет достигнута заданная пользователем длина I. 

Для хранения значений используется префиксное дерево (trie (не tree:)), [тут подробнее](https://ru.wikipedia.org/wiki/%D0%9F%D1%80%D0%B5%D1%84%D0%B8%D0%BA%D1%81%D0%BD%D0%BE%D0%B5_%D0%B4%D0%B5%D1%80%D0%B5%D0%B2%D0%BE)). Вначале строится нулевой корень дерева (то самое пустое множество I), затем по мере прохода по itemsets алгоритм прописывает содержащиеся в каждом itesmsets items, при этом самая левая ветвь является child нулевого корня и далее вниз. При этом ветвей столько, сколкьо items встречаестя в itemsets. Такой подход позволяет записывать itemset в памяти только один раз, что делает ECALT быстрее Apriori. 

#### Реализация в Python

Существует несколько реализаций данного алгоритма в Python, желающие могут погуглить и даже попытаться их заставить работать, но мы же напишем свой, максимально простой и, главное, рабочий:)

In [52]:
import numpy as np
"""
Класс инициируется 3мя параметрами:
- min_supp - минимальный support  который мы рассматриваем для ItemSet. Рассчитывается как % от количества транзакций
- max_items - максимальное количество елементов в нашем ItemSet
- min_items - минимальное количество элементов ItemSet
"""
class Eclat:
    #инициализация объекта класса
    def __init__(self, min_support = 0.01, max_items = 5, min_items = 2):
        self.min_support = min_support
        self.max_items = max_items
        self.min_items = min_items
        self.item_lst = list()
        self.item_len = 0
        self.item_dict = dict()
        self.final_dict = dict()
        self.data_size = 0
    
    #создание словаря из ненулевых объектов из всех транзакций (вертикальный датасет)
    def read_data(self, dataset):
        for index, row in dataset.iterrows():
            row_wo_na = set(row[0])
            for item in row_wo_na:
                item = item.strip()
                if item in self.item_dict:
                    self.item_dict[item][0] += 1
                else:
                    self.item_dict.setdefault(item, []).append(1)
                self.item_dict[item].append(index)
        #задаем переменные экземпляра (instance variables)
        self.data_size = dataset.shape[0]
        self.item_lst = list(self.item_dict.keys())
        self.item_len = len(self.item_lst)
        self.min_support = self.min_support * self.data_size
        #print ("min_supp", self.min_support)
        
    #рекурсивный метод для поиска всех ItemSet по алгоритму Eclat
    #структура данных: {Item: [Supp number, tid1, tid2, tid3, ...]}
    def recur_eclat(self, item_name, tids_array, minsupp, num_items, k_start):
        if tids_array[0] >= minsupp and num_items <= self.max_items:
            for k in range(k_start+1, self.item_len):
                if self.item_dict[self.item_lst[k]][0] >= minsupp:
                    new_item = item_name + " | " + self.item_lst[k]
                    new_tids = np.intersect1d(tids_array[1:], self.item_dict[self.item_lst[k]][1:])
                    new_tids_size = new_tids.size
                    new_tids = np.insert(new_tids, 0, new_tids_size)
                    if new_tids_size >= minsupp:
                        if num_items >= self.min_items: self.final_dict.update({new_item: new_tids})
                        self.recur_eclat(new_item, new_tids, minsupp, num_items+1, k)
    
    #последовательный вызов функций определенных выше
    def fit(self, dataset):
        i = 0
        self.read_data(dataset)
        for w in self.item_lst:
            self.recur_eclat(w, self.item_dict[w], self.min_support, 2, i)
            i+=1
        return self
        
    #вывод в форме словаря {ItemSet: support(ItemSet)}
    def transform(self):
        return {k: "{0:.4f}%".format((v[0]+0.0)/self.data_size*100) for k, v in self.final_dict.items()}

Потестируем

In [53]:
#создадим экземпляр класса с нужными нам параметрами
model = Eclat(min_support = 0.01, max_items = 4, min_items = 3)

In [54]:
#обучим
model.fit(dataset)

<__main__.Eclat at 0x224ff5bd240>

In [55]:
#и визуализируем результаты
model.transform()

{'eggs | spaghetti | chocolate': '1.0532%',
 'milk | spaghetti | chocolate': '1.0932%',
 'mineral water | chocolate | ground beef': '1.0932%',
 'mineral water | eggs | chocolate': '1.3465%',
 'mineral water | eggs | ground beef': '1.0132%',
 'mineral water | eggs | milk': '1.3065%',
 'mineral water | eggs | spaghetti': '1.4265%',
 'mineral water | french fries | spaghetti': '1.0132%',
 'mineral water | frozen vegetables | spaghetti': '1.1998%',
 'mineral water | milk | chocolate': '1.3998%',
 'mineral water | milk | frozen vegetables': '1.1065%',
 'mineral water | milk | ground beef': '1.1065%',
 'mineral water | milk | spaghetti': '1.5731%',
 'mineral water | olive oil | spaghetti': '1.0265%',
 'mineral water | spaghetti | chocolate': '1.5865%',
 'mineral water | spaghetti | ground beef': '1.7064%',
 'mineral water | spaghetti | pancakes': '1.1465%'}

## Meanwhile in real-life...

Итак, алгоритм работает. Но так ли он применим в реальной жизни? Давайте проверим.

Есть реальная бизнес задача , которая поступила нам от крупного продуктового ритейлера премиум-сегмента (раскрывать название не будем, корпоративная тайна-с): посмотреть те самые наиболее частые наборы в продуктовых корзинах.

Загрузим данные из выгрузки из POS-ситемы (Point-of-Sale - система, обрабатывающая транзакции на кассах)

**Загрузим данные**

In [2]:
df = pd.read_csv('data/tranprod1.csv', delimiter = ';', header = 0)
df.columns = ['trans', 'item']
print(df.shape)
df.head()

(851083, 2)


  interactivity=interactivity, compiler=compiler, result=result)


Unnamed: 0,trans,item
0,284340645,ТОВ255868
1,284340942,ТОВ219972
2,284340942,ТОВ256924
3,284342046,ТОВ251559
4,284343063,ТОВ225352


**Поменяем формат таблицы на "транзакция | список" всех item в транзакции**

In [3]:
df.trans = pd.to_numeric(df.trans, errors='coerce')
df.dropna(axis = 0, how = 'all', inplace = True)
df.trans = df.trans.astype(int)

In [4]:
df = df.groupby('trans').agg(lambda x: x.tolist())

In [5]:
df.head()

Unnamed: 0_level_0,item
trans,Unnamed: 1_level_1
284339008,"[ТОВ276911, ТОВ088835, ТОВ042562, ТОВ109423, Т..."
284339009,"[ТОВ004568, ТОВ141629, ТОВ164029, ТОВ218562, Т..."
284339010,"[ТОВ246052, ТОВ231590, ТОВ242527, ТОВ234309]"
284339011,"[ТОВ206914, ТОВ153118, ТОВ208685, ТОВ042960, Т..."
284339012,[ТОВ231586]


**Запустим алгоитм**

In [10]:
model = Eclat(min_support = 0.0001, max_items = 4, min_items = 3)

In [11]:
%%time
model.fit(df)

Data read successfully
min_supp 9.755
CPU times: user 6h 47min 9s, sys: 22.2 s, total: 6h 47min 31s
Wall time: 6h 47min 28s


<my_eclat.Eclat at 0x7f19829d6fd0>

In [12]:
d = model.transform()

In [13]:
d

{'ТОВ009894 | ТОВ231586 | ТОВ184253': '0.0154%',
 'ТОВ009894 | ТОВ231586 | ТОВ232715': '0.0154%',
 'ТОВ009894 | ТОВ215649 | ТОВ232715': '0.0113%',
 'ТОВ009894 | ТОВ224330 | ТОВ170478': '0.0154%',
 'ТОВ009894 | ТОВ184253 | ТОВ139528': '0.0246%',
 'ТОВ009894 | ТОВ184253 | ТОВ262977': '0.0103%',
 'ТОВ009894 | ТОВ184253 | ТОВ232715': '0.0246%',
 'ТОВ009894 | ТОВ184253 | ТОВ227714': '0.0123%',
 'ТОВ009894 | ТОВ184253 | ТОВ170478': '0.0113%',
 'ТОВ009894 | ТОВ184253 | ТОВ155841': '0.0113%',
 'ТОВ009894 | ТОВ184253 | ТОВ255036': '0.0123%',
 'ТОВ009894 | ТОВ184253 | ТОВ043107': '0.0123%',
 'ТОВ009894 | ТОВ184253 | ТОВ052777': '0.0113%',
 'ТОВ009894 | ТОВ184253 | ТОВ097249': '0.0133%',
 'ТОВ009894 | ТОВ184253 | ТОВ032043': '0.0113%',
 'ТОВ009894 | ТОВ139528 | ТОВ255036': '0.0123%',
 'ТОВ009894 | ТОВ139528 | ТОВ032043': '0.0103%',
 'ТОВ009894 | ТОВ142564 | ТОВ178947': '0.0113%',
 'ТОВ009894 | ТОВ142564 | ТОВ178947 | ТОВ162300': '0.0103%',
 'ТОВ009894 | ТОВ142564 | ТОВ162300': '0.0103%',
 'ТОВ009

На обычном компьютере решение этой задачки заняло по сути ночь. На cloud-платформах было бы быстрее:) Но, главное, клиент доволен.

Как видно, реализовать алгоритм своими силами довольно просто, хотя с эффективностью стоит поработать:)

#### Реализация в R

И вновь пользователи R ликуют, для них никаких танцев с бубном делать не надо, все по аналогии с apriori. 

Запускаем библиотеку и читаем данные:

$library(arules)$
<br>
$dataset = read.csv('Market_Basket_Optimisation.csv')$
<br>
$dataset = read.transactions('Market_Basket_Optimisation.csv', sep = ',', rm.duplicates = TRUE)$


Быстрый взгляд на датасет:
<br>
$summary(dataset)$
<br>
$itemFrequencyPlot(dataset, topN = 10)$

Правила:
<br>
$rules = eclat(data = dataset, parameter = list(support = 0.003, minlen = 2))$ 
<br>
Обратите внимание, настраиваем толкьо support и минимальную длину (k в k-itemset)

И смотрим на результаты:
<br>
$inspect(sort(rules, by = 'support')[1:10])$

### FP-Growth Algorithm

#### Теория

FP-Growth (Frequent Pattern Growth) алгоритм самый молодой из нашей троицы, впервые он описан в 2000 году в [7].
FP-Growth предлагает радикальную вещь - отказаться от генерации **кандидатов** (напомним, генерация кандидатов лежит в основе Apriori и ECLAT). Теоретчиески, такой подход позволит еще больше увеличить скорость алгоритма и использовать еще меньше памяти.

Это достигается за счет хранения в памяти префиксного дерева (trie) не из комбинаций кандидатов, а из самих транзакций. 
При этом FP-Growth генерирует таблицу заголовков для каждого item, чей $supp$ выше заданного пользователем. Эта таблица заголовков хранит связанный список всех однотипных узлов префиксного дерева. Таким образом, алгоритм сочетает в себе плюсы **BFS** за счет таблицы заголовков и **DFS** за счет построения trie. Псевдокод алгоритма схож с ECALT, за некоторыми исключениями.

**ВХОД**: Датасет $D$, содержащий список транзакций, $\sigma$ - задаваемый пользователем порог $supp$ и префикс $I \subseteq J$

**ВЫХОД**: Список itemsets $F[I](D, \sigma)$ для соответсвующего префикса $I$

**ПОДХОД:**

1. $F[i] \leftarrow$ {}
<br>
2. **for** all $i \in J$ in $D$ **do**:
<br>
$F[I] := F[I] \cup$ {I $\cup$ {i}} 
<br>
3. #Создаем $D_i$
<br>
$D_i \leftarrow$ {}
<br> 
**$H_i \leftarrow$ {}**
<br>
**for** all $j \in J$ in $D$ таких, что $j > i$ **do:**
<br>
**if** $supp$ ($I \cup$ {$i$,$j$}) $\geq \sigma$ **then**:
<br>
$H \leftarrow H \cup$ {$j$}
<br>
**for** all $(tid, X) \in D$ при $I \in X$ **do**:
<br>
$D_i \leftarrow D_i \cup$ ({$tid,X \cap H$})
<br>
4. #DFS - рекурсия:
<br>
Считаем $F|I \cup$ {$i$}| $(D_i, \sigma)$
<br>
$F[I] \leftarrow F[I] \cup F[I \cup i]$


#### Реализация в Python

Реализации FP-Growth в Питоне повезло не больше, чем другим ALR-алгоритмам. Стандартных библиотек под него нет.

Неплохо FP_Growth представлен в pyspark, смотреть [тут](http://spark.apache.org/docs/2.2.0/mllib-frequent-pattern-mining.html)

На gitHub тоже можно найти несколкьо решений эпохи неолита, например [тут](https://github.com/enaeseth/python-fp-growth) и [тут](https://github.com/evandempsey/fp-growth)

Потестим второй вариант

In [32]:
#!pip install pyfpgrowth - установка

In [33]:
import pyfpgrowth

In [34]:
#Сгенериуем паттерны
patterns = pyfpgrowth.find_frequent_patterns(transactions, 2)

Wall time: 1min 38s


In [None]:
#Выучим правила
rules = pyfpgrowth.generate_association_rules(patterns, 30);

In [None]:
#Покажем
rules;

#### Реализация в R

В данном случае R не отстает от Питона: в такой удобной и родной arules библиотеке FP-Growth отсутствует. 

В то же время, как и для Питона, реализация сущетсвует в Spark - [Ссылка](https://spark.apache.org/docs/2.2.0/api/R/spark.fpGrowth.html)

## А на самом деле...

А на самом деле, если вам захочется применять ARL в ваших бизнес задачах, мы настоятельно рекомендуем учить **Java**.

**Weka** (Waikato Environment for Knowledge Analysis). Это бесплатное ПО для Машинного Обучения, написанное на языке Java. Разаботано в Университете Waikato в Новой Зеландии в 1993. В Weka есть как GUI, так и возможность работы из командной строки. Из преимуществ можно назвать простоту в использовании графического интерфейса - нет необходимости писать код для решения прикладных задач. Для использования библиотек Weka в Python можно установить оболочку для Weka в Python: python-weka-wrapper3. Оболочка исползует пакет javabridge для доступа к API Weka. Детальные инструкции по установке можно найти [здесь](http://fracpete.github.io/python-weka-wrapper3/install.html).

**SPMF** Это библиотека для интеллектуального анализа данных с открытым исходным кодом, написанная на Java, специализирующаяся на поиске паттернов в данных ([ссылка](http://www.philippe-fournier-viger.com/spmf/)). Заявляется, что в SPMF реализовано более 55 алгоритмов для майнинга данных. К сожалению, официальной оболочки SPMF для Python нет (по крайней мере на дату написания данной статьи:) )

## Заключение

В заключении давайте эмпирически сравним **эффективность** метрикой *runtime* в зависимости от плотности датасета и длин транзакций датасета[9]. 

Под *плотностью* датасета подразумеваестя отношение транзакций, содержащих в себе частые items к общему количеству транзакций.

<img src="img/density.PNG">

Из графика очевидно, что эффективность (чем меньше runtime, тем эффективнее) Apriori-алгоритма падает при увеличении плотности датасета.

Под *длинной транзакции* понимается количество в items в itemset

<img src="img/size.PNG">

Очевидно, что при увеличении длины транзакции Apriori также справляется гораздо хуже.

### Итоги

Итак, мы познакомились с базовой теорией ARL ("кто купил х, также купил y") и основными понятиями и метриками (support, confidence, lift и conviction).

Посмотрели 3 самых популярных алгоритма (Apriori, ECLAT, FP-Growth), позавидовали пользователям R и библиотеки arules, попробовали сами реализовать ECALT.

Основные моменты:
1. ARL лежат в основе рекомендательных систем
2. ARL широко применимы - от традиционного ритейла и онлайн ритейла (от Ozon до Steam), обычных закупок ТМЦ до банков и телекома (подключаемые сервисы и услуги)
3. ARL относительно легко использовать, существуют реализации разного уровня проработки для разных задач.
4. ARL хорошо интепретируются и не требуют специальных навыков
5. При этом алгоритмы, особенно классические, нельзя назвать супер-эффективными. Если работать с ними из коробки на больших датасетах, может понадобиться большая вычислительная мощность. Но ничто не мешает нам их допиливать, правда?:)

Помимо рассмотренных бызовых алгоритмов существет модификации и ответвления:

Алгоритм **CHARM** для поиска ***замкнутых*** itemsets. Этот алгоритм отлично снижает сложность поиска правил с экспоненциальной (т.е. возрастающей при увеличении датасета, например) до полиномиальной. Под замкнутым itemset понимается такой itemset, для которого не существует суперсета (т.е. сета, включающего наш itemset + другие items) с такой же частотностью (=support). 

Тут стоит немного пояснить - до сего момента мы рассматривали просто частые (frequent) itemsets. Существует также понятие ***замкнутых*** (см. выше) и ***максимальных***. Максимальный itemset - это такой itemset, для которого не существует частого (=frequent) суперсета.

Отношения между этими тремя видами itemsets представлено на картинке ниже

<img src="img/sets.gif">

**AprioriDP** (Deep Programming) - позволяет хранить $supp$ в специальной структруе данных, работает немного быстрее классичсекого Apriori

**FP Bonsai** - улучшенный FP-Growth с обрезкой префиксного дерева (пример алгоритма с ***ограничениями***)

Серия **Multi-Relations** алгоритмов, которые определают несколько связей в itemsets.
и другие

В заключении не можем не упомянуть о сумрачном гении ARL докторе Кристиане Боргельте из Университета Констанца (http://www.borgelt.net/software.html).
Кристиан реализовывал упомянутые нами алгоритмы на С, Python, Java и R. Ну или почти все. Существует даже GUI за его авторством, где в пару кликов можно загрузить датасет, выбрать нужный алгоритм и найти правила. Это при условии, что оно у вас заработает:)
Для простых же задач достаточно и того, что мы рассмотрели в этой статье. А если недостаточно - призываем писать реализацию самим! 

**Использованная литература:**
<br>
[1] Discovery, analysis and presentation of strong rules. G. Piatetsky-Shapiro. Knowledge Discovery in Databases, AAAI Press, (1991)
<br>
[2] Mining Association Rules between Sets of Items in Large Databases http://arbor.ee.ntu.edu.tw/~chyun/dmpaper/agrama93.pdf
<br>
[3] Fast Algorithms for Mining Association Rules http://www.vldb.org/conf/1994/P487.PDF
<br>
[4] Ask Dan! http://www.dssresources.com/newsletters/66.php
<br>
[5] Introduction to arul)es – A computational environment for mining association rules and frequent item sets http://www.lsi.upc.edu/~belanche/Docencia/mineria/Practiques/R/arules.pdf
<br>
[6] Публикации Д-ра Боргельта - http://www.borgelt.net/publications.html
<br>
[7] J. Han, J. Pei, and Y. Yin, “Mining frequent patterns without candidate generation,” in ACM SIGMOD Record, vol. 29, no. 2. ACM, 2000, pp. 1–12.
<br>
[8] Shimon, Sh. Improving Data mining algorithms using constraints. The Open University of Israel, 2012.
<br>
[9] Jeff Heaton. Comparing Dataset Characteristics that Favor the Apriori, Eclat or FP-Growth Frequent Itemset Mining Algorithms (https://arxiv.org/pdf/1701.09042.pdf)
