# Ассоциативные правила
FP-Tree
![](https://akshanshweb.files.wordpress.com/2018/04/fp-tree-two-iterations.png?resize=810%2C574)

In [34]:
transactions = [
    ['bread', 'milk'],
    ['bread', 'diaper', 'beer', 'egg'],
    ['milk', 'diaper', 'beer', 'cola'],
    ['bread', 'milk', 'diaper', 'beer'],
    ['bread', 'milk', 'diaper', 'cola'],
]

В качестве алгоритма для поиска ассоциативных правил рассмотрим FP-деревья. Они являются оптимизацией Apriori, поэтому будем рассматривать сразу его

In [35]:
import pyfpgrowth

patterns = pyfpgrowth.find_frequent_patterns(transactions, 2) # найдём все правила, которые встречаются не менее двух раз
rules = pyfpgrowth.generate_association_rules(patterns, 0.7) # найдём все следствия из правил, которые происходят не реже чем в 70% случаев

In [45]:
patterns

{('water spray',): 3,
 ('shrimp', 'water spray'): 2,
 ('low fat yogurt', 'napkins'): 2,
 ('napkins', 'spaghetti'): 2,
 ('low fat yogurt', 'napkins', 'spaghetti'): 2,
 ('mineral water', 'napkins'): 2,
 ('grated cheese', 'napkins'): 2,
 ('herb & pepper', 'napkins'): 2,
 ('ground beef', 'napkins'): 2,
 ('ground beef', 'herb & pepper', 'napkins'): 2,
 ('cream', 'herb & pepper'): 2,
 ('cream', 'herb & pepper', 'spaghetti'): 2,
 ('cream', 'pancakes'): 2,
 ('cream', 'herb & pepper', 'pancakes'): 2,
 ('cream', 'pancakes', 'spaghetti'): 2,
 ('cream', 'herb & pepper', 'pancakes', 'spaghetti'): 2,
 ('cream', 'ground beef'): 2,
 ('cream', 'ground beef', 'pancakes'): 2,
 ('cream', 'ground beef', 'herb & pepper'): 2,
 ('cream', 'ground beef', 'spaghetti'): 2,
 ('cream', 'ground beef', 'herb & pepper', 'pancakes'): 2,
 ('cream', 'ground beef', 'pancakes', 'spaghetti'): 2,
 ('cream', 'ground beef', 'herb & pepper', 'spaghetti'): 2,
 ('cream', 'ground beef', 'herb & pepper', 'pancakes', 'spaghetti'): 2

Выведем все паттерны. Это наборы таких продуктов, которые покупались вместе не реже 2 раз (т.е. существует как минимум две транзакции, в которых присутствуют оба товара)

In [36]:
patterns

{('cola',): 2,
 ('cola', 'diaper'): 2,
 ('cola', 'milk'): 2,
 ('cola', 'diaper', 'milk'): 2,
 ('beer', 'bread'): 2,
 ('beer', 'bread', 'diaper'): 2,
 ('beer', 'milk'): 2,
 ('beer', 'diaper', 'milk'): 2,
 ('beer', 'diaper'): 3,
 ('bread',): 4,
 ('milk',): 4,
 ('bread', 'milk'): 3,
 ('bread', 'diaper'): 3,
 ('bread', 'diaper', 'milk'): 2,
 ('diaper', 'milk'): 3}

Посмотрим теперь на ассоциативные правила, которые можно выделить среди таких паттернов

In [37]:
rules

{('cola',): (('diaper', 'milk'), 1.0),
 ('cola', 'diaper'): (('milk',), 1.0),
 ('cola', 'milk'): (('diaper',), 1.0),
 ('beer', 'bread'): (('diaper',), 1.0),
 ('beer', 'milk'): (('diaper',), 1.0),
 ('bread',): (('diaper',), 0.75),
 ('milk',): (('diaper',), 0.75)}

Этот результат означает, что за покупкой колы в 100% случаев следует покупка и подгузников и молока (первое ассоциативное правило), а за покупкой молока в 75% случаев следует покупка подгузников (последнее ассоциативное правило)

# Реальный кейс

Проанализируем реальные транзакции одного магазина

[Данные](https://drive.google.com/file/d/1y5DYn0dGoSbC22xowBq2d4po6h1JxcTQ/view)

Чтение данных

In [38]:
import pandas as pd
orders = pd.read_csv('../data/store_data.csv', header=None)
print(orders.shape)
orders.head()

(7501, 20)


Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [39]:
transactions = []
for transaction in orders.values:
    transactions.append([item for item in transaction if str(item) != 'nan'])

In [41]:
patterns = pyfpgrowth.find_frequent_patterns(transactions, 2) # найдём все правила, которые встречаются не менее двух раз
rules = pyfpgrowth.generate_association_rules(patterns, 0.7) # найдём все следствия из правил, которые происходят не реже чем в 70% случаев

In [44]:
rules

{('low fat yogurt', 'napkins'): (('spaghetti',), 1.0),
 ('napkins', 'spaghetti'): (('low fat yogurt',), 1.0),
 ('ground beef', 'napkins'): (('herb & pepper',), 1.0),
 ('herb & pepper', 'napkins'): (('ground beef',), 1.0),
 ('cream', 'herb & pepper'): (('ground beef', 'pancakes', 'spaghetti'), 1.0),
 ('cream', 'pancakes'): (('ground beef', 'herb & pepper', 'spaghetti'), 1.0),
 ('cream', 'herb & pepper', 'pancakes'): (('ground beef', 'spaghetti'), 1.0),
 ('cream', 'herb & pepper', 'spaghetti'): (('ground beef', 'pancakes'), 1.0),
 ('cream', 'pancakes', 'spaghetti'): (('ground beef', 'herb & pepper'), 1.0),
 ('cream', 'ground beef'): (('herb & pepper', 'pancakes', 'spaghetti'), 1.0),
 ('cream', 'ground beef', 'herb & pepper'): (('pancakes', 'spaghetti'), 1.0),
 ('cream', 'ground beef', 'pancakes'): (('herb & pepper', 'spaghetti'), 1.0),
 ('cream', 'ground beef', 'spaghetti'): (('herb & pepper', 'pancakes'), 1.0),
 ('cream', 'ground beef', 'herb & pepper', 'pancakes'): (('spaghetti',), 1.0

# Ссылки
* [видеолекция](https://www.youtube.com/watch?v=sTWd0ALHdbU), К.В. Воронцов