# Regras de associação

In [2]:
import pandas as pd

# Algoritmo Apriori

Importanto o algoritmo

In [3]:
from apyori import apriori

## Base de dados mercado 1

É uma base de dados simples para entendermos o funcionamento do algoritmo. O grande detalhe é que ela é uma base de dados sem nome das colunas, então precisamos colocaro atributo **header=None**.

In [5]:
base_mercado1 = pd.read_csv('mercado.csv', header=None)
base_mercado1

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


Precisamos colocar o dataframe em formato de lista

```python
base_mercado1.values[registro, coluna]
```

In [14]:
transacoes = []
for c in range(len(base_mercado1)):
    transacoes.append([str(base_mercado1.values[c, j]) for j in range(base_mercado1.shape[1])])

In [15]:
transacoes

[['leite', 'cerveja', 'pao', 'manteiga'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['leite', 'cafe', 'pao', 'manteiga'],
 ['cerveja', 'nan', 'nan', 'nan'],
 ['manteiga', 'nan', 'nan', 'nan'],
 ['pao', 'nan', 'nan', 'nan'],
 ['feijao', 'nan', 'nan', 'nan'],
 ['arroz', 'feijao', 'nan', 'nan'],
 ['arroz', 'nan', 'nan', 'nan']]

Está no tipo correto. Pois a **biblioteca apyori precisa que os dados estejam em formato de lista**.

In [16]:
type(transacoes)

list

Agora iremos gerar as regras
- passamos as listas;
- parâmetro min_support;
- parâmetro min_confidence;
- parâmetro min_lift > 1 -> previne regras com itemsets de um elemento.

In [22]:
regras = apriori(transacoes, min_support=0.3, min_confidence=0.8, min_lift = 2)
resultados = list(regras)

In [23]:
resultados, len(resultados)

([RelationRecord(items=frozenset({'cafe', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]),
  RelationRecord(items=frozenset({'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]),
  RelationRecord(items=frozenset({'cafe', 'pao', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])],
 3)

Podemos olhar as regras criadas a partir de um itemset

In [32]:
resultados[1]

RelationRecord(items=frozenset({'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)])

RelationRecord(items=frozenset({'cafe', 'pao', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])

- item_base: os itens antes do SE;
- item_add: os itens depois do ENTÃO.

Formas de fatiar:
- resultados[2][0] -> itemsets
- resultados[2][1] -> support
- resultados[2][2] -> todas as regras geradas

In [26]:
r = resultados[2][2]
r

[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5),
 OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0),
 OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]

Podemos acessar cada regra separadamente de forma mais fácil.

- r[2][0] -> parte SE da regra;
- r[2][1] -> parte ENTÃO da regra;
- r[2][2] -> confiança
- r[2][3] -> lift

In [30]:
r[2][1], r[2][3]

(frozenset({'manteiga'}), 2.0)

Para ficar mais fácil a visualização, iremos gerar um DataFrame. Para isso, iremos proceder no seguinte:

- Separaremos em 5 grandes listas: se, entao, suporte, confianca e lift para depois montarmos um DataFrame;
- Usaremos um for para passar pelos resultados e captar o que nos interessa.

In [37]:
se = []
entao = []
suporte = []
confianca = []
lift = []
for resultado in resultados:
    s = resultado[1]
    result_rules = resultado[2]
    for result_rule in result_rules:
        a = list(result_rule[0])
        b = list(result_rule[1])
        c = result_rule[2]
        l = result_rule[3]
        se.append(a)
        entao.append(b)
        suporte.append(s)
        confianca.append(c)
        lift.append(l)

In [39]:
se

[['cafe'], ['cafe'], ['cafe'], ['cafe', 'manteiga'], ['cafe', 'pao']]

In [40]:
entao

[['manteiga'], ['pao'], ['pao', 'manteiga'], ['pao'], ['manteiga']]

In [42]:
suporte, confianca, lift

([0.3, 0.3, 0.3, 0.3, 0.3],
 [1.0, 1.0, 1.0, 1.0, 1.0],
 [2.0, 2.0, 2.5, 2.0, 2.0])

In [59]:
rules_df = pd.DataFrame({'se': se, 'entao': entao, 
                         'suporte': suporte,
                        'confiança': confianca,
                        'lift': lift})

In [60]:
rules_df

Unnamed: 0,se,entao,suporte,confiança,lift
0,[cafe],[manteiga],0.3,1.0,2.0
1,[cafe],[pao],0.3,1.0,2.0
2,[cafe],"[pao, manteiga]",0.3,1.0,2.5
3,"[cafe, manteiga]",[pao],0.3,1.0,2.0
4,"[cafe, pao]",[manteiga],0.3,1.0,2.0


Apesar de ser mais fácil de visualizar, podemos ordernar por meio de algum atributo:

In [61]:
rules_df = rules_df.sort_values(by='lift', ascending=False)
rules_df = rules_df.reset_index(drop=True)
rules_df

Unnamed: 0,se,entao,suporte,confiança,lift
0,[cafe],"[pao, manteiga]",0.3,1.0,2.5
1,[cafe],[manteiga],0.3,1.0,2.0
2,[cafe],[pao],0.3,1.0,2.0
3,"[cafe, manteiga]",[pao],0.3,1.0,2.0
4,"[cafe, pao]",[manteiga],0.3,1.0,2.0


## Base de dados mercado 2

Uma base de dados real de um mercado na França.

In [63]:
base_mercado2 = pd.read_csv('mercado2.csv', header=None)
base_mercado2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7498,chicken,,,,,,,,,,,,,,,,,,,
7499,escalope,green tea,,,,,,,,,,,,,,,,,,


In [71]:
transacoes = []
for i in range(base_mercado2.shape[0]):
  transacoes.append([str(base_mercado2.values[i, j]) for j in range(base_mercado2.shape[1])])

In [72]:
transacoes

[['shrimp',
  'almonds',
  'avocado',
  'vegetables mix',
  'green grapes',
  'whole weat flour',
  'yams',
  'cottage cheese',
  'energy drink',
  'tomato juice',
  'low fat yogurt',
  'green tea',
  'honey',
  'salad',
  'mineral water',
  'salmon',
  'antioxydant juice',
  'frozen smoothie',
  'spinach',
  'olive oil'],
 ['burgers',
  'meatballs',
  'eggs',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['chutney',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['turkey',
  'avocado',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan',
  'nan'],
 ['mineral water',
  'milk',
  'energy bar',
  'whole wheat rice',
  'green tea',
  'nan',
  'nan',
  'nan',
 

**Dificilmente iremos conseguir um suporte de 30% em uma base de dados com 7501 registros**. Não conseguimos nenhuma regra.

In [74]:
regras = apriori(transacoes, min_support=0.3, 
                 min_confidence=0.8, min_lift=2)
resultados = list(regras)
len(resultados)

0

Para conseguirmos definir um suporte, podemos definir um objetivo.

- Extrair regras para produtos vendidos ao menos 4 vezes por dia ou 28 vezes por semana

Então iremos usar o seguinte suporte:

In [77]:
sup = (4 * 7 ) / 7501 

In [78]:
regras = apriori(transacoes, min_support=sup, 
                 min_confidence=0.8, min_lift=2)
resultados = list(regras)
len(resultados)

0

O problema persiste, e agora iremos mexer na confiança. Já que em base de dados grandes dificilmente conseguiremos regras com a confiança muito alta.

In [80]:
regras = apriori(transacoes, min_support=sup, 
                 min_confidence=0.2, min_lift=3)
resultados = list(regras)
len(resultados)

88

Agora conseguimos um número interessante. Basta que averiguemos as melhores regras e para isso criaremos um DataFrame.

In [81]:
se = []
entao = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1]
    result_rules = resultado[2]
    for result_rule in result_rules:
        a = list(result_rule[0])
        b = list(result_rule[1])
        c = result_rule[2]
        l = result_rule[3]
        se.append(a)
        entao.append(b)
        suporte.append(s)
        confianca.append(c)
        lift.append(l)

In [85]:
rules_df = pd.DataFrame({'se': se, 'entao': entao, 
                        'suporte': suporte, 
                        'confiança': confianca,
                        'lift': lift})
rules_df

Unnamed: 0,se,entao,suporte,confiança,lift
0,[light cream],[chicken],0.004533,0.290598,4.843951
1,[mushroom cream sauce],[escalope],0.005733,0.300699,3.790833
2,[pasta],[escalope],0.005866,0.372881,4.700812
3,[herb & pepper],[ground beef],0.015998,0.323450,3.291994
4,[tomato sauce],[ground beef],0.005333,0.377358,3.840659
...,...,...,...,...,...
169,"[frozen vegetables, nan, mineral water, spaghe...",[ground beef],0.004399,0.366667,3.731841
170,"[milk, mineral water, spaghetti]","[frozen vegetables, nan]",0.004533,0.288136,3.022804
171,"[nan, milk, mineral water, spaghetti]",[frozen vegetables],0.004533,0.288136,3.022804
172,"[ground beef, milk]","[nan, mineral water, spaghetti]",0.004399,0.200000,3.348661


In [91]:
rules_df_orderly = rules_df.sort_values(by='lift', ascending=False).reset_index(drop=True)
rules_df_orderly


Unnamed: 0,se,entao,suporte,confiança,lift
0,"[mineral water, whole wheat pasta]","[nan, olive oil]",0.003866,0.402778,6.128268
1,"[nan, mineral water, whole wheat pasta]",[olive oil],0.003866,0.402778,6.115863
2,"[mineral water, whole wheat pasta]",[olive oil],0.003866,0.402778,6.115863
3,[light cream],"[nan, chicken]",0.004533,0.290598,4.843951
4,"[nan, light cream]",[chicken],0.004533,0.290598,4.843951
...,...,...,...,...,...
169,"[frozen vegetables, nan, spaghetti]",[shrimp],0.005999,0.215311,3.013149
170,"[frozen vegetables, spaghetti]",[shrimp],0.005999,0.215311,3.013149
171,"[ground beef, shrimp]","[nan, spaghetti]",0.005999,0.523256,3.005315
172,"[nan, ground beef, shrimp]",[spaghetti],0.005999,0.523256,3.005315


Nesse cenário de mineração de regras de associação. Para avaliarmos as regras é necessário que:
- Levar as regras para o gerente da empresa;
- Ele aplica testes no mercado;
- Verificar se o lucro vai aumentar.

# ECLAT

In [93]:
base_mercado1 = pd.read_csv('mercado.csv', header=None)
base_mercado1

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


Importando e criando o objeto para o retorno dos itens frequentes.

In [94]:
from pyECLAT import ECLAT
eclat = ECLAT(data=base_mercado1)

Representação Binária
- 1 -> comprou
- 2 -> não comprou

In [97]:
eclat.df_bin

Unnamed: 0,pao,manteiga,leite,arroz,cerveja,cafe,feijao
0,1,1,1,0,1,0,0
1,1,1,0,0,0,1,0
2,1,1,0,0,0,1,0
3,1,1,1,0,0,1,0
4,0,0,0,0,1,0,0
5,0,1,0,0,0,0,0
6,1,0,0,0,0,0,0
7,0,0,0,0,0,0,1
8,0,0,0,1,0,0,1
9,0,0,0,1,0,0,0


Podemos retornar os nomes das colunas

In [98]:
eclat.uniq_

[nan, 'pao', 'manteiga', 'leite', 'arroz', 'cerveja', 'cafe', 'feijao']

Geração dos itens frequentes

In [99]:
indices, suporte = eclat.fit(min_support=0.3, min_combination=1, max_combination=3)

Combination 1 by 1


3it [00:00, 35.60it/s]


Combination 2 by 2


3it [00:00, 136.35it/s]


Combination 3 by 3


1it [00:00, 83.35it/s]


Mostra em quais transações aparecem os produtos comprados

In [100]:
indices

{'pao': [0, 1, 2, 3, 6],
 'manteiga': [0, 1, 2, 3, 5],
 'cafe': [1, 2, 3],
 'pao & manteiga': [0, 1, 2, 3],
 'pao & cafe': [1, 2, 3],
 'manteiga & cafe': [1, 2, 3],
 'pao & manteiga & cafe': [1, 2, 3]}

O suporte de cada

In [101]:
suporte

{'pao': 0.5,
 'manteiga': 0.5,
 'cafe': 0.3,
 'pao & manteiga': 0.4,
 'pao & cafe': 0.3,
 'manteiga & cafe': 0.3,
 'pao & manteiga & cafe': 0.3}