# Regras de associação

In [3]:
# Instalar no python o 'mlxtend'

pip install mlxtend  

Collecting mlxtend
  Downloading mlxtend-0.18.0-py2.py3-none-any.whl (1.3 MB)
Installing collected packages: mlxtend
Successfully installed mlxtend-0.18.0
Note: you may need to restart the kernel to use updated packages.


In [5]:
# Bibliotecas e funções

import pandas as pd 
from mlxtend.preprocessing import TransactionEncoder # Utilizada para tratar e deixar os dados pronta p/ utilizar com o apriore
from mlxtend.frequent_patterns import apriori # Função para extrair conjuntos de itens frequentes.
from mlxtend.frequent_patterns import association_rules 

pd.set_option('display.max_columns', 500)
pd.set_option('display.max_rows', 500)
pd.set_option('precision', 2)

In [6]:
# DataSet 

dataset = [
    ['Leite', 'Cebola', 'Batata', 'Feijão', 'Ovos', 'Iogurte'],
    ['Arroz', 'Cebola', 'Batata', 'Feijão', 'Ovos', 'Iogurte'],
    ['Leite', 'Maçã', 'Feijão', 'Ovos'],
    ['Leite', 'Milho', 'Feijão', 'Iogurte'],
    ['Milho', 'Cebola', 'Feijão', 'Sorvete', 'Ovos']
]

In [8]:
to = TransactionEncoder() # Váriavel vai receber a função para tratamento dos dados.
to_ary = to.fit(dataset).transform(dataset) #Transformação dos dados
df = pd.DataFrame(to_ary, columns=to.columns_) # Converter a 'to_ary' no DataFrame
frequent_itemsets = apriori(df, min_support=0.6, use_colnames=True) # 3 dos 5 registro tem que possuir um alimento para ser 
# considerado frequente. 

print(frequent_itemsets)

    support                itemsets
0       0.6                (Cebola)
1       1.0                (Feijão)
2       0.6               (Iogurte)
3       0.6                 (Leite)
4       0.8                  (Ovos)
5       0.6        (Cebola, Feijão)
6       0.6          (Ovos, Cebola)
7       0.6       (Iogurte, Feijão)
8       0.6         (Feijão, Leite)
9       0.8          (Ovos, Feijão)
10      0.6  (Ovos, Cebola, Feijão)


### Regras de associação 

In [10]:
# função 'association_rules' para a confiança da regra. 

association_rules(frequent_itemsets, metric='confidence', min_threshold=0.7)

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Cebola),(Feijão),0.6,1.0,0.6,1.0,1.0,0.0,inf
1,(Ovos),(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6
2,(Cebola),(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf
3,(Iogurte),(Feijão),0.6,1.0,0.6,1.0,1.0,0.0,inf
4,(Leite),(Feijão),0.6,1.0,0.6,1.0,1.0,0.0,inf
5,(Ovos),(Feijão),0.8,1.0,0.8,1.0,1.0,0.0,inf
6,(Feijão),(Ovos),1.0,0.8,0.8,0.8,1.0,0.0,1.0
7,"(Ovos, Cebola)",(Feijão),0.6,1.0,0.6,1.0,1.0,0.0,inf
8,"(Ovos, Feijão)",(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6
9,"(Cebola, Feijão)",(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf


In [18]:
# Gerar regra de associação para o 'lift' minimo de 1.2
# Valores de lift inferior a 1 significa que a regra não possui causalidade relevante e não aumentam o nosso poder de previsão.

rules = association_rules(frequent_itemsets, metric='lift', min_threshold=1.2)
rules

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction
0,(Ovos),(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6
1,(Cebola),(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf
2,"(Ovos, Feijão)",(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6
3,"(Cebola, Feijão)",(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf
4,(Ovos),"(Cebola, Feijão)",0.8,0.6,0.6,0.75,1.25,0.12,1.6
5,(Cebola),"(Ovos, Feijão)",0.6,0.8,0.6,1.0,1.25,0.12,inf


In [20]:
# Lambda utilizado para identificar o cumprimento do 'antecedents'. É importante o envio da 'frequent_itemsets' para a variável
# porque será feito o tratamento necessário.

rules['antecedent_len'] = rules ['antecedents'].apply(lambda x:len(x)) 
print(rules)

        antecedents       consequents  antecedent support  consequent support  \
0            (Ovos)          (Cebola)                 0.8                 0.6   
1          (Cebola)            (Ovos)                 0.6                 0.8   
2    (Ovos, Feijão)          (Cebola)                 0.8                 0.6   
3  (Cebola, Feijão)            (Ovos)                 0.6                 0.8   
4            (Ovos)  (Cebola, Feijão)                 0.8                 0.6   
5          (Cebola)    (Ovos, Feijão)                 0.6                 0.8   

   support  confidence  lift  leverage  conviction  antecedent_len  
0      0.6        0.75  1.25      0.12         1.6               1  
1      0.6        1.00  1.25      0.12         inf               1  
2      0.6        0.75  1.25      0.12         1.6               2  
3      0.6        1.00  1.25      0.12         inf               2  
4      0.6        0.75  1.25      0.12         1.6               1  
5      0.6        

In [29]:
# Slice (fatiamento) da variável 'rules'

rules [(rules['antecedent_len'] >= 2) & 
       (rules['confidence'] > 0.75) & 
       (rules['lift'] > 1.2)]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedent_len
3,"(Cebola, Feijão)",(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf,2


In [31]:
# Altera a coluna 'antecedents'. 

rules [rules['antecedents']== {'Ovos', 'Feijão'}]

Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,antecedent_len
2,"(Ovos, Feijão)",(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6,2
