# Regras de Associação

A análise de regras de associação é famosa pelo seu uso em "Market Basket Analysis" (Análise de Cesta de Mercado). A ideia é responder perguntas como: "Se um cliente compra item A, qual a probabilidade dele comprar também item B?". Mas vai muito além disso! Podemos usar para:

- Recomendação de produtos em e-commerce.
- Análise de sequências de cliques em websites.
- Identificação de co-ocorrência de sintomas médicos.
- Otimização de layout de lojas físicas ou sites.

## 1. Conjunto de dados
Vamos utilizar um conjunto de dados de transações de compra de supermercado para fins didátcos.

In [2]:
import pandas as pd

dataset = [
    ['Leite', 'Cerveja', 'Pão', 'Manteiga'],
    ['Café', 'Pão', 'Manteiga', 'Ovos'],
    ['Café', 'Cerveja', 'Pão', 'Manteiga', 'Ovos', 'Fraldas'],
    ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'],
    ['Cerveja', 'Manteiga', 'Ovos', 'Pão', 'Fraldas'],
    ['Leite', 'Pão', 'Manteiga'],
    ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'],
    ['Café', 'Pão', 'Manteiga', 'Ovos'],
    ['Café', 'Cerveja', 'Pão', 'Manteiga', 'Ovos', 'Fraldas'],
    ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'],
    ['Cerveja', 'Manteiga', 'Ovos', 'Pão', 'Fraldas'],
]

print("Nosso dataset de exemplo (transações):")
print(dataset)

Nosso dataset de exemplo (transações):
[['Leite', 'Cerveja', 'Pão', 'Manteiga'], ['Café', 'Pão', 'Manteiga', 'Ovos'], ['Café', 'Cerveja', 'Pão', 'Manteiga', 'Ovos', 'Fraldas'], ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'], ['Cerveja', 'Manteiga', 'Ovos', 'Pão', 'Fraldas'], ['Leite', 'Pão', 'Manteiga'], ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'], ['Café', 'Pão', 'Manteiga', 'Ovos'], ['Café', 'Cerveja', 'Pão', 'Manteiga', 'Ovos', 'Fraldas'], ['Leite', 'Café', 'Pão', 'Manteiga', 'Ovos'], ['Cerveja', 'Manteiga', 'Ovos', 'Pão', 'Fraldas']]


## 2. Transformação de dados

A biblioteca que vamos usar para gerar as regras espera que os dados estejam em um formato específico: um DataFrame onde cada linha é uma transação e cada coluna representa um item. Os valores devem ser booleanos (True/False) ou 0/1, indicando se o item está presente na transação.

In [3]:
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,Café,Cerveja,Fraldas,Leite,Manteiga,Ovos,Pão
0,False,True,False,True,True,False,True
1,True,False,False,False,True,True,True
2,True,True,True,False,True,True,True
3,True,False,False,True,True,True,True
4,False,True,True,False,True,True,True
5,False,False,False,True,True,False,True
6,True,False,False,True,True,True,True
7,True,False,False,False,True,True,True
8,True,True,True,False,True,True,True
9,True,False,False,True,True,True,True


## 3. Aplicação do algoritmo Apriori

O algoritmo Apriori é usado para encontrar os itemsets frequentes, ou seja, combinações de itens que aparecem juntos acima de um certo limite de suporte mínimo que definimos. Definir um min_support é muito importante.

Um valor **muito baixo** pode gerar **itemsets demais** (custo computacional alto), e um valor **muito alto** pode fazer você **perder padrões interessantes**.

In [4]:
from mlxtend.frequent_patterns import apriori

frequent_itemsets = apriori(df, min_support=0.3, use_colnames=True)
frequent_itemsets

Unnamed: 0,support,itemsets
0,0.636364,(Café)
1,0.454545,(Cerveja)
2,0.363636,(Fraldas)
3,0.454545,(Leite)
4,1.0,(Manteiga)
5,0.818182,(Ovos)
6,1.0,(Pão)
7,0.636364,"(Manteiga, Café)"
8,0.636364,"(Ovos, Café)"
9,0.636364,"(Pão, Café)"


In [8]:
from mlxtend.frequent_patterns import association_rules

confianca_min = 0.7
regras = association_rules(frequent_itemsets, metric="confidence", min_threshold=confianca_min)

regras = regras[['antecedents', 'consequents', 'support', 'confidence', 'lift']]
regras

  cert_metric = np.where(certainty_denom == 0, 0, certainty_num / certainty_denom)


Unnamed: 0,antecedents,consequents,support,confidence,lift
0,(Café),(Manteiga),0.636364,1.000000,1.000000
1,(Ovos),(Café),0.636364,0.777778,1.222222
2,(Café),(Ovos),0.636364,1.000000,1.222222
3,(Café),(Pão),0.636364,1.000000,1.000000
4,(Cerveja),(Fraldas),0.363636,0.800000,2.200000
...,...,...,...,...,...
151,"(Pão, Cerveja)","(Ovos, Manteiga, Fraldas)",0.363636,0.800000,2.200000
152,"(Pão, Fraldas)","(Ovos, Manteiga, Cerveja)",0.363636,1.000000,2.750000
153,"(Cerveja, Fraldas)","(Ovos, Manteiga, Pão)",0.363636,1.000000,1.222222
154,(Cerveja),"(Ovos, Manteiga, Fraldas, Pão)",0.363636,0.800000,2.200000


## 4. Geração das regras de associação

Com os itemsets frequentes em mãos, podemos agora gerar as regras de associação. A função ``association_rules()`` pega o DataFrame de itemsets frequentes e calcula a confiança, lift, etc., para todas as regras possíveis que podem ser formadas a partir desses itemsets. Precisamos definir uma métrica ('support', 'confidence', 'lift', etc.) e um limite mínimo para essa métrica.

## 5. Análise de Interpretação dos resultados

Este é o ponto alto! Gerar regras é fácil com a biblioteca, o desafio é interpretar e filtrar as regras para encontrar padrões acionáveis e interessantes.

Vamos olhar para algumas regras e entender o que elas significam.
Por exemplo, uma regra como:

``antecedents={'Pão'} , consequents={'Manteiga'} , confidence=1.0 , lift=1.1``

**Significa:**

- Suporte: (Olhe na coluna support para esta regra específica) - Quão frequentemente Pão E Manteiga aparecem juntos.

- Confiança (1.0): Em 100% das transações que contêm Pão, a Manteiga também foi comprada. MUITO forte!

- Lift (1.1): Comprar Pão torna a compra de Manteiga 1.1 vezes (ou 10%) mais provável do que seria apenas pela popularidade da Manteiga sozinha. Como Lift > 1, há uma associação positiva.

## 6. Filtrando Regras

Geralmente temos muitas regras. Precisamos filtrar para encontrar as mais relevantes. Quais critérios usar? Depende do seu objetivo!

- Quer regras muito confiáveis?

  - Filtre por alta confiança ``(regras[regras['confidence'] > 0.9])``

- Quer descobrir associações não óbvias (itens que não são popularíssimos individualmente, mas aparecem juntos)?

  - Filtre por alto lift ``(regras[regras['lift'] > 1.5])``

- Quer focar em padrões que acontecem com uma frequência mínima (que afetem um número razoável de clientes)?

  - Filtre por suporte mais alto ``(regras[regras['support'] > 0.5])``

**Exercício:** Vamos filtrar as regras por Lift > 1.2 e Confiança > 0.8

In [9]:
regras_interessantes = regras[(regras['lift'] > 1.2) & (regras['confidence'] > 0.8)]
regras_interessantes

Unnamed: 0,antecedents,consequents,support,confidence,lift
2,(Café),(Ovos),0.636364,1.0,1.222222
5,(Fraldas),(Cerveja),0.363636,1.0,2.200000
10,(Fraldas),(Ovos),0.363636,1.0,1.222222
22,"(Manteiga, Café)",(Ovos),0.636364,1.0,1.222222
24,(Café),"(Ovos, Manteiga)",0.636364,1.0,1.222222
...,...,...,...,...,...
149,"(Ovos, Cerveja)","(Pão, Manteiga, Fraldas)",0.363636,1.0,2.750000
150,"(Ovos, Fraldas)","(Pão, Manteiga, Cerveja)",0.363636,1.0,2.200000
152,"(Pão, Fraldas)","(Ovos, Manteiga, Cerveja)",0.363636,1.0,2.750000
153,"(Cerveja, Fraldas)","(Ovos, Manteiga, Pão)",0.363636,1.0,1.222222


**Interpretando o Filtro:**

As regras que sobraram (se houver) são aquelas que não só são muito confiáveis (alta confiança) mas também representam uma co-ocorrência significativamente maior do que a esperada apenas pela frequência individual dos itens (alto lift). Estas são frequentemente as mais interessantes de serem analisadas.

Por exemplo, se a regra ``{Ovos, Pão} -> {Café}`` aparecer com alto lift e confiança, pode sugerir uma combinação popular de café da manhã que você não pensava em promover junta.

**Isto foi o que aconteceu no caso do Walmart que comentei no início desta aula. Observe a segunda regra que encontramos das fraldas e das cervejas!**