# Mineração de regras de associação pelo algoritmo Apriori

Fontes:

[1] https://stackabuse.com/association-rule-mining-via-apriori-algorithm-in-python/

[2] https://en.wikipedia.org/wiki/Apriori_algorithm

[3] http://rasbt.github.io/mlxtend/user_guide/frequent_patterns/apriori/

Técnica para identificar relações subjacentes entre diferentes itens, por exemplo, produtos que frequentemente são comprados juntos.

Algoritmo apriori foi projetado para operar sobre banco de dados contendo transações, como compras de consumidores de uma loja.





In [None]:
dataset = [['Leite', 'Cebola', 'Noz-moscada', 'Feijão', 'Ovos', 'Iogurte'],
           ['Salsinha', 'Cebola', 'Noz-moscada', 'Feijão', 'Ovos', 'Iogurte'],
           ['Leite', 'Maçã', 'Feijão', 'Ovos'],
           ['Leite', 'Suco de laranja', 'Milho', 'Feijão', 'Iogurte'],
           ['Milho', 'Cebola', 'Cebola', 'Feijão', 'Sorvete', 'Ovos']]

In [None]:
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder

te = TransactionEncoder()
te_ary = te.fit(dataset).transform(dataset)
df = pd.DataFrame(te_ary, columns=te.columns_)
df

Unnamed: 0,Cebola,Feijão,Iogurte,Leite,Maçã,Milho,Noz-moscada,Ovos,Salsinha,Sorvete,Suco de laranja
0,True,True,True,True,False,False,True,True,False,False,False
1,True,True,True,False,False,False,True,True,True,False,False
2,False,True,False,True,True,False,False,True,False,False,False
3,False,True,True,True,False,True,False,False,False,False,True
4,True,True,False,False,False,True,False,True,False,True,False


## Componentes

### Support

Popularidade padrão de um item

Support(B) = Transações com B / Total de transações

Exemplo: Suporte do item cebola

### Confidence

Probabilidade que um item B seja comprado se um item A seja comprado.

Confidence(A, B) = Transações com A e B / Transações contendo A

Exemplo: Comprar salsinha e cebola.

### Lift

Refere-se ao aumento da razão da venda de B quando A é vendido.

Lift(A, B) = Confidence(A, B) / Support(B)

Resumidamente diz que: a probabilidade de comprar A com B juntos é maior x vezes que a probabilidade de comprar somente B.

\> 1: A e B são prováveis de comprar juntos.

< 1: improváveis

Exemplo: Lift de comprar cebola e salsinha

## Algoritmo apriori

1. Defininir um valor mínimo (threshold) para o support e confidence.
2. Extrair todos os subconjuntos tendo valores mais altos de suporte que o threshold.
3. Selecionar todas as regras dos subsets com confidence com valor maior que o threshold.
4. Ordenar os valores por ordem descendente de Lift.

## Voltando ao dataset

Explicação acima foi olhando de 2 em dois.

O algoritmo olha para as combinações de 1 até N.

Isso pode ser muito grande, então são definidos valores mínimos para melhorar a busca.

In [None]:
from mlxtend.frequent_patterns import apriori
frequentes = apriori(df, min_support=0.6, use_colnames=True)
frequentes

Unnamed: 0,support,itemsets
0,0.6,(Cebola)
1,1.0,(Feijão)
2,0.6,(Iogurte)
3,0.6,(Leite)
4,0.8,(Ovos)
5,0.6,"(Cebola, Feijão)"
6,0.6,"(Cebola, Ovos)"
7,0.6,"(Iogurte, Feijão)"
8,0.6,"(Leite, Feijão)"
9,0.8,"(Feijão, Ovos)"
