<a href="https://colab.research.google.com/github/wallisonferreira/data-science-tce/blob/main/6_Apriori_notes%20-%20partial.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Atividade: https://www.kaggle.com/datasets/marlesson/meli-data-challenge-2020

# Utilizando APriori em exemplos

Agenda
 - Usando a biblioteca mlxtend (https://rasbt.github.io/mlxtend/)
 - Como usar a biblioteca para gerar Frequent Itemsets
 - Filtrando regras

Etapas
 - Lendo o dataset
 - Convertendo para onehot (matriz esparsa)
 - Calculando e visualizando resultados

In [2]:
!pip install mlxtend

  and should_run_async(code)




##Problema 1: Exemplo de transações em supermercado (sintético)

In [1]:
#imports
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder #sugestão da biblioteca para codificar o pandas
from mlxtend.frequent_patterns import apriori #algoritmo apriori
from mlxtend.frequent_patterns import association_rules #para gerar as regras

In [3]:
#sintético
dataset = [['Leite', 'Cebola', 'Noz-moscada', 'Feijão', 'Ovos', 'Iogurte'],
           ['Chocolate', 'Cebola', 'Noz-moscada', 'Feijão', 'Ovos', 'Iogurte'],
           ['Leite', 'Maçã', 'Feijão', 'Ovos'],
           ['Leite', 'Chocolate', 'Milho', 'Feijão', 'Iogurte'],
           ['Milho', 'Cebola', 'Cebola', 'Feijão', 'Sorvete', 'Ovos']]

  and should_run_async(code)


In [4]:
te = TransactionEncoder() #instancia o transformador
te_ary = te.fit(dataset).transform(dataset) #transforma
df = pd.DataFrame(te_ary, columns=te.columns_) #gera um pandas com o resultado
df

  and should_run_async(code)


Unnamed: 0,Cebola,Chocolate,Feijão,Iogurte,Leite,Maçã,Milho,Noz-moscada,Ovos,Sorvete
0,True,False,True,True,True,False,False,True,True,False
1,True,True,True,True,False,False,False,True,True,False
2,False,False,True,False,True,True,False,False,True,False
3,False,True,True,True,True,False,True,False,False,False
4,True,False,True,False,False,False,True,False,True,True


In [5]:
#somente as frequencias, apresentando em índices
#apriori(df, min_support=0.6)

#frequencias, apresentando em texto
itemsets = apriori(df, min_support=0.6, use_colnames=True)
itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets
0,0.6,(Cebola)
1,1.0,(Feijão)
2,0.6,(Iogurte)
3,0.6,(Leite)
4,0.8,(Ovos)
5,0.6,"(Feijão, Cebola)"
6,0.6,"(Ovos, Cebola)"
7,0.6,"(Feijão, Iogurte)"
8,0.6,"(Feijão, Leite)"
9,0.8,"(Feijão, Ovos)"


In [6]:
#Filtrando

#adicionar coluna com o tamanho do itemset:
itemsets['tamanho'] = itemsets['itemsets'].apply(lambda x: len(x))
itemsets

  and should_run_async(code)


Unnamed: 0,support,itemsets,tamanho
0,0.6,(Cebola),1
1,1.0,(Feijão),1
2,0.6,(Iogurte),1
3,0.6,(Leite),1
4,0.8,(Ovos),1
5,0.6,"(Feijão, Cebola)",2
6,0.6,"(Ovos, Cebola)",2
7,0.6,"(Feijão, Iogurte)",2
8,0.6,"(Feijão, Leite)",2
9,0.8,"(Feijão, Ovos)",2


In [7]:
#filtre como o pandas:

itemsets[ itemsets['tamanho'] == 2] #pelo tamanho
itemsets[ itemsets['support'] >= 0.7] #pelo suporte
itemsets[ (itemsets['support'] >= 0.7) & (itemsets['tamanho']==2)] #conjugado
itemsets[ itemsets['itemsets'] == {'Cebola'}] #por um item
itemsets[ itemsets['itemsets'] == {'Ovos', 'Feijão'}] #por dois ou mais itens


  and should_run_async(code)


Unnamed: 0,support,itemsets,tamanho
9,0.8,"(Feijão, Ovos)",2


In [12]:
#gerando as regras
rules = association_rules(itemsets,
                          metric="lift", #ainda é possível usar support, confidence, lift
                          min_threshold=1.1)
rules.head()

  and should_run_async(code)


Unnamed: 0,antecedents,consequents,antecedent support,consequent support,support,confidence,lift,leverage,conviction,zhangs_metric
0,(Ovos),(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6,1.0
1,(Cebola),(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf,0.5
2,"(Feijão, Ovos)",(Cebola),0.8,0.6,0.6,0.75,1.25,0.12,1.6,1.0
3,"(Feijão, Cebola)",(Ovos),0.6,0.8,0.6,1.0,1.25,0.12,inf,0.5
4,(Ovos),"(Feijão, Cebola)",0.8,0.6,0.6,0.75,1.25,0.12,1.6,1.0


##Problema 2: Transações de lojas varejistas
- versão 1: http://archive.ics.uci.edu/dataset/352/online+retail
- versão 2: http://archive.ics.uci.edu/dataset/502/online+retail+ii

Se baixar direto da base e carregar aqui, talvez você precise descompactar:
```
#dataset inicial em http://archive.ics.uci.edu/dataset/352/online+retail
!unzip -q online+retail.zip
```

In [None]:
#imports
import pandas as pd

In [None]:
#versão 1, 500mil linhas
data = pd.read_excel('online_retail.xlsx')
data.head()

###Pre processamento dos dados

In [None]:
data = data[ data['Country'] == "United Kingdom"] #deixa só um pais (reduzindo os dados)
data["Description"] = data["Description"].astype(str) #garantir que são strings
data["InvoiceNo"] = data["InvoiceNo"].astype(str) #garantir que são strings
data = data.dropna() #remover valores não definidos

#agrupar pela nota fiscal (invoice) e descrição (produto), somando a quantidade
data = data.groupby(["InvoiceNo","Description"])["Quantity"].sum()
data.head()

In [None]:
#codificar em binário (1 / 0, True / False)
def binarizar(valor) :
    if valor >= 1 :
        return 1
    if valor <= 0 :
        return 0


#transpor o dataframe para representá-lo de maneira esparsa
data = data.unstack()
data = data.fillna(0) #nulos devem virar zero
data = data.applymap(binarizar)
data.head()

### Análise

In [None]:
#itens frequentes
frequent_items = apriori(data,
                         min_support=0.02, #suporte mínimo
                         use_colnames=True)

frequent_items

In [None]:
rules = association_rules(frequent_items,
                          metric="support", #ainda é possível usar support, confidence, lift
                          min_threshold=0.02)
rules.head()

In [None]:
frequent_items['tamanho'] = frequent_items['itemsets'].apply(lambda x: len(x))
items_filtrados = frequent_items[ frequent_items['tamanho'] == 2]
items_filtrados

In [None]:
rules = association_rules(items_filtrados,
                          metric="support", #ainda é possível usar support, confidence, lift
                          min_threshold=0.02,
                          support_only=True) #só computa a métrica de suporte)
rules.head()