# Imports

In [1]:
import pandas as pd
from apyori import apriori

# Montagem da base de dados

## Leitura da tabela

In [None]:
dados_base = pd.read_csv('Data/MercadoSim.csv', sep=';',encoding='cp1252', header=None)
# Mudança das colunas para refletir o nome do produto
produtos = ['Leite', 'Cafe', 'Cerveja', 'Pao', 'Manteiga', 'Arroz', 'Feijao']
dados_base.columns = produtos
#
dados_base

Unnamed: 0,Leite,Cafe,Cerveja,Pao,Manteiga,Arroz,Feijao
0,,Cafe,,Pao,Manteiga,,
1,Leite,,Cerveja,Pao,Manteiga,,
2,,Cafe,,Pao,Manteiga,,
3,Leite,Cafe,,Pao,Manteiga,,
4,,,Cerveja,,,,
5,,,,,Manteiga,,
6,,,,Pao,,,
7,,,,,,,Feijao
8,,,,,,Arroz,Feijao
9,,,,,,Arroz,


In [3]:
# Dimensões da tabela de dados
dados_base.shape

(10, 7)

In [4]:
print(dados_base['Leite'][0])
print(type(dados_base['Leite'][0]))
print(dados_base['Leite'][1])
print(type(dados_base['Leite'][1]))

nan
<class 'float'>
Leite
<class 'str'>


## Criação das colunas de falta de presença

In [5]:
# Para cada coluna da tabela, criar uma nova que é o oposto,
#  isso é, tem valor sempre que o cliente não levou o produto

# Criação de uma cópia dos dados
dados_opostos = dados_base.copy()
# Mudar nome das colunas
list_new_columns = []
for coluna in dados_opostos.columns:
    novo_nome = "n" + coluna
    list_new_columns.append(novo_nome)
dados_opostos.columns = list_new_columns
#print(dados_opostos)

# Inverter dados
for coluna in dados_opostos.columns:
    for instancia in dados_opostos.index:
        if str(dados_opostos[coluna][instancia]) != 'nan':
            dados_opostos.loc[instancia, coluna] = 'nan'
        else:
            dados_opostos.loc[instancia, coluna] = coluna
#print(dados_opostos)

# Juntar tabelas
dados_base = pd.concat([dados_base, dados_opostos], axis=1)
#print(dados_base)

## Transformação em conjunto de listas

In [6]:
# O método do algoritmo apriori necessita de listas como input
transacoes = []
for i in range(len(dados_base)):
  transacoes.append([str(dados_base.values[i, j]) for j in range(dados_base.shape[1])])
#
transacoes

[['nan',
  'Cafe',
  'nan',
  'Pao',
  'Manteiga',
  'nan',
  'nan',
  'nLeite',
  'nan',
  'nCerveja',
  'nan',
  'nan',
  'nArroz',
  'nFeijao'],
 ['Leite',
  'nan',
  'Cerveja',
  'Pao',
  'Manteiga',
  'nan',
  'nan',
  'nan',
  'nCafe',
  'nan',
  'nan',
  'nan',
  'nArroz',
  'nFeijao'],
 ['nan',
  'Cafe',
  'nan',
  'Pao',
  'Manteiga',
  'nan',
  'nan',
  'nLeite',
  'nan',
  'nCerveja',
  'nan',
  'nan',
  'nArroz',
  'nFeijao'],
 ['Leite',
  'Cafe',
  'nan',
  'Pao',
  'Manteiga',
  'nan',
  'nan',
  'nan',
  'nan',
  'nCerveja',
  'nan',
  'nan',
  'nArroz',
  'nFeijao'],
 ['nan',
  'nan',
  'Cerveja',
  'nan',
  'nan',
  'nan',
  'nan',
  'nLeite',
  'nCafe',
  'nan',
  'nPao',
  'nManteiga',
  'nArroz',
  'nFeijao'],
 ['nan',
  'nan',
  'nan',
  'nan',
  'Manteiga',
  'nan',
  'nan',
  'nLeite',
  'nCafe',
  'nCerveja',
  'nPao',
  'nan',
  'nArroz',
  'nFeijao'],
 ['nan',
  'nan',
  'nan',
  'Pao',
  'nan',
  'nan',
  'nan',
  'nLeite',
  'nCafe',
  'nCerveja',
  'nan',
 

In [7]:
type(transacoes)

list

# Chamada do algoritmo

## Parâmetros

In [8]:
suporte_min = 0.3   # Suporte mínimo dos datasets
confianca_min = 0.8 # Confiança mínima das regras

## Algoritmo

In [9]:
regras = apriori(transactions= transacoes, min_support= suporte_min, min_confidence= confianca_min)
saida = list(regras)
print(len(saida))
print(saida)

# Formato base de cada item em 'saida'
# item[0] = itemset
# item[1] = suporte
# item[2] = regras possíveis
#   regra[0] = antecedente
#   regra[1] = consequente
#   regra[2] = confiança
#   regra[3] = lift

259
[RelationRecord(items=frozenset({'nArroz'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nArroz'}), confidence=0.8, lift=1.0)]), RelationRecord(items=frozenset({'nCerveja'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nCerveja'}), confidence=0.8, lift=1.0)]), RelationRecord(items=frozenset({'nFeijao'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nFeijao'}), confidence=0.8, lift=1.0)]), RelationRecord(items=frozenset({'nLeite'}), support=0.8, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nLeite'}), confidence=0.8, lift=1.0)]), RelationRecord(items=frozenset({'nan'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=1.0, lift=1.0)]), RelationRecord(items=frozenset({'Manteiga', 'Cafe'}), support=0.3, ordered_statistics=[OrderedS

### Item Sets

In [10]:
# Para cada item set
for resultado in saida:
    no_null = True
    # Conferir se são todos elementos não nulos
    for elemento in resultado[0]:
        if elemento == 'nan':
            no_null = False
    if no_null:
        itemset_str = "{"
        n_elementos = 0
        # Para cada elemento no item set
        for elemento in resultado[0]:
            # Adicionar elemento ao print
            if n_elementos == 0:
                itemset_str = itemset_str + str(elemento)
            else:
                itemset_str = itemset_str + ", " + str(elemento)
            # Atualizar número de elementos
            n_elementos += 1
        itemset_str = itemset_str + "} "
        # Adicionar número de elementos do item set ao print
        itemset_str = "(" + str(n_elementos) + ") " + itemset_str
        # Adicionar confiança do item set ao print
        itemset_str = itemset_str + " _ " + str(resultado[1])
        print(itemset_str)

(1) {nArroz}  _ 0.8
(1) {nCerveja}  _ 0.8
(1) {nFeijao}  _ 0.8
(1) {nLeite}  _ 0.8
(2) {Manteiga, Cafe}  _ 0.3
(2) {Pao, Cafe}  _ 0.3
(2) {nArroz, Cafe}  _ 0.3
(2) {nCerveja, Cafe}  _ 0.3
(2) {nFeijao, Cafe}  _ 0.3
(2) {Pao, Manteiga}  _ 0.4
(2) {nArroz, Manteiga}  _ 0.5
(2) {nCerveja, Manteiga}  _ 0.4
(2) {nFeijao, Manteiga}  _ 0.5
(2) {nArroz, Pao}  _ 0.5
(2) {nCerveja, Pao}  _ 0.4
(2) {Pao, nFeijao}  _ 0.5
(2) {nArroz, nFeijao}  _ 0.7
(2) {nCafe, nLeite}  _ 0.6
(2) {nCafe, nManteiga}  _ 0.5
(2) {nPao, nCafe}  _ 0.5
(2) {nCerveja, nLeite}  _ 0.7
(2) {nManteiga, nCerveja}  _ 0.4
(2) {nPao, nCerveja}  _ 0.4
(2) {nManteiga, nLeite}  _ 0.5
(2) {nPao, nLeite}  _ 0.5
(2) {nPao, nManteiga}  _ 0.4
(3) {Pao, Manteiga, Cafe}  _ 0.3
(3) {nArroz, Manteiga, Cafe}  _ 0.3
(3) {nCerveja, Manteiga, Cafe}  _ 0.3
(3) {nFeijao, Manteiga, Cafe}  _ 0.3
(3) {nArroz, Pao, Cafe}  _ 0.3
(3) {nCerveja, Pao, Cafe}  _ 0.3
(3) {Pao, nFeijao, Cafe}  _ 0.3
(3) {nArroz, nCerveja, Cafe}  _ 0.3
(3) {nArroz, nFeijao, C

# Transformação em tabela/matriz/dataframe

In [11]:
# Variáveis de lista de suporte
Antecedente = []; Consequente = []
suporte = []; confianca = []; lift = []
RegrasFinais = []

# Para cada instância em saida
for resultado in saida:
  result_suporte = resultado[1] # Suporte
  result_rules = resultado[2] # Regras possíveis de cada combinação
  # Para cada regra possível
  for result_rule in result_rules:
    result_antecedente = list(result_rule[0]) # Antecedente da regra
    result_consequente = list(result_rule[1]) # Consequente da regra
    result_confianca = result_rule[2] # Confiança da regra
    result_lift = result_rule[3] # Lift da regra

    # Filtrar se algum dos elementos for nulo ou se não houver elementos
    if 'nan' in result_antecedente or 'nan' in result_consequente: continue
    if len(result_antecedente) == 0 or len(result_consequente) == 0: continue

    Antecedente.append(result_antecedente)
    Consequente.append(result_consequente)
    suporte.append(result_suporte)
    confianca.append(result_confianca)
    lift.append(result_lift)

# Montar tabela com os arrays montados
RegrasFinais = pd.DataFrame({'Antecedente': Antecedente, 'Consequente': Consequente, 'suporte': suporte, 'confianca': confianca, 'lift': lift})

In [12]:
RegrasFinais

Unnamed: 0,Antecedente,Consequente,suporte,confianca,lift
0,[Cafe],[Manteiga],0.3,1.0,2.000000
1,[Cafe],[Pao],0.3,1.0,2.000000
2,[Cafe],[nArroz],0.3,1.0,1.250000
3,[Cafe],[nCerveja],0.3,1.0,1.250000
4,[Cafe],[nFeijao],0.3,1.0,1.250000
...,...,...,...,...,...
440,"[Pao, Manteiga, nArroz, nFeijao, Cafe]",[nCerveja],0.3,1.0,1.250000
441,"[Pao, nCerveja, Manteiga, nFeijao, Cafe]",[nArroz],0.3,1.0,1.250000
442,"[nCerveja, Manteiga, nArroz, nFeijao, Cafe]",[Pao],0.3,1.0,2.000000
443,"[Pao, nCerveja, nArroz, nFeijao, Cafe]",[Manteiga],0.3,1.0,2.000000


## Ordenação das regras

In [13]:
# Ordenação por lft
RegrasFinais.sort_values(by='lift', ascending =False)

Unnamed: 0,Antecedente,Consequente,suporte,confianca,lift
444,"[Pao, nCerveja, Manteiga, nArroz, nFeijao]",[Cafe],0.3,1.0,3.333333
438,"[nFeijao, nCerveja, Pao, Manteiga]","[nArroz, Cafe]",0.3,1.0,3.333333
437,"[nArroz, nCerveja, Pao, Manteiga]","[nFeijao, Cafe]",0.3,1.0,3.333333
359,"[nFeijao, nCerveja, Pao, Manteiga]",[Cafe],0.3,1.0,3.333333
347,"[nFeijao, Cafe]","[nCerveja, Pao, Manteiga]",0.3,1.0,3.333333
...,...,...,...,...,...
107,"[nCafe, nManteiga]",[nCerveja],0.4,0.8,1.000000
67,"[nArroz, Manteiga]",[nCerveja],0.4,0.8,1.000000
75,"[nFeijao, Manteiga]",[nCerveja],0.4,0.8,1.000000
11,[Pao],[nCerveja],0.4,0.8,1.000000
