# Regras de associação

# Algoritmo Apriori

## Base de dados mercado 1

In [None]:
# Fazendo o dowload do algoritmo apyori

!pip install apyori



In [None]:
# Importações

import pandas as pd

from apyori import apriori

In [None]:
# Carregando a base de dados

base_mercado1 = pd.read_csv('/content/drive/MyDrive/datasets/mercado.csv', header = None)
base_mercado1

# header = None, ele não considera os nomes das colunas

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


In [None]:
# Colocando os dados em formato de lista

transacoes = []
for i in range(len(base_mercado1)):
    # print(i)
    # print(base_mercado1.values[i, 0])
    transacoes.append([str(base_mercado1.values[i, j]) for j in range(base_mercado1.shape[1])]) # transformando em lista usando "[]" e string usando "str"

In [None]:
transacoes

[['leite', 'cerveja', 'pao', 'manteiga'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['leite', 'cafe', 'pao', 'manteiga'],
 ['cerveja', 'nan', 'nan', 'nan'],
 ['manteiga', 'nan', 'nan', 'nan'],
 ['pao', 'nan', 'nan', 'nan'],
 ['feijao', 'nan', 'nan', 'nan'],
 ['arroz', 'feijao', 'nan', 'nan'],
 ['arroz', 'nan', 'nan', 'nan']]

In [None]:
# Verificando o tipo da variável transacoes

type(transacoes)

list

In [None]:
# Fazendo as regras de associação

regras = apriori(transacoes, min_support = 0.3, min_confidence = 0.8, min_lift = 2)
resultados = list(regras)
resultados

# min_support: Float entre 0 e 1, que representa a porcentagem mínima de transações que devem conter um itemset para que ele seja considerado frequente.
# min_confidence: Float entre 0 e 1, que representa a porcentagem mínima de transações que contêm o antecedente de uma regra que também devem conter o consequente.
# min_lift: Valor mínimo de elevação para as regras.

[RelationRecord(items=frozenset({'manteiga', 'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'manteiga', 'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga', 'pao'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'manteiga', 'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])]

In [None]:
# Verificando o tamanho dos resultados

len(resultados)

3

In [None]:
# Pegando somente as regras

r = resultados[2][2]
r

[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga', 'pao'}), confidence=1.0, lift=2.5),
 OrderedStatistic(items_base=frozenset({'manteiga', 'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0),
 OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]

In [None]:
# SE COMPRA

r[2][0]

frozenset({'cafe', 'pao'})

In [None]:
# ENTAO COMPRA

r[2][1]

frozenset({'manteiga'})

In [None]:
# CONFIANÇA

r[2][2]

1.0

In [None]:
# VALOR DO LIFT

r[2][3]

2.0

In [None]:
# Salvando os resultados no formato de database

A = []
B = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1] # suporte
    result_rules = resultado[2] # regras
    for result_rule in result_rules: # pegando regra por regra
        a = list(result_rule[0])
        b = list(result_rule[1])
        c = result_rule[2] # confiança
        l = result_rule[3] # lift
        # print(a, '-', b, '-', c, '-', l)
        A.append(a)
        B.append(b)
        suporte.append(s)
        confianca.append(c)
        lift.append(l)

In [None]:
A, B, suporte, confianca, lift

([['cafe'], ['cafe'], ['cafe'], ['manteiga', 'cafe'], ['cafe', 'pao']],
 [['manteiga'], ['pao'], ['manteiga', 'pao'], ['pao'], ['manteiga']],
 [0.3, 0.3, 0.3, 0.3, 0.3],
 [1.0, 1.0, 1.0, 1.0, 1.0],
 [2.0, 2.0, 2.5, 2.0, 2.0])

In [None]:
# Criando o dataframe e printando

rules_df = pd.DataFrame({'A': A, 'B': B, 'suporte': suporte, 'confianca': confianca, 'lift': lift})
rules_df

Unnamed: 0,A,B,suporte,confianca,lift
0,[cafe],[manteiga],0.3,1.0,2.0
1,[cafe],[pao],0.3,1.0,2.0
2,[cafe],"[manteiga, pao]",0.3,1.0,2.5
3,"[manteiga, cafe]",[pao],0.3,1.0,2.0
4,"[cafe, pao]",[manteiga],0.3,1.0,2.0


In [None]:
# Printando o dataframe ordenado pelo 'lift'

rules_df.sort_values(by = 'lift', ascending = False)

# O valor padrão é True, o que significa ordenar em ordem crescente (do menor para o maior).
# No entanto, neste caso, ascending é definido como False, então a ordenação será feita em ordem decrescente (do maior para o menor).

Unnamed: 0,A,B,suporte,confianca,lift
2,[cafe],"[manteiga, pao]",0.3,1.0,2.5
0,[cafe],[manteiga],0.3,1.0,2.0
1,[cafe],[pao],0.3,1.0,2.0
3,"[manteiga, cafe]",[pao],0.3,1.0,2.0
4,"[cafe, pao]",[manteiga],0.3,1.0,2.0


## Base de dados mercado 2

In [None]:
base_mercado2 = pd.read_csv('/content/drive/MyDrive/datasets/mercado2.csv', header = None)
base_mercado2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7498,chicken,,,,,,,,,,,,,,,,,,,
7499,escalope,green tea,,,,,,,,,,,,,,,,,,


In [None]:
# Transformando os dados em formato de lista

transacoes = []
for i in range(base_mercado2.shape[0]):
    transacoes.append([str(base_mercado2.values[i, j]) for j in range(base_mercado2.shape[1])]) # transformando em lista usando "[]" e string usando "str"

In [35]:
# Produtos que são vendidos 4 vezes por dia
4 * 7
28 / 7501 # qtde total de produtos da base de dados

0.0037328356219170776

In [38]:
# Criando as regras

regras = apriori(transacoes, min_support = 0.003, min_confidence = 0.2, min_lift = 3) # colocando o 0.003 na como suporte mínimo, como a base de dados é maior diminuir a confiança
resultados = list(regras)
len(resultados)

160

In [39]:
# Salvando os resultados no formato de database

A = []
B = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1] # suporte
    result_rules = resultado[2] # regras
    for result_rule in result_rules: # pegando regra por regra
        a = list(result_rule[0])
        b = list(result_rule[1])
        c = result_rule[2] # confiança
        l = result_rule[3] # lift
        # print(a, '-', b, '-', c, '-', l)
        A.append(a)
        B.append(b)
        suporte.append(s)
        confianca.append(c)
        lift.append(l)

In [44]:
# Criando o dataframe e printando

rules_df_mercado2 = pd.DataFrame({'A': A, 'B': B, 'suporte': suporte, 'confianca': confianca, 'lift': lift})
rules_df_mercado2.sort_values(by = 'confianca', ascending = False) # ordenando pela confianca
# lift = grau de confiança da regra

Unnamed: 0,A,B,suporte,confianca,lift
347,"[soup, frozen vegetables, milk]","[mineral water, nan]",0.003066,0.766667,3.218112
353,"[soup, frozen vegetables, milk, nan]",[mineral water],0.003066,0.766667,3.216312
180,"[soup, frozen vegetables, milk]",[mineral water],0.003066,0.766667,3.216312
106,"[nan, ground beef, cereals]",[spaghetti],0.003066,0.676471,3.885303
104,"[ground beef, cereals]","[spaghetti, nan]",0.003066,0.676471,3.885303
...,...,...,...,...,...
358,"[frozen vegetables, shrimp]","[spaghetti, mineral water, nan]",0.003333,0.200000,3.348661
371,"[nan, milk, ground beef]","[spaghetti, mineral water]",0.004399,0.200000,3.348661
370,"[milk, ground beef]","[spaghetti, mineral water, nan]",0.004399,0.200000,3.348661
224,"[milk, ground beef]","[mineral water, spaghetti]",0.004399,0.200000,3.348661


# ECLAT - Retornar itens frequentes

In [45]:
!pip install pyECLAT

Collecting pyECLAT
  Downloading pyECLAT-1.0.2-py3-none-any.whl (6.3 kB)
Installing collected packages: pyECLAT
Successfully installed pyECLAT-1.0.2


In [47]:
base_mercado = pd.read_csv('/content/drive/MyDrive/datasets/mercado.csv', header = None)
base_mercado

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


In [49]:
# Importando o ECLAT

from pyECLAT import ECLAT
eclat = ECLAT(data = base_mercado)

In [50]:
# Data frame com valores binários

eclat.df_bin

Unnamed: 0,cafe,manteiga,pao,cerveja,arroz,leite,feijao
0,0,1,1,1,0,1,0
1,1,1,1,0,0,0,0
2,1,1,1,0,0,0,0
3,1,1,1,0,0,1,0
4,0,0,0,1,0,0,0
5,0,1,0,0,0,0,0
6,0,0,1,0,0,0,0
7,0,0,0,0,0,0,1
8,0,0,0,0,1,0,1
9,0,0,0,0,1,0,0


In [52]:
# Retornando nome das colunas

eclat.uniq_

['cafe', 'manteiga', 'pao', 'cerveja', 'arroz', nan, 'leite', 'feijao']

In [53]:
indices, suporte = eclat.fit(min_support = 0.3, min_combination = 1, max_combination = 3)

Combination 1 by 1


3it [00:00, 106.45it/s]


Combination 2 by 2


3it [00:00, 117.81it/s]


Combination 3 by 3


1it [00:00, 66.25it/s]


In [54]:
indices

{'cafe': [1, 2, 3],
 'manteiga': [0, 1, 2, 3, 5],
 'pao': [0, 1, 2, 3, 6],
 'cafe & manteiga': [1, 2, 3],
 'cafe & pao': [1, 2, 3],
 'manteiga & pao': [0, 1, 2, 3],
 'cafe & manteiga & pao': [1, 2, 3]}

In [55]:
suporte

{'cafe': 0.3,
 'manteiga': 0.5,
 'pao': 0.5,
 'cafe & manteiga': 0.3,
 'cafe & pao': 0.3,
 'manteiga & pao': 0.4,
 'cafe & manteiga & pao': 0.3}