# Algoritmo `apriori`

<img src='../../imgs/regras_associacoes/apriori01.png' width=700px>

## Base Simples dos exemplos `mercado.csv` 

In [1]:
import pandas as pd
file_path = "../../files/"

dados = pd.read_csv(file_path + 'mercado.csv', header = None)
dados.head()

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,


O `apyori` nâo recebe um `datagrama`, ele recebe uma lista, e por isso vamos converter para `list`

In [2]:
transacoes = []
for i in range(0, 10):
    transacoes.append([str(dados.values[i,j]) for j in range(0, 4)])
transacoes

[['leite', 'cerveja', 'pao', 'manteiga'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['leite', 'cafe', 'pao', 'manteiga'],
 ['cerveja', 'nan', 'nan', 'nan'],
 ['manteiga', 'nan', 'nan', 'nan'],
 ['pao', 'nan', 'nan', 'nan'],
 ['feijao', 'nan', 'nan', 'nan'],
 ['arroz', 'feijao', 'nan', 'nan'],
 ['arroz', 'nan', 'nan', 'nan']]

In [4]:
from apyori import apriori
# regras = apriori(transacoes, min_support = 0.3, min_confidence = 0.8, min_lift = 2, min_length = 2)

regras = apriori(transacoes)
resultados = list(regras)
resultados
# Cada RelationRecord é uma regra

[RelationRecord(items=frozenset({'arroz'}), support=0.2, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'arroz'}), confidence=0.2, lift=1.0)]),
 RelationRecord(items=frozenset({'cafe'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'cafe'}), confidence=0.3, lift=1.0)]),
 RelationRecord(items=frozenset({'cerveja'}), support=0.2, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'cerveja'}), confidence=0.2, lift=1.0)]),
 RelationRecord(items=frozenset({'feijao'}), support=0.2, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'feijao'}), confidence=0.2, lift=1.0)]),
 RelationRecord(items=frozenset({'leite'}), support=0.2, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'leite'}), confidence=0.2, lift=1.0)]),
 RelationRecord(items=frozenset({'manteiga'}), support=0.5, ordered_statistics=[OrderedStatistic(item

In [5]:
# Melhorando a apressentação dos dados
resultados2 = [list(x) for x in resultados]
resultados2

[[frozenset({'arroz'}),
  0.2,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'arroz'}), confidence=0.2, lift=1.0)]],
 [frozenset({'cafe'}),
  0.3,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'cafe'}), confidence=0.3, lift=1.0)]],
 [frozenset({'cerveja'}),
  0.2,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'cerveja'}), confidence=0.2, lift=1.0)]],
 [frozenset({'feijao'}),
  0.2,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'feijao'}), confidence=0.2, lift=1.0)]],
 [frozenset({'leite'}),
  0.2,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'leite'}), confidence=0.2, lift=1.0)]],
 [frozenset({'manteiga'}),
  0.5,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'manteiga'}), confidence=0.5, lift=1.0)]],
 [frozenset({'nan'}),
  0.8,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.8, lift=1.0)]],
 [frozenset({'pao'}),
  0.5,
  [OrderedSta

In [7]:
# Aprensentado um melhor resultado, mas ainda não está bom
resultadoFormatado = []
for j in range(0, 8):
    resultadoFormatado.append([list(x) for x in resultados2[j][2]])
resultadoFormatado

[[[frozenset(), frozenset({'arroz'}), 0.2, 1.0]],
 [[frozenset(), frozenset({'cafe'}), 0.3, 1.0]],
 [[frozenset(), frozenset({'cerveja'}), 0.2, 1.0]],
 [[frozenset(), frozenset({'feijao'}), 0.2, 1.0]],
 [[frozenset(), frozenset({'leite'}), 0.2, 1.0]],
 [[frozenset(), frozenset({'manteiga'}), 0.5, 1.0]],
 [[frozenset(), frozenset({'nan'}), 0.8, 1.0]],
 [[frozenset(), frozenset({'pao'}), 0.5, 1.0]]]

Da forma que está, o algorimo apriori está pegando até mesmo conjuntos de um item.

Ou seja está criando regras do tipo: IF 'arroz' THEN 'arroz'
    
Isso é óbvil e não é isso que queremos

Precisamos então configurar parâmetros no algoritmo

In [13]:
# Suporte de 30%; Confiança de 80%, Lift Mínimo de 2; Tamnaho dos conjuntos de 2
regras = apriori(transacoes, min_support = 0.3, min_confidence = 0.8, min_lift = 2, min_length = 2)

In [14]:
resultados = list(regras)
resultados

[RelationRecord(items=frozenset({'cafe', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'cafe', 'pao', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])]

In [15]:
resultados2 = [list(x) for x in resultados]
resultados2

[[frozenset({'cafe', 'manteiga'}),
  0.3,
  [OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]],
 [frozenset({'cafe', 'pao'}),
  0.3,
  [OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]],
 [frozenset({'cafe', 'manteiga', 'pao'}),
  0.3,
  [OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao', 'manteiga'}), confidence=1.0, lift=2.5),
   OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0),
   OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]]]

In [20]:
resultadoFormatado = []
for j in range(0, 3): # 4 Regras
    resultadoFormatado.append([list(x) for x in resultados2[j][2]])
resultadoFormatado

[[[frozenset({'cafe'}), frozenset({'manteiga'}), 1.0, 2.0]],
 [[frozenset({'cafe'}), frozenset({'pao'}), 1.0, 2.0]],
 [[frozenset({'cafe'}), frozenset({'manteiga', 'pao'}), 1.0, 2.5],
  [frozenset({'cafe', 'manteiga'}), frozenset({'pao'}), 1.0, 2.0],
  [frozenset({'cafe', 'pao'}), frozenset({'manteiga'}), 1.0, 2.0]]]

Recuperou as seguintes Regras

*SE café ENTÃO pão, manteiga – confiança = 3 / 3 = 1,0 – lift (1,0 / 0,4) = 2,5

*SE café ENTÃO pão – confiança = 3 / 3 = 1,0 – lift (1,0 / 0,5) = 2

*SE café ENTÃO manteiga – confiança = 3 / 3 = 1,0 – lift (1,0 / 0,5) = 2

*SE café, pão ENTÃO manteiga – confiança = 3 / 3 = 1,0 – lift (1,0 / 0,5) = 2

*SE café, manteiga ENTÃO pão – confiança = 3 / 3 = 1,0 – lift (1,0 / 0,5) = 2


## Base Real de um Mercado Frânces `mercado2.csv`

In [21]:
import pandas as pd

dados = pd.read_csv(file_path + 'mercado2.csv', header = None)
dados.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [25]:
len(dados) 
# Tem 7500 Registros

7501

In [26]:
# Tranformando as Rows em uma lista
# 7501 é a quantidade de linhas
# 20 é a quantidade de colunas
transacoes = []
for i in range(0, 7501):
    transacoes.append([str(dados.values[i,j]) for j in range(0, 20)])

In [27]:
from apyori import apriori
regras = apriori(transacoes, min_support = 0.003, min_confidence = 0.2, min_lift = 2.0, min_length = 2)

Como essa base é muito grande, se colocar 30% como no exemplo anterior, não vai vir nada, pois os pordutos sâo muito diversificados. Por isso deve-se configurar o valor de suporter numa quantidade relativa a frequência de dados.

Nossa base é relativa a uma venda de uma semana

Assim, se eu quiser os itens que são vendidos 4 vezes por dias podemos entâo estimar o valor de suporte:

4(vezes_por_dia) * 7(dias_da_semana) = 28

28/total = 28/7051 =~ 0.003

In [28]:
resultados = list(regras)
resultados

[RelationRecord(items=frozenset({'burgers', 'almonds'}), support=0.005199306759098787, ordered_statistics=[OrderedStatistic(items_base=frozenset({'almonds'}), items_add=frozenset({'burgers'}), confidence=0.25490196078431376, lift=2.923577382023146)]),
 RelationRecord(items=frozenset({'spaghetti', 'bacon'}), support=0.003199573390214638, ordered_statistics=[OrderedStatistic(items_base=frozenset({'bacon'}), items_add=frozenset({'spaghetti'}), confidence=0.36923076923076925, lift=2.1206738131699847)]),
 RelationRecord(items=frozenset({'black tea', 'milk'}), support=0.004266097853619517, ordered_statistics=[OrderedStatistic(items_base=frozenset({'black tea'}), items_add=frozenset({'milk'}), confidence=0.29906542056074764, lift=2.3079112341833006)]),
 RelationRecord(items=frozenset({'spaghetti', 'blueberries'}), support=0.0034662045060658577, ordered_statistics=[OrderedStatistic(items_base=frozenset({'blueberries'}), items_add=frozenset({'spaghetti'}), confidence=0.37681159420289856, lift=2

In [32]:
print("Quantidade de regras:", len(resultados))

Quantidade de regras: 689


In [30]:
# Infelisemente, nâo está ordenado em ordem de lift
resultados2 = [list(x) for x in resultados]
resultados2
resultadoFormatado = []
for j in range(0, 5):
    resultadoFormatado.append([list(x) for x in resultados2[j][2]])
resultadoFormatado


[[[frozenset({'almonds'}),
   frozenset({'burgers'}),
   0.25490196078431376,
   2.923577382023146]],
 [[frozenset({'bacon'}),
   frozenset({'spaghetti'}),
   0.36923076923076925,
   2.1206738131699847]],
 [[frozenset({'black tea'}),
   frozenset({'milk'}),
   0.29906542056074764,
   2.3079112341833006]],
 [[frozenset({'blueberries'}),
   frozenset({'spaghetti'}),
   0.37681159420289856,
   2.164214217546663]],
 [[frozenset({'body spray'}),
   frozenset({'french fries'}),
   0.37209302325581395,
   2.17712150346479]]]

## Observações

Se colocar o valor de confiança muito alto, pode ser qua vai gerar regras muito óbvias.

Como cientista de dados, cuidado para nâo mostrar como resultado de seu projeto regras muito óbivias

# Apriori do English ML-AZ

Feito sobre o mesmo conjunto de dados

In [33]:
# Importing the libraries
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

# Data Preprocessing
dataset = pd.read_csv(file_path + 'Market_Basket_Optimisation.csv', header = None)
transactions = []
for i in range(0, 7501):
    transactions.append([str(dataset.values[i,j]) for j in range(0, 20)])

# Training Apriori on the dataset
from apyori import apriori
rules = apriori(transactions, min_support = 0.003, min_confidence = 0.2, min_lift = 3, min_length = 2)

# Visualising the results
results = list(rules)

In [34]:
results

[RelationRecord(items=frozenset({'light cream', 'chicken'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)]),
 RelationRecord(items=frozenset({'escalope', 'mushroom cream sauce'}), support=0.005732568990801226, ordered_statistics=[OrderedStatistic(items_base=frozenset({'mushroom cream sauce'}), items_add=frozenset({'escalope'}), confidence=0.3006993006993007, lift=3.790832696715049)]),
 RelationRecord(items=frozenset({'escalope', 'pasta'}), support=0.005865884548726837, ordered_statistics=[OrderedStatistic(items_base=frozenset({'pasta'}), items_add=frozenset({'escalope'}), confidence=0.3728813559322034, lift=4.700811850163794)]),
 RelationRecord(items=frozenset({'honey', 'fromage blanc'}), support=0.003332888948140248, ordered_statistics=[OrderedStatistic(items_base=frozenset({'fromage blanc'}), items_add=frozenset({'honey'}), confidence=0