# Apriori (Regras de Associação)

Vamos ver o algoritmo Apriori em ação.
Usaremos o algoritmo Apriori para encontrar regras que descrevem associações entre diferentes produtos comprados.

Este processo analisa os hábitos de compra de clientes por meio da descoberta de associações entre diferentes itens que aparecem no carrinho de compras. A descoberta destas associações ajuda os varejistas no desenvolvimento de estratégias de marketing, uma vez revelam quais itens são frequentemente comprados juntos pelos clientes.

In [6]:
import pandas as pd
from apyori import apriori

## Conjunto de dados

Utilizando um cojunto de dados com 7500 registros de compras que ocorreram em um supermercado francês no período de uma semana.

Dataset disponível em: https://drive.google.com/file/d/1y5DYn0dGoSbC22xowBq2d4po6h1JxcTQ/view?usp=sharing        

In [24]:
cesto = pd.read_csv('cesto.csv', header=None)
cesto.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,


In [30]:
cesto.count(axis='columns')

0       20
1        3
2        1
3        2
4        5
        ..
7496     3
7497     6
7498     1
7499     2
7500     4
Length: 7501, dtype: int64

## Pré-processamento dos registros

A biblioteca Apriori utiliza conjunto de dados como lista de listas.

Portanto, iremos formatar os registros em uma grande lista onde cada transação no conjunto de dados terá uma lista interna da grande lista externa.

In [8]:
registros = []
for i in range(0, 7501):
    registros.append([str(cesto.values[i,j]) for j in range(0, 20)])

In [9]:
regras = list(apriori(registros, min_support=0.0045, min_confidence=0.2, min_lift=3, min_length=2))

In [10]:
print(len(regras))
print(regras[0])

48
RelationRecord(items=frozenset({'chicken', 'light cream'}), support=0.004532728969470737, ordered_statistics=[OrderedStatistic(items_base=frozenset({'light cream'}), items_add=frozenset({'chicken'}), confidence=0.29059829059829057, lift=4.84395061728395)])


## Apriori utiliza 3 variáveis

Suporte (support) e confiança (confidence) são duas medidas de “interessabilidade” (interestingness), que refletem respectivamente a utilidade e confiabilidade da regra descoberta.

Um suporte de 2% para uma regra de associação significa que 4% de todas as transações sob análise mostram que frango e creme de leite são comprados juntos. O suporte do item I é definido como a razão entre o número de transações que contêm o item I pelo número total de transações.

A confiança de 29% significa que 29% das compras onde os clientes compraram frango também apresentam o item creme de leite como item vendido. Isso é medido pela proporção de transações com o item I1, nas quais o item I2 também aparece. A confiança entre dois itens I1 e I2, em uma transação, é definida como o número total de transações contendo os itens I1 e I2 dividido pelo número total de transações contendo I1.

Lift: Aumento é a razão entre a confiança e o suporte.

Tipicamente, regras de associação são consideradas de interesse se elas satisfazem tanto um suporte mínimo quanto uma confiança mínima.

In [18]:
mostrar = 0
for item in regras:
    items = [x for x in item[0]]
    print("Relação   - " + items[0] + " -> " + items[1])
    print("Suporte   - " + str(item[1]))
    print("Confiança - " + str(item[2][0][2]))
    print("Lift      - " + str(item[2][0][3]))
    print("#################################")
    mostrar += 1
    if (mostrar == 5):
        break

Relação   - chicken -> light cream
Suporte   - 0.004532728969470737
Confiança - 0.29059829059829057
Lift      - 4.84395061728395
#################################
Relação   - escalope -> mushroom cream sauce
Suporte   - 0.005732568990801226
Confiança - 0.3006993006993007
Lift      - 3.790832696715049
#################################
Relação   - escalope -> pasta
Suporte   - 0.005865884548726837
Confiança - 0.3728813559322034
Lift      - 4.700811850163794
#################################
Relação   - ground beef -> herb & pepper
Suporte   - 0.015997866951073192
Confiança - 0.3234501347708895
Lift      - 3.2919938411349285
#################################
Relação   - tomato sauce -> ground beef
Suporte   - 0.005332622317024397
Confiança - 0.3773584905660377
Lift      - 3.840659481324083
#################################
