## **Regras de Associação**

* Método descritivo
* A ideia básica dos algoritmos de associação é analisar base de dados e `encontrar associação entre os dados`
* Identificar padrões que são comuns
* Exemplos:
    * `Prateleira de Mercado`: Produtos que são vendidos em conjunto. Promoção de itens que são vendidos em conjunto
    * `Controle de evasão em universidades`: alunos com renda X tem mais chances de desistir, ou alunos que tiram notas ruins em determinada matéria têm mais chances de desistir.
    * `Sistemas de recomendação`: filme na Netflix. Ex: se a pessoa assistiu um filme do Wolverine, podemos recomendar filmes do Homem Aranha
    * `Análise de cestas de compras`
        * Em qual prateleira o biscoito de chocolate deve ser colocado para maximizar suas vendas?
        * Suco de uva costuma ser comprado com refrigerante?
        * Qual produto pode ser colocado em promoção para uma venda casada com tomates?

* Geralmente são escritas no formato {A} → {B}, onde existe forte relação entre A e B
    * Exemplo: {Hobbit} → {Senhor do Anéis}
    * Se frequentemente uma pessoa que assiste um filme também assiste a um outro filme, então a plataforma poderia aumentar a visualização de alguns filmes através da recomendação. 

* Antecedente e Consequente
    * {Hobbit} → {Senhor dos Anéis}
    * {Thor: Ragnarok, Vingadores: Guerra Infinita} → {Vingadores: Ultimato}

<div>
    <img src='imagens/dataset.png'>
</div>

* Transações: ocorrência registrada de um conjunto de itens 
    * Exemplo: itens de um carrinho de compras, filmes que alguém já assitiu, livros que alguém leu em determinado ano
* Itemset: conjunto qualquer de itens
    * Exemplo: {Pão, Manteiga, Leite}
* Suporte: número de vezes que o itemset aparece em diferentes transações divido pelo número total de transações. 'Frequência'
    * Exemplo: {Pão, Manteiga} = 5 / 10 = 0,5
* Confiança: indica o quão frequente uma regra ocorre.
    * Exemplo: Se a confiança for de 85%, só levaremos em consideração regras que possuírem confiança superior a 85%

## **Algoritmo Apriori**

* `Composto por 2 fases`
    * Fase 1
        * Descobrir todos os conjuntos de itens com `suporte` maior ou igual ao mínimo específicado pelo usuário
        * O `suporte` é basicamente a `frequência` com que determinado item aparece na base de dados
            * Se o valor de suporte for alto, o algoritmo vai pegar os registros que mais aparecem na base de dados.
            * Exemplo: suporte >= 0.8 → o algoritmo irá buscar registros que aparecem em 80% ou mais na base de dados
    * Fase 2
        * A partir dos conjuntos de itens frequentes, descobrir regras de associação com fator de `confiança` maior ou igual ao específicado pelo usuário
        * São estruturadas regras do tipo "`se ... então ...`"
        * Ex: confiança >= 0.8 → só levarei em consideração regras que possuírem confiança superior a 80%
            * SE café ENTÃO pão → 3/3 = 1 (100% de confiança) → 100% das vezes que alguém compra café, ela também compra pão. 
            * SE pão ENTÃO café → 3/5 = 0.6 (60% de confiança) → 60% das vezes que alguém compra pão, ela também compra café. (caso confiança seja 80%, esta regra é descartada) 
            * Todas as pessoas que compraram café, compram pão. Porém nem todas as pessoas que compram pão, também compram café

* `LIFT`
    * Das regras selecionadas, verifica quais delas realmente são as melhores
    * É um parâmetro para medir o quão confiável é uma regra de associação
    * É feito um `ranqueamento entre as regras` para saber qual é a melhor, segunda melhor, terceira melhor e assim por diante
    * LIFT A → B (o quão mais frequente torna-se B quando ocorre A)
    * LIFT = `confiança` (A → B) / `suporte` (B)
    * SE café ENTÃO pão → confiança de 3/3 = 1 e suporte de pão = 0.5
        * LIFT = 1 / 0.5 → 2 (ou seja, clientes que compram café tem duas vezes mais chances de comprarem pão)
    * Quando `MAIOR` o valor de LIFT, `MELHOR` é a regra

## **Vantagens**

* Fácil de explicar para pessoas não técnicas
* Sem necessidade de grande preparação dos dados
* Bom início para explorar os dados

## **Implementação**

In [1]:
# pip install apyori

import pandas as pd
from apyori import apriori

In [4]:
base_mercado1 = pd.read_csv('base_dados/mercado.csv', header=None)
base_mercado1
# cada linha representa uma compra no mercado

Unnamed: 0,0,1,2,3
0,leite,cerveja,pao,manteiga
1,cafe,pao,manteiga,
2,cafe,pao,manteiga,
3,leite,cafe,pao,manteiga
4,cerveja,,,
5,manteiga,,,
6,pao,,,
7,feijao,,,
8,arroz,feijao,,
9,arroz,,,


In [8]:
transacoes = []

for i in range(len(base_mercado1)):
    transacoes.append([str(base_mercado1.values[i, j]) for j in range(base_mercado1.shape[1])])

transacoes

[['leite', 'cerveja', 'pao', 'manteiga'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['cafe', 'pao', 'manteiga', 'nan'],
 ['leite', 'cafe', 'pao', 'manteiga'],
 ['cerveja', 'nan', 'nan', 'nan'],
 ['manteiga', 'nan', 'nan', 'nan'],
 ['pao', 'nan', 'nan', 'nan'],
 ['feijao', 'nan', 'nan', 'nan'],
 ['arroz', 'feijao', 'nan', 'nan'],
 ['arroz', 'nan', 'nan', 'nan']]

In [9]:
type(transacoes)

list

In [13]:
# Dessa forma, passando somente transacoes já é o suficiente
# regras = apriori(transacoes)
regras = apriori(transacoes, min_support = 0.3, min_confidence = 0.8, min_lift = 2)

resultados = list(regras)

resultados

[RelationRecord(items=frozenset({'cafe', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'cafe', 'pao'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0)]),
 RelationRecord(items=frozenset({'cafe', 'pao', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga', 'pao'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])]

In [15]:
len(resultados)

3

* Analisando resultados[3]:
* RelationRecord(items=frozenset({'cafe', 'pao', 'manteiga'}), support=0.3, ordered_statistics=[OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga', 'pao'}), confidence=1.0, lift=2.5), OrderedStatistic(items_base=frozenset({'cafe', 'manteiga'}), items_add=frozenset({'pao'}), confidence=1.0, lift=2.0), OrderedStatistic(items_base=frozenset({'cafe', 'pao'}), items_add=frozenset({'manteiga'}), confidence=1.0, lift=2.0)])
    * itemset = {cafe, pao e manteiga}
    * suporte = 0.3 → significa que esses itens aparecem juntos em 30% das transações
    * ordered_statistics são as regras, nesse caso temos 3 regras:
        * OrderedStatistic(items_base=frozenset({'cafe'}), items_add=frozenset({'manteiga', 'pao'}), confidence=1.0, lift=2.5) `significa...`
        * SE café (itembase) ENTÃO manteiga e pão (items_add)
        * Confiança é de 100% e LIFT de 2.5 (alto)

In [19]:
se = []
entao = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1]
    result_rules = resultado [2]
    for result_rule in result_rules:
        see = list(result_rule[0])
        entaoo = list(result_rule[1])
        confiancaa = result_rule[2]
        liftt = result_rule[3]
        se.append(see)
        entao.append(entaoo)
        suporte.append(s)
        confianca.append(confiancaa)
        lift.append(liftt)

In [23]:
df_rules = pd.DataFrame({'SE' : se, 'ENTAO': entao, 'Suporte': suporte, 'Confiança': confianca, 'Lift': lift})
df_rules.sort_values(by='Lift', ascending=False)

Unnamed: 0,SE,ENTAO,Suporte,Confiança,Lift
2,[cafe],"[manteiga, pao]",0.3,1.0,2.5
0,[cafe],[manteiga],0.3,1.0,2.0
1,[cafe],[pao],0.3,1.0,2.0
3,"[cafe, manteiga]",[pao],0.3,1.0,2.0
4,"[cafe, pao]",[manteiga],0.3,1.0,2.0


## **Base Mercado 2**

In [25]:
base_mercado2 = pd.read_csv('base_dados/mercado2.csv', header=None)
base_mercado2

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19
0,shrimp,almonds,avocado,vegetables mix,green grapes,whole weat flour,yams,cottage cheese,energy drink,tomato juice,low fat yogurt,green tea,honey,salad,mineral water,salmon,antioxydant juice,frozen smoothie,spinach,olive oil
1,burgers,meatballs,eggs,,,,,,,,,,,,,,,,,
2,chutney,,,,,,,,,,,,,,,,,,,
3,turkey,avocado,,,,,,,,,,,,,,,,,,
4,mineral water,milk,energy bar,whole wheat rice,green tea,,,,,,,,,,,,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7496,butter,light mayo,fresh bread,,,,,,,,,,,,,,,,,
7497,burgers,frozen vegetables,eggs,french fries,magazines,green tea,,,,,,,,,,,,,,
7498,chicken,,,,,,,,,,,,,,,,,,,
7499,escalope,green tea,,,,,,,,,,,,,,,,,,


In [26]:
base_mercado2.shape

(7501, 20)

In [59]:
transacoes2 = []

for t in range(len(base_mercado2)):
    transacoes2.append([str(base_mercado2.values[t, j]) for j in range(base_mercado2.shape[1])])



In [None]:
transacoes2

In [None]:
# COMO A BASE DE DADOS É GRANDE, precisamos reduzir o suporte e a confiança

# Supondo que quero pegar produtos que são vendidos 4 vezes ao dia
# 4 * 7 (qtde de dias da base) = 28
# 28/7501 = 0.003 → aparecem em 0,3% da base

In [62]:
regras = apriori(transacoes2, min_support = 0.003, min_confidence = 0.2, min_lift = 3)
resultados = list(regras)
len(resultados)

160

In [63]:
se = []
entao = []
suporte = []
confianca = []
lift = []

for resultado in resultados:
    s = resultado[1]
    result_rules = resultado [2]
    for result_rule in result_rules:
        see = list(result_rule[0])
        entaoo = list(result_rule[1])
        confiancaa = result_rule[2]
        liftt = result_rule[3]
        se.append(see)
        entao.append(entaoo)
        suporte.append(s)
        confianca.append(confiancaa)
        lift.append(liftt)

In [64]:
df_rules2 = pd.DataFrame({'SE' : se, 'ENTAO': entao, 'Suporte': suporte, 'Confiança': confianca, 'Lift': lift})
df_rules2.sort_values(by='Lift', ascending=False)

Unnamed: 0,SE,ENTAO,Suporte,Confiança,Lift
344,"[soup, frozen vegetables]","[mineral water, nan, milk]",0.003066,0.383333,7.987176
177,"[soup, frozen vegetables]","[mineral water, milk]",0.003066,0.383333,7.987176
349,"[soup, nan, frozen vegetables]","[mineral water, milk]",0.003066,0.383333,7.987176
173,"[olive oil, frozen vegetables]","[mineral water, milk]",0.003333,0.294118,6.128268
339,"[olive oil, nan, frozen vegetables]","[mineral water, milk]",0.003333,0.294118,6.128268
...,...,...,...,...,...
238,"[shrimp, ground beef, nan]",[spaghetti],0.005999,0.523256,3.005315
67,"[shrimp, ground beef]",[spaghetti],0.005999,0.523256,3.005315
198,"[mineral water, tomatoes, frozen vegetables]",[spaghetti],0.003066,0.522727,3.002280
368,"[tomatoes, mineral water, nan, frozen vegetables]",[spaghetti],0.003066,0.522727,3.002280


#### É necessário avaliar se as regras são relevantes. Tbm é necessário realizar testes para verificar se de fato as regras são válidas