# Regras de Associação (Apriori)

## Introdução

Antes de falar sobre o modelo propriamente dito, gostaria de ressaltar primeiramente que só consegui achar algo parecido com a documentação nos seguintes links: 

* https://github.com/ymoch/apyori/blob/master/apyori.py
* https://zaxrosenberg.com/unofficial-apyori-documentation/

Assim sendo, vejamos agora as regras de associação. Considere a relação "A => B". A grosso modo, podemos interpretar essa relação como: quem compra A também compra B. 

Então, definimos 

* Suporte: número de transações que contém A e B dividido pelo número total de registros;
* Confiança: indica a proporção de vezes que, numa transação contendo A, também tem B;
* Lift: Confiança/Suporte.

Por exemplo, imagine que A, B, C, ... sejam produtos comprados numa loja, e que o histórico de compras de clientes num determinado período seja:

* Cliente 1: A, C, D, E;
* Cliente 2: A, B;
* Cliente 3: B, C, D;
* Cliente 4: A, B, C.

Nesse caso, temos

* * Suporte = 2/4 = 1/2
* * Confiança = 2/3
* * Lift = (2/3)/(1/2) = 4/3.

Deste modo, vejamos no próximo bloco como aplicar essas ideias num conjunto de dados.

## Dados Iniciais

In [2]:
from pandas import read_csv

dados = read_csv('transacoes.txt', header = None)

dados

Unnamed: 0,0,1,2
0,Cerveja,Pizza,Sorvete
1,Pizza,Sorvete,
2,Cerveja,Pizza,
3,Cerveja,Pizza,Sorvete
4,Cerveja,Pizza,
5,Pizza,,


In [3]:
type(dados)

pandas.core.frame.DataFrame

Vamos transformar a tipagem de ```DataFrame``` para ```list``` pois a biblioteca que vamos usar necessita desse último tipo.

In [4]:
transacoes = []

for i in range(0,6):
    transacoes.append([str(dados.values[i,j]) for j in range(0,3)])

transacoes

[['Cerveja', 'Pizza', 'Sorvete'],
 ['Pizza', 'Sorvete', 'nan'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Cerveja', 'Pizza', 'Sorvete'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Pizza', 'nan', 'nan']]

## ```apriori```

Para importar o modelo Apriori, basta digitar

In [5]:
from apyori import apriori

Assim, executamos o algoritmo configurando os valores mínimos de suporte e confiança.

In [19]:
regras = apriori(transacoes, 
                 min_support = 0.5,
                 min_confidence = 0.5,
                 min_length=2)

Para visualizar o objeto criado, devemos transformá-la em lista.

In [20]:
resultados = list(regras)

resultados

[RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'Sorvete'}), support=0.5, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]),
 RelationRecord(items=frozenset({'nan'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza', 'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, li

Para visualizar melhor esses resultados, criemos uma nova lista

In [23]:
resultados2 = [list(x) for x in resultados]

resultados2

# for x in resultados:
#     resultados2 = [list(x)]

# resultados2

[[frozenset({'Cerveja'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Pizza'}),
  1.0,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]],
 [frozenset({'Sorvete'}),
  0.5,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]],
 [frozenset({'nan'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Cerveja', 'Pizza'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Cerveja'}), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Pizza'}), items_add=frozenset({'Cerveja'}), confi

Desta maneira fica mais legível enxergar os parâmetros de suporte, confiança e lift.