<a href="https://colab.research.google.com/github/amadords/Projetos-Publicos/blob/master/Apriori_com_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Regras de Associação**
---


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)

![img](https://raw.githubusercontent.com/amadords/images/main/association-rules.png)

As regras de associação são regras que buscam a relação entre itens ou elementos.

Uma abordagem teórica inicial está presente no artigo que você pode visualizar [aqui](http://bit.ly/3aXY5rH).

O presente notebook serve apenas como suporte para o artigo supramencionado.

Utilizaremos duas das principais abordagens de regra de associação?

- **Apriori**

  Se baseia no princípio de que se um conjunto de itens é frequente, um subconjunto destes itens também será frequente. Ao mesmo passo, se um subconjunto de itens é frequente, o conjunto também será.

- **ECLAT**

  É uma versão mais eficiente e escalonável do algoritmo Apriori. Enquanto o Apriori funciona no sentido horizontal, imitando a pesquisa em largura de um gráfico, o algoritmo ECLAT funciona de maneira vertical, exatamente como a pesquisa em profundidade de um gráfico. Esta abordagem vertical do algoritmo ECLAT torna-o um algoritmo mais rápido do que o algoritmo Apriori.

  O algoritmo utiliza interseções de Conjuntos de Id de Transação, conhecidos por **tidsets** para calcular o valor de suporte de um candidato e evitar a geração de subconjuntos que não existem na árvore de prefixos. Na primeira chamada da função, todos os itens individuais são usados ​​junto com seus tidsets. Em seguida, a função é chamada recursivamente e, em cada chamada recursiva, cada par de item-tidset é verificado e combinado com outros pares item-tidset. Esse processo é continuado até que nenhum par item-tidset candidato possa ser combinado.

Fonte: [Geeks For Geeks](https://www.geeksforgeeks.org/ml-eclat-algorithm/).







**Importando as bibliotecas**

In [None]:
import pandas as pd
!pip install apyori -q
from apyori import apriori
!pip install pyECLAT -q
from pyECLAT import ECLAT

**Carregando dados de exemplo**

> A base de dados é simplista e contém, em cada linha, uma compra feita por alguém. A exemplo, na linha 0 temos alguém que comprou Cerveja, Pizza e Sorvete. Na linha seguinte alguém que comprou apenas Pizza e Sorvete e daí em diante.

In [None]:
# carga dos dados
PATH = 'https://raw.githubusercontent.com/amadords/data/main/transacoes.txt'
dados = pd.read_csv(PATH, header = None)

# visualizando os dados
dados

Unnamed: 0,0,1,2
0,Cerveja,Pizza,Sorvete
1,Pizza,Sorvete,
2,Cerveja,Pizza,
3,Cerveja,Pizza,Sorvete
4,Cerveja,Pizza,
5,Pizza,,


## **Apriori**

**Transformando os dados em uma lista**

> A biblioteca [Apyori](https://pypi.org/project/apyori/) exige que seja nesse formato.

> O range de 0 a 6 é, pelo fato de termos 6 entradas de dados. O 6 é excluído, logo estamos pegando de 0 a 5, na verdade.

In [None]:
from pprint import pprint

# criando a lista
transacoes = []
for i in range(0,6):
    transacoes.append([str(dados.values[i,j]) for j in range(0,3)])
pprint(transacoes)

# dando espaçamento
print('\n')

# visualizando o tipo do dado
print("Qual o formato do dado criado?\n\n", type(transacoes))

[['Cerveja', 'Pizza', 'Sorvete'],
 ['Pizza', 'Sorvete', 'nan'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Cerveja', 'Pizza', 'Sorvete'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Pizza', 'nan', 'nan']]


Qual o formato do dado criado?

 <class 'list'>


**Gerando regras com o Apriori**

> Definimos os seguintes parâmetros:
- `min_support = 0.5`
- `min_confidence = 0.5`
- `min_length = 2`

In [None]:
regras = apriori(transacoes, min_support = 0.5, min_confidence = 0.5, min_length = 2)

**Criando variável para armazenar as regras**

In [None]:
resultados = list(regras)
print(resultados[0])
print('\n')
resultados

RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)])




[RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'Sorvete'}), support=0.5, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]),
 RelationRecord(items=frozenset({'nan'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza', 'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, li

**Criação de nova variável** 

> Percorrendo a variável anterior para melhorar a visualização dos resultados.


In [None]:
resultados2 = [list(x) for x in resultados]
resultados2

[[frozenset({'Cerveja'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Pizza'}),
  1.0,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]],
 [frozenset({'Sorvete'}),
  0.5,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]],
 [frozenset({'nan'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Cerveja', 'Pizza'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Cerveja'}), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Pizza'}), items_add=frozenset({'Cerveja'}), confi

**Criação de outra variável**

> Dessa vez conseguimos facilitar a visualização das regras.

In [None]:
resultados3 = []
for j in range(0,7):
    resultados3.append([list(x) for x in resultados2[j][2]])
resultados3

[[[frozenset(), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Sorvete'}), 0.5, 1.0]],
 [[frozenset(), frozenset({'nan'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Cerveja', 'Pizza'}), 0.6666666666666666, 1.0],
  [frozenset({'Cerveja'}), frozenset({'Pizza'}), 1.0, 1.0],
  [frozenset({'Pizza'}), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'Sorvete'}), 0.5, 1.0],
  [frozenset({'Pizza'}), frozenset({'Sorvete'}), 0.5, 1.0],
  [frozenset({'Sorvete'}), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'Pizza'}), frozenset({'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'nan'}), frozenset({'Pizza'}), 1.0, 1.0]]]

## **ECLAT**

> Apenas para mostrar uma solução que pode ser muito proveitosa em um futuro, porém ainda não foi implementada por completo.

### **Projeto pyECLAT**

**Instanciando o algoritmo**

> `verbose = True` permite visualizar a barra de execução.

In [None]:
eclat_instance = ECLAT(data=dados, verbose=True)

100%|██████████| 3/3 [00:00<00:00, 375.63it/s]
100%|██████████| 3/3 [00:00<00:00, 14979.66it/s]
100%|██████████| 3/3 [00:00<00:00, 1009.54it/s]


**Criando uma DataFrame binário**

> A visualização ficará igual ao visto no artigo, com 1 para presença e 0 para não presença.

In [None]:
eclat_instance.df_bin

Unnamed: 0,Pizza,Cerveja,Sorvete
0,1,1,1
1,1,0,1
2,1,1,0
3,1,1,1
4,1,1,0
5,1,0,0


**Visualizando os itens presentes na lista**

In [None]:
eclat_instance.uniq_

[nan, 'Pizza', 'Cerveja', 'Sorvete']

**Combinações**

In [None]:
get_ECLAT_indexes, get_ECLAT_supports = eclat_instance.fit(min_support=0.08,min_combination=1,
                                                           max_combination=3,
                                                           separator=' & ',
                                                           verbose=True)


3it [00:00, 88.79it/s]
0it [00:00, ?it/s]

Combination 1 by 1
Combination 2 by 2


3it [00:00, 107.16it/s]
1it [00:00, 83.98it/s]

Combination 3 by 3





**Visualizando algumas ajudas do algoritmo**

In [None]:
help(eclat_instance.fit)

Help on method fit in module pyECLAT.pyECLAT:

fit(min_support=0.08, min_combination=1, max_combination=3, separator=' & ', verbose=True) method of pyECLAT.pyECLAT.ECLAT instance
    Return a dictionary. The key is the feature and value is support. A high number of 
    combinations (greater than three) can take a long time to finish. 
    
    
    Arguments
    ---------------------
    min_support
        Must be 'None' to return all features and supports or 'Float' to filter features by support
    min_combination
        Minimal combination of attributes
    max_combination
        Maximum combination of attributes
    separator
        Separator for the output dictionary key. Just to organize. default = ' & '
    verbose
        `True` to enable the loading bar.



In [None]:
help(eclat_instance.fit_all)

Help on method fit_all in module pyECLAT.pyECLAT:

fit_all(min_support=0.08, separator=' & ', verbose=False, min_combination=1) method of pyECLAT.pyECLAT.ECLAT instance
    Return a dictionary. The key is the feature and value is support.
    This algorithm works with all possible permutations (without repetitions)
    until the all supports = 0.
    
    Arguments
    ---------------------
    min_support
        Must be 'None' to return all features and supports or 'Float' to filter features by support
    separator
        Separator for the output dictionary key. Just to organize. default = ' & '
    verbose
        `True` to enables the loading bar.



In [None]:
help(eclat_instance.support)

Help on method support in module pyECLAT.pyECLAT:

support(min_support=None) method of pyECLAT.pyECLAT.ECLAT instance
    Return a dictionary. The key is the feature and value is support
    
    Arguments
    ---------------------
    min_support
        Must be 'None' to return all features and supports or 'Float' to filter features by support



In [None]:
eclat_instance.support

<bound method ECLAT.support of <pyECLAT.pyECLAT.ECLAT object at 0x7fbc31682ad0>>

> Infelizmente, o método não foi implementado por completo ainda, mas aparentemente será de grande valia e facilidade pelo que se vê.

> Há uma forma de implementar o ECLAT em Python de forma manual e código está abaixo.

> Espero que seja útil, quando sair uma implementação em alto nível, atualizo o código.

> Felizmente, **se você não tem nenhum preconceito em utilizar a linguagem R**, há uma solução muito simples para gerar as regras e podem ser visualizadas aqui]().

# Obrigado!

Obrigado por ter disponibilizado um pouco do seu tempo e atenção aqui. Espero que, de alguma forma, tenha sido útil para seu crescimento. Se houver qualquer dúvida ou sugestão, não hesite em entrar em contato no [LinkedIn](https://www.linkedin.com/in/daniel-sousa-amador) e verificar meus outros projetos no [GitHub](https://github.com/amadords).


[![LinkedIn](https://img.shields.io/badge/LinkedIn-DanielSousaAmador-cyan.svg)](https://www.linkedin.com/in/daniel-sousa-amador)
[![GitHub](https://img.shields.io/badge/GitHub-amadords-darkblue.svg)](https://github.com/amadords)
[![Medium](https://img.shields.io/badge/Medium-DanielSousaAmador-white.svg)](https://daniel-s-amador.medium.com/)



<center><img width="90%" src="https://raw.githubusercontent.com/danielamador12/Portfolio/master/github.png"></center>