# Apriori


É uma técnica de aprendizado de regras de associação usada para encontrar padrões em grandes conjuntos de dados, como identificar itens que são frequentemente comprados juntos em um mercado.

É usado para encontrar conjuntos de itens frequentes em um conjunto de dados e gerar regras de associação com base nesses conjuntos. 

Ele é amplamente utilizado em análise de cestas de mercado para recomendações de produto

**Funcionamento do Apriori**
* **Definição de Suporte:** O suporte de um conjunto de itens é a proporção de transações no conjunto de dados que contém o conjunto de itens.
* **Geração de Conjuntos de Itens Frequentes:** O Apriori começa com itens individuais e, em seguida, encontra combinações de itens que aparecem juntos com frequência.
* **Cálculo da Confiança:** A confiança de uma regra de associação é a probabilidade de que um item B seja comprado dado que um item A foi comprado.
* **Cálculo do Lift:** O lift mede a força da regra de associação em comparação com a probabilidade de que A e B sejam comprados independentemente.

**Considerações ao Usar o Apriori**
* **Escolha do Limiar de Suporte:** O valor de suporte determina quais conjuntos de itens são considerados frequentes. Um valor mais baixo resulta em mais conjuntos de itens frequentes.
* **Interpretação das Regras:** As regras de associação geradas podem ser interpretadas para entender as relações entre os itens no conjunto de dados.

In [6]:
import pandas as pd
from apyori import apriori

In [7]:
# Leitura das trasações 
dados = pd.read_csv('transacoes.txt', header = None)
dados

Unnamed: 0,0,1,2
0,Cerveja,Pizza,Sorvete
1,Pizza,Sorvete,
2,Cerveja,Pizza,
3,Cerveja,Pizza,Sorvete
4,Cerveja,Pizza,
5,Pizza,,


In [8]:
#transformação para o formato de lista, que é exigido pela biblioteca apyori - 6 é a quantidade de itens na base de dados
transacoes = []
for i in range(0,6):
    transacoes.append([str(dados.values[i,j]) for j in range(0,3)])
transacoes

[['Cerveja', 'Pizza', 'Sorvete'],
 ['Pizza', 'Sorvete', 'nan'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Cerveja', 'Pizza', 'Sorvete'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Pizza', 'nan', 'nan']]

In [10]:
# Execução do algoritmo apriori para geração das regras de associação, definindo os parâmetros de suporte e confiança
regras = apriori(transacoes, min_support = 0.5, min_confidence = 0.5,min_length=2)
regras

<generator object apriori at 0x0000027EDA4D3220>

In [11]:
# Criação de nova variável para armazenar somente as regras de associação
resultados = list(regras)
print(resultados[0])
resultados

RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)])


[RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'Sorvete'}), support=0.5, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]),
 RelationRecord(items=frozenset({'nan'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza', 'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, li

In [12]:
# Criação de nova variável, percorrendo a variável anterior para uma melhor visualização dos resultados
resultados2 = [list(x) for x in resultados]
resultados2

[[frozenset({'Cerveja'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Pizza'}),
  1.0,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]],
 [frozenset({'Sorvete'}),
  0.5,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]],
 [frozenset({'nan'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Cerveja', 'Pizza'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Cerveja'}), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Pizza'}), items_add=frozenset({'Cerveja'}), confi

In [13]:
# Criação de outra variável para a visualização das regras ficar mais fácil para o usuário, adicionando as regras encontradas na variável resultados2
resultados3 = []
for j in range(0,7):
    resultados3.append([list(x) for x in resultados2[j][2]])
resultados3

[[[frozenset(), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Sorvete'}), 0.5, 1.0]],
 [[frozenset(), frozenset({'nan'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Cerveja', 'Pizza'}), 0.6666666666666666, 1.0],
  [frozenset({'Cerveja'}), frozenset({'Pizza'}), 1.0, 1.0],
  [frozenset({'Pizza'}), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'Sorvete'}), 0.5, 1.0],
  [frozenset({'Pizza'}), frozenset({'Sorvete'}), 0.5, 1.0],
  [frozenset({'Sorvete'}), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'Pizza'}), frozenset({'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'nan'}), frozenset({'Pizza'}), 1.0, 1.0]]]

# Eclat

O algoritmo Eclat (Equivalence Class Clustering and bottom-up Lattice Traversal) é uma técnica eficiente de aprendizado de regras de associação que, diferentemente do Apriori, utiliza uma abordagem vertical, armazenando as transações nos quais os itens ocorrem. Vamos explorar como implementar o Eclat em Python.

É um algoritmo de mineração de conjuntos de itens frequentes que trabalha com uma abordagem vertical. Em vez de trabalhar com a combinação de itens, ele trabalha com listas de transações. O objetivo é identificar conjuntos de itens que ocorrem frequentemente juntos em um banco de dados de transações.

**Funcionamento do Eclat**
* **Representação Vertical:** Representar os dados de transações de forma vertical, onde cada item é associado à lista de transações nas quais ele aparece.
* **Interseção de Transações:** Para encontrar conjuntos de itens frequentes, o Eclat realiza interseções das listas de transações dos itens.
* **Geração de Conjuntos de Itens Frequentes:** A partir das interseções, gerar conjuntos de itens frequentes que atendem a um suporte mínimo especificado.

**Considerações ao Usar Eclat**
* **Representação Vertical:** A representação vertical pode ser mais eficiente em termos de espaço e tempo, especialmente em grandes conjuntos de dados.
* **Suporte Mínimo:** Como no Apriori, a escolha do suporte mínimo é crucial para determinar a relevância dos conjuntos de itens.
* **Interseção de Listas:** A interseção de listas de transações pode ser computacionalmente intensiva para grandes conjuntos de dados, então a otimização pode ser necessária.

In [1]:
import pandas as pd
from collections import defaultdict

# Exemplo de dados de transação
dataset = [['milk', 'bread', 'butter'],
           ['milk', 'bread'],
           ['bread', 'butter'],
           ['milk', 'butter'],
           ['milk', 'bread', 'butter', 'cheese']]

# Função para converter as transações em uma representação vertical
def get_vertical_representation(transactions):
    vertical_representation = defaultdict(set)
    for tid, transaction in enumerate(transactions):
        for item in transaction:
            vertical_representation[item].add(tid)
    return vertical_representation

# Função para encontrar conjuntos de itens frequentes
def eclat(prefix, items, min_support, vertical_representation):
    frequent_itemsets = []
    while items:
        item, tids = items.pop()
        support = len(tids)
        if support >= min_support:
            frequent_itemset = prefix + [item]
            frequent_itemsets.append((frequent_itemset, support))
            suffix = []
            for other_item, other_tids in items:
                common_tids = tids & other_tids
                if len(common_tids) >= min_support:
                    suffix.append((other_item, common_tids))
            frequent_itemsets.extend(eclat(frequent_itemset, sorted(suffix, key=lambda x: len(x[1]), reverse=True), min_support, vertical_representation))
    return frequent_itemsets

# Convertendo as transações para a representação vertical
vertical_representation = get_vertical_representation(dataset)

# Lista de itens com suas transações
items = sorted(vertical_representation.items(), key=lambda x: len(x[1]), reverse=True)

# Definindo o suporte mínimo
min_support = 2

# Encontrando conjuntos de itens frequentes
frequent_itemsets = eclat([], items, min_support, vertical_representation)

# Exibindo os resultados
for itemset, support in frequent_itemsets:
    print(f"Itemset: {itemset}, Support: {support}")


Itemset: ['butter'], Support: 4
Itemset: ['butter', 'bread'], Support: 3
Itemset: ['butter', 'bread', 'milk'], Support: 2
Itemset: ['butter', 'milk'], Support: 3
Itemset: ['bread'], Support: 4
Itemset: ['bread', 'milk'], Support: 3
Itemset: ['milk'], Support: 4
