In [1]:
# Formação Cientista de Dados - Fernando Amaral e Jones Granatyr
# Contribuição: Adriano Santos

# Regras de associação

In [4]:
# Importação das bibliotecas - Este código em Python importa as bibliotecas "pandas" e "apyori". O "pandas" é usado para manipular e analisar dados tabulares, enquanto "apyori" é uma biblioteca que implementa o algoritmo Apriori para mineração de regras de associação em conjuntos de dados. Basicamente, ele ajuda a encontrar padrões e relações entre itens em um conjunto de dados, o que pode ser útil em tarefas como recomendações de produtos com base em compras anteriores.

import pandas as pd
from apyori import apriori


In [None]:
# Instalando a biblioteca "apyori" se precisar. Esse código é uma instrução para instalar uma biblioteca chamada "apyori" no Python. Essa biblioteca permite a aplicação de algoritmos de associação, úteis para descobrir padrões em grandes conjuntos de dados. Com ela, é possível analisar, por exemplo, quais produtos costumam ser comprados juntos em uma loja online. A instalação é feita usando o comando "%pip install apyori", que baixa e configura a biblioteca para que possa ser usada em programas de Python.

%pip install apyori

In [6]:
# Leitura das trasações - Este código em Python utiliza a biblioteca pandas para ler um arquivo de dados chamado 'transacoes.txt'. Ele carrega esses dados em uma estrutura de tabela chamada DataFrame. O parâmetro 'header = None' indica que não há uma linha de cabeçalho no arquivo. Em seguida, ele simplesmente exibe esses dados na saída. Em resumo, o código lê informações de um arquivo e as apresenta de forma organizada para análise posterior.

dados = pd.read_csv('../dados/transacoes.txt', header = None)
dados

Unnamed: 0,0,1,2
0,Cerveja,Pizza,Sorvete
1,Pizza,Sorvete,
2,Cerveja,Pizza,
3,Cerveja,Pizza,Sorvete
4,Cerveja,Pizza,
5,Pizza,,


In [8]:
# Este código cria uma lista chamada "transacoes" e a preenche com informações de uma planilha. Ele itera seis vezes, coletando os dados da planilha e os organizando em grupos de três valores, armazenando-os na lista. O resultado final é uma lista que contém esses grupos de informações.

transacoes = []
for i in range(0, 6):
    transacoes.append([str(dados.values[i, j]) for j in range(0, 3)])
transacoes


[['Cerveja', 'Pizza', 'Sorvete'],
 ['Pizza', 'Sorvete', 'nan'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Cerveja', 'Pizza', 'Sorvete'],
 ['Cerveja', 'Pizza', 'nan'],
 ['Pizza', 'nan', 'nan']]

In [22]:
# Esse código utiliza uma técnica chamada Apriori para encontrar associações entre itens em um conjunto de transações, como compras. Ele define algumas regras para considerar apenas associações que são frequentes o suficiente (min_support=0.5) e têm uma confiança mínima (min_confidence=0.5). Além disso, ele busca associações com pelo menos dois itens (min_length=2) nas transações fornecidas. Essas regras ajudam a identificar padrões de compra relevantes e confiáveis.

regras = apriori(transacoes, min_support=0.5, min_confidence=0.5, min_length=2)


In [23]:
# Criação de nova variável para armazenar somente as regras de associação - Nesse código simples em Python, estamos criando uma lista chamada "resultados" que contém os mesmos elementos que a lista chamada "regras". Em seguida, imprimimos o primeiro elemento dessa lista "resultados" (lembrando que a contagem começa em 0), o que significa que estamos exibindo o primeiro item da lista "regras". Por fim, apenas mencionamos a lista "resultados" novamente. Basicamente, estamos copiando as regras para outra lista e mostrando a primeira delas.

resultados = list(regras)
print(resultados[0])
resultados

RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)])


[RelationRecord(items=frozenset({'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza'}), support=1.0, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]),
 RelationRecord(items=frozenset({'Sorvete'}), support=0.5, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]),
 RelationRecord(items=frozenset({'nan'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]),
 RelationRecord(items=frozenset({'Pizza', 'Cerveja'}), support=0.6666666666666666, ordered_statistics=[OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, li

In [26]:
# Criação de nova variável, percorrendo a variável anterior para uma melhor visualização dos resultados - Este código transforma uma lista chamada 'resultados' em uma nova lista chamada 'resultados2'. A diferença é que 'resultados2' contém listas aninhadas, onde cada elemento da lista original 'resultados' é convertido em uma sublista. Em resumo, ele reorganiza os dados da lista 'resultados' em uma estrutura de lista dentro de lista, mas não realiza nenhuma operação específica com esses dados.

resultados2 = [list(x) for x in resultados]
resultados2

[[frozenset({'Cerveja'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Cerveja'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Pizza'}),
  1.0,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0)]],
 [frozenset({'Sorvete'}),
  0.5,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Sorvete'}), confidence=0.5, lift=1.0)]],
 [frozenset({'nan'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'nan'}), confidence=0.6666666666666666, lift=1.0)]],
 [frozenset({'Cerveja', 'Pizza'}),
  0.6666666666666666,
  [OrderedStatistic(items_base=frozenset(), items_add=frozenset({'Pizza', 'Cerveja'}), confidence=0.6666666666666666, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Cerveja'}), items_add=frozenset({'Pizza'}), confidence=1.0, lift=1.0),
   OrderedStatistic(items_base=frozenset({'Pizza'}), items_add=frozenset({'Cerveja'}), confi

In [27]:
# Criação de outra variável para a visualização das regras ficar mais fácil para o usuário, adicionando as regras encontradas na variável resultados2 - Este código cria uma nova lista chamada "resultados3" e preenche-a com informações de uma lista existente chamada "resultados2". Ele faz isso percorrendo os elementos de "resultados2", pegando os elementos internos (que também são listas) e transformando-os em listas individuais. O resultado final é uma lista "resultados3" que contém essas listas individuais.

resultados3 = []
for j in range(0, 7):
    resultados3.append([list(x) for x in resultados2[j][2]])
resultados3


[[[frozenset(), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Sorvete'}), 0.5, 1.0]],
 [[frozenset(), frozenset({'nan'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Cerveja', 'Pizza'}), 0.6666666666666666, 1.0],
  [frozenset({'Cerveja'}), frozenset({'Pizza'}), 1.0, 1.0],
  [frozenset({'Pizza'}), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'Sorvete'}), 0.5, 1.0],
  [frozenset({'Pizza'}), frozenset({'Sorvete'}), 0.5, 1.0],
  [frozenset({'Sorvete'}), frozenset({'Pizza'}), 1.0, 1.0]],
 [[frozenset(), frozenset({'Pizza', 'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'Pizza'}), frozenset({'nan'}), 0.6666666666666666, 1.0],
  [frozenset({'nan'}), frozenset({'Pizza'}), 1.0, 1.0]]]

In [30]:
# Este código realiza algumas operações simples em dados. Primeiro, ele cria uma lista vazia chamada "resultados3" e, em seguida, preenche essa lista com informações específicas de uma lista chamada "resultados2". Essas informações são convertidas em um formato de tabela chamado DataFrame usando uma biblioteca chamada pandas. Por fim, o código exibe essa tabela na tela. Essencialmente, ele transforma dados em um formato mais organizado e legível.

resultados3 = []
for j in range(0, 7):
    resultados3.append([list(x) for x in resultados2[j][2]])

# Convertendo a lista em um DataFrame do pandas
df = pd.DataFrame(resultados3)

# Exibindo o DataFrame
print(df)


                                                 0  \
0         [(), (Cerveja), 0.6666666666666666, 1.0]   
1                          [(), (Pizza), 1.0, 1.0]   
2                        [(), (Sorvete), 0.5, 1.0]   
3             [(), (nan), 0.6666666666666666, 1.0]   
4  [(), (Pizza, Cerveja), 0.6666666666666666, 1.0]   
5                 [(), (Pizza, Sorvete), 0.5, 1.0]   
6      [(), (Pizza, nan), 0.6666666666666666, 1.0]   

                                           1  \
0                                       None   
1                                       None   
2                                       None   
3                                       None   
4             [(Cerveja), (Pizza), 1.0, 1.0]   
5             [(Pizza), (Sorvete), 0.5, 1.0]   
6  [(Pizza), (nan), 0.6666666666666666, 1.0]   

                                               2  
0                                           None  
1                                           None  
2                            

In [31]:
# Este código Python cria uma tabela a partir de uma lista de dados chamada 'resultados2'. Ele percorre essa lista, extrai sub-listas dentro dela e, em seguida, usa a biblioteca 'tabulate' para formatar essas sub-listas como uma tabela, com linhas e colunas, e as exibe no console. É uma maneira de organizar e visualizar informações de forma mais organizada e legível.

from tabulate import tabulate

resultados3 = []
for j in range(0, 7):
    resultados3.append([list(x) for x in resultados2[j][2]])

# Convertendo a lista em uma tabela com a função tabulate
tabela = tabulate(resultados3, tablefmt='grid')

# Exibindo a tabela
print(tabela)


+-------------------------------------------------------------------------+---------------------------------------------------------------------+-------------------------------------------------------------------------+
| [frozenset(), frozenset({'Cerveja'}), 0.6666666666666666, 1.0]          |                                                                     |                                                                         |
+-------------------------------------------------------------------------+---------------------------------------------------------------------+-------------------------------------------------------------------------+
| [frozenset(), frozenset({'Pizza'}), 1.0, 1.0]                           |                                                                     |                                                                         |
+-------------------------------------------------------------------------+---------------------------------------------