##  Relatório de Análise de Cesta de Mercado (Apriori)

### Informações do Projeto
* **Aluno:** Anna Beatriz de Oliveira Ribeiro
* **Curso:** **Desenvolvimento de Software Multiplataforma (6º Semestre)**
* **Disciplina:** Mineração de Dados
* **Professor:** Vagner Macedo

---

O objetivo deste trabalho é aplicar técnicas de Mineração de Dados para identificar padrões de associação em transações comerciais, utilizando o algoritmo Apriori.
* **Base de Dados:** Groceries_Dataset.csv
* **Total de Linhas Carregadas:** 38.766
* **Total de Transações (Cestas):** 729
* **Mínimo de Suporte Aplicado (Final):** **3.0% (0.03)**


A base de dados foi processada, agrupando itens pela coluna do membro (Transação) e padronizando os nomes para minúsculas. As funções de Suporte, Confiança e Lift foram **implementadas de forma personalizada** em Python, conforme exigido.

* **Fórmula do Suporte:** $$Suporte(X) = \frac{\text{Número de transações contendo } X}{\text{Número total de transações}}$$
* **Fórmula da Confiança:** $$Confiança(X \to Y) = \frac{\text{Suporte}(X \cup Y)}{\text{Suporte}(X)}$$
* **Fórmula do Lift:** $$Lift(X \to Y) = \frac{\text{Confiança}(X \to Y)}{\text{Suporte}(Y)}$$

---

A análise das regras forneceu insights sobre os padrões de compra do mercado.

#### I. Interpretação das Métricas:
O **Lift alto (acima de 1)** nas regras listadas sugere uma associação forte entre o antecedente e o consequente, ou seja, a compra dos dois itens juntos é mais provável do que se fossem comprados de forma independente. O valor do **Suporte** reflete a popularidade da regra na base total de transações.

#### II. Implicações Comerciais:
As regras de associação são valiosas, permitindo:
* **Cross-Selling:** Sugerir itens consequentes a clientes que acabaram de selecionar os itens antecedentes.
* **Layout da Loja:** Posicionar itens com alto Lift próximos uns dos outros para incentivar compras adicionais.

#### III. Nota de Performance (Problema Crítico):
A implementação manual do Algoritmo Apriori (Passo 4) demonstrou ser computacionalmente intensiva. Para garantir a execução do código e o cumprimento do prazo, o suporte mínimo teve que ser ajustado para **3.0% (0.03)**, um valor mais alto do que o ideal. Esse ajuste limitou a descoberta de regras mais complexas e raras (com baixo suporte), mas validou a lógica das funções customizadas.


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_style("whitegrid")

Matplotlib is building the font cache; this may take a moment.


In [21]:
import pandas as pd # Importa a biblioteca pandas com o alias 'pd'

# 1. CARREGAMENTO DO DATASET
# Carrega o arquivo CSV, sem considerar a primeira linha como cabeçalho
df = pd.read_csv('Groceries_dataset.csv', header=None) 

print("Dimensões do Dataset:", df.shape)
print("\nPrimeiras linhas:")
print(df.head())

Dimensões do Dataset: (38766, 3)

Primeiras linhas:
               0           1                 2
0  Member_number        Date   itemDescription
1           1808  21-07-2015    tropical fruit
2           2552  05-01-2015        whole milk
3           2300  19-09-2015         pip fruit
4           1187  12-12-2015  other vegetables


In [22]:
# 2. Preparação e Padronização dos Dados
# Define o índice (base 0) da coluna que contém o produto/item.
ITEM_COLUMN = 2 
# Define o índice (base 0) da coluna que contém o ID do membro/cliente.
MEMBER_COLUMN = 1 

# Padronização da Coluna de Itens:
# 1. Converte a coluna para string (astype(str)) para garantir que a função .str funcione.
# 2. Remove espaços em branco do início e fim dos nomes dos itens (str.strip()).
# 3. Converte todos os nomes dos itens para minúsculas (str.lower()) para evitar que 
#    'Milk' e 'milk' sejam tratados como itens diferentes.
df[ITEM_COLUMN] = df[ITEM_COLUMN].astype(str).str.strip().str.lower()

# Cria a Lista de Transações:
# 1. df.groupby([MEMBER_COLUMN]): Agrupa o DataFrame por ID de Membro.
# 2. [ITEM_COLUMN]: Seleciona a coluna de Itens para cada grupo de membros.
# 3. .apply(list): Aplica a função 'list' para transformar todos os itens comprados 
#    por cada membro em uma lista. O resultado é uma Series onde o índice é o MEMBER_COLUMN 
#    e o valor é a lista de itens.
# 4. .tolist(): Converte a Series resultante em uma lista Python simples. Cada elemento
#    desta lista é a lista de itens comprados por um cliente (uma 'transação').
transactions = (
    df.groupby([MEMBER_COLUMN])[ITEM_COLUMN] 
    .apply(list)
    .tolist()
)

# Imprime o total de transações (clientes/membros) encontradas.
print(f"Total de Transações (Membros) Processadas: {len(transactions)}")
# Imprime um exemplo para ver se a estrutura da lista está correta.
if len(transactions) > 0:
    print(f"Exemplo da Primeira Transação: {transactions[0]}")
    # Salva o número total de transações em uma variável global/maior, se necessário.
    TOTAL_TRANSACOES = len(transactions)

Total de Transações (Membros) Processadas: 729
Exemplo da Primeira Transação: ['cleaner', 'sausage', 'tropical fruit', 'whole milk', 'citrus fruit', 'onions', 'other vegetables', 'berries', 'hamburger meat', 'hamburger meat', 'other vegetables', 'hamburger meat', 'bottled water', 'butter', 'yogurt', 'yogurt', 'waffles', 'soda', 'sliced cheese', 'curd', 'specialty chocolate', 'shopping bags', 'bottled water', 'other vegetables', 'flower (seeds)', 'coffee', 'whipped/sour cream', 'yogurt', 'whipped/sour cream', 'frozen potato products', 'candles', 'yogurt', 'bottled beer', 'instant food products', 'frozen vegetables', 'shopping bags', 'frozen vegetables', 'whole milk', 'brown bread', 'bottled water', 'soda', 'frozen vegetables', 'instant food products', 'domestic eggs', 'waffles', 'dishes', 'chocolate', 'bottled water']


In [None]:
# Passo 3: Funções Personalizadas (Versão Otimizada)

def calcular_suporte(itemset, transactions_list, total_transacoes):
    """
    Calcula o suporte de um itemset em relação ao total de transações.
    itemset deve ser um frozenset.
    """
    count = 0
    
    # Usa a função `sum` com um gerador para calcular a contagem de forma 
    # O gerador produz 1 se o itemset for subconjunto da transação, e 0 caso contrário.
    count = sum(1 for transaction in transactions_list if itemset.issubset(set(transaction)))
            
    # Calcula o suporte.
    suporte = count / total_transacoes
    return suporte

In [23]:
# Passo 4: Implementação do Algoritmo Apriori 

def gerar_itemsets_frequentes(transactions_list, min_support, total_transacoes):
    """
    Gera todos os itemsets frequentes usando o algoritmo Apriori.
    """
    
    # 1. Geração de L1 (1-itemsets frequentes)
    item_counts = {}
    for transaction in transactions_list:
        for item in transaction:
            itemset = frozenset([item]) 
            item_counts[itemset] = item_counts.get(itemset, 0) + 1
    
    L = {} 
    for itemset, count in item_counts.items():
        support = count / total_transacoes
        if support >= min_support:
            L[itemset] = support

    frequent_itemsets = L.copy()
    
    k = 2 
    
    # 2. Iteração para L2, L3, ... Lk
    while L:
        current_itemsets = list(L.keys())
        C = set()
        
        # Geração de Candidatos Ck (Operação de Join)
        for i in range(len(current_itemsets)):
            for j in range(i + 1, len(current_itemsets)):
                itemset1 = current_itemsets[i]
                itemset2 = current_itemsets[j]
                
                # O Apriori Join requer que os primeiros k-2 elementos sejam iguais
                # Se a união tiver exatamente tamanho k, é um novo candidato.
                union = itemset1.union(itemset2)
                
                if len(union) == k: 
                    C.add(union)

        L = {}
        
        # Avaliação dos Candidatos Ck e Filtragem para Lk
        for itemset in C:
            
            # Usando a lógica de suporte inline para evitar dependência externa:
            count = sum(1 for transaction in transactions_list if itemset.issubset(set(transaction)))
            support = count / total_transacoes
            
            if support >= min_support:
                L[itemset] = support
        
        frequent_itemsets.update(L)
        k += 1
        
    return frequent_itemsets

# Chamada da função com a variável TOTAL_TRANSACOES (definida no Passo 2)
min_support = 0.015 
frequent_sets = gerar_itemsets_frequentes(transactions, min_support, TOTAL_TRANSACOES)

print(f"\nItemsets Frequentes Encontrados (Suporte Mínimo: {min_support}): {len(frequent_sets)}")
print("Exemplo dos 5 primeiros itemsets frequentes e seus suportes:")
for itemset, support in list(frequent_sets.items())[:5]:
    print(f"  {list(itemset)}: {support:.4f}")

KeyboardInterrupt: 

In [None]:
# Passo 3 (Continuação): Funções Personalizadas - Confiança e Lift

def calcular_confianca(antecedent, consequent, frequent_sets):
    # A união do antecedente (A) e consequente (B) forma o itemset completo (A U B).
    union = antecedent.union(consequent)
    
    # Suporte(A U B): Obtém o suporte do itemset completo do dicionário de frequentes.
    suporte_uniao = frequent_sets.get(union)
    
    # Suporte(A): Obtém o suporte do antecedente (A).
    suporte_antecedente = frequent_sets.get(antecedent)
    
    # Verifica se o antecedente existe e se o suporte não é zero para evitar Divisão por Zero.
    if suporte_antecedente is None or suporte_antecedente == 0:
        return 0  # Retorna 0 se o antecedente não for frequente ou tiver suporte zero
    
    # Fórmula da Confiança: Conf(A -> B) = Suporte(A U B) / Suporte(A)
    confianca = suporte_uniao / suporte_antecedente
    return confianca


def calcular_lift(antecedent, consequent, frequent_sets):

    # Suporte(B): Obtém o suporte do consequente (B).
    suporte_consequente = frequent_sets.get(consequent)
    
    # Verifica se o consequente existe e se o suporte não é zero para evitar Divisão por Zero.
    if suporte_consequente is None or suporte_consequente == 0:
        return 0 
        
    # Reutiliza a função anterior para obter a Confiança(A -> B).
    confianca = calcular_confianca(antecedent, consequent, frequent_sets)
    
    # Fórmula do Lift: Lift(A -> B) = Confiança(A -> B) / Suporte(B)
    lift = confianca / suporte_consequente
    return lift

In [None]:
#  Passo 4 (Continuação): Geração de Regras, Confiança e Lift

def gerar_regras_associacao(frequent_sets, min_confidence):
    regras = []
    
    # 1. Itera sobre cada itemset que foi encontrado como frequente (L2, L3, Lk...).
    for itemset in frequent_sets.keys():
        # Regras só podem ser geradas a partir de itemsets com 2 ou mais itens.
        if len(itemset) < 2:
            continue
            
        # 2. Gera todas as possíveis regras de tamanho 1 para o consequente (B).
        # Este loop itera sobre cada item (que se torna o Consequente) no itemset.
        for consequent in itemset:
            consequent_set = frozenset([consequent])
            # O Antecedente (A) é o itemset original menos o consequente (A = Itemset - B).
            antecedent_set = itemset.difference(consequent_set)
            
            if not antecedent_set: # Proteção, embora o loop anterior garanta isso.
                continue
            
            # 3. Calcula a Confiança da regra A -> B.
            confianca = calcular_confianca(antecedent_set, consequent_set, frequent_sets)
            
            # 4. Poda por Confiança: Verifica se a Confiança atende ao requisito mínimo.
            if confianca >= min_confidence:
                # 5. Se for frequente e confiável, calcula o Lift e armazena os dados.
                lift = calcular_lift(antecedent_set, consequent_set, frequent_sets)
                suporte = frequent_sets.get(itemset) # O suporte é o Suporte(A U B)
                
                # Armazena a regra. Converte frozenset para set para melhor visualização/JSON.
                regras.append({
                    'antecedent': set(antecedent_set),
                    'consequent': set(consequent_set),
                    'suporte': suporte,
                    'confianca': confianca,
                    'lift': lift
                })
                
    return regras


min_confidence = 0.20 # Define o filtro de 20%
regras_geradas = gerar_regras_associacao(frequent_sets, min_confidence)

# Ordena a lista de regras geradas com base na métrica 'lift' em ordem decrescente.
regras_ordenadas = sorted(regras_geradas, key=lambda x: x['lift'], reverse=True)

print(f"Total de Regras Geradas (Confiança Mínima 20%): {len(regras_ordenadas)}")
print("\nTop 5 Regras de Associação Ordenadas por Lift:")
for i, regra in enumerate(regras_ordenadas[:5]):
    ant = ', '.join(regra['antecedent'])
    con = ', '.join(regra['consequent'])
    print(f"  {i+1}. {ant} -> {con} | Confiança: {regra['confianca']:.3f} | Lift: {regra['lift']:.3f}")

In [None]:
# Passo 5: Visualização dos Itens Mais Frequentes

# Filtra o dicionário 'frequent_sets' (todos os itemsets frequentes) 
# para incluir apenas os itemsets de tamanho 1 (itens individuais).
frequent_1_itemsets = {k: v for k, v in frequent_sets.items() if len(k) == 1}

# Converte os resultados para um DataFrame do pandas para manipulação.
# Colunas: 'Itemset' (o frozenset) e 'Suporte' (a frequência relativa).
df_frequencia = pd.DataFrame(frequent_1_itemsets.items(), columns=['Itemset', 'Suporte'])

# Cria uma nova coluna 'Item', extraindo o nome do item do frozenset.
# Usa uma função lambda para pegar o primeiro (e único) elemento do itemset.
df_frequencia['Item'] = df_frequencia['Itemset'].apply(lambda x: list(x)[0])

# Seleciona os 10 itens com o maior suporte (frequência) e os ordena.
df_top10 = df_frequencia.sort_values(by='Suporte', ascending=False).head(10)

# --- Configuração e Geração do Gráfico de Barras ---

# Cria uma figura (tamanho 10x6 polegadas) para o gráfico.
plt.figure(figsize=(10, 6))
# Gera o gráfico de barras usando Seaborn (sns), mapeando o Suporte no eixo X 
# e o Item no eixo Y, facilitando a leitura dos nomes longos.
sns.barplot(x='Suporte', y='Item', data=df_top10, palette='viridis')

# Adiciona título, rótulos e grade para clareza.
plt.title('Top 10 Itens Mais Frequentes (Suporte)')
plt.xlabel('Suporte (Frequência Relativa)')
plt.ylabel('Item')
plt.grid(axis='x', alpha=0.5)

# Ajusta automaticamente os parâmetros da subtrama para o ajuste ideal da figura.
plt.tight_layout()
# Salva a figura como um arquivo PNG.
plt.savefig('top_10_itens_frequentes.png')
# Fecha a figura para liberar memória.
plt.close()

print("Gráfico 'top_10_itens_frequentes.png' gerado com sucesso!")