<a href="https://colab.research.google.com/github/Alberto-Moura/Market-Basket-Analysis/blob/main/marketBasketAnalysis_OTP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Market basket analysis (MBA)**

tÃ©cnica de anÃ¡lise de dados usada para identificar padrÃµes de compra em conjunto. O objetivo Ã© descobrir quais produtos sÃ£o comprados juntos com mais frequÃªncia, ajudando na tomada de decisÃµes como:

ðŸ”¹ Cross-selling â†’ SugestÃ£o de produtos complementares (ex: "Clientes que compraram camiseta tambÃ©m compraram meias").<br>
ðŸ”¹ Layout de lojas â†’ Posicionar produtos prÃ³ximos para aumentar vendas.<br>
ðŸ”¹ PromoÃ§Ãµes â†’ Criar combos estratÃ©gicos com base nos itens frequentemente comprados juntos.<br>

A anÃ¡lise Ã© baseada em trÃªs mÃ©tricas principais:

ðŸ”¹Suporte â†’ FrequÃªncia do conjunto de itens na base de compras.<br>
ðŸ”¹ConfianÃ§a â†’ Probabilidade de comprar um item, dado que outro foi comprado.<br>
ðŸ”¹Lift â†’ Mede se a compra conjunta acontece por acaso ou hÃ¡ uma forte relaÃ§Ã£o
entre os itens.<br>

(AnÃ¡lise de cesta de mercado) - Loja Franquia

**Importando as bibliotecas necessÃ¡rias**

In [None]:
# Importando as bibliotecas necessÃ¡rias
import pandas as pd
from mlxtend.preprocessing import TransactionEncoder
from mlxtend.frequent_patterns import apriori, association_rules

**Leitura dos dados**

In [None]:
# Carregue o arquivo Excel. Verifique o caminho do arquivo conforme necessÃ¡rio.
df = pd.read_excel("dados_loja.xlsm", sheet_name='dados_loja')

In [None]:
# Visualize as primeiras linhas para confirmar a estrutura dos dados
print("Dados originais:")
df.head()

**Agrupamento dos produtos por transaÃ§Ã£o**

In [None]:
df['data_str'] = df['DATA EMISSÃƒO'].dt.strftime('%d%m%Y')
df['NF_str'] = df['nÂº NF'].astype(str)
df['cupom_id'] = df['NF_str'] + df['data_str']

In [None]:
# Supondo que cada transaÃ§Ã£o seja identificada pelo 'cupom_id'
# Cria uma lista de transaÃ§Ãµes onde cada transaÃ§Ã£o Ã© uma lista de produtos comprados juntos.
transactions = df.groupby('cupom_id')['MODELO'].apply(list).tolist()

In [None]:
# Exibe alguns exemplos de transaÃ§Ãµes
print("\nExemplo de transaÃ§Ãµes:")
for i, trans in enumerate(transactions[:5]):
    print(f"TransaÃ§Ã£o {i+1}: {trans}")

**TransformaÃ§Ã£o dos dados para o formato one-hot encoding**

In [None]:
# O TransactionEncoder converte a lista de transaÃ§Ãµes em um array binÃ¡rio, onde cada coluna representa um produto.
te = TransactionEncoder()
te_array = te.fit_transform(transactions)
df_trans = pd.DataFrame(te_array, columns=te.columns_)

In [None]:
# Visualize o DataFrame transformado
print("\nDados apÃ³s one-hot encoding:")
df_trans.head()

**AplicaÃ§Ã£o do algoritmo Apriori para encontrar itemsets frequentes**

In [None]:
# Defina um suporte mÃ­nimo (exemplo: 2% das transaÃ§Ãµes). Ajuste conforme a necessidade.
min_support = 0.02
frequent_itemsets = apriori(df_trans, min_support=min_support, use_colnames=True)

In [None]:
# Ordene os itemsets por suporte para ver os mais frequentes
frequent_itemsets = frequent_itemsets.sort_values(by='support', ascending=False)
print("\nItemsets frequentes (suporte >= {:.0%}):".format(min_support))
frequent_itemsets.head()

**GeraÃ§Ã£o das regras de associaÃ§Ã£o**

In [None]:
# Defina uma confianÃ§a mÃ­nima (exemplo: 30%). VocÃª pode ajustar conforme seu interesse.
min_confidence = 0.3
rules = association_rules(frequent_itemsets, metric="confidence", min_threshold=min_confidence)

In [None]:
# Ordene as regras pela confianÃ§a para ver as mais fortes
rules = rules.sort_values(by='confidence', ascending=False)
print("\nRegras de associaÃ§Ã£o (confianÃ§a >= {:.0%}):".format(min_confidence))
rules.head()

**Exemplo de interpretaÃ§Ã£o dos resultados:**

In [None]:
# Construindo a tabela de probabilidade de compra (confianÃ§a)
# Para cada par de produtos (A, B), vamos calcular:
#   confianÃ§a(A -> B) = suporte(A e B) / suporte(A)

# Obtemos a lista de produtos a partir das colunas do DataFrame one-hot encoded
produtos = df_trans.columns

# Calcula o suporte individual de cada produto (mÃ©dia da coluna True/False)
suportes = df_trans.mean()

# Cria um DataFrame vazio para armazenar as confianÃ§as, indexado e com colunas iguais Ã  lista de produtos
conf_table = pd.DataFrame(index=produtos, columns=produtos)

# Para cada par de produtos (A, B), calcular confianÃ§a(A -> B)
for produto_a in produtos:
    for produto_b in produtos:
        # Se A e B forem iguais, nÃ£o faz sentido calcular (poderÃ­amos colocar 1 ou deixar vazio)
        if produto_a == produto_b:
            conf_table.loc[produto_a, produto_b] = None
        else:
            # Suporte da conjunÃ§Ã£o: transaÃ§Ãµes onde A e B aparecem juntas
            suporte_a_b = (df_trans[produto_a] & df_trans[produto_b]).mean()
            # Se o suporte de A for zero, a confianÃ§a nÃ£o pode ser calculada; caso contrÃ¡rio, calcula
            if suportes[produto_a] > 0:
                conf = suporte_a_b / suportes[produto_a]
            else:
                conf = 0
            conf_table.loc[produto_a, produto_b] = conf

# Converter os valores para float (exceto os nulos)
conf_table = conf_table.astype(float)

print("\nTabela de probabilidade de compra (confianÃ§a):")
conf_table