# üõí Regras de Associa√ß√£o (Apriori) ‚Äî Cross-sell de Produtos
**P√≥s-Gradua√ß√£o BI & Analytics ¬∑ ML Aplicado a Decis√µes de Neg√≥cio**

---

### üì° Sinal de Neg√≥cio
> A segmenta√ß√£o revelou que clientes do Cluster de Risco t√™m `num_produtos_distintos = 1.3` ‚Äî compram quase s√≥ um produto.  
> O diretor comercial pergunta: **existem produtos que costumam ser comprados juntos?**  
> Se sim, podemos criar ofertas de cross-sell autom√°ticas no momento do pedido.

### üèóÔ∏è O que vamos construir
Regras de associa√ß√£o que identificam padr√µes de co-ocorr√™ncia entre produtos.  
A sa√≠da √© uma tabela de recomenda√ß√µes **ranqueadas por lift**.

---
### Roteiro
1. Importar e explorar a base transacional
2. Pr√©-processamento: pivot para matriz bin√°ria (passo cr√≠tico)
3. Calcular Apriori (itens frequentes)
4. Gerar regras de associa√ß√£o
5. Filtrar e ranquear pelo lift
6. Visualizar as regras
7. Sa√≠da acion√°vel: tabela de cross-sell

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: imports ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings('ignore')

# instalar mlxtend se necess√°rio
try:
    from mlxtend.frequent_patterns import apriori, association_rules
    from mlxtend.preprocessing import TransactionEncoder
    print('‚úÖ mlxtend carregado')
except ImportError:
    print('Instalando mlxtend...')
    import subprocess
    subprocess.run(['pip', 'install', 'mlxtend', '-q'])
    from mlxtend.frequent_patterns import apriori, association_rules
    from mlxtend.preprocessing import TransactionEncoder
    print('‚úÖ mlxtend instalado e carregado')

plt.rcParams.update({'figure.dpi': 120, 'axes.spines.top': False, 'axes.spines.right': False})
print('‚úÖ Bibliotecas prontas')

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: carregar base transacional ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
URL = 'https://raw.githubusercontent.com/SEU_USUARIO/ml-bi-analytics-aula/main/data/transacoes_itens.csv'
# df = pd.read_csv('transacoes_itens.csv')  # local
df = pd.read_csv(URL)
print(f'Shape: {df.shape}')
print(f'Transa√ß√µes √∫nicas: {df.id_transacao.nunique():,}')
print(f'Clientes √∫nicos: {df.id_cliente.nunique():,}')
print(f'Produtos √∫nicos: {df.produto.nunique()}')
print(f'Per√≠odo: {df.data_pedido.min()} ‚Üí {df.data_pedido.max()}')
df.head(8)

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: EDA da base transacional ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig, axes = plt.subplots(1, 3, figsize=(15, 4))

# Frequ√™ncia por produto
freq_prod = df.groupby('produto')['id_transacao'].nunique().sort_values(ascending=True)
axes[0].barh(freq_prod.index, freq_prod.values, color='#2f6ec8')
axes[0].set(title='Transa√ß√µes por Produto', xlabel='N¬∫ de Transa√ß√µes')

# Itens por transa√ß√£o
itens_por_tx = df.groupby('id_transacao')['produto'].count()
axes[1].hist(itens_por_tx, bins=range(1, 8), color='#2a8c5a', edgecolor='white', align='left')
axes[1].set(title='Itens por Transa√ß√£o', xlabel='N¬∫ de Produtos', ylabel='Frequ√™ncia')

# Volume por categoria
vol_cat = df.groupby('categoria')['valor_item'].sum().sort_values()
axes[2].barh(vol_cat.index, vol_cat.values, color='#7c3dc8')
axes[2].set(title='Faturamento por Categoria', xlabel='R$')

plt.tight_layout()
plt.show()
print(f'\nM√©dia de itens por transa√ß√£o: {itens_por_tx.mean():.1f}')

## 2. Pr√©-Processamento: Pivot para Matriz Bin√°ria

> ‚ö†Ô∏è **Este √© o passo mais importante do Apriori e o mais esquecido.**  
> A base est√° em formato *longo* (1 linha = 1 produto de 1 pedido).  
> O Apriori precisa de formato *largo*: 1 linha = 1 pedido, 1 coluna = 1 produto, valor = 0/1.

In [None]:
# ‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
# ‚ïë  COMPLETE AQUI ‚Äî Pivot para matriz bin√°ria transa√ß√£o√óproduto  ‚ïë
# ‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù
# Dica: df.groupby(['id_transacao','produto'])['qtd'].sum().unstack(fill_value=0)
# Depois: converter para 0/1 com .applymap(lambda x: 1 if x > 0 else 0)
# (ou: basket > 0 para vers√£o mais limpa)

basket = df.groupby([___, ___])['qtd'].sum().unstack(fill_value=___)
basket = basket.applymap(lambda x: ___ if x > 0 else ___).astype(bool)

print(f'Matriz gerada: {basket.shape}')
print(f'  {basket.shape[0]:,} transa√ß√µes √ó {basket.shape[1]} produtos')
print(f'  Densidade: {basket.values.mean():.1%}')
basket.head()

## 3. Calcular Itemsets Frequentes (Apriori)

In [None]:
# ‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
# ‚ïë  COMPLETE AQUI ‚Äî Rodar apriori()                   ‚ïë
# ‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù
# Dica: apriori(basket, min_support=0.02, use_colnames=True)
# min_support: propor√ß√£o de transa√ß√µes onde o itemset aparece
# Tente 0.01 se retornar poucos itemsets

frequent_items = apriori(basket, min_support=___, use_colnames=True)
frequent_items['n_items'] = frequent_items['itemsets'].apply(len)

print(f'Itemsets frequentes encontrados: {len(frequent_items):,}')
print('\nDistribui√ß√£o por tamanho:')
print(frequent_items['n_items'].value_counts().sort_index().to_string())
print('\nTop 10 por suporte:')
frequent_items.sort_values('support', ascending=False).head(10)

## 4. Gerar Regras de Associa√ß√£o

In [None]:
# ‚ïî‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïó
# ‚ïë  COMPLETE AQUI ‚Äî Gerar regras e filtrar por lift > 1.2    ‚ïë
# ‚ïö‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïù
# Dica: association_rules(frequent_items, metric='lift', min_threshold=1.2)
# Depois: filtrar confidence >= 0.30

rules = association_rules(frequent_items, metric=___, min_threshold=___)
rules = rules[rules['confidence'] >= ___].copy()

# Formatar para leitura
rules['antecedents_str'] = rules['antecedents'].apply(lambda x: ', '.join(sorted(x)))
rules['consequents_str'] = rules['consequents'].apply(lambda x: ', '.join(sorted(x)))

print(f'Regras geradas: {len(rules):,}')
print('\nTop 10 por lift:')
rules.sort_values('lift', ascending=False)[
    ['antecedents_str','consequents_str','support','confidence','lift']
].head(10)

## 5. Visualizar ‚Äî Scatter Suporte √ó Confian√ßa

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: scatter das regras ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
fig, axes = plt.subplots(1, 2, figsize=(13, 5))

# Scatter suporte √ó confian√ßa, tamanho = lift
scatter = axes[0].scatter(
    rules['support'], rules['confidence'],
    s=rules['lift'] * 30, c=rules['lift'],
    cmap='RdYlGn', alpha=0.7, edgecolors='white', lw=0.5
)
plt.colorbar(scatter, ax=axes[0], label='Lift')
axes[0].set(title='Regras de Associa√ß√£o\n(tamanho = lift)',
            xlabel='Suporte', ylabel='Confian√ßa')
axes[0].axhline(0.4, color='#888', lw=1, linestyle='--', label='conf=0.4')
axes[0].legend(fontsize=8)

# Top 15 regras por lift ‚Äî gr√°fico de barras
top15 = rules.nlargest(15, 'lift')
labels = [f"{r['antecedents_str']} ‚Üí\n{r['consequents_str']}"
          for _, r in top15.iterrows()]
cores  = plt.cm.RdYlGn(np.linspace(0.4, 0.9, 15))
axes[1].barh(range(len(top15)), top15['lift'].values, color=cores[::-1])
axes[1].set(yticks=range(len(top15)), yticklabels=labels,
            title='Top 15 Regras por Lift', xlabel='Lift')
axes[1].axvline(1, color='#888', lw=1, linestyle='--')
axes[1].tick_params(axis='y', labelsize=7)

plt.tight_layout()
plt.show()

print('\nüí° Lift > 1: os produtos ocorrem juntos mais do que o acaso esperaria.')
print('   Lift = 1: independentes. Lift < 1: substitutos.')

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: matriz de lift entre produtos ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
prods = sorted(df['produto'].unique())
matrix = pd.DataFrame(1.0, index=prods, columns=prods)

for _, row in rules.iterrows():
    if len(row['antecedents']) == 1 and len(row['consequents']) == 1:
        a = list(row['antecedents'])[0]
        c = list(row['consequents'])[0]
        if a in prods and c in prods:
            matrix.loc[a, c] = row['lift']

fig, ax = plt.subplots(figsize=(10, 7))
im = ax.imshow(matrix.values, cmap='RdYlGn', vmin=0.5, vmax=3.5)
ax.set(xticks=range(len(prods)), yticks=range(len(prods)),
       xticklabels=[p.replace('Produto ','') for p in prods],
       yticklabels=[p.replace('Produto ','') for p in prods])
plt.setp(ax.get_xticklabels(), rotation=45, ha='right')

for i in range(len(prods)):
    for j in range(len(prods)):
        val = matrix.values[i, j]
        if val != 1.0:
            ax.text(j, i, f'{val:.1f}', ha='center', va='center', fontsize=8)

plt.colorbar(im, ax=ax, label='Lift', shrink=0.8)
ax.set_title('Matriz de Lift entre Produtos\n(verde = complementares, vermelho = substitutos)',
             fontweight='bold')
plt.tight_layout()
plt.show()

## 7. Sa√≠da Acion√°vel ‚Äî Tabela de Cross-sell

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: tabela de recomenda√ß√µes ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
tabela_crosssell = rules[
    (rules['lift'] > 1.5) &
    (rules['confidence'] >= 0.35) &
    (rules['support'] >= 0.01)
].sort_values('lift', ascending=False)[[
    'antecedents_str', 'consequents_str',
    'support', 'confidence', 'lift'
]].copy()

tabela_crosssell.columns = [
    'Se comprou', 'Recomendar',
    'Suporte', 'Confian√ßa', 'Lift'
]
tabela_crosssell = tabela_crosssell.reset_index(drop=True)
tabela_crosssell['Suporte']    = tabela_crosssell['Suporte'].map('{:.1%}'.format)
tabela_crosssell['Confian√ßa']  = tabela_crosssell['Confian√ßa'].map('{:.1%}'.format)
tabela_crosssell['Lift']       = tabela_crosssell['Lift'].round(2)

print(f'Regras de cross-sell qualificadas: {len(tabela_crosssell)}')
print('\nTabela final para o time comercial:')
print(tabela_crosssell.to_string(index=False))

tabela_crosssell.to_csv('regras_crosssell.csv', index=False)
print('\n‚úÖ regras_crosssell.csv exportada')
print('\nüí° Integrar essa tabela no CRM:')
print('   Quando cliente adicionar produto X ao carrinho ‚Üí sugerir Y automaticamente.')

In [None]:
# ‚îÄ‚îÄ C√âLULA PRONTA: conex√£o com sistemas de recomenda√ß√£o ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ
print('='*60)
print('DA REGRA DE ASSOCIA√á√ÉO AO SISTEMA DE RECOMENDA√á√ÉO')
print('='*60)
print()
print('Voc√™ acabou de implementar a vers√£o fundacional do mesmo')
print('conceito que est√° por tr√°s de:')
print()
print('  Apriori / FP-Growth     ‚Üê o que fizemos agora')
print('       ‚Üì escala e personaliza√ß√£o')
print('  Collaborative Filtering  ‚Üê "quem comprou X tamb√©m comprou Y"')
print('       ‚Üì fatores latentes')
print('  Matrix Factorization     ‚Üê t√©cnica do Netflix Prize (2009)')
print('       ‚Üì deep learning')
print('  Neural Collaborative     ‚Üê estado da arte atual')
print()
print('A diferen√ßa: escala (milh√µes de usu√°rios e itens)')
print('e personaliza√ß√£o (cada usu√°rio tem seu vetor latente).')
print()
print('O princ√≠pio √© o mesmo: encontrar padr√µes de co-ocorr√™ncia.')