In [3]:
import pandas as pd
import dotenv
import os
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import warnings
import psycopg2
from itertools import combinations

In [8]:
warnings.filterwarnings('ignore', category=DeprecationWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

dotenv.load_dotenv()
# Configuração da conexão
config = {
    "host":     os.getenv("host_gcp"),
    "dbname":   "espantalhopneus",
    "user":     os.getenv("meuUser"),
    "password": os.getenv("minhaSenha"),
    "port":     os.getenv("port_gcp")
}

try:
    # Conectar ao banco e criar cursor
    conn = psycopg2.connect(**config)
    cursor = conn.cursor()
    print("Conectado!")

    # cursor.execute("SELECT table_name FROM information_schema.tables WHERE table_schema = 'public';")
    # tables = cursor.fetchall()
    # print(tables)

    #Executar a query na tabela vendas
    query = "SELECT * FROM vendaitens;"
    cursor.execute(query)
    # Obter todas as linhas retornadas
    linhas = cursor.fetchall()
    # Obter os nomes das colunas a partir do cursor.description
    colunas = [desc[0] for desc in cursor.description]
    # Criar o DataFrame com os dados e as colunas
    df_venda_itens = pd.DataFrame(linhas, columns=colunas)
    
    #Exibir as primeiras linhas do DataFrame vendas e clientes
    print("TABLE Venda Itens")
    print(df_venda_itens.head())
    # df_venda_itens.to_excel('venda_itens.xlsx', index=False)
    
    # Fechar cursor e conexão
    cursor.close()
    conn.close()
    print("fechando cursor e conn")
except Exception as e:
    print(f"Erro ao conectar ou executar a query: {e}")

Conectado!
TABLE Venda Itens
   id_venda_item  id_venda  id_produto  quantidade preco_unitario desconto  \
0              1    749935           1           1         591.00     0.00   
1              2    667256           1           1          95.00     0.00   
2              3    694392           1           1          40.00     0.00   
3              4    708124           1           1          60.00     0.00   
4              5    716627           1           1          20.00     0.00   

  cep_entrega total_item  
0    69037000     591.00  
1    69048470      95.00  
2    69000000      40.00  
3    69000000      60.00  
4    69000000      20.00  
fechando cursor e conn


In [6]:
warnings.filterwarnings('ignore', category=DeprecationWarning)
warnings.filterwarnings('ignore', category=FutureWarning)

dotenv.load_dotenv()
# Configuração da conexão
config = {
    "host":     os.getenv("host_gcp"),
    "dbname":   "espantalhopneus",
    "user":     os.getenv("meuUser"),
    "password": os.getenv("minhaSenha"),
    "port":     os.getenv("port_gcp")
}

try:
    # Conectar ao banco e criar cursor
    conn = psycopg2.connect(**config)
    cursor = conn.cursor()
    print("Conectado!")

    query = "SELECT * FROM vendas;"
    cursor.execute(query)
    linhas = cursor.fetchall()
    colunas = [desc[0] for desc in cursor.description]
    df_vendas = pd.DataFrame(linhas, columns=colunas)

    print("TABLE Vendas")
    print(df_vendas.head())
    
    
    # Fechar cursor e conexão
    cursor.close()
    conn.close()
    print("fechando cursor e conn")
except Exception as e:
    print(f"Erro ao conectar ou executar a query: {e}")

Conectado!
TABLE Vendas
   id_venda  id_cliente  id_loja  data_venda total_venda total_custo  \
0    610621           8        3  2018-04-01       20.00        0.00   
1    620575        8680        1  2018-04-01      560.00      395.56   
2    620576        8680        1  2018-04-01      140.00        0.00   
3    620579       10717        1  2018-04-01     3380.00     2198.24   
4    620580       10717        1  2018-04-01      280.00        0.00   

      forma_pagamento status desconto_total  
0        1 - DINHEIRO  Venda           0.00  
1        1 - DINHEIRO  Venda           0.00  
2        1 - DINHEIRO  Venda           0.00  
3  3 - CARTÃO CREDITO  Venda           0.00  
4  3 - CARTÃO CREDITO  Venda           0.00  
fechando cursor e conn


In [12]:
df_vendas = df_vendas[df_vendas['status'] == 'Venda']
df_vendas['data_venda'] = pd.to_datetime(df_vendas['data_venda'])
df_venda_itens = df_venda_itens.merge(df_vendas[['id_venda', 'data_venda']], on='id_venda', how='left')
print(df_venda_itens.columns)

Index(['id_venda_item', 'id_venda', 'id_produto', 'quantidade',
       'preco_unitario', 'desconto', 'cep_entrega', 'total_item',
       'data_venda'],
      dtype='object')


In [13]:
def create_association_rules(df_venda_itens, min_support=0.01, min_confidence=0.2):
    print("Preparando dados...")
    
    # Criar matriz de produtos por pedido mais eficiente
    basket = pd.crosstab(df_venda_itens['id_venda'], df_venda_itens['id_produto'])
    
    # Calcular suporte de cada produto de forma vetorizada
    total_pedidos = len(basket)
    support_produtos = (basket > 0).sum() / total_pedidos
    
    # Filtrar produtos frequentes
    produtos_frequentes = support_produtos[support_produtos >= min_support].index
    basket_filtered = basket[produtos_frequentes]
    
    print(f"Produtos frequentes encontrados: {len(produtos_frequentes)}")
    
    # Criar regras apenas para produtos frequentes
    rules = []
    basket_bool = (basket_filtered > 0)
    
    print("Gerando regras...")
    for prod1, prod2 in combinations(produtos_frequentes, 2):
        # Calcular suporte e confiança vetorialmente
        support_pair = (basket_bool[prod1] & basket_bool[prod2]).sum() / total_pedidos
        
        if support_pair >= min_support:
            confidence = support_pair / support_produtos[prod1]
            
            if confidence >= min_confidence:
                lift = confidence / support_produtos[prod2]
                
                rules.append({
                    'produto_base': prod1,
                    'produto_recomendado': prod2,
                    'suporte': support_pair,
                    'confianca': confidence,
                    'lift': lift
                })
    
    rules_df = pd.DataFrame(rules)
    
    if not rules_df.empty:
        rules_df = rules_df.sort_values('lift', ascending=False)
    
    return rules_df

# Executar análise
try:
    print("Iniciando análise de cross-selling...")
    df_venda_itens_2023 = df_venda_itens[df_venda_itens['data_venda'] >= pd.Timestamp('2023-01-01')]
    rules = create_association_rules(df_venda_itens_2023)
    
    if not rules.empty:
        # Formatar resultados
        rules['suporte'] = rules['suporte'].round(3)
        rules['confianca'] = rules['confianca'].round(3)
        rules['lift'] = rules['lift'].round(2)
        
        # Salvar resultados
        rules.to_excel('cross_selling_recommendations.xlsx', index=False)
        
        print("\nTop 10 Recomendações:")
        print(rules.head(10))
        
        print(f"\nTotal de regras geradas: {len(rules)}")
        print(f"Média de Lift: {rules['lift'].mean():.2f}")
        print(f"Média de Confiança: {(rules['confianca'] * 100).mean():.2f}%")
        
    else:
        print("Nenhuma regra encontrada com os critérios especificados")
        
except Exception as e:
    print(f"Erro: {str(e)}")

Iniciando análise de cross-selling...
Preparando dados...
Produtos frequentes encontrados: 24
Gerando regras...

Top 10 Recomendações:
   produto_base  produto_recomendado  suporte  confianca   lift
3          5052                 5058    0.043      0.779  12.25
2          5044                 5055    0.241      0.842   2.85
0           252                 5044    0.024      0.509   1.78
1           252                 5055    0.021      0.452   1.53

Total de regras geradas: 4
Média de Lift: 4.60
Média de Confiança: 64.55%
