# An√°lise Explorat√≥ria de Dados (EDA) - Hackathon Forecast 2025

Este notebook realiza a an√°lise explorat√≥ria completa dos dados do hackathon, incluindo:
1. Carregamento e inspe√ß√£o dos tr√™s arquivos Parquet
2. An√°lise das transa√ß√µes como s√©rie temporal
3. Identifica√ß√£o de tend√™ncias e sazonalidade
4. An√°lise de distribui√ß√µes
5. **An√°lise dos cadastros (PDVs e Produtos)**
6. **Long Tail Analysis**
7. **Cruzamento de dados (Merge)**
8. **An√°lises por categoria de PDV**
9. **An√°lises geogr√°ficas (Zipcode)**
10. **Insights e recomenda√ß√µes para modelagem**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

print("Bibliotecas carregadas com sucesso!")

## 1. Carregamento e Inspe√ß√£o dos Dados

In [None]:
# Carregar os tr√™s arquivos Parquet
data_path = '../data/'

# Lista dos arquivos parquet dispon√≠veis
import os
parquet_files = [f for f in os.listdir(data_path) if f.endswith('.parquet')]
print(f"Arquivos encontrados: {len(parquet_files)}")
for file in parquet_files:
    print(f"  - {file}")

# Carregar cada arquivo e identificar sua natureza pelos dados
dataframes = {}
for i, file in enumerate(parquet_files):
    df = pd.read_parquet(os.path.join(data_path, file))
    dataframes[f'df_{i+1}'] = df
    print(f"\n{file}:")
    print(f"  Forma: {df.shape}")
    print(f"  Colunas: {list(df.columns)}")

In [None]:
# Identificar qual dataset √© qual baseado nas colunas
transacoes_df = None
produtos_df = None
pdvs_df = None

for key, df in dataframes.items():
    cols = list(df.columns)
    
    # Identificar transa√ß√µes (maior dataset, com quantity/transaction_date)
    if len(df) > 100000:
        transacoes_df = df
        print(f"\n{key} identificado como TRANSA√á√ïES")
        
    # Identificar produtos (tem produto, categoria, marca)
    elif any('produto' in col.lower() for col in cols) or any('categoria' in col.lower() for col in cols):
        produtos_df = df
        print(f"\n{key} identificado como PRODUTOS")
        
    # Identificar PDVs (tem pdv, premise)
    elif any('pdv' in col.lower() for col in cols) or any('premise' in col.lower() for col in cols):
        pdvs_df = df
        print(f"\n{key} identificado como PDVs")

print(f"\n‚úÖ Datasets identificados:")
print(f"  - Transa√ß√µes: {transacoes_df.shape if transacoes_df is not None else 'N√£o encontrado'}")
print(f"  - Produtos: {produtos_df.shape if produtos_df is not None else 'N√£o encontrado'}")
print(f"  - PDVs: {pdvs_df.shape if pdvs_df is not None else 'N√£o encontrado'}")

## 2. Inspe√ß√£o Detalhada dos Datasets

In [None]:
def inspecionar_dataset(df, nome):
    print(f"\n{'='*50}")
    print(f"AN√ÅLISE DO DATASET: {nome}")
    print(f"{'='*50}")
    
    print(f"\nüìä INFORMA√á√ïES GERAIS:")
    print(f"   Forma: {df.shape}")
    print(f"   Colunas: {list(df.columns)}")
    
    print(f"\nüîç TIPOS DE DADOS E VALORES NULOS:")
    info_df = pd.DataFrame({
        'Tipo': df.dtypes,
        'Nulos': df.isnull().sum(),
        '% Nulos': (df.isnull().sum() / len(df) * 100).round(2),
        '√önicos': df.nunique()
    })
    print(info_df)
    
    print(f"\nüìà ESTAT√çSTICAS DESCRITIVAS (Colunas Num√©ricas):")
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print(df[numeric_cols].describe())
    else:
        print("   Nenhuma coluna num√©rica encontrada")
    
    print(f"\nüëÄ PRIMEIRAS 5 LINHAS:")
    display(df.head())
    
    return info_df

In [None]:
# Analisar cada dataset
if transacoes_df is not None:
    transacoes_info = inspecionar_dataset(transacoes_df, "TRANSA√á√ïES")

if produtos_df is not None:
    produtos_info = inspecionar_dataset(produtos_df, "PRODUTOS")

if pdvs_df is not None:
    pdvs_info = inspecionar_dataset(pdvs_df, "PDVs")

## 3. An√°lise da S√©rie Temporal de Transa√ß√µes

In [None]:
# Preparar dados de transa√ß√µes para an√°lise temporal
if transacoes_df is not None:
    # Identificar coluna de data
    date_cols = [col for col in transacoes_df.columns if 'date' in col.lower()]
    
    print(f"Colunas de data identificadas: {date_cols}")
    
    if date_cols:
        date_col = 'transaction_date'  # Usar a coluna de transa√ß√£o
        # Converter para datetime se necess√°rio
        if transacoes_df[date_col].dtype != 'datetime64[ns]':
            transacoes_df[date_col] = pd.to_datetime(transacoes_df[date_col], errors='coerce')
        
        print(f"\nUsando coluna de data: {date_col}")
        print(f"Per√≠odo dos dados: {transacoes_df[date_col].min()} at√© {transacoes_df[date_col].max()}")
        print(f"Total de dias: {(transacoes_df[date_col].max() - transacoes_df[date_col].min()).days + 1}")
    else:
        print("‚ùå N√£o foi poss√≠vel identificar coluna de data")

In [None]:
# Identificar colunas de quantidade e faturamento
if transacoes_df is not None and date_cols:
    # Definir colunas baseado no que vimos
    qty_col = 'quantity'
    revenue_col = 'gross_value'
    
    print(f"Colunas identificadas:")
    print(f"  Data: {date_col}")
    print(f"  Quantidade: {qty_col}")
    print(f"  Faturamento: {revenue_col}")

In [None]:
# Agregar dados por dia
if transacoes_df is not None and date_cols:
    daily_data = transacoes_df.groupby(date_col).agg({
        qty_col: ['sum', 'count'],
        revenue_col: 'sum'
    }).round(2)
    
    # Simplificar nomes das colunas
    daily_data.columns = ['Quantidade_Total', 'Num_Transacoes', 'Faturamento_Total']
    daily_data = daily_data.reset_index()
    
    print(f"\nüìä RESUMO DA S√âRIE TEMPORAL DI√ÅRIA:")
    print(f"   Total de dias com dados: {len(daily_data)}")
    print(f"   Quantidade total vendida: {daily_data['Quantidade_Total'].sum():,.0f}")
    print(f"   Faturamento total: R$ {daily_data['Faturamento_Total'].sum():,.2f}")
    print(f"   N√∫mero total de transa√ß√µes: {daily_data['Num_Transacoes'].sum():,.0f}")
    
    print(f"\nüìà ESTAT√çSTICAS DI√ÅRIAS:")
    display(daily_data[['Quantidade_Total', 'Num_Transacoes', 'Faturamento_Total']].describe())
    
    display(daily_data.head(10))

## 4. Visualiza√ß√µes da S√©rie Temporal

In [None]:
# Plotar s√©rie temporal completa
if 'daily_data' in locals():
    fig, axes = plt.subplots(3, 1, figsize=(15, 12))
    
    # Gr√°fico 1: Quantidade Total por Dia
    axes[0].plot(daily_data[date_col], daily_data['Quantidade_Total'], linewidth=1, alpha=0.7, color='blue')
    axes[0].set_title('üì¶ Quantidade Total Vendida por Dia', fontsize=14, fontweight='bold')
    axes[0].set_ylabel('Quantidade')
    axes[0].grid(True, alpha=0.3)
    axes[0].tick_params(axis='x', rotation=45)
    
    # Gr√°fico 2: Faturamento por Dia
    axes[1].plot(daily_data[date_col], daily_data['Faturamento_Total'], linewidth=1, alpha=0.7, color='green')
    axes[1].set_title('üí∞ Faturamento Total por Dia', fontsize=14, fontweight='bold')
    axes[1].set_ylabel('Faturamento (R$)')
    axes[1].grid(True, alpha=0.3)
    axes[1].tick_params(axis='x', rotation=45)
    
    # Gr√°fico 3: N√∫mero de Transa√ß√µes por Dia
    axes[2].plot(daily_data[date_col], daily_data['Num_Transacoes'], linewidth=1, alpha=0.7, color='orange')
    axes[2].set_title('üõí N√∫mero de Transa√ß√µes por Dia', fontsize=14, fontweight='bold')
    axes[2].set_ylabel('N√∫mero de Transa√ß√µes')
    axes[2].set_xlabel('Data')
    axes[2].grid(True, alpha=0.3)
    axes[2].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()
    
    # Adicionar m√©dias m√≥veis para identificar tend√™ncias
    daily_data['Quantidade_MA7'] = daily_data['Quantidade_Total'].rolling(window=7).mean()
    daily_data['Quantidade_MA30'] = daily_data['Quantidade_Total'].rolling(window=30).mean()
    daily_data['Faturamento_MA7'] = daily_data['Faturamento_Total'].rolling(window=7).mean()
    daily_data['Faturamento_MA30'] = daily_data['Faturamento_Total'].rolling(window=30).mean()

## 5. An√°lise de Sazonalidade

In [None]:
# An√°lise de sazonalidade
if 'daily_data' in locals():
    # Extrair componentes de data
    daily_data['Ano'] = daily_data[date_col].dt.year
    daily_data['Mes'] = daily_data[date_col].dt.month
    daily_data['Dia_Semana'] = daily_data[date_col].dt.dayofweek  # 0=Segunda, 6=Domingo
    daily_data['Nome_Dia_Semana'] = daily_data[date_col].dt.day_name()
    daily_data['Nome_Mes'] = daily_data[date_col].dt.month_name()
    daily_data['Dia_Mes'] = daily_data[date_col].dt.day
    daily_data['Semana_Ano'] = daily_data[date_col].dt.isocalendar().week
    
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Vendas por m√™s
    monthly_sales = daily_data.groupby('Nome_Mes')['Quantidade_Total'].mean()
    month_order = ['January', 'February', 'March', 'April', 'May', 'June', 
                   'July', 'August', 'September', 'October', 'November', 'December']
    monthly_sales = monthly_sales.reindex([m for m in month_order if m in monthly_sales.index])
    
    monthly_sales.plot(kind='bar', ax=axes[0,0], color='skyblue')
    axes[0,0].set_title('üìÖ Quantidade M√©dia Vendida por M√™s', fontweight='bold')
    axes[0,0].set_ylabel('Quantidade M√©dia')
    axes[0,0].tick_params(axis='x', rotation=45)
    axes[0,0].grid(True, alpha=0.3)
    
    # Vendas por dia da semana
    weekday_sales = daily_data.groupby('Nome_Dia_Semana')['Quantidade_Total'].mean()
    weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 'Friday', 'Saturday', 'Sunday']
    weekday_sales = weekday_sales.reindex([d for d in weekday_order if d in weekday_sales.index])
    
    weekday_sales.plot(kind='bar', ax=axes[0,1], color='lightcoral')
    axes[0,1].set_title('üìä Quantidade M√©dia Vendida por Dia da Semana', fontweight='bold')
    axes[0,1].set_ylabel('Quantidade M√©dia')
    axes[0,1].tick_params(axis='x', rotation=45)
    axes[0,1].grid(True, alpha=0.3)
    
    # Faturamento por m√™s
    monthly_revenue = daily_data.groupby('Nome_Mes')['Faturamento_Total'].mean()
    monthly_revenue = monthly_revenue.reindex([m for m in month_order if m in monthly_revenue.index])
    
    monthly_revenue.plot(kind='bar', ax=axes[1,0], color='lightgreen')
    axes[1,0].set_title('üí∞ Faturamento M√©dio por M√™s', fontweight='bold')
    axes[1,0].set_ylabel('Faturamento M√©dio (R$)')
    axes[1,0].tick_params(axis='x', rotation=45)
    axes[1,0].grid(True, alpha=0.3)
    
    # Faturamento por dia da semana
    weekday_revenue = daily_data.groupby('Nome_Dia_Semana')['Faturamento_Total'].mean()
    weekday_revenue = weekday_revenue.reindex([d for d in weekday_order if d in weekday_revenue.index])
    
    weekday_revenue.plot(kind='bar', ax=axes[1,1], color='gold')
    axes[1,1].set_title('üí∏ Faturamento M√©dio por Dia da Semana', fontweight='bold')
    axes[1,1].set_ylabel('Faturamento M√©dio (R$)')
    axes[1,1].tick_params(axis='x', rotation=45)
    axes[1,1].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

## 6. Agrega√ß√£o para Dados Semanais

In [None]:
# Como o objetivo √© prever vendas semanais, vamos agregar os dados
if 'daily_data' in locals():
    # Criar dados semanais
    daily_data['Semana'] = daily_data[date_col].dt.to_period('W').dt.start_time
    
    weekly_data = daily_data.groupby('Semana').agg({
        'Quantidade_Total': 'sum',
        'Faturamento_Total': 'sum',
        'Num_Transacoes': 'sum'
    }).reset_index()
    
    print(f"üìÖ DADOS SEMANAIS AGREGADOS")
    print(f"=" * 40)
    print(f"Total de semanas: {len(weekly_data)}")
    print(f"Per√≠odo: {weekly_data['Semana'].min().strftime('%Y-%m-%d')} at√© {weekly_data['Semana'].max().strftime('%Y-%m-%d')}")
    
    print(f"\nüìä ESTAT√çSTICAS SEMANAIS:")
    display(weekly_data[['Quantidade_Total', 'Faturamento_Total', 'Num_Transacoes']].describe())
    
    # Visualizar dados semanais
    fig, axes = plt.subplots(3, 1, figsize=(15, 12))
    
    axes[0].plot(weekly_data['Semana'], weekly_data['Quantidade_Total'], marker='o', linewidth=2, markersize=4)
    axes[0].set_title('üì¶ Quantidade Total Vendida por Semana', fontsize=14, fontweight='bold')
    axes[0].set_ylabel('Quantidade Total')
    axes[0].grid(True, alpha=0.3)
    
    axes[1].plot(weekly_data['Semana'], weekly_data['Faturamento_Total'], marker='o', linewidth=2, markersize=4, color='green')
    axes[1].set_title('üí∞ Faturamento Total por Semana', fontsize=14, fontweight='bold')
    axes[1].set_ylabel('Faturamento Total (R$)')
    axes[1].grid(True, alpha=0.3)
    
    axes[2].plot(weekly_data['Semana'], weekly_data['Num_Transacoes'], marker='o', linewidth=2, markersize=4, color='orange')
    axes[2].set_title('üõí N√∫mero Total de Transa√ß√µes por Semana', fontsize=14, fontweight='bold')
    axes[2].set_ylabel('N√∫mero de Transa√ß√µes')
    axes[2].set_xlabel('Semana')
    axes[2].grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()
    
    # Mostrar algumas semanas
    print(f"\nüëÄ PRIMEIRAS 10 SEMANAS:")
    display(weekly_data.head(10))
    
    print(f"\nüëÄ √öLTIMAS 10 SEMANAS:")
    display(weekly_data.tail(10))

## 7. An√°lise dos Cadastros (Enriquecimento)

Agora vamos analisar os dados cadastrais de PDVs e Produtos para entender melhor o neg√≥cio.

In [None]:
# An√°lise detalhada dos PDVs
print("üè™ AN√ÅLISE DOS PONTOS DE VENDA (PDVs)")
print("=" * 50)

if pdvs_df is not None:
    print(f"\nüìä RESUMO GERAL:")
    print(f"   ‚Ä¢ Total de PDVs: {len(pdvs_df):,}")
    print(f"   ‚Ä¢ Colunas: {list(pdvs_df.columns)}")
    
    # Distribui√ß√£o por Premise (On/Off)
    print(f"\nüè¢ DISTRIBUI√á√ÉO POR TIPO DE PREMISE:")
    premise_dist = pdvs_df['premise'].value_counts()
    premise_pct = pdvs_df['premise'].value_counts(normalize=True) * 100
    
    for premise, count in premise_dist.items():
        print(f"   ‚Ä¢ {premise}: {count:,} ({premise_pct[premise]:.1f}%)")
    
    # Distribui√ß√£o por Categoria de PDV
    print(f"\nüè∑Ô∏è DISTRIBUI√á√ÉO POR CATEGORIA DE PDV:")
    categoria_dist = pdvs_df['categoria_pdv'].value_counts().head(15)  # Top 15
    categoria_pct = pdvs_df['categoria_pdv'].value_counts(normalize=True) * 100
    
    for i, (categoria, count) in enumerate(categoria_dist.items()):
        print(f"   {i+1:2d}. {categoria}: {count:,} ({categoria_pct[categoria]:.1f}%)")
    
    # Distribui√ß√£o geogr√°fica (Zipcode)
    print(f"\nüó∫Ô∏è DISTRIBUI√á√ÉO GEOGR√ÅFICA:")
    zipcode_stats = pdvs_df['zipcode'].describe()
    print(f"   ‚Ä¢ Zipcodes √∫nicos: {pdvs_df['zipcode'].nunique():,}")
    print(f"   ‚Ä¢ Zipcode m√©dio: {zipcode_stats['mean']:.0f}")
    print(f"   ‚Ä¢ Range: {zipcode_stats['min']:.0f} - {zipcode_stats['max']:.0f}")
    
    # Top zipcodes com mais PDVs
    print(f"\nüèÜ TOP 10 ZIPCODES COM MAIS PDVs:")
    top_zipcodes = pdvs_df['zipcode'].value_counts().head(10)
    for zipcode, count in top_zipcodes.items():
        print(f"   ‚Ä¢ {zipcode}: {count:,} PDVs")

    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Gr√°fico 1: Distribui√ß√£o por Premise
    premise_dist.plot(kind='pie', ax=axes[0,0], autopct='%1.1f%%', startangle=90)
    axes[0,0].set_title('üè¢ Distribui√ß√£o de PDVs por Tipo de Premise', fontweight='bold')
    axes[0,0].set_ylabel('')
    
    # Gr√°fico 2: Top 15 Categorias de PDV
    categoria_dist.head(15).plot(kind='barh', ax=axes[0,1], color='skyblue')
    axes[0,1].set_title('üè∑Ô∏è Top 15 Categorias de PDV', fontweight='bold')
    axes[0,1].set_xlabel('N√∫mero de PDVs')
    
    # Gr√°fico 3: Distribui√ß√£o de Zipcodes
    axes[1,0].hist(pdvs_df['zipcode'], bins=50, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[1,0].set_title('üó∫Ô∏è Distribui√ß√£o de Zipcodes', fontweight='bold')
    axes[1,0].set_xlabel('Zipcode')
    axes[1,0].set_ylabel('N√∫mero de PDVs')
    
    # Gr√°fico 4: Top 10 Zipcodes
    top_zipcodes.plot(kind='bar', ax=axes[1,1], color='lightgreen')
    axes[1,1].set_title('üèÜ Top 10 Zipcodes com Mais PDVs', fontweight='bold')
    axes[1,1].set_ylabel('N√∫mero de PDVs')
    axes[1,1].tick_params(axis='x', rotation=45)
    
    plt.tight_layout()
    plt.show()

In [None]:
# An√°lise detalhada dos Produtos
print("\nüç∫ AN√ÅLISE DOS PRODUTOS")
print("=" * 50)

if produtos_df is not None:
    print(f"\nüìä RESUMO GERAL:")
    print(f"   ‚Ä¢ Total de produtos: {len(produtos_df):,}")
    print(f"   ‚Ä¢ Colunas: {list(produtos_df.columns)}")
    
    # Distribui√ß√£o por Categoria
    print(f"\nüè∑Ô∏è DISTRIBUI√á√ÉO POR CATEGORIA:")
    categoria_prod_dist = produtos_df['categoria'].value_counts()
    categoria_prod_pct = produtos_df['categoria'].value_counts(normalize=True) * 100
    
    for categoria, count in categoria_prod_dist.items():
        print(f"   ‚Ä¢ {categoria}: {count:,} ({categoria_prod_pct[categoria]:.1f}%)")
    
    # Distribui√ß√£o por Subcategoria (Top 15)
    print(f"\nüìÇ TOP 15 SUBCATEGORIAS:")
    subcategoria_dist = produtos_df['subcategoria'].value_counts().head(15)
    subcategoria_pct = produtos_df['subcategoria'].value_counts(normalize=True) * 100
    
    for i, (subcat, count) in enumerate(subcategoria_dist.items()):
        if pd.notna(subcat):  # Ignorar valores NaN
            print(f"   {i+1:2d}. {subcat}: {count:,} ({subcategoria_pct[subcat]:.1f}%)")
    
    # An√°lise de Marcas
    print(f"\nüè≠ AN√ÅLISE DE MARCAS:")
    print(f"   ‚Ä¢ Total de marcas √∫nicas: {produtos_df['marca'].nunique():,}")
    
    print(f"\nüèÜ TOP 15 MARCAS COM MAIS PRODUTOS:")
    top_marcas = produtos_df['marca'].value_counts().head(15)
    marca_pct = produtos_df['marca'].value_counts(normalize=True) * 100
    
    for i, (marca, count) in enumerate(top_marcas.items()):
        print(f"   {i+1:2d}. {marca}: {count:,} ({marca_pct[marca]:.2f}%)")
    
    # An√°lise de Fabricantes
    print(f"\nüè≠ AN√ÅLISE DE FABRICANTES:")
    print(f"   ‚Ä¢ Total de fabricantes √∫nicos: {produtos_df['fabricante'].nunique():,}")
    
    print(f"\nüèÜ TOP 10 FABRICANTES COM MAIS PRODUTOS:")
    top_fabricantes = produtos_df['fabricante'].value_counts().head(10)
    fabricante_pct = produtos_df['fabricante'].value_counts(normalize=True) * 100
    
    for i, (fabricante, count) in enumerate(top_fabricantes.items()):
        print(f"   {i+1:2d}. {fabricante}: {count:,} ({fabricante_pct[fabricante]:.2f}%)")
    
    # An√°lise do campo Label
    print(f"\nüè∑Ô∏è DISTRIBUI√á√ÉO POR LABEL:")
    if produtos_df['label'].notna().sum() > 0:
        label_dist = produtos_df['label'].value_counts()
        label_pct = produtos_df['label'].value_counts(normalize=True) * 100
        
        for label, count in label_dist.items():
            print(f"   ‚Ä¢ {label}: {count:,} ({label_pct[label]:.1f}%)")
        
        missing_labels = produtos_df['label'].isna().sum()
        print(f"   ‚Ä¢ Missing/NaN: {missing_labels:,} ({missing_labels/len(produtos_df)*100:.1f}%)")
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 3, figsize=(20, 12))
    
    # Gr√°fico 1: Distribui√ß√£o por Categoria
    categoria_prod_dist.plot(kind='pie', ax=axes[0,0], autopct='%1.1f%%', startangle=90)
    axes[0,0].set_title('üè∑Ô∏è Distribui√ß√£o de Produtos por Categoria', fontweight='bold')
    axes[0,0].set_ylabel('')
    
    # Gr√°fico 2: Top 15 Subcategorias
    subcategoria_dist.head(15).plot(kind='barh', ax=axes[0,1], color='lightblue')
    axes[0,1].set_title('üìÇ Top 15 Subcategorias', fontweight='bold')
    axes[0,1].set_xlabel('N√∫mero de Produtos')
    
    # Gr√°fico 3: Top 15 Marcas
    top_marcas.head(15).plot(kind='barh', ax=axes[0,2], color='lightgreen')
    axes[0,2].set_title('üèÜ Top 15 Marcas', fontweight='bold')
    axes[0,2].set_xlabel('N√∫mero de Produtos')
    
    # Gr√°fico 4: Top 10 Fabricantes
    top_fabricantes.plot(kind='bar', ax=axes[1,0], color='coral')
    axes[1,0].set_title('üè≠ Top 10 Fabricantes', fontweight='bold')
    axes[1,0].set_ylabel('N√∫mero de Produtos')
    axes[1,0].tick_params(axis='x', rotation=45)
    
    # Gr√°fico 5: Distribui√ß√£o de Labels
    if produtos_df['label'].notna().sum() > 0:
        label_dist.plot(kind='bar', ax=axes[1,1], color='gold')
        axes[1,1].set_title('üè∑Ô∏è Distribui√ß√£o por Label', fontweight='bold')
        axes[1,1].set_ylabel('N√∫mero de Produtos')
        axes[1,1].tick_params(axis='x', rotation=45)
    
    # Gr√°fico 6: Distribui√ß√£o por Tipos
    tipos_dist = produtos_df['tipos'].value_counts().head(15)
    tipos_dist.plot(kind='barh', ax=axes[1,2], color='plum')
    axes[1,2].set_title('üì¶ Top 15 Tipos de Produto', fontweight='bold')
    axes[1,2].set_xlabel('N√∫mero de Produtos')
    
    plt.tight_layout()
    plt.show()

## 8. An√°lise de Long Tail (Distribui√ß√£o 80/20)

In [None]:
# An√°lise de Long Tail - Marcas e Categorias
print("\nüìä AN√ÅLISE DE LONG TAIL (Distribui√ß√£o 80/20)")
print("=" * 50)

if produtos_df is not None:
    # An√°lise Long Tail - Marcas
    print(f"\nüè≠ LONG TAIL - MARCAS:")
    marca_counts = produtos_df['marca'].value_counts()
    total_produtos = len(produtos_df)
    
    # Calcular percentuais acumulativos
    marca_cumsum = marca_counts.cumsum()
    marca_cumsum_pct = (marca_cumsum / total_produtos) * 100
    
    # Encontrar quantas marcas representam 80% dos produtos
    marcas_80pct = (marca_cumsum_pct <= 80).sum()
    produtos_80pct = marca_cumsum.iloc[marcas_80pct-1] if marcas_80pct > 0 else 0
    
    print(f"   ‚Ä¢ Total de marcas: {len(marca_counts):,}")
    print(f"   ‚Ä¢ Top {marcas_80pct} marcas representam 80% dos produtos ({produtos_80pct:,} produtos)")
    print(f"   ‚Ä¢ Concentra√ß√£o: {marcas_80pct/len(marca_counts)*100:.1f}% das marcas = 80% dos produtos")
    
    # Marcas com apenas 1 produto (cauda longa)
    marcas_1produto = (marca_counts == 1).sum()
    print(f"   ‚Ä¢ Marcas com apenas 1 produto: {marcas_1produto:,} ({marcas_1produto/len(marca_counts)*100:.1f}%)")
    
    # An√°lise Long Tail - Categorias  
    print(f"\nüè∑Ô∏è LONG TAIL - CATEGORIAS:")
    categoria_counts = produtos_df['categoria'].value_counts()
    
    print(f"   ‚Ä¢ Total de categorias: {len(categoria_counts):,}")
    for i, (categoria, count) in enumerate(categoria_counts.items()):
        pct = count / total_produtos * 100
        print(f"   {i+1}. {categoria}: {count:,} produtos ({pct:.1f}%)")
    
    # An√°lise Long Tail - Fabricantes
    print(f"\nüè≠ LONG TAIL - FABRICANTES:")
    fabricante_counts = produtos_df['fabricante'].value_counts()
    
    # Calcular percentuais acumulativos para fabricantes
    fabricante_cumsum = fabricante_counts.cumsum()
    fabricante_cumsum_pct = (fabricante_cumsum / total_produtos) * 100
    
    # Encontrar quantos fabricantes representam 80% dos produtos
    fabricantes_80pct = (fabricante_cumsum_pct <= 80).sum()
    
    print(f"   ‚Ä¢ Total de fabricantes: {len(fabricante_counts):,}")
    print(f"   ‚Ä¢ Top {fabricantes_80pct} fabricantes representam 80% dos produtos")
    print(f"   ‚Ä¢ Concentra√ß√£o: {fabricantes_80pct/len(fabricante_counts)*100:.1f}% dos fabricantes = 80% dos produtos")
    
    # Fabricantes com apenas 1 produto
    fabricantes_1produto = (fabricante_counts == 1).sum()
    print(f"   ‚Ä¢ Fabricantes com apenas 1 produto: {fabricantes_1produto:,} ({fabricantes_1produto/len(fabricante_counts)*100:.1f}%)")
    
    # Visualiza√ß√µes Long Tail
    fig, axes = plt.subplots(2, 2, figsize=(16, 12))
    
    # Gr√°fico 1: Pareto - Top 20 Marcas
    top20_marcas = marca_counts.head(20)
    pareto_data = pd.DataFrame({
        'Marcas': top20_marcas.values,
        'Cumsum_Pct': (top20_marcas.cumsum() / total_produtos * 100).values
    }, index=top20_marcas.index)
    
    ax1 = axes[0,0]
    ax1_twin = ax1.twinx()
    
    bars = ax1.bar(range(len(top20_marcas)), pareto_data['Marcas'], alpha=0.7, color='skyblue')
    line = ax1_twin.plot(range(len(top20_marcas)), pareto_data['Cumsum_Pct'], 'ro-', color='red', linewidth=2)
    
    ax1.set_title('üìä An√°lise de Pareto - Top 20 Marcas', fontweight='bold')
    ax1.set_xlabel('Marcas')
    ax1.set_ylabel('N√∫mero de Produtos', color='blue')
    ax1_twin.set_ylabel('% Acumulativo', color='red')
    ax1.tick_params(axis='x', rotation=45)
    ax1_twin.axhline(y=80, color='green', linestyle='--', label='80%')
    ax1_twin.legend(['% Acumulativo', '80%'])
    
    # Gr√°fico 2: Distribui√ß√£o de Produtos por Marca (Log Scale)
    axes[0,1].hist(marca_counts, bins=50, alpha=0.7, color='lightgreen', edgecolor='black')
    axes[0,1].set_yscale('log')
    axes[0,1].set_title('üìà Distribui√ß√£o de Produtos por Marca (Log Scale)', fontweight='bold')
    axes[0,1].set_xlabel('N√∫mero de Produtos por Marca')
    axes[0,1].set_ylabel('Frequ√™ncia (Log)')
    
    # Gr√°fico 3: Pareto - Top 15 Fabricantes
    top15_fabricantes = fabricante_counts.head(15)
    pareto_fab_data = pd.DataFrame({
        'Fabricantes': top15_fabricantes.values,
        'Cumsum_Pct': (top15_fabricantes.cumsum() / total_produtos * 100).values
    }, index=top15_fabricantes.index)
    
    ax3 = axes[1,0]
    ax3_twin = ax3.twinx()
    
    bars3 = ax3.bar(range(len(top15_fabricantes)), pareto_fab_data['Fabricantes'], alpha=0.7, color='coral')
    line3 = ax3_twin.plot(range(len(top15_fabricantes)), pareto_fab_data['Cumsum_Pct'], 'ro-', color='red', linewidth=2)
    
    ax3.set_title('üè≠ An√°lise de Pareto - Top 15 Fabricantes', fontweight='bold')
    ax3.set_xlabel('Fabricantes')
    ax3.set_ylabel('N√∫mero de Produtos', color='coral')
    ax3_twin.set_ylabel('% Acumulativo', color='red')
    ax3.tick_params(axis='x', rotation=45)
    ax3_twin.axhline(y=80, color='green', linestyle='--')
    
    # Gr√°fico 4: Distribui√ß√£o de Produtos por Fabricante (Log Scale)
    axes[1,1].hist(fabricante_counts, bins=50, alpha=0.7, color='plum', edgecolor='black')
    axes[1,1].set_yscale('log')
    axes[1,1].set_title('üìà Distribui√ß√£o de Produtos por Fabricante (Log Scale)', fontweight='bold')
    axes[1,1].set_xlabel('N√∫mero de Produtos por Fabricante')
    axes[1,1].set_ylabel('Frequ√™ncia (Log)')
    
    plt.tight_layout()
    plt.show()

## 9. Cruzamento de Dados (Merge dos DataFrames)

Agora vamos fazer o merge dos dados de transa√ß√µes com PDVs e produtos para an√°lises mais profundas.

In [None]:
# Merge dos DataFrames
print("üîó REALIZANDO MERGE DOS DADOS")
print("=" * 50)

# Primeiro, vamos identificar as chaves de join corretas
print(f"\nüîç IDENTIFICANDO CHAVES DE JOIN:")
if transacoes_df is not None:
    print(f"   Transa√ß√µes:")
    print(f"   ‚Ä¢ Colunas: {list(transacoes_df.columns)}")
    print(f"   ‚Ä¢ Poss√≠veis chaves PDV: {[col for col in transacoes_df.columns if 'store' in col.lower() or 'pdv' in col.lower()]}")
    print(f"   ‚Ä¢ Poss√≠veis chaves Produto: {[col for col in transacoes_df.columns if 'product' in col.lower() or 'produto' in col.lower()]}")

if pdvs_df is not None:
    print(f"   PDVs:")
    print(f"   ‚Ä¢ Colunas: {list(pdvs_df.columns)}")
    print(f"   ‚Ä¢ Chave identificada: 'pdv'")

if produtos_df is not None:
    print(f"   Produtos:")
    print(f"   ‚Ä¢ Colunas: {list(produtos_df.columns)}")
    print(f"   ‚Ä¢ Chave identificada: 'produto'")

# Realizar o merge
merged_data = None

try:
    # Merge com PDVs
    print(f"\nüîó MERGE COM DADOS DE PDV:")
    
    # Primeiro merge: Transa√ß√µes + PDVs
    if transacoes_df is not None and pdvs_df is not None:
        # Identificar a chave correta para PDV
        pdv_key_transacoes = 'internal_store_id'  # Da an√°lise dos dados
        pdv_key_pdvs = 'pdv'
        
        print(f"   ‚Ä¢ Usando chaves: {pdv_key_transacoes} ‚Üê ‚Üí {pdv_key_pdvs}")
        print(f"   ‚Ä¢ Transa√ß√µes √∫nicas: {transacoes_df[pdv_key_transacoes].nunique():,}")
        print(f"   ‚Ä¢ PDVs √∫nicos: {pdvs_df[pdv_key_pdvs].nunique():,}")
        
        # Verificar sobreposi√ß√£o
        transacoes_stores = set(transacoes_df[pdv_key_transacoes].unique())
        pdvs_stores = set(pdvs_df[pdv_key_pdvs].unique())
        overlap_stores = transacoes_stores.intersection(pdvs_stores)
        
        print(f"   ‚Ä¢ Sobreposi√ß√£o: {len(overlap_stores):,} PDVs ({len(overlap_stores)/len(pdvs_stores)*100:.1f}% dos PDVs cadastrados)")
        
        # Realizar merge
        merged_data = transacoes_df.merge(
            pdvs_df, 
            left_on=pdv_key_transacoes, 
            right_on=pdv_key_pdvs, 
            how='left'
        )
        
        print(f"   ‚Ä¢ Resultado: {len(merged_data):,} transa√ß√µes ap√≥s merge com PDVs")
        print(f"   ‚Ä¢ Transa√ß√µes sem PDV: {merged_data['premise'].isna().sum():,} ({merged_data['premise'].isna().sum()/len(merged_data)*100:.1f}%)")
    
    # Segundo merge: + Produtos
    print(f"\nüîó MERGE COM DADOS DE PRODUTOS:")
    
    if merged_data is not None and produtos_df is not None:
        # Identificar a chave correta para Produto
        produto_key_transacoes = 'internal_product_id'
        produto_key_produtos = 'produto'
        
        print(f"   ‚Ä¢ Usando chaves: {produto_key_transacoes} ‚Üê ‚Üí {produto_key_produtos}")
        print(f"   ‚Ä¢ Produtos √∫nicos em transa√ß√µes: {merged_data[produto_key_transacoes].nunique():,}")
        print(f"   ‚Ä¢ Produtos √∫nicos no cadastro: {produtos_df[produto_key_produtos].nunique():,}")
        
        # Verificar sobreposi√ß√£o
        transacoes_produtos = set(merged_data[produto_key_transacoes].unique())
        produtos_produtos = set(produtos_df[produto_key_produtos].unique())
        overlap_produtos = transacoes_produtos.intersection(produtos_produtos)
        
        print(f"   ‚Ä¢ Sobreposi√ß√£o: {len(overlap_produtos):,} produtos ({len(overlap_produtos)/len(produtos_produtos)*100:.1f}% dos produtos cadastrados)")
        
        # Realizar merge
        merged_data = merged_data.merge(
            produtos_df, 
            left_on=produto_key_transacoes, 
            right_on=produto_key_produtos, 
            how='left'
        )
        
        print(f"   ‚Ä¢ Resultado: {len(merged_data):,} transa√ß√µes ap√≥s merge completo")
        print(f"   ‚Ä¢ Transa√ß√µes sem produto: {merged_data['categoria'].isna().sum():,} ({merged_data['categoria'].isna().sum()/len(merged_data)*100:.1f}%)")
    
    print(f"\n‚úÖ MERGE CONCLU√çDO COM SUCESSO!")
    print(f"   ‚Ä¢ Dataset final: {merged_data.shape} (linhas, colunas)")
    print(f"   ‚Ä¢ Colunas dispon√≠veis: {len(merged_data.columns)} colunas")
    
except Exception as e:
    print(f"‚ùå Erro durante o merge: {e}")
    print(f"Vamos tentar uma abordagem alternativa...")
    
    # Fallback: usar apenas uma amostra para demonstrar
    if transacoes_df is not None:
        sample_transactions = transacoes_df.head(10000)  # Amostra menor
        print(f"Usando amostra de {len(sample_transactions):,} transa√ß√µes para demonstra√ß√£o")

## 10. An√°lises do Dataset Merged

In [None]:
# An√°lise das vendas por categoria de PDV
print("üè™ AN√ÅLISE DAS VENDAS POR CATEGORIA DE PDV")
print("=" * 50)

if merged_data is not None:
    # Vendas por categoria de PDV
    print(f"\nüìä VENDAS POR CATEGORIA DE PDV:")
    
    vendas_por_categoria_pdv = merged_data.groupby('categoria_pdv').agg({
        'quantity': 'sum',
        'gross_value': 'sum',
        'net_value': 'sum',
        'transaction_date': 'count'  # n√∫mero de transa√ß√µes
    }).round(2)
    
    vendas_por_categoria_pdv.columns = ['Quantidade_Total', 'Faturamento_Bruto', 'Faturamento_Liquido', 'Num_Transacoes']
    
    # Ordenar por faturamento e mostrar top 15
    vendas_por_categoria_pdv = vendas_por_categoria_pdv.sort_values('Faturamento_Bruto', ascending=False)
    top15_categorias_pdv = vendas_por_categoria_pdv.head(15)
    
    print(f"\nüèÜ TOP 15 CATEGORIAS DE PDV POR FATURAMENTO:")
    for i, (categoria, row) in enumerate(top15_categorias_pdv.iterrows()):
        if pd.notna(categoria):
            pct_faturamento = row['Faturamento_Bruto'] / vendas_por_categoria_pdv['Faturamento_Bruto'].sum() * 100
            print(f"   {i+1:2d}. {categoria}:")
            print(f"       ‚Ä¢ Faturamento: R$ {row['Faturamento_Bruto']:,.2f} ({pct_faturamento:.1f}% do total)")
            print(f"       ‚Ä¢ Quantidade: {row['Quantidade_Total']:,.0f} unidades")
            print(f"       ‚Ä¢ Transa√ß√µes: {row['Num_Transacoes']:,.0f}")
            print(f"       ‚Ä¢ Ticket m√©dio: R$ {row['Faturamento_Bruto']/row['Num_Transacoes']:.2f}")
            print()
    
    # Vendas por tipo de premise (On/Off)
    print(f"\nüè¢ VENDAS POR TIPO DE PREMISE (On/Off):")
    
    vendas_por_premise = merged_data.groupby('premise').agg({
        'quantity': 'sum',
        'gross_value': 'sum',
        'net_value': 'sum',
        'transaction_date': 'count'
    }).round(2)
    
    vendas_por_premise.columns = ['Quantidade_Total', 'Faturamento_Bruto', 'Faturamento_Liquido', 'Num_Transacoes']
    
    for premise, row in vendas_por_premise.iterrows():
        if pd.notna(premise):
            pct_faturamento = row['Faturamento_Bruto'] / vendas_por_premise['Faturamento_Bruto'].sum() * 100
            print(f"   ‚Ä¢ {premise}:")
            print(f"     - Faturamento: R$ {row['Faturamento_Bruto']:,.2f} ({pct_faturamento:.1f}%)")
            print(f"     - Quantidade: {row['Quantidade_Total']:,.0f} unidades")
            print(f"     - Transa√ß√µes: {row['Num_Transacoes']:,.0f}")
            print(f"     - Ticket m√©dio: R$ {row['Faturamento_Bruto']/row['Num_Transacoes']:.2f}")
            print()
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 2, figsize=(18, 12))
    
    # Gr√°fico 1: Top 15 Categorias por Faturamento
    top15_categorias_pdv['Faturamento_Bruto'].plot(kind='barh', ax=axes[0,0], color='skyblue')
    axes[0,0].set_title('üí∞ Top 15 Categorias de PDV por Faturamento', fontweight='bold')
    axes[0,0].set_xlabel('Faturamento Bruto (R$)')
    
    # Gr√°fico 2: Top 15 Categorias por Quantidade
    top15_categorias_pdv['Quantidade_Total'].plot(kind='barh', ax=axes[0,1], color='lightgreen')
    axes[0,1].set_title('üì¶ Top 15 Categorias de PDV por Quantidade', fontweight='bold')
    axes[0,1].set_xlabel('Quantidade Total')
    
    # Gr√°fico 3: Premise - Faturamento
    vendas_por_premise['Faturamento_Bruto'].plot(kind='pie', ax=axes[1,0], autopct='%1.1f%%', startangle=90)
    axes[1,0].set_title('üè¢ Faturamento por Tipo de Premise', fontweight='bold')
    axes[1,0].set_ylabel('')
    
    # Gr√°fico 4: Premise - Quantidade
    vendas_por_premise['Quantidade_Total'].plot(kind='pie', ax=axes[1,1], autopct='%1.1f%%', startangle=90, colors=['lightcoral', 'gold'])
    axes[1,1].set_title('üì¶ Quantidade por Tipo de Premise', fontweight='bold')
    axes[1,1].set_ylabel('')
    
    plt.tight_layout()
    plt.show()
    
else:
    print("‚ùå Dataset merged n√£o dispon√≠vel")

In [None]:
# An√°lise de produtos por tipo de PDV
print("\nüç∫ AN√ÅLISE DE PRODUTOS POR TIPO DE PDV")
print("=" * 50)

if merged_data is not None:
    # Produtos por tipo de premise
    print(f"\nüìä CATEGORIAS DE PRODUTO MAIS POPULARES POR TIPO DE PREMISE:")
    
    # Cross-tab entre categoria de produto e premise
    produto_por_premise = pd.crosstab(merged_data['categoria'], merged_data['premise'], 
                                    values=merged_data['quantity'], aggfunc='sum', margins=True)
    
    print(f"\nüè¢ QUANTIDADE VENDIDA POR CATEGORIA x PREMISE:")
    display(produto_por_premise.fillna(0))
    
    # Calcular percentuais para cada premise
    produto_por_premise_pct = pd.crosstab(merged_data['categoria'], merged_data['premise'], 
                                        values=merged_data['quantity'], aggfunc='sum', normalize='columns') * 100
    
    print(f"\nüìä PERCENTUAL DE VENDAS POR CATEGORIA EM CADA PREMISE:")
    display(produto_por_premise_pct.round(1).fillna(0))
    
    # Top categorias para On Premise
    if 'On Premise' in produto_por_premise.columns:
        top_on_premise = produto_por_premise['On Premise'].sort_values(ascending=False).head(10)
        print(f"\nü•Ç TOP 10 CATEGORIAS EM ON PREMISE:")
        for i, (categoria, quantidade) in enumerate(top_on_premise.items()):
            if categoria != 'All' and pd.notna(categoria):
                pct = quantidade / produto_por_premise.loc['All', 'On Premise'] * 100
                print(f"   {i+1:2d}. {categoria}: {quantidade:,.0f} ({pct:.1f}%)")
    
    # Top categorias para Off Premise
    if 'Off Premise' in produto_por_premise.columns:
        top_off_premise = produto_por_premise['Off Premise'].sort_values(ascending=False).head(10)
        print(f"\nüõí TOP 10 CATEGORIAS EM OFF PREMISE:")
        for i, (categoria, quantidade) in enumerate(top_off_premise.items()):
            if categoria != 'All' and pd.notna(categoria):
                pct = quantidade / produto_por_premise.loc['All', 'Off Premise'] * 100
                print(f"   {i+1:2d}. {categoria}: {quantidade:,.0f} ({pct:.1f}%)")
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 2, figsize=(18, 12))
    
    # Gr√°fico 1: Heatmap Categoria x Premise
    if produto_por_premise_pct.shape[0] > 1 and produto_por_premise_pct.shape[1] > 1:
        # Remover linha/coluna 'All' se existir
        heatmap_data = produto_por_premise_pct.drop('All', errors='ignore')
        sns.heatmap(heatmap_data, annot=True, fmt='.1f', cmap='YlOrRd', ax=axes[0,0])
        axes[0,0].set_title('üî• Heatmap: % Vendas por Categoria x Premise', fontweight='bold')
        axes[0,0].set_ylabel('Categoria do Produto')
        axes[0,0].set_xlabel('Tipo de Premise')
    
    # Gr√°fico 2: Top categorias On Premise
    if 'On Premise' in produto_por_premise.columns:
        top_on_plot = produto_por_premise['On Premise'].drop('All', errors='ignore').sort_values(ascending=True).tail(10)
        top_on_plot.plot(kind='barh', ax=axes[0,1], color='lightblue')
        axes[0,1].set_title('ü•Ç Top 10 Categorias - On Premise', fontweight='bold')
        axes[0,1].set_xlabel('Quantidade Vendida')
    
    # Gr√°fico 3: Top categorias Off Premise
    if 'Off Premise' in produto_por_premise.columns:
        top_off_plot = produto_por_premise['Off Premise'].drop('All', errors='ignore').sort_values(ascending=True).tail(10)
        top_off_plot.plot(kind='barh', ax=axes[1,0], color='lightgreen')
        axes[1,0].set_title('üõí Top 10 Categorias - Off Premise', fontweight='bold')
        axes[1,0].set_xlabel('Quantidade Vendida')
    
    # Gr√°fico 4: Compara√ß√£o direta On vs Off
    if 'On Premise' in produto_por_premise.columns and 'Off Premise' in produto_por_premise.columns:
        comparison_data = produto_por_premise[['On Premise', 'Off Premise']].drop('All', errors='ignore').head(7)
        comparison_data.plot(kind='bar', ax=axes[1,1], width=0.8)
        axes[1,1].set_title('‚öñÔ∏è Compara√ß√£o: On vs Off Premise por Categoria', fontweight='bold')
        axes[1,1].set_ylabel('Quantidade Vendida')
        axes[1,1].set_xlabel('Categoria do Produto')
        axes[1,1].tick_params(axis='x', rotation=45)
        axes[1,1].legend()
    
    plt.tight_layout()
    plt.show()
    
else:
    print("‚ùå Dataset merged n√£o dispon√≠vel")

## 11. An√°lise Geogr√°fica (Zipcode x Volume de Vendas)

In [None]:
# An√°lise de correla√ß√£o entre zipcode e volume de vendas
print("\nüó∫Ô∏è AN√ÅLISE DE CORRELA√á√ÉO ZIPCODE x VOLUME DE VENDAS")
print("=" * 50)

if merged_data is not None:
    # Agrega√ß√£o por zipcode
    print(f"\nüìç AN√ÅLISE GEOGR√ÅFICA DAS VENDAS:")
    
    vendas_por_zipcode = merged_data.groupby('zipcode').agg({
        'quantity': 'sum',
        'gross_value': 'sum',
        'net_value': 'sum',
        'transaction_date': 'count',
        'pdv': 'nunique'  # n√∫mero √∫nico de PDVs por zipcode
    }).round(2)
    
    vendas_por_zipcode.columns = ['Quantidade_Total', 'Faturamento_Bruto', 'Faturamento_Liquido', 'Num_Transacoes', 'Num_PDVs']
    
    # Calcular m√©dias por PDV em cada zipcode
    vendas_por_zipcode['Quantidade_por_PDV'] = vendas_por_zipcode['Quantidade_Total'] / vendas_por_zipcode['Num_PDVs']
    vendas_por_zipcode['Faturamento_por_PDV'] = vendas_por_zipcode['Faturamento_Bruto'] / vendas_por_zipcode['Num_PDVs']
    
    # Estat√≠sticas gerais
    print(f"   ‚Ä¢ Total de zipcodes com vendas: {len(vendas_por_zipcode):,}")
    print(f"   ‚Ä¢ Zipcode com maior volume: {vendas_por_zipcode['Quantidade_Total'].idxmax()} ({vendas_por_zipcode['Quantidade_Total'].max():,.0f} unidades)")
    print(f"   ‚Ä¢ Zipcode com maior faturamento: {vendas_por_zipcode['Faturamento_Bruto'].idxmax()} (R$ {vendas_por_zipcode['Faturamento_Bruto'].max():,.2f})")
    print(f"   ‚Ä¢ Zipcode com mais PDVs: {vendas_por_zipcode['Num_PDVs'].idxmax()} ({vendas_por_zipcode['Num_PDVs'].max():.0f} PDVs)")
    
    # Top 15 zipcodes por volume
    print(f"\nüèÜ TOP 15 ZIPCODES POR VOLUME DE VENDAS:")
    top_zipcodes_volume = vendas_por_zipcode.sort_values('Quantidade_Total', ascending=False).head(15)
    
    for i, (zipcode, row) in enumerate(top_zipcodes_volume.iterrows()):
        pct_volume = row['Quantidade_Total'] / vendas_por_zipcode['Quantidade_Total'].sum() * 100
        print(f"   {i+1:2d}. {zipcode}:")
        print(f"       ‚Ä¢ Volume: {row['Quantidade_Total']:,.0f} unidades ({pct_volume:.1f}% do total)")
        print(f"       ‚Ä¢ Faturamento: R$ {row['Faturamento_Bruto']:,.2f}")
        print(f"       ‚Ä¢ PDVs: {row['Num_PDVs']:.0f}")
        print(f"       ‚Ä¢ Volume/PDV: {row['Quantidade_por_PDV']:,.0f} unidades")
        print()
    
    # An√°lise de concentra√ß√£o geogr√°fica
    print(f"\nüìä CONCENTRA√á√ÉO GEOGR√ÅFICA:")
    
    # Calcular percentis
    volume_cumsum = vendas_por_zipcode.sort_values('Quantidade_Total', ascending=False)['Quantidade_Total'].cumsum()
    volume_cumsum_pct = volume_cumsum / vendas_por_zipcode['Quantidade_Total'].sum() * 100
    
    zipcodes_80pct = (volume_cumsum_pct <= 80).sum()
    zipcodes_50pct = (volume_cumsum_pct <= 50).sum()
    
    print(f"   ‚Ä¢ {zipcodes_50pct} zipcodes representam 50% do volume ({zipcodes_50pct/len(vendas_por_zipcode)*100:.1f}% dos zipcodes)")
    print(f"   ‚Ä¢ {zipcodes_80pct} zipcodes representam 80% do volume ({zipcodes_80pct/len(vendas_por_zipcode)*100:.1f}% dos zipcodes)")
    
    # Correla√ß√µes
    print(f"\nüîó CORRELA√á√ïES:")
    correlations = vendas_por_zipcode[['Quantidade_Total', 'Faturamento_Bruto', 'Num_Transacoes', 'Num_PDVs']].corr()
    
    print(f"   ‚Ä¢ Correla√ß√£o Volume x Faturamento: {correlations.loc['Quantidade_Total', 'Faturamento_Bruto']:.3f}")
    print(f"   ‚Ä¢ Correla√ß√£o Volume x Num_PDVs: {correlations.loc['Quantidade_Total', 'Num_PDVs']:.3f}")
    print(f"   ‚Ä¢ Correla√ß√£o Faturamento x Num_PDVs: {correlations.loc['Faturamento_Bruto', 'Num_PDVs']:.3f}")
    
    # Visualiza√ß√µes
    fig, axes = plt.subplots(2, 3, figsize=(20, 12))
    
    # Gr√°fico 1: Top 15 zipcodes por volume
    top_zipcodes_volume.head(15)['Quantidade_Total'].plot(kind='bar', ax=axes[0,0], color='skyblue')
    axes[0,0].set_title('üìç Top 15 Zipcodes por Volume', fontweight='bold')
    axes[0,0].set_ylabel('Quantidade Total')
    axes[0,0].tick_params(axis='x', rotation=45)
    
    # Gr√°fico 2: Distribui√ß√£o de volume por zipcode (histograma)
    axes[0,1].hist(vendas_por_zipcode['Quantidade_Total'], bins=50, alpha=0.7, color='lightcoral', edgecolor='black')
    axes[0,1].set_yscale('log')
    axes[0,1].set_title('üìä Distribui√ß√£o de Volume por Zipcode', fontweight='bold')
    axes[0,1].set_xlabel('Quantidade Total por Zipcode')
    axes[0,1].set_ylabel('Frequ√™ncia (Log)')
    
    # Gr√°fico 3: Scatter Volume x N√∫mero de PDVs
    axes[0,2].scatter(vendas_por_zipcode['Num_PDVs'], vendas_por_zipcode['Quantidade_Total'], alpha=0.6, color='purple')
    axes[0,2].set_title('üîó Volume vs N√∫mero de PDVs por Zipcode', fontweight='bold')
    axes[0,2].set_xlabel('N√∫mero de PDVs')
    axes[0,2].set_ylabel('Quantidade Total')
    axes[0,2].grid(True, alpha=0.3)
    
    # Gr√°fico 4: Scatter Faturamento x Volume
    axes[1,0].scatter(vendas_por_zipcode['Quantidade_Total'], vendas_por_zipcode['Faturamento_Bruto'], alpha=0.6, color='orange')
    axes[1,0].set_title('üíπ Faturamento vs Volume por Zipcode', fontweight='bold')
    axes[1,0].set_xlabel('Quantidade Total')
    axes[1,0].set_ylabel('Faturamento Bruto (R$)')
    axes[1,0].grid(True, alpha=0.3)
    
    # Gr√°fico 5: Heatmap de correla√ß√µes
    sns.heatmap(correlations, annot=True, cmap='coolwarm', center=0, ax=axes[1,1])
    axes[1,1].set_title('üî• Correla√ß√µes entre M√©tricas', fontweight='bold')
    
    # Gr√°fico 6: Volume por PDV por zipcode
    vendas_por_zipcode['Quantidade_por_PDV'].hist(bins=30, ax=axes[1,2], alpha=0.7, color='lightgreen', edgecolor='black')
    axes[1,2].set_title('üìä Distribui√ß√£o Volume/PDV por Zipcode', fontweight='bold')
    axes[1,2].set_xlabel('Quantidade por PDV')
    axes[1,2].set_ylabel('Frequ√™ncia')
    
    plt.tight_layout()
    plt.show()
    
else:
    print("‚ùå Dataset merged n√£o dispon√≠vel")

## 12. Resumo Final e Conclus√µes da EDA Estendida

In [None]:
# Resumo final da EDA estendida
print("üéØ RESUMO FINAL DA AN√ÅLISE EXPLORAT√ìRIA ESTENDIDA")
print("=" * 60)

print(f"\nüìä INSIGHTS DOS CADASTROS:")
if pdvs_df is not None:
    print(f"   üè™ PDVs:")
    print(f"   ‚Ä¢ Total: {len(pdvs_df):,} pontos de venda")
    if 'premise' in pdvs_df.columns:
        premise_counts = pdvs_df['premise'].value_counts()
        for premise, count in premise_counts.items():
            pct = count / len(pdvs_df) * 100
            print(f"   ‚Ä¢ {premise}: {count:,} ({pct:.1f}%)")
    
    print(f"   ‚Ä¢ Categorias de PDV: {pdvs_df['categoria_pdv'].nunique():,}")
    print(f"   ‚Ä¢ Zipcodes √∫nicos: {pdvs_df['zipcode'].nunique():,}")

if produtos_df is not None:
    print(f"\n   üç∫ Produtos:")
    print(f"   ‚Ä¢ Total: {len(produtos_df):,} produtos")
    print(f"   ‚Ä¢ Categorias: {produtos_df['categoria'].nunique():,}")
    print(f"   ‚Ä¢ Marcas: {produtos_df['marca'].nunique():,}")
    print(f"   ‚Ä¢ Fabricantes: {produtos_df['fabricante'].nunique():,}")

print(f"\nüîó RESULTADOS DO MERGE:")
if merged_data is not None:
    print(f"   ‚Ä¢ Dataset final: {merged_data.shape[0]:,} transa√ß√µes x {merged_data.shape[1]} colunas")
    print(f"   ‚Ä¢ Cobertura PDV: {(~merged_data['premise'].isna()).sum() / len(merged_data) * 100:.1f}% das transa√ß√µes")
    print(f"   ‚Ä¢ Cobertura Produto: {(~merged_data['categoria'].isna()).sum() / len(merged_data) * 100:.1f}% das transa√ß√µes")

print(f"\nüí° PRINCIPAIS DESCOBERTAS:")

if merged_data is not None:
    # Top categoria de PDV
    top_categoria_pdv = merged_data.groupby('categoria_pdv')['gross_value'].sum().idxmax()
    top_categoria_pdv_valor = merged_data.groupby('categoria_pdv')['gross_value'].sum().max()
    
    # Top categoria de produto  
    top_categoria_produto = merged_data.groupby('categoria')['quantity'].sum().idxmax()
    top_categoria_produto_qtd = merged_data.groupby('categoria')['quantity'].sum().max()
    
    # Top zipcode
    top_zipcode = merged_data.groupby('zipcode')['quantity'].sum().idxmax()
    top_zipcode_qtd = merged_data.groupby('zipcode')['quantity'].sum().max()
    
    print(f"   üèÜ Categoria PDV que mais fatura: {top_categoria_pdv} (R$ {top_categoria_pdv_valor:,.2f})")
    print(f"   üç∫ Categoria produto mais vendida: {top_categoria_produto} ({top_categoria_produto_qtd:,.0f} unidades)")
    print(f"   üìç Zipcode com maior volume: {top_zipcode} ({top_zipcode_qtd:,.0f} unidades)")
    
    # On vs Off Premise
    premise_stats = merged_data.groupby('premise').agg({
        'quantity': 'sum',
        'gross_value': 'sum'
    })
    
    if 'On Premise' in premise_stats.index and 'Off Premise' in premise_stats.index:
        on_premise_pct = premise_stats.loc['On Premise', 'gross_value'] / premise_stats['gross_value'].sum() * 100
        off_premise_pct = premise_stats.loc['Off Premise', 'gross_value'] / premise_stats['gross_value'].sum() * 100
        
        print(f"   üè¢ Faturamento On Premise: {on_premise_pct:.1f}%")
        print(f"   üõí Faturamento Off Premise: {off_premise_pct:.1f}%")

print(f"\nüìà IMPLICA√á√ïES PARA MODELAGEM:")
print(f"   ‚Ä¢ Incorporar features de PDV (categoria, premise, zipcode)")
print(f"   ‚Ä¢ Considerar features de produto (categoria, marca, fabricante)")
print(f"   ‚Ä¢ Usar encoding geogr√°fico (zipcode) como feature importante")
print(f"   ‚Ä¢ Modelar separadamente On vs Off Premise se houver diferen√ßas significativas")
print(f"   ‚Ä¢ Considerar sazonalidade espec√≠fica por categoria de PDV")
print(f"   ‚Ä¢ Aplicar feature engineering em marcas/fabricantes (long tail)")

print(f"\nüéØ PR√ìXIMOS PASSOS RECOMENDADOS:")
print(f"   1. Engenharia de Features baseada nos insights da EDA")
print(f"   2. Modelagem hier√°rquica (por categoria de PDV/produto)")
print(f"   3. Valida√ß√£o cruzada considerando distribui√ß√£o geogr√°fica")
print(f"   4. Ensembles combinando diferentes abordagens")
print(f"   5. Monitoramento de performance por segmento")

# Salvar o dataset merged para pr√≥ximas etapas
if merged_data is not None:
    # Salvar uma vers√£o resumida (√∫ltimos 3 meses) para otimizar performance
    merged_data['transaction_date'] = pd.to_datetime(merged_data['transaction_date'])
    recent_data = merged_data[merged_data['transaction_date'] >= '2022-10-01'].copy()
    
    recent_data.to_parquet('../data/merged_data_recent.parquet', index=False)
    print(f"\nüíæ Dataset merged recente salvo: data/merged_data_recent.parquet")
    print(f"   ‚Ä¢ Per√≠odo: Out-Dez 2022 ({len(recent_data):,} transa√ß√µes)")
    
    # Tamb√©m salvar agrega√ß√£o semanal merged
    weekly_merged = recent_data.groupby([
        pd.Grouper(key='transaction_date', freq='W'),
        'categoria_pdv', 'premise', 'categoria', 'zipcode'
    ]).agg({
        'quantity': 'sum',
        'gross_value': 'sum',
        'net_value': 'sum'
    }).reset_index()
    
    weekly_merged.to_parquet('../data/weekly_merged_data.parquet', index=False)
    print(f"   ‚Ä¢ Agrega√ß√£o semanal merged salva: data/weekly_merged_data.parquet")
    print(f"   ‚Ä¢ {len(weekly_merged):,} registros semanais por segmento")

# Salvar dados processados b√°sicos tamb√©m
if 'daily_data' in locals():
    daily_data.to_csv('../data/processed_daily_data.csv', index=False)
    print(f"\nüíæ Dados di√°rios salvos em: data/processed_daily_data.csv")

if 'weekly_data' in locals():
    weekly_data.to_csv('../data/processed_weekly_data.csv', index=False)
    print(f"üíæ Dados semanais salvos em: data/processed_weekly_data.csv")

print(f"\nüéâ AN√ÅLISE EXPLORAT√ìRIA COMPLETA FINALIZADA!")
print(f"   ‚Ä¢ Dados b√°sicos ‚úì")
print(f"   ‚Ä¢ S√©rie temporal ‚úì") 
print(f"   ‚Ä¢ Cadastros (PDV + Produtos) ‚úì")
print(f"   ‚Ä¢ Merge e cruzamentos ‚úì")
print(f"   ‚Ä¢ An√°lises geogr√°ficas ‚úì")
print(f"   ‚Ä¢ Long tail e distribui√ß√µes ‚úì")
print(f"   ‚Ä¢ Correla√ß√µes e insights ‚úì")