# 02 - Pré-processamento e Engenharia de Features

Neste notebook vamos transformar os dados brutos em features que o modelo possa usar para previsão.

## Objetivos:
1. **Agregação Semanal**: Agregar dados para nível semana/pdv/produto
2. **Tratamento de Zeros**: Criar grid completo e preencher vendas ausentes como zero
3. **Features de Data**: Extrair informações temporais
4. **Features de Lag**: Criar features de vendas passadas
5. **Features de Janela Móvel**: Estatísticas sobre janelas temporais
6. **Encoding Categórico**: Transformar variáveis categóricas

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

from sklearn.preprocessing import LabelEncoder
import matplotlib.pyplot as plt
import seaborn as sns

plt.style.use('default')
sns.set_palette("husl")

print('📚 Bibliotecas carregadas com sucesso!')

📚 Bibliotecas carregadas com sucesso!


## 1. Carregamento dos Dados

In [2]:
# Carregar dados das transações
transacoes = pd.read_parquet('../data/part-00000-tid-5196563791502273604-c90d3a24-52f2-4955-b4ec-fb143aae74d8-4-1-c000.snappy.parquet')
pdvs = pd.read_parquet('../data/part-00000-tid-2779033056155408584-f6316110-4c9a-4061-ae48-69b77c7c8c36-4-1-c000.snappy.parquet')
produtos = pd.read_parquet('../data/part-00000-tid-7173294866425216458-eae53fbf-d19e-4130-ba74-78f96b9675f1-4-1-c000.snappy.parquet')

print(f'📊 Dados carregados:')
print(f'   • Transações: {transacoes.shape}')
print(f'   • PDVs: {pdvs.shape}')
print(f'   • Produtos: {produtos.shape}')

📊 Dados carregados:
   • Transações: (6560698, 11)
   • PDVs: (14419, 4)
   • Produtos: (7092, 8)


In [3]:
# Verificar estrutura dos dados
print('🔍 Estrutura das Transações:')
print(transacoes.info())
print('\n📈 Primeiras linhas:')
transacoes.head()

🔍 Estrutura das Transações:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6560698 entries, 0 to 6560697
Data columns (total 11 columns):
 #   Column               Dtype  
---  ------               -----  
 0   internal_store_id    object 
 1   internal_product_id  object 
 2   distributor_id       object 
 3   transaction_date     object 
 4   reference_date       object 
 5   quantity             float64
 6   gross_value          float64
 7   net_value            float64
 8   gross_profit         float64
 9   discount             float64
 10  taxes                float64
dtypes: float64(6), object(5)
memory usage: 550.6+ MB
None

📈 Primeiras linhas:


Unnamed: 0,internal_store_id,internal_product_id,distributor_id,transaction_date,reference_date,quantity,gross_value,net_value,gross_profit,discount,taxes
0,7384367747233276219,328903483604537190,9,2022-07-13,2022-07-01,1.0,38.125,37.890625,10.042625,3.95,0.234375
1,3536908514005606262,5418855670645487653,5,2022-03-21,2022-03-01,6.0,107.25,106.440002,24.732002,17.1,0.81
2,3138231730993449825,1087005562675741887,6,2022-09-06,2022-09-01,3.0,56.625,56.220001,14.124002,5.25,0.405
3,3681167389484217654,1401422983880045188,5,2022-09-11,2022-09-01,129.0,1037.160023,1037.160023,156.348026,479.880006,0.0
4,7762413312337359369,6614994347738381720,4,2022-02-18,2022-02-01,1.0,26.23,23.950241,6.550241,0.0,2.279758


## 2. Preparação dos Dados Base

In [4]:
# Fazer merge dos dados baseado na estrutura real dos dados
# Transações: internal_store_id, internal_product_id
# PDVs: tem coluna 'pdv'  
# Produtos: não tem ID específico, apenas informações categóricas

# Como não há chaves diretas para merge, vamos trabalhar apenas com os dados de transações
dados = transacoes.copy()

# Renomear colunas para padronizar
dados = dados.rename(columns={
    'internal_store_id': 'pdv_id',
    'internal_product_id': 'produto_id',
    'transaction_date': 'data',
    'quantity': 'quantidade',
    'gross_value': 'valor'
})

# Converter data para datetime
dados['data'] = pd.to_datetime(dados['data'])

print(f'🔗 Dados preparados: {dados.shape}')
print(f'📅 Período dos dados: {dados["data"].min()} até {dados["data"].max()}')

# Verificar estrutura
print('\n🔍 Colunas disponíveis:')
print(dados.columns.tolist())
print('\n📊 Primeiras linhas:')
dados.head()

🔗 Dados preparados: (6560698, 11)
📅 Período dos dados: 2022-01-01 00:00:00 até 2022-12-31 00:00:00

🔍 Colunas disponíveis:
['pdv_id', 'produto_id', 'distributor_id', 'data', 'reference_date', 'quantidade', 'valor', 'net_value', 'gross_profit', 'discount', 'taxes']

📊 Primeiras linhas:


Unnamed: 0,pdv_id,produto_id,distributor_id,data,reference_date,quantidade,valor,net_value,gross_profit,discount,taxes
0,7384367747233276219,328903483604537190,9,2022-07-13,2022-07-01,1.0,38.125,37.890625,10.042625,3.95,0.234375
1,3536908514005606262,5418855670645487653,5,2022-03-21,2022-03-01,6.0,107.25,106.440002,24.732002,17.1,0.81
2,3138231730993449825,1087005562675741887,6,2022-09-06,2022-09-01,3.0,56.625,56.220001,14.124002,5.25,0.405
3,3681167389484217654,1401422983880045188,5,2022-09-11,2022-09-01,129.0,1037.160023,1037.160023,156.348026,479.880006,0.0
4,7762413312337359369,6614994347738381720,4,2022-02-18,2022-02-01,1.0,26.23,23.950241,6.550241,0.0,2.279758


## 3. Agregação Semanal

In [5]:
# Criar coluna de semana do ano
dados['semana'] = dados['data'].dt.to_period('W-MON').dt.start_time
dados['ano'] = dados['data'].dt.year
dados['semana_ano'] = dados['data'].dt.isocalendar().week
dados['mes'] = dados['data'].dt.month
dados['dia_semana'] = dados['data'].dt.dayofweek

print('📅 Colunas de tempo criadas:')
print(f'   • Primeira semana: {dados["semana"].min()}')
print(f'   • Última semana: {dados["semana"].max()}')
print(f'   • Total de semanas: {dados["semana"].nunique()}')

📅 Colunas de tempo criadas:
   • Primeira semana: 2021-12-28 00:00:00
   • Última semana: 2022-12-27 00:00:00
   • Total de semanas: 53


In [6]:
# Agregação semanal por PDV e Produto
agregacao_semanal = dados.groupby(['semana', 'pdv_id', 'produto_id']).agg({
    'quantidade': 'sum',
    'valor': 'sum',
    'distributor_id': 'count'
}).reset_index()

agregacao_semanal = agregacao_semanal.rename(columns={
    'distributor_id': 'num_transacoes'
})

print(f'📊 Agregação semanal criada: {agregacao_semanal.shape}')
print(f'   • Combinações semana/PDV/produto: {len(agregacao_semanal)}')
print(f'   • PDVs únicos: {agregacao_semanal["pdv_id"].nunique()}')
print(f'   • Produtos únicos: {agregacao_semanal["produto_id"].nunique()}')

agregacao_semanal.head()

📊 Agregação semanal criada: (6241315, 6)
   • Combinações semana/PDV/produto: 6241315
   • PDVs únicos: 15086
   • Produtos únicos: 7092


Unnamed: 0,semana,pdv_id,produto_id,quantidade,valor,num_transacoes
0,2021-12-28,1008240744247283174,1938760505411922162,1.0,111.5,1
1,2021-12-28,1008240744247283174,4098058333001424920,2.0,47.099998,1
2,2021-12-28,10097752152132198,1938760505411922162,2.0,223.0,1
3,2021-12-28,10097752152132198,8174625658473329985,2.0,57.5,1
4,2021-12-28,1020491045469449287,6766604540402338857,3.0,72.0,1


## 4. 🎯 Criação do DataFrame Mestre com Tratamento de Zeros

**Importante**: Zeros são informações valiosas! A ausência de venda (PDV/produto) em uma semana específica é um dado importante para forecasting. 

Vamos criar um DataFrame "mestre" com todas as combinações possíveis usando uma abordagem otimizada por lotes para evitar problemas de memória.

In [7]:
# Análise das dimensões do problema e decisão da estratégia
semanas_unicas = pd.date_range(
    start=dados['semana'].min(),
    end=dados['semana'].max(),
    freq='W-MON'
)

pdvs_unicos = dados['pdv_id'].unique()
produtos_unicos = dados['produto_id'].unique()

total_combinations = len(semanas_unicas) * len(pdvs_unicos) * len(produtos_unicos)
estimated_memory_gb = (total_combinations * 8 * 6) / (1024**3)

print(f'🔢 Dimensões do problema:')
print(f'   • Semanas: {len(semanas_unicas):,}')
print(f'   • PDVs únicos: {len(pdvs_unicos):,}')
print(f'   • Produtos únicos: {len(produtos_unicos):,}')
print(f'   • Total de combinações: {total_combinations:,}')
print(f'   • Memória estimada: ~{estimated_memory_gb:.1f}GB')

# Decisão baseada na memória disponível
if estimated_memory_gb > 16:  # Se precisar de mais que 16GB
    print(f'\n⚠️  Dataset muito grande ({estimated_memory_gb:.1f}GB)')
    print('💡 Recomendações para rodar:')
    print('   1. Usar abordagem de lotes (implementada abaixo)')
    print('   2. Considerar usar apenas combinações PDV/produto ativas')
    print('   3. Filtrar por período específico se necessário')
    print('   4. Usar máquina com mais RAM (32GB+)')
    
    # Dar opção de usar abordagem simplificada
    print('\n🔄 Escolha da estratégia:')
    print('   • COMPLETA: Grid com todos os zeros (melhor para ML)')
    print('   • SIMPLIFICADA: Apenas dados existentes (economiza memória)')
else:
    print(f'\n✅ Tamanho gerenciável ({estimated_memory_gb:.1f}GB)')
    print('🚀 Prosseguindo com criação do grid completo')

# Mostrar taxa de sparsity esperada
existing_combinations = len(agregacao_semanal)
sparsity_rate = (1 - existing_combinations / total_combinations) * 100
print(f'\n📊 Taxa de sparsity esperada: {sparsity_rate:.1f}%')
print(f'   • Registros com venda: {existing_combinations:,}')
print(f'   • Zeros esperados: {total_combinations - existing_combinations:,}')

🔢 Dimensões do problema:
   • Semanas: 52
   • PDVs únicos: 15,086
   • Produtos únicos: 7,092
   • Total de combinações: 5,563,475,424
   • Memória estimada: ~248.7GB

⚠️  Dataset muito grande (248.7GB)
💡 Recomendações para rodar:
   1. Usar abordagem de lotes (implementada abaixo)
   2. Considerar usar apenas combinações PDV/produto ativas
   3. Filtrar por período específico se necessário
   4. Usar máquina com mais RAM (32GB+)

🔄 Escolha da estratégia:
   • COMPLETA: Grid com todos os zeros (melhor para ML)
   • SIMPLIFICADA: Apenas dados existentes (economiza memória)

📊 Taxa de sparsity esperada: 99.9%
   • Registros com venda: 6,241,315
   • Zeros esperados: 5,557,234,109


In [8]:
# 🚀 Estratégia otimizada: Grid Inteligente com Zeros
# Em vez de criar TODAS as combinações, vamos criar um grid que:
# 1. Inclui todas as combinações que já existem nos dados
# 2. Adiciona zeros para combinações PDV/produto ativas em semanas sem venda
# 3. Evita combinações nunca vendidas (economiza 99.9% da memória)

import gc
from itertools import product

print('🔄 Iniciando criação otimizada do grid com zeros...')

# Estratégia 1: Identificar combinações PDV/produto ativas
print('📊 Analisando combinações ativas...')
combinacoes_ativas = agregacao_semanal[['pdv_id', 'produto_id']].drop_duplicates()
print(f'   • Combinações PDV/produto com histórico de vendas: {len(combinacoes_ativas):,}')

# Calcular tamanho otimizado
total_combinations_otimizado = len(semanas_unicas) * len(combinacoes_ativas)
estimated_memory_gb_otimizado = (total_combinations_otimizado * 8 * 6) / (1024**3)

print(f'🎯 Dimensões do grid otimizado:')
print(f'   • Semanas: {len(semanas_unicas):,}')
print(f'   • Combinações ativas: {len(combinacoes_ativas):,}')
print(f'   • Total de registros: {total_combinations_otimizado:,}')
print(f'   • Memória estimada: ~{estimated_memory_gb_otimizado:.1f}GB')
print(f'   • Redução: {(1 - estimated_memory_gb_otimizado/248.7)*100:.1f}% menos memória')

# Processar em lotes menores para evitar problemas de memória
batch_size = 10000  # 10k combinações por vez
combinacao_batches = [combinacoes_ativas.iloc[i:i+batch_size] for i in range(0, len(combinacoes_ativas), batch_size)]

print(f'💾 Processando em {len(combinacao_batches)} lotes de até {batch_size} combinações cada')

dados_mestre = []

for batch_num, combo_batch in enumerate(combinacao_batches):
    print(f'   📦 Lote {batch_num+1}/{len(combinacao_batches)}: {len(combo_batch)} combinações')
    
    # Criar grid completo para este lote de combinações
    grid_lote = []
    
    for _, row in combo_batch.iterrows():
        pdv_id = row['pdv_id']
        produto_id = row['produto_id']
        
        # Grid completo de semanas para esta combinação
        grid_combo = pd.DataFrame({
            'semana': semanas_unicas,
            'pdv_id': pdv_id,
            'produto_id': produto_id
        })
        grid_lote.append(grid_combo)
    
    # Concatenar todas as combinações deste lote
    grid_completo_lote = pd.concat(grid_lote, ignore_index=True)
    
    # Merge com vendas reais (muito mais eficiente agora)
    grid_completo_lote = grid_completo_lote.merge(
        agregacao_semanal,
        on=['semana', 'pdv_id', 'produto_id'],
        how='left'
    )
    
    # Preencher zeros
    grid_completo_lote['quantidade'] = grid_completo_lote['quantidade'].fillna(0)
    grid_completo_lote['valor'] = grid_completo_lote['valor'].fillna(0)
    grid_completo_lote['num_transacoes'] = grid_completo_lote['num_transacoes'].fillna(0)
    
    dados_mestre.append(grid_completo_lote)
    
    # Limpeza de memória
    del grid_lote, grid_completo_lote
    gc.collect()
    
    # Log de progresso
    if (batch_num + 1) % 5 == 0 or batch_num == len(combinacao_batches) - 1:
        print(f'     ✅ Concluídos {batch_num+1} lotes')

print('🔗 Concatenando todos os lotes...')
dados_completos = pd.concat(dados_mestre, ignore_index=True)

print(f'\n🎯 Grid otimizado criado!')
print(f'   • Shape final: {dados_completos.shape}')
print(f'   • Memória utilizada: {dados_completos.memory_usage(deep=True).sum() / (1024**3):.2f} GB')
print(f'   • Vendas = 0: {(dados_completos["quantidade"] == 0).sum():,} registros ({(dados_completos["quantidade"] == 0).mean()*100:.1f}%)')
print(f'   • Vendas > 0: {(dados_completos["quantidade"] > 0).sum():,} registros ({(dados_completos["quantidade"] > 0).mean()*100:.1f}%)')

# Verificar que temos dados de todas as combinações ativas em todas as semanas
verificacao = dados_completos.groupby(['pdv_id', 'produto_id']).size()
print(f'   • Semanas por combinação (deve ser {len(semanas_unicas)}): {verificacao.unique()}')

# Limpeza final
del dados_mestre, combinacoes_ativas
gc.collect()

print('✅ Zeros preservados de forma otimizada - informação valiosa para forecasting!')

🔄 Iniciando criação otimizada do grid com zeros...
📊 Analisando combinações ativas...
   • Combinações PDV/produto com histórico de vendas: 1,044,310
🎯 Dimensões do grid otimizado:
   • Semanas: 52
   • Combinações ativas: 1,044,310
   • Total de registros: 54,304,120
   • Memória estimada: ~2.4GB
   • Redução: 99.0% menos memória
💾 Processando em 105 lotes de até 10000 combinações cada
   📦 Lote 1/105: 10000 combinações
   📦 Lote 2/105: 10000 combinações
   📦 Lote 3/105: 10000 combinações
   📦 Lote 4/105: 10000 combinações
   📦 Lote 5/105: 10000 combinações
     ✅ Concluídos 5 lotes
   📦 Lote 6/105: 10000 combinações
   📦 Lote 7/105: 10000 combinações
   📦 Lote 8/105: 10000 combinações
   📦 Lote 9/105: 10000 combinações
   📦 Lote 10/105: 10000 combinações
     ✅ Concluídos 10 lotes
   📦 Lote 11/105: 10000 combinações
   📦 Lote 12/105: 10000 combinações
   📦 Lote 13/105: 10000 combinações
   📦 Lote 14/105: 10000 combinações
   📦 Lote 15/105: 10000 combinações
     ✅ Concluídos 15 lotes

In [9]:
# 📊 Features Estáticas Históricas para Grid Inteligente
# Estas features capturam o contexto histórico de cada combinação PDV/produto
# antes de calcular lags e janelas móveis

print('📈 Criando features estáticas históricas...')

# 1. Análise histórica de cada combinação PDV/produto
historico_combos = agregacao_semanal[agregacao_semanal['quantidade'] > 0].groupby(['pdv_id', 'produto_id']).agg({
    'semana': ['min', 'max', 'count'],
    'quantidade': ['mean', 'sum', 'std', 'min', 'max'],
    'valor': ['mean', 'sum'],
    'num_transacoes': 'sum'
}).reset_index()

# Flatten multi-level columns
historico_combos.columns = ['pdv_id', 'produto_id', 
                           'semana_primeira_venda', 'semana_ultima_venda', 'semanas_ativas',
                           'quantidade_media_historica', 'quantidade_total_historica', 'quantidade_std_historica',
                           'quantidade_min_historica', 'quantidade_max_historica',
                           'valor_medio_historico', 'valor_total_historico', 'transacoes_total_historico']

# 2. Calcular features derivadas
# Tempo total de atividade (primeira até última venda)
historico_combos['tempo_atividade_semanas'] = (
    historico_combos['semana_ultima_venda'] - historico_combos['semana_primeira_venda']
).dt.days / 7

# Frequência de vendas (% de semanas com venda no período ativo)
historico_combos['frequencia_vendas'] = (
    historico_combos['semanas_ativas'] / (historico_combos['tempo_atividade_semanas'] + 1)
).fillna(1.0)  # Para produtos com apenas 1 venda, frequência = 100%

# Preço médio por unidade
historico_combos['preco_medio_unitario'] = (
    historico_combos['valor_total_historico'] / historico_combos['quantidade_total_historica']
).fillna(0)

# Regularidade de vendas (coeficiente de variação)
historico_combos['regularidade_vendas'] = (
    historico_combos['quantidade_std_historica'] / (historico_combos['quantidade_media_historica'] + 1e-8)
).fillna(0)

# 3. Categorização de produtos por comportamento
# Definir quartis para categorizar produtos
q25, q75 = historico_combos['quantidade_media_historica'].quantile([0.25, 0.75])

historico_combos['categoria_volume'] = np.where(
    historico_combos['quantidade_media_historica'] <= q25, 'Baixo',
    np.where(historico_combos['quantidade_media_historica'] >= q75, 'Alto', 'Medio')
)

# 4. Features temporais relativas
# Semanas desde primeira venda (calculado para cada semana do grid)
primeira_semana_dataset = semanas_unicas.min()
historico_combos['semanas_desde_primeira_venda_inicio'] = (
    historico_combos['semana_primeira_venda'] - primeira_semana_dataset
).dt.days / 7

# 5. Merge com dados completos
print('🔗 Adicionando features históricas ao grid completo...')
dados_completos_enriquecido = dados_completos.merge(
    historico_combos[['pdv_id', 'produto_id', 'semana_primeira_venda', 'semana_ultima_venda', 
                      'semanas_ativas', 'tempo_atividade_semanas', 'frequencia_vendas',
                      'quantidade_media_historica', 'preco_medio_unitario', 'regularidade_vendas',
                      'categoria_volume', 'semanas_desde_primeira_venda_inicio']],
    on=['pdv_id', 'produto_id'],
    how='left'
)

# 6. Features temporais dinâmicas (calculadas para cada semana)
dados_completos_enriquecido['semanas_desde_primeira_venda'] = (
    dados_completos_enriquecido['semana'] - dados_completos_enriquecido['semana_primeira_venda']
).dt.days / 7

dados_completos_enriquecido['semanas_ate_ultima_venda'] = (
    dados_completos_enriquecido['semana_ultima_venda'] - dados_completos_enriquecido['semana']
).dt.days / 7

# 7. Feature de "saúde" do produto no PDV
# Produtos com última venda há muito tempo podem estar sendo descontinuados
dados_completos_enriquecido['produto_ativo'] = (
    dados_completos_enriquecido['semanas_ate_ultima_venda'] >= -4  # Vendeu nas últimas 4 semanas do dataset
).astype(int)

print(f'✅ Features históricas criadas:')
print(f'   • Shape após enriquecimento: {dados_completos_enriquecido.shape}')
print(f'   • Novas features adicionadas: {dados_completos_enriquecido.shape[1] - dados_completos.shape[1]}')

# Substituir dados_completos pela versão enriquecida
dados_completos = dados_completos_enriquecido
del dados_completos_enriquecido
gc.collect()

print('📋 Resumo das features históricas:')
print('   1. semana_primeira_venda / semana_ultima_venda')
print('   2. tempo_atividade_semanas / frequencia_vendas') 
print('   3. quantidade_media_historica / preco_medio_unitario')
print('   4. regularidade_vendas / categoria_volume')
print('   5. semanas_desde_primeira_venda / produto_ativo')
print('   6. semanas_ate_ultima_venda')

print('🚀 Grid Inteligente enriquecido com contexto histórico completo!')

📈 Criando features estáticas históricas...
🔗 Adicionando features históricas ao grid completo...
✅ Features históricas criadas:
   • Shape após enriquecimento: (54304120, 19)
   • Novas features adicionadas: 13
📋 Resumo das features históricas:
   1. semana_primeira_venda / semana_ultima_venda
   2. tempo_atividade_semanas / frequencia_vendas
   3. quantidade_media_historica / preco_medio_unitario
   4. regularidade_vendas / categoria_volume
   5. semanas_desde_primeira_venda / produto_ativo
   6. semanas_ate_ultima_venda
🚀 Grid Inteligente enriquecido com contexto histórico completo!


In [10]:
# 🏷️ Adicionando informações categóricas dos PDVs e Produtos
print('🔗 Adicionando informações categóricas...')

# Criar mapeamentos dos dados auxiliares
# Para PDVs - usar o hash do ID como proxy, mas também tentar extrair informações dos dados auxiliares
pdv_info = dados.groupby('pdv_id').first()[['distributor_id']].reset_index()
pdv_info['pdv_hash'] = pdv_info['pdv_id'].astype(str).apply(hash) % 100
pdv_info['distributor_encoded'] = pd.factorize(pdv_info['distributor_id'])[0]

# Para produtos - usar hash como proxy categórico
produto_info = pd.DataFrame({
    'produto_id': produtos_unicos,
    'produto_hash': [hash(str(pid)) % 100 for pid in produtos_unicos]
})

print(f'   • Informações de PDV: {pdv_info.shape}')
print(f'   • Informações de produto: {produto_info.shape}')

# Fazer merge com dados completos
dados_completos = dados_completos.merge(pdv_info, on='pdv_id', how='left')
dados_completos = dados_completos.merge(produto_info, on='produto_id', how='left')

print(f'\n✅ Informações categóricas adicionadas:')
print(f'   • Distribuidores únicos: {dados_completos["distributor_id"].nunique()}')
print(f'   • PDV hash valores únicos: {dados_completos["pdv_hash"].nunique()}')
print(f'   • Produto hash valores únicos: {dados_completos["produto_hash"].nunique()}')

# Verificar valores nulos
nulos = dados_completos.isnull().sum()
if nulos.sum() > 0:
    print(f'\n🔍 Valores nulos encontrados:')
    print(nulos[nulos > 0])
else:
    print('✅ Nenhum valor nulo encontrado')

🔗 Adicionando informações categóricas...
   • Informações de PDV: (15086, 4)
   • Informações de produto: (7092, 2)

✅ Informações categóricas adicionadas:
   • Distribuidores únicos: 8
   • PDV hash valores únicos: 100
   • Produto hash valores únicos: 100

🔍 Valores nulos encontrados:
semana_primeira_venda                  1130376
semana_ultima_venda                    1130376
semanas_ativas                         1130376
tempo_atividade_semanas                1130376
frequencia_vendas                      1130376
quantidade_media_historica             1130376
preco_medio_unitario                   1130376
regularidade_vendas                    1130376
categoria_volume                       1130376
semanas_desde_primeira_venda_inicio    1130376
semanas_desde_primeira_venda           1130376
semanas_ate_ultima_venda               1130376
dtype: int64


## 5. Features de Data

In [11]:
# Extrair features temporais
dados_completos['ano'] = dados_completos['semana'].dt.year
dados_completos['mes'] = dados_completos['semana'].dt.month
dados_completos['semana_ano'] = dados_completos['semana'].dt.isocalendar().week
dados_completos['dia_inicio_semana'] = dados_completos['semana'].dt.dayofweek

# Features cíclicas para capturar sazonalidade
dados_completos['mes_sin'] = np.sin(2 * np.pi * dados_completos['mes'] / 12)
dados_completos['mes_cos'] = np.cos(2 * np.pi * dados_completos['mes'] / 12)
dados_completos['semana_sin'] = np.sin(2 * np.pi * dados_completos['semana_ano'] / 52)
dados_completos['semana_cos'] = np.cos(2 * np.pi * dados_completos['semana_ano'] / 52)

print('📅 Features temporais criadas:')
print(f'   • ano, mes, semana_ano, dia_inicio_semana')
print(f'   • Features cíclicas: mes_sin/cos, semana_sin/cos')

📅 Features temporais criadas:
   • ano, mes, semana_ano, dia_inicio_semana
   • Features cíclicas: mes_sin/cos, semana_sin/cos


In [12]:
# Identificar feriados (simplificado - principais feriados nacionais de 2022)
feriados_2022 = [
    '2022-01-01',  # Ano Novo
    '2022-02-28',  # Carnaval
    '2022-03-01',  # Carnaval
    '2022-04-15',  # Sexta-feira Santa
    '2022-04-21',  # Tiradentes
    '2022-05-01',  # Dia do Trabalho
    '2022-09-07',  # Independência
    '2022-10-12',  # Nossa Senhora Aparecida
    '2022-11-02',  # Finados
    '2022-11-15',  # Proclamação da República
    '2022-12-25',  # Natal
]

feriados_2022 = pd.to_datetime(feriados_2022)

# Função para verificar se a semana contém feriado
def semana_tem_feriado(data_semana):
    inicio_semana = data_semana
    fim_semana = data_semana + timedelta(days=6)
    return any((feriado >= inicio_semana) & (feriado <= fim_semana) for feriado in feriados_2022)

dados_completos['tem_feriado'] = dados_completos['semana'].apply(semana_tem_feriado).astype(int)

print(f'🎉 Feature de feriados criada:')
print(f'   • Semanas com feriado: {dados_completos["tem_feriado"].sum():,}')
print(f'   • Semanas sem feriado: {(dados_completos["tem_feriado"] == 0).sum():,}')

🎉 Feature de feriados criada:
   • Semanas com feriado: 9,398,790
   • Semanas sem feriado: 44,905,330


## 6. Features de Lag (Atraso)

In [13]:
# Ordenar dados por semana para calcular lags
dados_completos = dados_completos.sort_values(['pdv_id', 'produto_id', 'semana'])

# Criar features de lag para quantidade
lags = [1, 2, 3, 4]

for lag in lags:
    dados_completos[f'quantidade_lag_{lag}'] = dados_completos.groupby(['pdv_id', 'produto_id'])['quantidade'].shift(lag)
    dados_completos[f'valor_lag_{lag}'] = dados_completos.groupby(['pdv_id', 'produto_id'])['valor'].shift(lag)

print(f'⏰ Features de lag criadas para {len(lags)} períodos')
print(f'   • quantidade_lag_1, quantidade_lag_2, quantidade_lag_3, quantidade_lag_4')
print(f'   • valor_lag_1, valor_lag_2, valor_lag_3, valor_lag_4')

# Verificar valores nulos (esperado nas primeiras semanas)
print('\n🔍 Valores nulos em features de lag:')
for lag in lags:
    nulos = dados_completos[f'quantidade_lag_{lag}'].isnull().sum()
    print(f'   • quantidade_lag_{lag}: {nulos:,} nulos')

⏰ Features de lag criadas para 4 períodos
   • quantidade_lag_1, quantidade_lag_2, quantidade_lag_3, quantidade_lag_4
   • valor_lag_1, valor_lag_2, valor_lag_3, valor_lag_4

🔍 Valores nulos em features de lag:
   • quantidade_lag_1: 1,044,310 nulos
   • quantidade_lag_2: 2,088,620 nulos
   • quantidade_lag_3: 3,132,930 nulos
   • quantidade_lag_4: 4,177,240 nulos


## 7. Features de Janela Móvel (Rolling Window)

In [14]:
# Criar features de janela móvel
window_sizes = [4, 8, 12]  # 4, 8 e 12 semanas

for window in window_sizes:
    # Média móvel
    dados_completos[f'quantidade_media_{window}w'] = (
        dados_completos.groupby(['pdv_id', 'produto_id'])['quantidade']
        .rolling(window=window, min_periods=1)
        .mean()
        .reset_index(level=[0,1], drop=True)
    )
    
    # Desvio padrão móvel
    dados_completos[f'quantidade_std_{window}w'] = (
        dados_completos.groupby(['pdv_id', 'produto_id'])['quantidade']
        .rolling(window=window, min_periods=1)
        .std()
        .reset_index(level=[0,1], drop=True)
    )
    
    # Máximo e mínimo móveis
    dados_completos[f'quantidade_max_{window}w'] = (
        dados_completos.groupby(['pdv_id', 'produto_id'])['quantidade']
        .rolling(window=window, min_periods=1)
        .max()
        .reset_index(level=[0,1], drop=True)
    )
    
    dados_completos[f'quantidade_min_{window}w'] = (
        dados_completos.groupby(['pdv_id', 'produto_id'])['quantidade']
        .rolling(window=window, min_periods=1)
        .min()
        .reset_index(level=[0,1], drop=True)
    )

print(f'📊 Features de janela móvel criadas para janelas de {window_sizes} semanas')
print(f'   • Média, desvio padrão, máximo e mínimo para cada janela')

# Preencher NaN em desvio padrão com 0 (quando só há 1 observação)
std_columns = [col for col in dados_completos.columns if 'std_' in col]
dados_completos[std_columns] = dados_completos[std_columns].fillna(0)

print('✅ Valores NaN em desvio padrão preenchidos com 0')

📊 Features de janela móvel criadas para janelas de [4, 8, 12] semanas
   • Média, desvio padrão, máximo e mínimo para cada janela
✅ Valores NaN em desvio padrão preenchidos com 0


## 8. Features Categóricas - Encoding

In [15]:
# Verificar variáveis categóricas criadas
print('🏷️ Variáveis categóricas:')
categoricas = ['pdv_hash', 'produto_hash', 'periodo_ano']

for col in categoricas:
    if col in dados_completos.columns:
        print(f'   • {col}: {dados_completos[col].nunique()} categorias únicas')
        print(f'     {dados_completos[col].value_counts().head().to_dict()}')
        print()
    else:
        print(f'   • {col}: coluna não encontrada')
        print()

🏷️ Variáveis categóricas:
   • pdv_hash: 100 categorias únicas
     {76: 796224, 12: 731224, 16: 697580, 61: 691548, 59: 682032}

   • produto_hash: 100 categorias únicas
     {59: 981136, 84: 978536, 26: 961740, 76: 950716, 38: 866372}

   • periodo_ano: coluna não encontrada



In [16]:
# Label Encoding para variáveis categóricas
label_encoders = {}

for col in categoricas:
    if col in dados_completos.columns:
        le = LabelEncoder()
        dados_completos[f'{col}_encoded'] = le.fit_transform(dados_completos[col].astype(str))
        label_encoders[col] = le
        
        print(f'🔢 {col} -> {col}_encoded')
        print(f'   Valores únicos: {dados_completos[col].nunique()}')
        print()

print('✅ Label encoding completo')

🔢 pdv_hash -> pdv_hash_encoded
   Valores únicos: 100

🔢 produto_hash -> produto_hash_encoded
   Valores únicos: 100

✅ Label encoding completo


## 9. Features Adicionais

In [17]:
# Features de tendência
dados_completos['tendencia_4w'] = (
    dados_completos['quantidade_lag_1'] - dados_completos['quantidade_lag_4']
)

# Features de variabilidade
dados_completos['cv_4w'] = (
    dados_completos['quantidade_std_4w'] / (dados_completos['quantidade_media_4w'] + 1e-8)
)

# Features de momentum
dados_completos['momentum_2w'] = (
    dados_completos['quantidade_lag_1'] + dados_completos['quantidade_lag_2']
) / 2

# Feature de sazonalidade (comparação com mesmo período do ano anterior)
# Como temos apenas 2022, vamos usar uma proxy baseada na semana do ano
dados_completos['periodo_ano'] = np.where(
    dados_completos['semana_ano'] <= 13, 'Q1',
    np.where(dados_completos['semana_ano'] <= 26, 'Q2',
    np.where(dados_completos['semana_ano'] <= 39, 'Q3', 'Q4'))
)

print('🚀 Features adicionais criadas:')
print('   • tendencia_4w: tendência nas últimas 4 semanas')
print('   • cv_4w: coeficiente de variação (4 semanas)')
print('   • momentum_2w: momentum das últimas 2 semanas')
print('   • periodo_ano: trimestre do ano (Q1, Q2, Q3, Q4)')

🚀 Features adicionais criadas:
   • tendencia_4w: tendência nas últimas 4 semanas
   • cv_4w: coeficiente de variação (4 semanas)
   • momentum_2w: momentum das últimas 2 semanas
   • periodo_ano: trimestre do ano (Q1, Q2, Q3, Q4)


## 10. Limpeza e Preparação Final

Agora vamos remover as primeiras semanas onde não temos lags completos (lag_4). 

**Estratégia Otimizada**: Como o dataset é muito grande (~54M registros), vamos usar processamento em chunks para evitar problemas de memória durante a operação de filtragem.

In [None]:
# 🚨 EMERGÊNCIA: Salvar progresso e limpar memória IMEDIATAMENTE
print('🚨 Executando salvamento de emergência para preservar trabalho...')

try:
    # Salvar dados completos em formato compacto (parquet é mais eficiente que CSV)
    print('💾 Salvando checkpoint em formato compacto...')
    dados_completos.to_parquet('../data/checkpoint_completo.parquet', 
                              compression='gzip', 
                              index=False)
    print('✅ Checkpoint salvo com sucesso!')
    
    # Liberar imediatamente da memória
    print('🧹 Liberando memória...')
    del dados_completos
    gc.collect()
    
    print('✅ Memória liberada!')
    print('📋 Próximos passos:')
    print('   1. Reinicie o kernel do Jupyter')
    print('   2. Execute: dados_completos = pd.read_parquet("../data/checkpoint_completo.parquet")')
    print('   3. Continue com a limpeza usando uma estratégia mais simples')
    
    # Estratégia simplificada para executar após recarregar
    strategy_code = '''
# APÓS REINICIAR O KERNEL E RECARREGAR:
import pandas as pd
import numpy as np
import gc

# Recarregar dados
dados_completos = pd.read_parquet("../data/checkpoint_completo.parquet")
print(f"Dados recarregados: {dados_completos.shape}")

# Filtragem simples e direta
print("Aplicando filtro...")
dados_limpos = dados_completos[dados_completos['quantidade_lag_4'].notna()].copy()
print(f"Dados limpos: {dados_limpos.shape}")

# Salvar resultado final
dados_limpos.to_csv("../data/dados_features_completo.csv", index=False)
print("✅ Dataset final salvo!")

# Limpar memória
del dados_completos
gc.collect()
    '''
    
    # Salvar código para executar depois
    with open('../data/strategy_after_restart.py', 'w') as f:
        f.write(strategy_code)
    
    print('\\n📝 Código salvo em: ../data/strategy_after_restart.py')
    print('\\n🔄 RECOMENDAÇÃO URGENTE:')
    print('   • Reinicie o kernel NOW para liberar RAM')
    print('   • Execute o código do arquivo strategy_after_restart.py')
    
except Exception as e:
    print(f'❌ Erro ao salvar: {e}')
    print('🚨 CRÍTICO: Reinicie o kernel IMEDIATAMENTE!')

In [None]:
# Verificar valores infinitos ou muito grandes
print('🔍 Verificação de valores problemáticos:')

# Substituir infinitos por NaN e depois por 0
dados_limpos = dados_limpos.replace([np.inf, -np.inf], np.nan)
numeric_columns = dados_limpos.select_dtypes(include=[np.number]).columns
dados_limpos[numeric_columns] = dados_limpos[numeric_columns].fillna(0)

print(f'   • Valores infinitos tratados')
print(f'   • Valores nulos finais: {dados_limpos.isnull().sum().sum()}')

In [None]:
# Mostrar estatísticas finais
print('📈 Estatísticas finais do dataset:')
print(f'   • Shape final: {dados_limpos.shape}')
print(f'   • Colunas: {len(dados_limpos.columns)}')
print(f'   • PDVs únicos: {dados_limpos["pdv_id"].nunique()}')
print(f'   • Produtos únicos: {dados_limpos["produto_id"].nunique()}')
print(f'   • Semanas: {dados_limpos["semana"].nunique()}')
print(f'   • Registros com venda > 0: {(dados_limpos["quantidade"] > 0).sum():,}')
print(f'   • Registros com venda = 0: {(dados_limpos["quantidade"] == 0).sum():,}')

print('\n🏷️ Colunas do dataset final:')
for i, col in enumerate(dados_limpos.columns, 1):
    print(f'   {i:2d}. {col}')

## 11. Análise Exploratória das Features

In [None]:
# Distribuição da variável target
plt.figure(figsize=(15, 5))

plt.subplot(1, 3, 1)
plt.hist(dados_limpos[dados_limpos['quantidade'] > 0]['quantidade'], bins=50, alpha=0.7)
plt.title('Distribuição da Quantidade (> 0)')
plt.xlabel('Quantidade')
plt.ylabel('Frequência')

plt.subplot(1, 3, 2)
plt.hist(np.log1p(dados_limpos[dados_limpos['quantidade'] > 0]['quantidade']), bins=50, alpha=0.7)
plt.title('Distribuição log(Quantidade + 1)')
plt.xlabel('log(Quantidade + 1)')
plt.ylabel('Frequência')

plt.subplot(1, 3, 3)
dados_limpos['quantidade'].value_counts().head(10).plot(kind='bar')
plt.title('Top 10 Valores de Quantidade')
plt.xlabel('Quantidade')
plt.ylabel('Frequência')
plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

print(f'📊 Estatísticas da quantidade:')
print(dados_limpos['quantidade'].describe())

In [None]:
# Correlação entre features de lag
lag_features = [f'quantidade_lag_{i}' for i in [1, 2, 3, 4]]
corr_matrix = dados_limpos[lag_features + ['quantidade']].corr()

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Correlação entre Features de Lag e Target')
plt.tight_layout()
plt.show()

print('🔗 Correlações com target:')
corrs = dados_limpos[lag_features].corrwith(dados_limpos['quantidade'])
for feature, corr in corrs.items():
    print(f'   • {feature}: {corr:.4f}')

In [None]:
# Importância das features temporais
temporal_features = ['mes', 'semana_ano', 'tem_feriado', 'mes_sin', 'mes_cos']

plt.figure(figsize=(15, 10))

for i, feature in enumerate(temporal_features, 1):
    plt.subplot(2, 3, i)
    dados_agg = dados_limpos.groupby(feature)['quantidade'].agg(['mean', 'sum']).reset_index()
    
    plt.bar(dados_agg[feature], dados_agg['mean'], alpha=0.7)
    plt.title(f'Quantidade Média por {feature}')
    plt.xlabel(feature)
    plt.ylabel('Quantidade Média')
    plt.xticks(rotation=45)

plt.tight_layout()
plt.show()

# Salvar dataset completo com features e estratégia Cold Start
dados_limpos.to_csv('../data/dados_features_completo.csv', index=False)
print(f'💾 Dados completos salvos em: data/dados_features_completo.csv')
print(f'   • Shape: {dados_limpos.shape}')
print(f'   • Tamanho do arquivo: {dados_limpos.memory_usage(deep=True).sum() / 1024**2:.1f} MB')

# Salvar também informações dos encoders e estratégia Cold Start
import pickle

# Salvar encoders
with open('../data/label_encoders.pkl', 'wb') as f:
    pickle.dump(label_encoders, f)
    
# Salvar estratégia Cold Start
with open('../data/cold_start_strategy.pkl', 'wb') as f:
    pickle.dump(cold_start_strategy, f)

print('💾 Arquivos salvos:')
print('   ✅ label_encoders.pkl - Encoders para variáveis categóricas')
print('   ✅ cold_start_strategy.pkl - Estratégia para novas combinações')
print('   ✅ dados_features_completo.csv - Dataset completo com features')

# Salvar também metadados do processo
metadata = {
    'data_processamento': pd.Timestamp.now(),
    'total_registros': len(dados_limpos),
    'total_features': len(dados_limpos.columns),
    'combinacoes_pdv_produto': dados_limpos[['pdv_id', 'produto_id']].drop_duplicates().shape[0],
    'semanas_cobertas': dados_limpos['semana'].nunique(),
    'periodo_treino': f"{dados_limpos['semana'].min()} a {dados_limpos['semana'].max()}",
    'estrategia_grid': 'Grid Inteligente com features históricas',
    'cold_start_preparado': True
}

with open('../data/feature_engineering_metadata.pkl', 'wb') as f:
    pickle.dump(metadata, f)

print('📋 Metadados do processamento salvos em: feature_engineering_metadata.pkl')
print('🎯 Tudo pronto para a fase de modelagem!')

In [None]:
# Criar um resumo completo das features criadas
feature_summary = {
    'Temporais': ['ano', 'mes', 'semana_ano', 'dia_inicio_semana', 'tem_feriado', 
                  'mes_sin', 'mes_cos', 'semana_sin', 'semana_cos', 'periodo_ano'],
    'Históricas/Estáticas': ['semana_primeira_venda', 'semana_ultima_venda', 'tempo_atividade_semanas',
                            'frequencia_vendas', 'quantidade_media_historica', 'preco_medio_unitario',
                            'regularidade_vendas', 'categoria_volume', 'semanas_desde_primeira_venda',
                            'produto_ativo', 'semanas_ate_ultima_venda'],
    'Lag': [f'quantidade_lag_{i}' for i in [1, 2, 3, 4]] + 
           [f'valor_lag_{i}' for i in [1, 2, 3, 4]],
    'Rolling': [col for col in dados_limpos.columns if any(x in col for x in ['_media_', '_std_', '_max_', '_min_'])],
    'Categóricas': ['pdv_hash_encoded', 'produto_hash_encoded', 'periodo_ano_encoded'],
    'Adicionais': ['tendencia_4w', 'cv_4w', 'momentum_2w', 'pdv_hash', 'produto_hash']
}

print('📋 Resumo Completo das Features Criadas:')
print('=' * 60)

total_features = 0
for categoria, features in feature_summary.items():
    found_features = [f for f in features if f in dados_limpos.columns]
    print(f'\\n🏷️ {categoria} ({len(found_features)} features):')
    for feature in found_features:
        print(f'   ✅ {feature}')
    
    not_found = [f for f in features if f not in dados_limpos.columns]
    for feature in not_found:
        print(f'   ❌ {feature} (não encontrada)')
    
    total_features += len(found_features)

print(f'\\n📊 Estatísticas Finais:')
print(f'   • Total de features criadas: {total_features}')
print(f'   • Total de colunas no dataset: {len(dados_limpos.columns)}')
print(f'   • Registros finais: {dados_limpos.shape[0]:,}')
print(f'   • Memória total: {dados_limpos.memory_usage(deep=True).sum() / 1024**2:.1f} MB')

print(f'\\n🎯 Otimizações Implementadas:')
print('   ✅ Grid Inteligente (94.4% redução de memória)')
print('   ✅ Features históricas para contexto de longo prazo')
print('   ✅ Cold Start strategy para novas combinações')
print('   ✅ Processamento em lotes para eficiência')

print(f'\\n🚀 Sistema Completo de Feature Engineering:')
print('   • Zeros significativos preservados')
print('   • Contexto histórico capturado')
print('   • Robustez para dados futuros')
print('   • Otimizado para performance')

print('\\n✅ Pré-processamento e Engenharia de Features Concluídos!')
print('🔄 Próximo passo: Modelagem e Treinamento')
print(f'💾 Dataset final salvo com {dados_limpos.shape[0]:,} registros e {dados_limpos.shape[1]} colunas')

In [None]:
# 🆕 Implementação da Estratégia de Cold Start
# Função para lidar com combinações PDV/produto não vistas durante treinamento

def implementar_cold_start_strategy():
    """
    Prepara a estratégia de Cold Start para combinações PDV/produto novas.
    Esta função será usada na fase de predição.
    """
    
    # 1. Salvar combinações conhecidas do Grid Inteligente
    combinacoes_conhecidas = set(
        dados_limpos[['pdv_id', 'produto_id']].drop_duplicates().apply(
            lambda row: (row['pdv_id'], row['produto_id']), axis=1
        ).tolist()
    )
    
    print('🔍 Análise das combinações conhecidas:')
    print(f'   • Total de combinações PDV/produto treinadas: {len(combinacoes_conhecidas):,}')
    print(f'   • PDVs únicos no treino: {dados_limpos["pdv_id"].nunique():,}')
    print(f'   • Produtos únicos no treino: {dados_limpos["produto_id"].nunique():,}')
    
    # 2. Função para identificar novas combinações
    def identificar_cold_start(df_teste):
        \"\"\"
        Identifica combinações PDV/produto que não existem no dataset de treino.
        
        Args:
            df_teste: DataFrame com combinações que precisam de previsão
            
        Returns:
            tuple: (combinações_conhecidas, combinações_cold_start)
        \"\"\"
        combinacoes_teste = set(
            df_teste[['pdv_id', 'produto_id']].drop_duplicates().apply(
                lambda row: (row['pdv_id'], row['produto_id']), axis=1
            ).tolist()
        )
        
        conhecidas_teste = combinacoes_teste & combinacoes_conhecidas
        cold_start_teste = combinacoes_teste - combinacoes_conhecidas
        
        return conhecidas_teste, cold_start_teste
    
    # 3. Função para gerar previsões Cold Start
    def gerar_previsoes_cold_start(cold_start_combinations, semanas_predição):
        \"\"\"
        Gera previsões seguras (quantidade=0) para combinações Cold Start.
        
        Args:
            cold_start_combinations: Set de tuplas (pdv_id, produto_id)
            semanas_predição: Lista de semanas para predição
            
        Returns:
            DataFrame com previsões de quantidade=0
        \"\"\"
        if not cold_start_combinations:
            return pd.DataFrame()
        
        cold_start_predictions = []
        for pdv_id, produto_id in cold_start_combinations:
            for semana in semanas_predição:
                cold_start_predictions.append({
                    'semana': semana,
                    'pdv_id': pdv_id,
                    'produto_id': produto_id,
                    'quantidade_predita': 0.0,
                    'fonte_predicao': 'cold_start'
                })
        
        return pd.DataFrame(cold_start_predictions)
    
    # 4. Salvar informações para uso futuro
    cold_start_info = {
        'combinacoes_conhecidas': combinacoes_conhecidas,
        'identificar_cold_start': identificar_cold_start,
        'gerar_previsoes_cold_start': gerar_previsoes_cold_start,
        'total_combinacoes_treino': len(combinacoes_conhecidas),
        'pdvs_treino': set(dados_limpos['pdv_id'].unique()),
        'produtos_treino': set(dados_limpos['produto_id'].unique())
    }
    
    return cold_start_info

# Executar preparação
cold_start_strategy = implementar_cold_start_strategy()

print('\\n🎯 Estratégia de Cold Start preparada:')
print('   ✅ Combinações conhecidas mapeadas')
print('   ✅ Função de identificação criada') 
print('   ✅ Função de previsão segura criada')
print('   ✅ Informações salvas para fase de predição')

# Exemplo de uso (simulado)
print('\\n📝 Exemplo de uso na predição:')
print('```python')
print('# Durante a predição:')
print('conhecidas, cold_start = cold_start_strategy[\"identificar_cold_start\"](df_teste)')
print('predicoes_modelo = modelo.predict(features_conhecidas)')
print('predicoes_cold_start = cold_start_strategy[\"gerar_previsoes_cold_start\"](cold_start, semanas_2023)')
print('predicoes_finais = pd.concat([predicoes_modelo, predicoes_cold_start])')
print('```')

print('\\n🚀 Sistema robusto para lidar com novas combinações implementado!')

## 13. 🆕 Estratégia de Cold Start

**Problema do Cold Start**: O Grid Inteligente contém apenas combinações PDV/produto que já venderam em 2022. 
Mas e se os dados de teste de 2023 contiverem novas combinações (novos produtos ou novos PDVs)?

**Solução**: Preparar uma função que identifica e trata essas novas combinações com previsão segura (quantidade = 0).

In [None]:
# Criar um resumo das features criadas
feature_summary = {
    'Temporais': ['ano', 'mes', 'semana_ano', 'dia_inicio_semana', 'tem_feriado', 
                  'mes_sin', 'mes_cos', 'semana_sin', 'semana_cos', 'periodo_ano'],
    'Lag': [f'quantidade_lag_{i}' for i in [1, 2, 3, 4]] + 
           [f'valor_lag_{i}' for i in [1, 2, 3, 4]],
    'Rolling': [col for col in dados_limpos.columns if any(x in col for x in ['_media_', '_std_', '_max_', '_min_'])],
    'Categóricas': ['pdv_hash_encoded', 'produto_hash_encoded', 'periodo_ano_encoded'],
    'Adicionais': ['tendencia_4w', 'cv_4w', 'momentum_2w', 'pdv_hash', 'produto_hash']
}

print('📋 Resumo das Features Criadas:')
print('=' * 50)

total_features = 0
for categoria, features in feature_summary.items():
    print(f'\n🏷️ {categoria} ({len(features)} features):')
    for feature in features:
        if feature in dados_limpos.columns:
            print(f'   ✅ {feature}')
        else:
            print(f'   ❌ {feature} (não encontrada)')
    total_features += len([f for f in features if f in dados_limpos.columns])

print(f'\n📊 Total de features criadas: {total_features}')
print(f'📊 Total de colunas no dataset: {len(dados_limpos.columns)}')

print('\n✅ Engenharia de Features Concluída!')
print('🚀 Próximo passo: Modelagem e Treinamento')
print(f'💾 Dataset final salvo com {dados_limpos.shape[0]:,} registros e {dados_limpos.shape[1]} colunas')