# 10 - Engenharia de Features Avan√ßada

Este notebook cria features avan√ßadas baseadas nos dados de treino e valida√ß√£o temporal.

## Novas Features:
- **Target de Classifica√ß√£o**: `vendeu` (1 se quantidade > 0, 0 caso contr√°rio)
- **Features de Pre√ßo**: pre√ßo unit√°rio, varia√ß√µes, m√©dias
- **Features de Calend√°rio**: dia do m√™s, semana do m√™s, flags temporais
- **Features de Hierarquia**: agrega√ß√µes por categoria, zipcode
- **Features de Tend√™ncia**: momentum, acelera√ß√£o de vendas

In [1]:
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import os
import warnings
warnings.filterwarnings('ignore')

print('üöÄ Iniciando Engenharia de Features Avan√ßada')
print('üéØ Objetivo: Criar vari√°veis preditivas poderosas para o modelo de dois est√°gios')

# Criar pasta submissao3 se n√£o existir
os.makedirs('../data/submissao3', exist_ok=True)
print('üìÅ Pasta data/submissao3 criada/verificada')

üöÄ Iniciando Engenharia de Features Avan√ßada
üéØ Objetivo: Criar vari√°veis preditivas poderosas para o modelo de dois est√°gios
üìÅ Pasta data/submissao3 criada/verificada


## 1. Carregamento dos Dados de Treino e Valida√ß√£o

In [2]:
# Carregar dados de treino e valida√ß√£o
print('üìÇ Carregando dados de treino e valida√ß√£o...')

train_data = pd.read_parquet('../data/submissao3/train_data.parquet')
validation_data = pd.read_parquet('../data/submissao3/validation_data.parquet')

print(f'üèãÔ∏è Dados de treino: {train_data.shape}')
print(f'üîç Dados de valida√ß√£o: {validation_data.shape}')

# Verificar per√≠odo
print(f'üìÖ Treino: {train_data["semana"].min()} at√© {train_data["semana"].max()}')
print(f'üìÖ Valida√ß√£o: {validation_data["semana"].min()} at√© {validation_data["semana"].max()}')

print('‚úÖ Dados carregados com sucesso')

üìÇ Carregando dados de treino e valida√ß√£o...
üèãÔ∏è Dados de treino: (50126880, 6)
üîç Dados de valida√ß√£o: (5221550, 6)
üìÖ Treino: 2021-12-28 00:00:00 at√© 2022-11-22 00:00:00
üìÖ Valida√ß√£o: 2022-11-29 00:00:00 at√© 2022-12-27 00:00:00
‚úÖ Dados carregados com sucesso


## 2. Carregamento dos Dados Auxiliares

In [3]:
# Carregar dados de produtos e PDVs para features adicionais
print('üìÇ Carregando dados auxiliares...')

# Produtos
produtos = pd.read_parquet(
    '../data/part-00000-tid-7173294866425216458-eae53fbf-d19e-4130-ba74-78f96b9675f1-4-1-c000.snappy.parquet'
)
produtos = produtos.rename(columns={
    'produto': 'produto_id'
})

# PDVs
pdvs = pd.read_parquet(
    '../data/part-00000-tid-2779033056155408584-f6316110-4c9a-4061-ae48-69b77c7c8c36-4-1-c000.snappy.parquet'
)
pdvs = pdvs.rename(columns={
    'pdv': 'pdv_id',
    'categoria_pdv': 'tipo_loja'
})

print(f'üìä Produtos: {produtos.shape} - Categorias: {produtos["categoria"].nunique()}')
print(f'üìä PDVs: {pdvs.shape} - Zipcodes: {pdvs["zipcode"].nunique()}')

print('‚úÖ Dados auxiliares carregados')

üìÇ Carregando dados auxiliares...
üìä Produtos: (7092, 8) - Categorias: 7
üìä PDVs: (14419, 4) - Zipcodes: 788
‚úÖ Dados auxiliares carregados


## 3. Fun√ß√£o de Engenharia de Features

In [4]:
def criar_features_avancadas_otimizada(df, produtos_df, pdvs_df, nome_conjunto):
    """
    Criar features avan√ßadas de forma OTIMIZADA e SEM TARGET LEAKAGE.
    Esta vers√£o substitui o groupby().apply() por opera√ß√µes vetorizadas.
    """
    print(f'\nüîß Criando features avan√ßadas para {nome_conjunto} (VERS√ÉO OTIMIZADA)...')
    
    dados = df.copy()
    
    # ETAPAS INICIAIS (J√Å CORRETAS)
    print('   üéØ Criando target de classifica√ß√£o...')
    dados['vendeu'] = (dados['quantidade'] > 0).astype(int)
    
    print('   üîó Fazendo merge com dados auxiliares...')
    dados = dados.merge(produtos_df[['produto_id', 'categoria']], on='produto_id', how='left')
    dados = dados.merge(pdvs_df[['pdv_id', 'zipcode', 'tipo_loja']], on='pdv_id', how='left')
    
    print('   üîÑ Ordenando dados para consist√™ncia temporal...')
    dados.sort_values(['pdv_id', 'produto_id', 'semana'], inplace=True)
    dados.reset_index(drop=True, inplace=True)
    
    gb_cols = ['pdv_id', 'produto_id']
    
    # ============================================================================
    # REFAZENDO AS FEATURES DE FORMA OTIMIZADA
    # ============================================================================
    
    # 1. FEATURES DE PRE√áO E LAGS (SEM LEAKAGE)
    print('   üí∞ Criando features de pre√ßo e lags (otimizado)...')
    preco_unitario_temp = np.where(dados['quantidade'] > 0, dados['faturamento'] / dados['quantidade'], 0)
    
    gb_preco = dados.assign(preco_unitario_temp=preco_unitario_temp).groupby(gb_cols)['preco_unitario_temp']
    dados['preco_lag_1'] = gb_preco.shift(1)
    dados['preco_lag_2'] = gb_preco.shift(2)
    dados['variacao_preco_sku_semanal'] = (dados['preco_lag_1'] - dados['preco_lag_2']).fillna(0)
    
    # 2. FEATURES DE LAG E ROLLING (OTIMIZA√á√ÉO CR√çTICA)
    print('   üìä Criando features de lag e rolling (OTIMIZA√á√ÉO CR√çTICA)...')
    
    # Agrupar uma √∫nica vez para performance
    gb_quantidade = dados.groupby(gb_cols)['quantidade']
    
    # Lags de quantidade
    for lag in [1, 2, 3, 4]:
        dados[f'quantidade_lag_{lag}'] = gb_quantidade.shift(lag)
        
    # --- A MUDAN√áA MAIS IMPORTANTE EST√Å AQUI ---
    # Substituindo o groupby().apply() lento por groupby().rolling() otimizado
    rolling_window = gb_quantidade.rolling(window=4, min_periods=1)
    
    dados['quantidade_media_4w'] = rolling_window.mean().reset_index(level=gb_cols, drop=True)
    dados['quantidade_std_4w'] = rolling_window.std().reset_index(level=gb_cols, drop=True)
    dados['quantidade_max_4w'] = rolling_window.max().reset_index(level=gb_cols, drop=True)
    # --- FIM DA MUDAN√áA CR√çTICA ---

    # 3. DEMAIS FEATURES (J√Å ERAM RELATIVAMENTE EFICIENTES, MAS PODEM USAR OS RESULTADOS OTIMIZADOS)
    print('   üìà Criando features de tend√™ncia e hierarquia...')
    
    # Hierarquia (usando lags j√° calculados)
    dados['media_vendas_categoria_pdv_lag_1'] = dados.groupby(['semana', 'categoria', 'pdv_id'])['quantidade_lag_1'].transform('mean')
    vendas_categoria_pdv_lag = dados.groupby(['semana', 'categoria', 'pdv_id'])['quantidade_lag_1'].transform('sum')
    dados['share_vendas_sku_categoria_lag_1'] = (dados['quantidade_lag_1'] / vendas_categoria_pdv_lag).fillna(0)

    # Tend√™ncia (usando lags j√° calculados)
    dados['momentum_ratio'] = (dados['quantidade_lag_1'] / dados['quantidade_media_4w']).fillna(0)
    dados['aceleracao'] = (dados['quantidade_lag_1'] - dados['quantidade_lag_2']).fillna(0)
    
    # 4. FEATURES DE CALEND√ÅRIO (SEMPRE SEGURAS)
    print('   üìÖ Criando features de calend√°rio...')
    dados['dia_do_mes'] = dados['semana'].dt.day
    dados['semana_do_mes'] = (dados['semana'].dt.day - 1) // 7 + 1
    dados['eh_inicio_mes'] = (dados['semana'].dt.day <= 7).astype(int)
    dados['eh_fim_mes'] = (dados['semana'].dt.day >= 22).astype(int)
    dados['mes'] = dados['semana'].dt.month
    
    # Features c√≠clicas para m√™s
    dados['mes_sin'] = np.sin(2 * np.pi * dados['mes'] / 12)
    dados['mes_cos'] = np.cos(2 * np.pi * dados['mes'] / 12)

    # 5. FEATURES PARA REGRESS√ÉO (usando valores atuais)
    print('   üéØ Criando features espec√≠ficas para REGRESS√ÉO...')
    dados['preco_unitario_atual'] = preco_unitario_temp 
    dados['preco_medio_semanal_sku_atual'] = dados.groupby(['semana', 'produto_id'])['preco_unitario_atual'].transform('mean')
    dados['media_vendas_categoria_pdv_atual'] = dados.groupby(['semana', 'categoria', 'pdv_id'])['quantidade'].transform('mean')
    vendas_categoria_pdv_atual = dados.groupby(['semana', 'categoria', 'pdv_id'])['quantidade'].transform('sum')
    dados['share_vendas_sku_categoria_atual'] = (dados['quantidade'] / vendas_categoria_pdv_atual).fillna(0)
    
    # 6. FEATURES CATEG√ìRICAS HASH
    print('   üè∑Ô∏è Criando features categ√≥ricas...')
    dados['pdv_hash'] = dados['pdv_id'].astype(str).apply(hash).abs() % 100
    dados['produto_hash'] = dados['produto_id'].astype(str).apply(hash).abs() % 100
    dados['categoria_hash'] = dados['categoria'].astype(str).apply(hash).abs() % 50
    dados['zipcode_hash'] = dados['zipcode'].astype(str).apply(hash).abs() % 1000
    
    # Features de intera√ß√£o
    dados['pdv_produto_hash'] = dados['pdv_hash'] * 100 + dados['produto_hash']
    dados['categoria_zipcode_hash'] = dados['categoria_hash'] * 1000 + dados['zipcode_hash']
    
    # 7. LIMPEZA FINAL
    print('   üßπ Aplicando limpeza final...')
    dados.fillna(0, inplace=True)
    
    print(f'   ‚úÖ {nome_conjunto} - Features criadas com sucesso: {dados.shape}')
    return dados

print('‚úÖ Fun√ß√£o de engenharia de features OTIMIZADA definida')

‚úÖ Fun√ß√£o de engenharia de features OTIMIZADA definida


## 4. Aplica√ß√£o da Engenharia de Features

In [5]:
# Aplicar engenharia de features OTIMIZADA aos dois conjuntos
print('üîß Aplicando engenharia de features OTIMIZADA...')

train_features = criar_features_avancadas_otimizada(train_data, produtos, pdvs, "TREINO")
validation_features = criar_features_avancadas_otimizada(validation_data, produtos, pdvs, "VALIDA√á√ÉO")

print('\n‚úÖ Engenharia de features OTIMIZADA aplicada a ambos os conjuntos!')

üîß Aplicando engenharia de features OTIMIZADA...

üîß Criando features avan√ßadas para TREINO (VERS√ÉO OTIMIZADA)...
   üéØ Criando target de classifica√ß√£o...
   üîó Fazendo merge com dados auxiliares...
   üîÑ Ordenando dados para consist√™ncia temporal...
   üí∞ Criando features de pre√ßo e lags (otimizado)...
   üìä Criando features de lag e rolling (OTIMIZA√á√ÉO CR√çTICA)...
   üìà Criando features de tend√™ncia e hierarquia...
   üìÖ Criando features de calend√°rio...
   üéØ Criando features espec√≠ficas para REGRESS√ÉO...
   üè∑Ô∏è Criando features categ√≥ricas...
   üßπ Aplicando limpeza final...
   ‚úÖ TREINO - Features criadas com sucesso: (50126880, 41)

üîß Criando features avan√ßadas para VALIDA√á√ÉO (VERS√ÉO OTIMIZADA)...
   üéØ Criando target de classifica√ß√£o...
   üîó Fazendo merge com dados auxiliares...
   üîÑ Ordenando dados para consist√™ncia temporal...
   üí∞ Criando features de pre√ßo e lags (otimizado)...
   üìä Criando features de lag e ro

## 5. An√°lise das Features Criadas

In [6]:
# Analisar features criadas SEM TARGET LEAKAGE
print('üìä Analisando features criadas SEM TARGET LEAKAGE...')

# Listar todas as features
features_disponiveis = list(train_features.columns)
print(f'\nüìã Features dispon√≠veis ({len(features_disponiveis)}):')

# Categorizar features CORRIGIDAS
features_categorias = {
    'B√°sicas': ['semana', 'pdv_id', 'produto_id', 'quantidade', 'faturamento', 'distributor_id'],
    'Target': ['vendeu'],
    'Auxiliares': ['categoria', 'zipcode', 'tipo_loja'],
    'Pre√ßo_SEM_Leakage': [col for col in features_disponiveis if 'preco' in col and 'lag' in col],
    'Pre√ßo_PARA_Regress√£o': [col for col in features_disponiveis if 'preco' in col and 'atual' in col],
    'Calend√°rio': [col for col in features_disponiveis if any(x in col for x in ['dia', 'semana_do', 'mes', 'inicio', 'fim'])],
    'Lag': [col for col in features_disponiveis if 'lag_' in col and 'preco' not in col],
    'Rolling': [col for col in features_disponiveis if any(x in col for x in ['media_4w', 'std_4w', 'max_4w'])],
    'Hierarquia_SEM_Leakage': [col for col in features_disponiveis if any(x in col for x in ['media_vendas', 'share']) and 'lag' in col],
    'Hierarquia_PARA_Regress√£o': [col for col in features_disponiveis if any(x in col for x in ['media_vendas', 'share']) and 'atual' in col],
    'Tend√™ncia': [col for col in features_disponiveis if any(x in col for x in ['momentum', 'aceleracao'])],
    'Hash': [col for col in features_disponiveis if 'hash' in col]
}

for categoria, features in features_categorias.items():
    if features:
        print(f'\nüè∑Ô∏è {categoria} ({len(features)}):')
        for feat in features:
            if feat in features_disponiveis:
                print(f'   ‚Ä¢ {feat}')

print('\nüö® AN√ÅLISE DE TARGET LEAKAGE:')
features_sem_leakage = []
features_com_leakage = []

for feat in features_disponiveis:
    if feat in ['semana', 'pdv_id', 'produto_id', 'quantidade', 'faturamento', 'distributor_id', 'vendeu']:
        continue  # B√°sicas, n√£o contar
    elif 'atual' in feat:
        features_com_leakage.append(feat)  # Para regress√£o apenas
    else:
        features_sem_leakage.append(feat)  # Seguras para classifica√ß√£o

print(f'‚úÖ Features SEGURAS para classifica√ß√£o: {len(features_sem_leakage)}')
for feat in features_sem_leakage[:10]:  # Mostrar apenas primeiras 10
    print(f'   ‚Ä¢ {feat}')
if len(features_sem_leakage) > 10:
    print(f'   ‚Ä¢ ... e mais {len(features_sem_leakage)-10} features')

print(f'\n‚ö†Ô∏è Features COM LEAKAGE (apenas para regress√£o): {len(features_com_leakage)}')
for feat in features_com_leakage:
    print(f'   ‚Ä¢ {feat}')

print('\nüìä Estat√≠sticas do conjunto de treino (SEM LEAKAGE):')
print(f'   ‚Ä¢ Shape: {train_features.shape}')
print(f'   ‚Ä¢ Target vendeu: {train_features["vendeu"].sum():,} positivos ({train_features["vendeu"].mean()*100:.1f}%)')
print(f'   ‚Ä¢ Quantidade m√©dia: {train_features["quantidade"].mean():.2f}')
print(f'   ‚Ä¢ Registros com lag_4: {(train_features["quantidade_lag_4"] > 0).sum():,}')

print('\nüìä Estat√≠sticas do conjunto de valida√ß√£o (SEM LEAKAGE):')
print(f'   ‚Ä¢ Shape: {validation_features.shape}')
print(f'   ‚Ä¢ Target vendeu: {validation_features["vendeu"].sum():,} positivos ({validation_features["vendeu"].mean()*100:.1f}%)')
print(f'   ‚Ä¢ Quantidade m√©dia: {validation_features["quantidade"].mean():.2f}')
print(f'   ‚Ä¢ Registros com lag_4: {(validation_features["quantidade_lag_4"] > 0).sum():,}')

print('‚úÖ An√°lise das features SEM TARGET LEAKAGE conclu√≠da')

üìä Analisando features criadas SEM TARGET LEAKAGE...

üìã Features dispon√≠veis (41):

üè∑Ô∏è B√°sicas (6):
   ‚Ä¢ semana
   ‚Ä¢ pdv_id
   ‚Ä¢ produto_id
   ‚Ä¢ quantidade
   ‚Ä¢ faturamento
   ‚Ä¢ distributor_id

üè∑Ô∏è Target (1):
   ‚Ä¢ vendeu

üè∑Ô∏è Auxiliares (3):
   ‚Ä¢ categoria
   ‚Ä¢ zipcode
   ‚Ä¢ tipo_loja

üè∑Ô∏è Pre√ßo_SEM_Leakage (2):
   ‚Ä¢ preco_lag_1
   ‚Ä¢ preco_lag_2

üè∑Ô∏è Pre√ßo_PARA_Regress√£o (2):
   ‚Ä¢ preco_unitario_atual
   ‚Ä¢ preco_medio_semanal_sku_atual

üè∑Ô∏è Calend√°rio (10):
   ‚Ä¢ quantidade_media_4w
   ‚Ä¢ media_vendas_categoria_pdv_lag_1
   ‚Ä¢ dia_do_mes
   ‚Ä¢ semana_do_mes
   ‚Ä¢ eh_inicio_mes
   ‚Ä¢ eh_fim_mes
   ‚Ä¢ mes
   ‚Ä¢ mes_sin
   ‚Ä¢ mes_cos
   ‚Ä¢ media_vendas_categoria_pdv_atual

üè∑Ô∏è Lag (6):
   ‚Ä¢ quantidade_lag_1
   ‚Ä¢ quantidade_lag_2
   ‚Ä¢ quantidade_lag_3
   ‚Ä¢ quantidade_lag_4
   ‚Ä¢ media_vendas_categoria_pdv_lag_1
   ‚Ä¢ share_vendas_sku_categoria_lag_1

üè∑Ô∏è Rolling (3):
   ‚Ä¢ quantidade_media_4w
   ‚Ä

## 6. Salvamento dos Dados Enriquecidos

In [7]:
# Salvar datasets enriquecidos
print('üíæ Salvando datasets enriquecidos...')

# Fun√ß√£o para limpar tipos de dados antes de salvar
def limpar_tipos_dados(df):
    """Limpa tipos de dados problem√°ticos para salvar em Parquet"""
    df_clean = df.copy()
    
    # Converter colunas object que s√£o num√©ricas
    for col in df_clean.columns:
        if df_clean[col].dtype == 'object':
            try:
                # Tentar converter para numeric
                df_clean[col] = pd.to_numeric(df_clean[col], errors='coerce')
                # Se ainda tem NaN, preencher com 0
                if df_clean[col].isna().any():
                    df_clean[col] = df_clean[col].fillna(0)
            except:
                # Se n√£o conseguir converter, manter como string
                df_clean[col] = df_clean[col].astype(str)
    
    # Garantir que colunas ID sejam inteiras
    id_cols = ['pdv_id', 'produto_id', 'distributor_id']
    for col in id_cols:
        if col in df_clean.columns:
            df_clean[col] = df_clean[col].astype('int64')
    
    # Garantir que colunas categ√≥ricas sejam string
    cat_cols = ['categoria', 'zipcode', 'tipo_loja']
    for col in cat_cols:
        if col in df_clean.columns:
            df_clean[col] = df_clean[col].astype(str)
    
    return df_clean

# Limpar tipos dos datasets
print('üßπ Limpando tipos de dados...')
train_features_clean = limpar_tipos_dados(train_features)
validation_features_clean = limpar_tipos_dados(validation_features)

# Salvar em data/submissao3
train_features_clean.to_parquet('../data/submissao3/train_features.parquet', index=False)
validation_features_clean.to_parquet('../data/submissao3/validation_features.parquet', index=False)

print('‚úÖ Arquivos salvos:')
print('   ‚Ä¢ data/submissao3/train_features.parquet')
print('   ‚Ä¢ data/submissao3/validation_features.parquet')

# Salvar metadados das features
import pickle

metadados_features = {
    'data_criacao': pd.Timestamp.now(),
    'estrategia': 'Engenharia de Features Avan√ßada para Modelo de Dois Est√°gios',
    'total_features': len(train_features_clean.columns),
    'features_por_categoria': {cat: len(feats) for cat, feats in features_categorias.items() if feats},
    'target_classificacao': 'vendeu (1 se quantidade > 0, 0 caso contr√°rio)',
    'target_regressao': 'quantidade (apenas onde vendeu = 1)',
    'registros_treino': len(train_features_clean),
    'registros_validacao': len(validation_features_clean),
    'features_lista': list(train_features_clean.columns),
    'observacoes': [
        'Features de pre√ßo incluem varia√ß√µes e m√©dias temporais',
        'Features de calend√°rio incluem componentes c√≠clicos',
        'Features de hierarquia agregam por categoria e zipcode',
        'Features de tend√™ncia capturam momentum e acelera√ß√£o',
        'Features hash criam embeddings para vari√°veis categ√≥ricas'
    ]
}

with open('../data/submissao3/advanced_features_metadata.pkl', 'wb') as f:
    pickle.dump(metadados_features, f)

print('üìã Metadados salvos em: data/submissao3/advanced_features_metadata.pkl')

print('\nüéâ ENGENHARIA DE FEATURES AVAN√áADA CONCLU√çDA!')
print('=' * 70)
print('üéØ Features criadas para modelo de dois est√°gios:')
print('   üìä CLASSIFICA√á√ÉO: Use target "vendeu" para treinar se vai vender')
print('   üìä REGRESS√ÉO: Use target "quantidade" (apenas onde vendeu=1) para quanto vai vender')
print('\nüí° Pr√≥ximos passos:')
print('   1. Treinar modelo de classifica√ß√£o (LGBMClassifier)')
print('   2. Treinar modelo de regress√£o (LGBMRegressor)')
print('   3. Combinar os dois no pipeline final')
print('\nüöÄ Dados prontos para modelagem avan√ßada!')

üíæ Salvando datasets enriquecidos...
üßπ Limpando tipos de dados...
‚úÖ Arquivos salvos:
   ‚Ä¢ data/submissao3/train_features.parquet
   ‚Ä¢ data/submissao3/validation_features.parquet
üìã Metadados salvos em: data/submissao3/advanced_features_metadata.pkl

üéâ ENGENHARIA DE FEATURES AVAN√áADA CONCLU√çDA!
üéØ Features criadas para modelo de dois est√°gios:
   üìä CLASSIFICA√á√ÉO: Use target "vendeu" para treinar se vai vender
   üìä REGRESS√ÉO: Use target "quantidade" (apenas onde vendeu=1) para quanto vai vender

üí° Pr√≥ximos passos:
   1. Treinar modelo de classifica√ß√£o (LGBMClassifier)
   2. Treinar modelo de regress√£o (LGBMRegressor)
   3. Combinar os dois no pipeline final

üöÄ Dados prontos para modelagem avan√ßada!
