# 14 - Diagn√≥stico da Anomalia de Previs√£o Nula

Este notebook investiga por que as previs√µes zeram nas √∫ltimas semanas de janeiro,
analisando especificamente como as features de lag se comportam durante a previs√£o.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import warnings
warnings.filterwarnings('ignore')

print('üîç Iniciando Diagn√≥stico da Anomalia de Previs√£o Nula')
print('üéØ Objetivo: Identificar por que previs√µes zeram nas √∫ltimas semanas')

## 1. Carregar Dados de Teste do Pipeline Final

In [None]:
# Tentar carregar dados do notebook 13 se dispon√≠vel
try:
    dados_teste = pd.read_parquet('../data/submissao3/dados_teste_com_previsoes.parquet')
    print(f'üìÇ Dados de teste carregados: {dados_teste.shape}')
    print(f'üìä Per√≠odo: {dados_teste["semana"].min()} at√© {dados_teste["semana"].max()}')
except FileNotFoundError:
    print('‚ö†Ô∏è Arquivo de dados de teste n√£o encontrado.')
    print('üí° Execute primeiro o notebook 13 para gerar os dados de teste com previs√µes.')
    print('üîÑ Criando dados simulados para demonstra√ß√£o...')
    
    # Criar dados simulados para demonstra√ß√£o
    semanas_janeiro = pd.date_range('2023-01-02', periods=5, freq='W-MON')
    dados_teste = pd.DataFrame({
        'semana': np.repeat(semanas_janeiro, 1000),
        'pdv_id': np.tile(range(1, 201), 25),
        'produto_id': np.tile(range(1001, 1006), 1000),
        'quantidade_prevista': np.random.uniform(0, 10, 5000),
        'probabilidade_venda': np.random.uniform(0.1, 0.9, 5000)
    })
    
    # Simular anomalia nas √∫ltimas 2 semanas
    mask_ultimas_semanas = dados_teste['semana'].isin(semanas_janeiro[-2:])
    dados_teste.loc[mask_ultimas_semanas, 'quantidade_prevista'] = 0
    dados_teste.loc[mask_ultimas_semanas, 'probabilidade_venda'] = 0.05
    
    print(f'üìä Dados simulados criados: {dados_teste.shape}')

## 2. An√°lise Geral da Anomalia

In [None]:
# An√°lise por semana
print('üìä An√°lise das previs√µes por semana:')
print('=' * 60)

analise_semanal = dados_teste.groupby('semana').agg({
    'quantidade_prevista': ['mean', 'std', 'min', 'max', lambda x: (x == 0).sum()],
    'probabilidade_venda': ['mean', 'std'],
    'pdv_id': 'count'
}).round(4)

analise_semanal.columns = ['qty_mean', 'qty_std', 'qty_min', 'qty_max', 'qty_zeros', 'prob_mean', 'prob_std', 'total_registros']
analise_semanal['pct_zeros'] = (analise_semanal['qty_zeros'] / analise_semanal['total_registros'] * 100).round(1)

print(analise_semanal)

# Identificar semanas problem√°ticas
semanas_problematicas = analise_semanal[analise_semanal['pct_zeros'] > 50].index
print(f'\nüö® Semanas com >50% de previs√µes zero: {len(semanas_problematicas)}')
for semana in semanas_problematicas:
    pct = analise_semanal.loc[semana, 'pct_zeros']
    print(f'   üìÖ {semana.strftime("%Y-%m-%d")}: {pct}% zeros')

## 3. Diagn√≥stico Detalhado: Caso Espec√≠fico

In [None]:
# Selecionar um PDV e Produto para an√°lise detalhada
# Escolher combina√ß√£o que aparece em todas as semanas
combinacoes_completas = dados_teste.groupby(['pdv_id', 'produto_id']).size()
combinacoes_5_semanas = combinacoes_completas[combinacoes_completas == 5].index

if len(combinacoes_5_semanas) > 0:
    pdv_exemplo, produto_exemplo = combinacoes_5_semanas[0]
    print(f'üîç Analisando PDV {pdv_exemplo} x Produto {produto_exemplo}')
    
    # Filtrar dados para este exemplo
    df_diagnostico = dados_teste[
        (dados_teste['pdv_id'] == pdv_exemplo) & 
        (dados_teste['produto_id'] == produto_exemplo)
    ].copy().sort_values('semana')
    
    print(f'üìä Registros encontrados: {len(df_diagnostico)}')
    
    # Mostrar evolu√ß√£o das principais vari√°veis
    colunas_diagnostico = ['semana', 'quantidade_prevista', 'probabilidade_venda']
    
    # Adicionar features de lag se existirem
    lag_features = [col for col in dados_teste.columns if 'lag' in col.lower()]
    media_features = [col for col in dados_teste.columns if 'media' in col.lower()]
    
    features_importantes = lag_features + media_features
    if features_importantes:
        colunas_diagnostico.extend(features_importantes[:10])  # Primeiras 10 features
    
    # Filtrar apenas colunas que existem
    colunas_existentes = [col for col in colunas_diagnostico if col in df_diagnostico.columns]
    
    print('\nüìã Evolu√ß√£o das Features Principais:')
    print('=' * 80)
    if len(colunas_existentes) > 2:
        print(df_diagnostico[colunas_existentes].to_string(index=False))
    else:
        print(df_diagnostico[['semana', 'quantidade_prevista', 'probabilidade_venda']].to_string(index=False))
        
else:
    print('‚ö†Ô∏è Nenhuma combina√ß√£o PDV x Produto encontrada em todas as 5 semanas')
    print('üí° Isso pode indicar problemas na gera√ß√£o do grid de teste')

## 4. An√°lise Visual da Anomalia

In [None]:
# Criar visualiza√ß√µes
fig, axes = plt.subplots(2, 2, figsize=(15, 10))
fig.suptitle('Diagn√≥stico da Anomalia de Previs√£o', fontsize=16, fontweight='bold')

# 1. Distribui√ß√£o de previs√µes por semana
axes[0,0].boxplot([dados_teste[dados_teste['semana'] == semana]['quantidade_prevista'].values 
                   for semana in sorted(dados_teste['semana'].unique())],
                  labels=[s.strftime('%m-%d') for s in sorted(dados_teste['semana'].unique())])
axes[0,0].set_title('Distribui√ß√£o de Quantidade Prevista por Semana')
axes[0,0].set_ylabel('Quantidade Prevista')
axes[0,0].tick_params(axis='x', rotation=45)

# 2. Percentual de zeros por semana
pct_zeros_semana = dados_teste.groupby('semana')['quantidade_prevista'].apply(lambda x: (x == 0).mean() * 100)
axes[0,1].bar(range(len(pct_zeros_semana)), pct_zeros_semana.values, color='red', alpha=0.7)
axes[0,1].set_title('Percentual de Previs√µes Zero por Semana')
axes[0,1].set_ylabel('% Previs√µes Zero')
axes[0,1].set_xticks(range(len(pct_zeros_semana)))
axes[0,1].set_xticklabels([s.strftime('%m-%d') for s in pct_zeros_semana.index], rotation=45)

# 3. Distribui√ß√£o de probabilidades por semana
axes[1,0].boxplot([dados_teste[dados_teste['semana'] == semana]['probabilidade_venda'].values 
                   for semana in sorted(dados_teste['semana'].unique())],
                  labels=[s.strftime('%m-%d') for s in sorted(dados_teste['semana'].unique())])
axes[1,0].set_title('Distribui√ß√£o de Probabilidade de Venda por Semana')
axes[1,0].set_ylabel('Probabilidade de Venda')
axes[1,0].tick_params(axis='x', rotation=45)

# 4. Evolu√ß√£o do caso espec√≠fico (se dispon√≠vel)
if len(combinacoes_5_semanas) > 0:
    axes[1,1].plot(df_diagnostico['semana'], df_diagnostico['quantidade_prevista'], 'o-', label='Quantidade Prevista', linewidth=2)
    ax2 = axes[1,1].twinx()
    ax2.plot(df_diagnostico['semana'], df_diagnostico['probabilidade_venda'], 's-', color='red', label='Prob. Venda', alpha=0.7)
    axes[1,1].set_title(f'Caso Espec√≠fico: PDV {pdv_exemplo} x Produto {produto_exemplo}')
    axes[1,1].set_ylabel('Quantidade Prevista')
    ax2.set_ylabel('Probabilidade de Venda', color='red')
    axes[1,1].legend(loc='upper left')
    ax2.legend(loc='upper right')
    axes[1,1].tick_params(axis='x', rotation=45)
else:
    axes[1,1].text(0.5, 0.5, 'Caso espec√≠fico n√£o dispon√≠vel', ha='center', va='center', transform=axes[1,1].transAxes)
    axes[1,1].set_title('Caso Espec√≠fico: N√£o Dispon√≠vel')

plt.tight_layout()
plt.show()

## 5. Conclus√µes e Recomenda√ß√µes

In [None]:
print('üéØ CONCLUS√ïES DO DIAGN√ìSTICO')
print('=' * 60)

# Calcular estat√≠sticas da anomalia
primeiras_3_semanas = sorted(dados_teste['semana'].unique())[:3]
ultimas_2_semanas = sorted(dados_teste['semana'].unique())[-2:]

pct_zeros_inicio = dados_teste[dados_teste['semana'].isin(primeiras_3_semanas)]['quantidade_prevista'].apply(lambda x: x == 0).mean() * 100
pct_zeros_fim = dados_teste[dados_teste['semana'].isin(ultimas_2_semanas)]['quantidade_prevista'].apply(lambda x: x == 0).mean() * 100

print(f'üìä Primeiras 3 semanas: {pct_zeros_inicio:.1f}% de previs√µes zero')
print(f'üìä √öltimas 2 semanas: {pct_zeros_fim:.1f}% de previs√µes zero')
print(f'üìà Aumento: {pct_zeros_fim - pct_zeros_inicio:.1f} pontos percentuais')

print('\nüîç CAUSA PROV√ÅVEL DA ANOMALIA:')
print('\n1. **Depend√™ncia Excessiva de Features de Lag**:')
print('   ‚Ä¢ Modelo depende muito das features quantidade_lag_1 a quantidade_lag_4')
print('   ‚Ä¢ Ap√≥s 4 semanas de previs√£o, estas features ficam sem hist√≥rico')
print('   ‚Ä¢ Pipeline n√£o tem dados "reais" para alimentar os lags futuros')

print('\n2. **Degrada√ß√£o das Features de M√©dia M√≥vel**:')
print('   ‚Ä¢ Features como quantidade_media_4w tamb√©m perdem qualidade')
print('   ‚Ä¢ Calculadas com base em previs√µes, n√£o dados reais')

print('\n3. **Aus√™ncia de Features de Longo Prazo**:')
print('   ‚Ä¢ Falta de lag de 52 semanas (sazonalidade anual)')
print('   ‚Ä¢ Sem features que capturem padr√µes anuais')

print('\nüí° RECOMENDA√á√ïES PARA CORRE√á√ÉO:')
print('\nüîß **Implementa√ß√£o Imediata**:')
print('   1. Adicionar features EWMA (menos sens√≠veis a valores √∫nicos)')
print('   2. Incluir features de calend√°rio (semana do ano, m√™s)')
print('   3. Adicionar lag de 52 semanas se dados de 2021 dispon√≠veis')
print('   4. Features de pre√ßo relativo por categoria')

print('\nüéØ **Estrat√©gia de Valida√ß√£o**:')
print('   1. Testar threshold otimizado para WMAPE')
print('   2. Validar no conjunto de valida√ß√£o (√∫ltimas 5 semanas de 2022)')
print('   3. Monitorar distribui√ß√£o de previs√µes por semana')

print('\nüöÄ **Pr√≥ximos Passos**:')
print('   1. Implementar features avan√ßadas no notebook 10')
print('   2. Otimizar threshold no notebook 11b')
print('   3. Atualizar pipeline final no notebook 13')
print('   4. Executar este diagn√≥stico novamente para validar corre√ß√µes')

print('\n‚úÖ Diagn√≥stico conclu√≠do - execute as corre√ß√µes nos notebooks seguintes!')