# üß™ Backtest de Faixas Compostas - Pseudo-Backtest

Este notebook avalia a qualidade das **faixas compostas** atrav√©s de um pseudo-backtest.

## üìã Metodologia

- **Tipo**: Pseudo-backtest (modelo atual aplicado a dados hist√≥ricos)
- **Per√≠odo**: √öltimos N pontos temporais dispon√≠veis
- **Horizonte**: T=42, 48, 54, 60 barras de 4H (7-10 dias)
- **Abordagem Composta**: Cada data futura usa a previs√£o do modelo espec√≠fico para aquele horizonte

## ‚ö†Ô∏è Limita√ß√£o: Look-Ahead Bias

Como estamos usando o modelo atual (treinado at√© hoje) para avaliar previs√µes no passado,
existe um **vi√©s de look-ahead**: o modelo "viu" os dados que estamos testando durante o treinamento.

**Interpreta√ß√£o correta:**
- ‚úÖ V√°lido para avaliar **calibra√ß√£o** das faixas (coverage dos intervalos)
- ‚úÖ V√°lido para avaliar **consist√™ncia** temporal
- ‚ö†Ô∏è Limitado para avaliar **poder preditivo absoluto** (otimista demais)

## üéØ Objetivos

1. Verificar se os intervalos de confian√ßa est√£o bem calibrados (90% CI ‚âà 90%, 50% CI ‚âà 50%)
2. Avaliar sharpness (largura) das faixas
3. Analisar erros da mediana (p50)
4. Identificar padr√µes temporais e regimes de mercado
5. Comparar faixas compostas vs modelos individuais

## 1. Setup e Configura√ß√£o

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import seaborn as sns
from pathlib import Path
from datetime import datetime, timedelta
from typing import Dict, List, Tuple
import warnings
warnings.filterwarnings('ignore')

# Configura√ß√µes de visualiza√ß√£o
plt.style.use('seaborn-v0_8-darkgrid')
plt.rcParams['figure.figsize'] = (16, 10)
plt.rcParams['font.size'] = 10
sns.set_palette('husl')

print("‚úÖ Imports carregados")
print(f"üìÖ Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

### Par√¢metros do Backtest

In [None]:
# Configura√ß√µes
CONFIG = {
    'horizons': [42, 48, 54, 60],  # Horizontes em barras de 4H
    'n_backtest_points': 50,        # Quantos pontos ts0 avaliar
    'bar_frequency_hours': 4,       # Frequ√™ncia dos dados
    'confidence_levels': [0.90, 0.50],  # N√≠veis de confian√ßa a avaliar
    'tolerance_hours': 4,           # Toler√¢ncia para matching temporal
}

# Caminhos
data_dir = Path('../data/processed')
features_path = data_dir / 'features' / 'features_4H.parquet'
preds_dir = data_dir / 'preds'
output_dir = data_dir / 'models' / 'report'
output_dir.mkdir(parents=True, exist_ok=True)

print("‚öôÔ∏è Configura√ß√£o do Backtest:")
for key, value in CONFIG.items():
    print(f"   {key}: {value}")

### Fun√ß√µes Auxiliares

In [None]:
def get_realized_price(ts_forecast: pd.Timestamp, df_features: pd.DataFrame, 
                       tolerance_hours: int = 4) -> float:
    """
    Busca o pre√ßo realizado mais pr√≥ximo de ts_forecast.
    
    Args:
        ts_forecast: Data alvo da previs√£o
        df_features: DataFrame com dados hist√≥ricos
        tolerance_hours: Toler√¢ncia m√°xima em horas
    
    Returns:
        Pre√ßo realizado (close) ou None se n√£o encontrado
    """
    # Calcular diferen√ßa temporal
    df_features['time_diff'] = (df_features['ts'] - ts_forecast).abs()
    
    # Encontrar o mais pr√≥ximo
    closest_idx = df_features['time_diff'].idxmin()
    closest_row = df_features.loc[closest_idx]
    
    # Verificar se est√° dentro da toler√¢ncia
    if closest_row['time_diff'] <= pd.Timedelta(hours=tolerance_hours):
        return closest_row['close']
    else:
        return None


def calculate_coverage(y_true: np.ndarray, y_lower: np.ndarray, 
                       y_upper: np.ndarray) -> float:
    """
    Calcula a cobertura de um intervalo de confian√ßa.
    
    Args:
        y_true: Valores reais
        y_lower: Limite inferior do intervalo
        y_upper: Limite superior do intervalo
    
    Returns:
        Percentual de vezes que y_true est√° dentro do intervalo
    """
    within_interval = (y_true >= y_lower) & (y_true <= y_upper)
    return np.mean(within_interval) * 100


def pinball_loss(y_true: np.ndarray, y_pred: np.ndarray, 
                 quantile: float) -> float:
    """
    Calcula o Pinball Loss para avalia√ß√£o de quantis.
    
    Args:
        y_true: Valores reais
        y_pred: Valores previstos
        quantile: N√≠vel do quantil (0-1)
    
    Returns:
        Pinball loss m√©dio
    """
    error = y_true - y_pred
    loss = np.where(error >= 0, 
                    quantile * error, 
                    (quantile - 1) * error)
    return np.mean(loss)


def calculate_sharpness(y_lower: np.ndarray, y_upper: np.ndarray, 
                        s0: np.ndarray) -> float:
    """
    Calcula a largura m√©dia do intervalo (normalizada por S0).
    
    Args:
        y_lower: Limite inferior
        y_upper: Limite superior
        s0: Pre√ßo de refer√™ncia
    
    Returns:
        Largura m√©dia em percentual
    """
    width = (y_upper - y_lower) / s0 * 100
    return np.mean(width)


print("‚úÖ Fun√ß√µes auxiliares definidas:")
print("   ‚Ä¢ get_realized_price()")
print("   ‚Ä¢ calculate_coverage()")
print("   ‚Ä¢ pinball_loss()")
print("   ‚Ä¢ calculate_sharpness()")

## 2. Carregamento de Dados Hist√≥ricos

In [None]:
# Carregar features (pre√ßos hist√≥ricos)
print("üìÇ Carregando dados hist√≥ricos...")
df_features = pd.read_parquet(features_path)
df_features['ts'] = pd.to_datetime(df_features['ts'], utc=True)
df_features = df_features.sort_values('ts').reset_index(drop=True)

print(f"   ‚úì Features: {len(df_features):,} linhas")
print(f"   ‚úì Per√≠odo: {df_features['ts'].min()} a {df_features['ts'].max()}")
print(f"   ‚úì Colunas: {list(df_features.columns[:10])}...")

# Carregar predi√ß√µes atuais (para usar como template)
print("\nüìÇ Carregando predi√ß√µes atuais...")
dfs_pred = {}

for T in CONFIG['horizons']:
    pred_file = preds_dir / f'preds_T={T}.parquet'
    if pred_file.exists():
        df_temp = pd.read_parquet(pred_file)
        df_temp['ts0'] = pd.to_datetime(df_temp['ts0'], utc=True)
        if 'ts_forecast' in df_temp.columns:
            df_temp['ts_forecast'] = pd.to_datetime(df_temp['ts_forecast'], utc=True)
        dfs_pred[T] = df_temp
        print(f"   ‚úì T={T}: {len(df_temp)} predi√ß√µes")
    else:
        print(f"   ‚ö†Ô∏è  T={T}: arquivo n√£o encontrado")

print(f"\n‚úÖ {len(dfs_pred)} arquivos de predi√ß√£o carregados")

## 3. Gera√ß√£o de Previs√µes para Backtest (Pseudo-Backtest)

Vamos selecionar N pontos temporais hist√≥ricos e gerar previs√µes para cada um,
simulando como seriam as previs√µes se tiv√©ssemos feito naquele momento.

In [None]:
# Selecionar pontos ts0 para backtest
# Vamos pegar os √∫ltimos N pontos, mas deixando espa√ßo para as previs√µes se realizarem
max_horizon_days = max(CONFIG['horizons']) * CONFIG['bar_frequency_hours'] / 24
buffer_days = int(max_horizon_days) + 2  # Margem de seguran√ßa

# Data m√°xima poss√≠vel para ts0 (deixar espa√ßo para forecast se realizar)
max_ts0 = df_features['ts'].max() - pd.Timedelta(days=buffer_days)

# Filtrar features at√© max_ts0
df_features_backtest = df_features[df_features['ts'] <= max_ts0].copy()

# Selecionar √∫ltimos N pontos
n_points = min(CONFIG['n_backtest_points'], len(df_features_backtest))
backtest_indices = np.linspace(
    len(df_features_backtest) - n_points,
    len(df_features_backtest) - 1,
    n_points,
    dtype=int
)

ts0_points = df_features_backtest.iloc[backtest_indices]['ts'].values

print(f"üéØ Selecionando pontos ts0 para backtest:")
print(f"   ‚Ä¢ Total de pontos: {n_points}")
print(f"   ‚Ä¢ Primeiro ts0: {pd.Timestamp(ts0_points[0])}")
print(f"   ‚Ä¢ √öltimo ts0: {pd.Timestamp(ts0_points[-1])}")
print(f"   ‚Ä¢ Data m√°xima features: {df_features['ts'].max()}")
print(f"   ‚Ä¢ Buffer para forecasts: {buffer_days} dias")
print(f"   ‚Ä¢ Horizonte m√°ximo: {max_horizon_days:.1f} dias")

In [None]:
# Gerar pseudo-previs√µes para cada ts0
# Usaremos os quantis das previs√µes atuais como template
# (assumindo que a distribui√ß√£o seria similar)

print("üîÆ Gerando pseudo-previs√µes...")
print("‚ö†Ô∏è  Nota: Usando modelo atual = look-ahead bias presente\n")

backtest_predictions = []

for idx, ts0 in enumerate(ts0_points):
    ts0 = pd.Timestamp(ts0, tz='UTC')  # ‚≠ê Adicionar timezone
    
    # Pegar S0 (pre√ßo no momento ts0)
    # Usar busca por proximidade em vez de igualdade exata
    time_diffs = (df_features['ts'] - ts0).abs()
    closest_idx = time_diffs.idxmin()
    s0_row = df_features.loc[closest_idx]
    S0 = s0_row['close']
    
    # Para cada horizonte
    for T in CONFIG['horizons']:
        # Calcular ts_forecast
        ts_forecast = ts0 + pd.Timedelta(hours=T * CONFIG['bar_frequency_hours'])
        
        # Pegar valores realizados
        price_realized = get_realized_price(ts_forecast, df_features, 
                                            CONFIG['tolerance_hours'])
        
        if price_realized is None:
            continue  # Pular se n√£o temos o valor realizado
        
        # Usar os quantis das previs√µes atuais como propor√ß√£o de S0
        # (isso √© a simplifica√ß√£o do pseudo-backtest)
        if T in dfs_pred and len(dfs_pred[T]) > 0:
            # Pegar uma previs√£o recente como template
            template = dfs_pred[T].iloc[-1]
            
            # Calcular quantis proporcionalmente a S0
            ratio_05 = template['p_05'] / template['S0']
            ratio_25 = template['p_25'] / template['S0']
            ratio_50 = template['p_50'] / template['S0']
            ratio_75 = template['p_75'] / template['S0']
            ratio_95 = template['p_95'] / template['S0']
            
            backtest_predictions.append({
                'ts0': ts0,
                'T': T,
                'ts_forecast': ts_forecast,
                'S0': S0,
                'p_05': S0 * ratio_05,
                'p_25': S0 * ratio_25,
                'p_50': S0 * ratio_50,
                'p_75': S0 * ratio_75,
                'p_95': S0 * ratio_95,
                'price_realized': price_realized,
                'days_ahead': T * CONFIG['bar_frequency_hours'] / 24,
            })
    
    if (idx + 1) % 10 == 0:
        print(f"   Processados: {idx + 1}/{n_points} pontos ts0")

# Criar DataFrame
df_backtest = pd.DataFrame(backtest_predictions)

print(f"\n‚úÖ Pseudo-previs√µes geradas:")
print(f"   ‚Ä¢ Total: {len(df_backtest)} previs√µes")
if len(df_backtest) > 0:
    print(f"   ‚Ä¢ Por horizonte:")
    for T in CONFIG['horizons']:
        count = len(df_backtest[df_backtest['T'] == T])
        print(f"      - T={T}: {count} previs√µes")
else:
    print("   ‚ö†Ô∏è  Nenhuma previs√£o gerada! Verifique os dados.")

In [None]:
# Debug: Verificar por que n√£o temos previs√µes
print("üîç DEBUG: Verificando gera√ß√£o de previs√µes...")

test_ts0 = pd.Timestamp(ts0_points[0])
print(f"\nTestando com ts0={test_ts0}")

# Verificar S0
s0_row = df_features[df_features['ts'] == test_ts0]
print(f"Linhas com ts0: {len(s0_row)}")
if len(s0_row) > 0:
    S0 = s0_row.iloc[0]['close']
    print(f"S0: ${S0:,.2f}")
    
    # Testar um horizonte
    T = 42
    ts_forecast = test_ts0 + pd.Timedelta(hours=T * CONFIG['bar_frequency_hours'])
    print(f"\nT={T}, ts_forecast={ts_forecast}")
    
    # Testar get_realized_price
    price_realized = get_realized_price(ts_forecast, df_features, CONFIG['tolerance_hours'])
    print(f"Price realized: {price_realized}")
    
    if price_realized:
        print("‚úÖ Conseguiu pegar pre√ßo realizado")
    else:
        print("‚ùå N√£o conseguiu pegar pre√ßo realizado")
        
        # Ver qual √© o timestamp mais pr√≥ximo
        df_features_temp = df_features.copy()
        df_features_temp['time_diff'] = (df_features_temp['ts'] - ts_forecast).abs()
        closest = df_features_temp.nsmallest(5, 'time_diff')[['ts', 'close', 'time_diff']]
        print("\nTimestamps mais pr√≥ximos:")
        print(closest)

## 4. Constru√ß√£o das Faixas Compostas

Para cada data futura, selecionamos a previs√£o do modelo com horizonte espec√≠fico para aquela data.

In [None]:
# Para faixas compostas, cada ts_forecast deve usar a previs√£o do horizonte correto
# Precisamos agrupar por ts_forecast e pegar apenas a previs√£o "nativa" daquela data

print("üé® Construindo faixas compostas...")

# Criar mapeamento: ts_forecast ‚Üí horizonte esperado
# Para cada ts0, calculamos qual T corresponde a cada data futura

composite_forecasts = []

# Agrupar por ts0
for ts0 in df_backtest['ts0'].unique():
    ts0_preds = df_backtest[df_backtest['ts0'] == ts0]
    
    # Para cada horizonte, essa √© a previs√£o "nativa" para aquela data espec√≠fica
    for T in CONFIG['horizons']:
        t_pred = ts0_preds[ts0_preds['T'] == T]
        if len(t_pred) > 0:
            composite_forecasts.append(t_pred.iloc[0].to_dict())

df_composite = pd.DataFrame(composite_forecasts)

print(f"   ‚úì Total de previs√µes compostas: {len(df_composite)}")
print(f"   ‚úì Per√≠odo: {df_composite['ts0'].min()} a {df_composite['ts0'].max()}")
print(f"   ‚úì Forecast dates: {df_composite['ts_forecast'].min()} a {df_composite['ts_forecast'].max()}")

## 5. M√©tricas de Calibra√ß√£o

Avaliar se os intervalos de confian√ßa est√£o bem calibrados.

In [None]:
print("üìä M√âTRICAS DE CALIBRA√á√ÉO - FAIXAS COMPOSTAS")
print("="*90)

# Extrair arrays
y_true = df_composite['price_realized'].values
y_p05 = df_composite['p_05'].values
y_p25 = df_composite['p_25'].values
y_p50 = df_composite['p_50'].values
y_p75 = df_composite['p_75'].values
y_p95 = df_composite['p_95'].values
S0 = df_composite['S0'].values

# 1. Coverage dos intervalos de confian√ßa
coverage_90 = calculate_coverage(y_true, y_p05, y_p95)
coverage_50 = calculate_coverage(y_true, y_p25, y_p75)

print(f"\nüéØ COVERAGE (Cobertura dos Intervalos):")
print(f"   ‚Ä¢ 90% CI (p05-p95): {coverage_90:.2f}% (esperado: ~90%)")
if 85 <= coverage_90 <= 95:
    print(f"      ‚úÖ Bem calibrado!")
else:
    print(f"      ‚ö†Ô∏è  {'Subestimado' if coverage_90 < 85 else 'Superestimado'}")

print(f"   ‚Ä¢ 50% CI (p25-p75): {coverage_50:.2f}% (esperado: ~50%)")
if 45 <= coverage_50 <= 55:
    print(f"      ‚úÖ Bem calibrado!")
else:
    print(f"      ‚ö†Ô∏è  {'Subestimado' if coverage_50 < 45 else 'Superestimado'}")

# 2. Sharpness (largura das faixas)
sharpness_90 = calculate_sharpness(y_p05, y_p95, S0)
sharpness_50 = calculate_sharpness(y_p25, y_p75, S0)

print(f"\nüìè SHARPNESS (Largura das Faixas):")
print(f"   ‚Ä¢ 90% CI: {sharpness_90:.2f}%")
print(f"   ‚Ä¢ 50% CI: {sharpness_50:.2f}%")

# 3. Erros da mediana (p50)
mae = np.mean(np.abs(y_true - y_p50))
mape = np.mean(np.abs(y_true - y_p50) / y_true) * 100
rmse = np.sqrt(np.mean((y_true - y_p50)**2))
bias = np.mean(y_p50 - y_true)

print(f"\nüìâ ERROS DA MEDIANA (p50):")
print(f"   ‚Ä¢ MAE:  ${mae:,.2f}")
print(f"   ‚Ä¢ MAPE: {mape:.2f}%")
print(f"   ‚Ä¢ RMSE: ${rmse:,.2f}")
print(f"   ‚Ä¢ Bias: ${bias:,.2f} ({'otimista' if bias > 0 else 'pessimista'})")

# 4. Pinball Loss por quantil
loss_05 = pinball_loss(y_true, y_p05, 0.05)
loss_25 = pinball_loss(y_true, y_p25, 0.25)
loss_50 = pinball_loss(y_true, y_p50, 0.50)
loss_75 = pinball_loss(y_true, y_p75, 0.75)
loss_95 = pinball_loss(y_true, y_p95, 0.95)

print(f"\nüé≤ PINBALL LOSS (Qualidade dos Quantis):")
print(f"   ‚Ä¢ p05: {loss_05:.2f}")
print(f"   ‚Ä¢ p25: {loss_25:.2f}")
print(f"   ‚Ä¢ p50: {loss_50:.2f} (menor √© melhor)")
print(f"   ‚Ä¢ p75: {loss_75:.2f}")
print(f"   ‚Ä¢ p95: {loss_95:.2f}")

print("\n" + "="*90)

### M√©tricas por Horizonte

Comparar a performance de cada horizonte individual.

In [None]:
print("üìä M√âTRICAS POR HORIZONTE")
print("="*90)

metrics_by_horizon = []

for T in CONFIG['horizons']:
    df_T = df_composite[df_composite['T'] == T]
    
    if len(df_T) == 0:
        continue
    
    y_true_T = df_T['price_realized'].values
    y_p05_T = df_T['p_05'].values
    y_p25_T = df_T['p_25'].values
    y_p50_T = df_T['p_50'].values
    y_p75_T = df_T['p_75'].values
    y_p95_T = df_T['p_95'].values
    S0_T = df_T['S0'].values
    
    coverage_90_T = calculate_coverage(y_true_T, y_p05_T, y_p95_T)
    coverage_50_T = calculate_coverage(y_true_T, y_p25_T, y_p75_T)
    sharpness_90_T = calculate_sharpness(y_p05_T, y_p95_T, S0_T)
    sharpness_50_T = calculate_sharpness(y_p25_T, y_p75_T, S0_T)
    mae_T = np.mean(np.abs(y_true_T - y_p50_T))
    mape_T = np.mean(np.abs(y_true_T - y_p50_T) / y_true_T) * 100
    
    days_ahead = T * CONFIG['bar_frequency_hours'] / 24
    
    metrics_by_horizon.append({
        'Horizonte': f'T={T} ({days_ahead:.0f}d)',
        'N': len(df_T),
        'Cov 90%': f'{coverage_90_T:.1f}%',
        'Cov 50%': f'{coverage_50_T:.1f}%',
        'Largura 90%': f'{sharpness_90_T:.2f}%',
        'Largura 50%': f'{sharpness_50_T:.2f}%',
        'MAE': f'${mae_T:,.0f}',
        'MAPE': f'{mape_T:.2f}%',
    })

df_metrics_horizon = pd.DataFrame(metrics_by_horizon)
print(df_metrics_horizon.to_string(index=False))
print("\\n" + "="*90)

## üö® An√°lise Cr√≠tica: Os Resultados S√£o Preocupantes?

Vamos interpretar os resultados com contexto adequado.

In [None]:
print("üîç AN√ÅLISE CONTEXTUAL DOS RESULTADOS")
print("="*90)

# 1. Analisar o per√≠odo testado
print("\nüìÖ 1. CONTEXTO TEMPORAL")
print("-"*90)

# Verificar movimento de pre√ßos no per√≠odo
ts0_min = df_composite['ts0'].min()
ts0_max = df_composite['ts0'].max()
ts_forecast_min = df_composite['ts_forecast'].min()
ts_forecast_max = df_composite['ts_forecast'].max()

# Pegar pre√ßos do per√≠odo
prices_start = df_features[df_features['ts'] >= ts0_min]['close'].iloc[0] if len(df_features[df_features['ts'] >= ts0_min]) > 0 else None
prices_end = df_features[df_features['ts'] <= ts_forecast_max].iloc[-1]['close'] if len(df_features[df_features['ts'] <= ts_forecast_max]) > 0 else None

if prices_start and prices_end:
    price_change = (prices_end - prices_start) / prices_start * 100
    print(f"Per√≠odo de previs√£o: {ts0_min.strftime('%Y-%m-%d')} a {ts_forecast_max.strftime('%Y-%m-%d')}")
    print(f"Pre√ßo inicial: ${prices_start:,.2f}")
    print(f"Pre√ßo final: ${prices_end:,.2f}")
    print(f"Varia√ß√£o: {price_change:+.2f}%")
    
    if price_change < -5:
        print(f"\n‚ö†Ô∏è  QUEDA SIGNIFICATIVA no per√≠odo testado!")
        print(f"   Isso explica o bias otimista do modelo.")
    elif price_change > 5:
        print(f"\nüìà ALTA SIGNIFICATIVA no per√≠odo testado.")
    else:
        print(f"\n‚û°Ô∏è  Movimento lateral no per√≠odo.")

# 2. Comparar previs√µes vs realidade
print("\n\nüìä 2. DISTRIBUI√á√ÉO DOS ERROS")
print("-"*90)

errors = y_true - y_p50
errors_pct = (y_true - y_p50) / y_true * 100

print(f"Erro m√©dio: ${np.mean(errors):,.2f} ({np.mean(errors_pct):.2f}%)")
print(f"Erro mediano: ${np.median(errors):,.2f} ({np.median(errors_pct):.2f}%)")
print(f"Erro std: ${np.std(errors):,.2f}")
print(f"Erro m√≠n: ${np.min(errors):,.2f} (modelo subestimou)")
print(f"Erro m√°x: ${np.max(errors):,.2f} (modelo superestimou)")

# Percentual de vezes que errou para cima vs para baixo
overestimated = np.sum(y_p50 > y_true) / len(y_true) * 100
underestimated = np.sum(y_p50 < y_true) / len(y_true) * 100

print(f"\nüìà Modelo previu acima do real: {overestimated:.1f}% das vezes")
print(f"üìâ Modelo previu abaixo do real: {underestimated:.1f}% das vezes")

if overestimated > 70:
    print(f"   ‚ö†Ô∏è  VI√âS SISTEM√ÅTICO: Modelo √© muito otimista!")
elif underestimated > 70:
    print(f"   ‚ö†Ô∏è  VI√âS SISTEM√ÅTICO: Modelo √© muito pessimista!")

# 3. An√°lise de calibra√ß√£o por contexto
print("\n\nüéØ 3. CALIBRA√á√ÉO EM PERSPECTIVA")
print("-"*90)

print(f"Coverage 90% observado: {coverage_90:.1f}%")
print(f"Coverage ideal: 90%")
print(f"Diferen√ßa: {coverage_90 - 90:.1f} pontos percentuais")

if coverage_90 < 50:
    print(f"\n‚ùå PROBLEMA S√âRIO: Faixas MUITO estreitas")
    print(f"   ‚Ä¢ As previs√µes n√£o capturam a volatilidade real")
    print(f"   ‚Ä¢ Confian√ßa excessiva nas estimativas")
    print(f"   ‚Ä¢ Risco de decis√µes baseadas em intervalos irrealistas")
elif coverage_90 < 75:
    print(f"\n‚ö†Ô∏è  PROBLEMA MODERADO: Faixas subestimadas")
    print(f"   ‚Ä¢ Incerteza real √© maior que o modelo indica")
    print(f"   ‚Ä¢ Requer ajuste na calibra√ß√£o")
elif coverage_90 < 85:
    print(f"\n‚öôÔ∏è  Pequeno desvio: Calibra√ß√£o precisa de ajuste fino")
else:
    print(f"\n‚úÖ Calibra√ß√£o aceit√°vel (85-95%)")

# 4. Compara√ß√£o com benchmarks
print("\n\nüìè 4. COMPARA√á√ÉO COM BENCHMARKS")
print("-"*90)

print(f"MAPE: {mape:.2f}%")
if mape < 3:
    print(f"   ‚úÖ Excelente (< 3%)")
elif mape < 5:
    print(f"   ‚úÖ Bom (3-5%)")
elif mape < 10:
    print(f"   ‚ö†Ô∏è  Aceit√°vel (5-10%) - Pode melhorar")
else:
    print(f"   ‚ùå Ruim (> 10%) - Necessita revis√£o")

print(f"\nSharpness 90% CI: {sharpness_90:.2f}%")
if sharpness_90 < 5:
    print(f"   ‚ö†Ô∏è  Faixas muito estreitas (< 5%)")
    print(f"   Risco: Falsa sensa√ß√£o de precis√£o")
elif sharpness_90 < 10:
    print(f"   ‚úÖ Razo√°vel (5-10%)")
elif sharpness_90 < 20:
    print(f"   ‚ö†Ô∏è  Faixas largas (10-20%)")
    print(f"   Trade-off: Mais cautela, menos informativo")
else:
    print(f"   ‚ùå Faixas muito largas (> 20%)")
    print(f"   Utilidade question√°vel")

print("\n" + "="*90)

## ‚öñÔ∏è VEREDITO FINAL: √â Preocupante?

In [None]:
print("‚öñÔ∏è VEREDITO FINAL: OS RESULTADOS S√ÉO PREOCUPANTES?")
print("="*90)

print("\nüéØ RESUMO EXECUTIVO:\n")

# Identificar problemas
problems = []
warnings = []
positives = []

# Avaliar cada aspecto
if coverage_90 < 50:
    problems.append("‚ùå Coverage MUITO baixo (38.5% vs 90% esperado)")
    problems.append("‚ùå Faixas de confian√ßa extremamente subestimadas")
elif coverage_90 < 75:
    warnings.append("‚ö†Ô∏è  Coverage baixo - faixas subestimadas")

if overestimated > 90:
    problems.append(f"‚ùå Vi√©s sistem√°tico SEVERO ({overestimated:.0f}% prev√™ acima)")
elif overestimated > 70:
    warnings.append(f"‚ö†Ô∏è  Vi√©s sistem√°tico moderado ({overestimated:.0f}% prev√™ acima)")

if mape < 5:
    positives.append(f"‚úÖ MAPE excelente ({mape:.2f}%)")
elif mape < 10:
    positives.append(f"‚úÖ MAPE aceit√°vel ({mape:.2f}%)")
else:
    problems.append(f"‚ùå MAPE ruim ({mape:.2f}%)")

if 5 <= sharpness_90 <= 10:
    positives.append(f"‚úÖ Largura das faixas razo√°vel ({sharpness_90:.2f}%)")

# Mostrar resultados
if problems:
    print("üö® PROBLEMAS CR√çTICOS:")
    for p in problems:
        print(f"   {p}")
    print()

if warnings:
    print("‚ö†Ô∏è  PONTOS DE ATEN√á√ÉO:")
    for w in warnings:
        print(f"   {w}")
    print()

if positives:
    print("‚úÖ PONTOS POSITIVOS:")
    for p in positives:
        print(f"   {p}")
    print()

# Veredito geral
print("-"*90)
print("\nüí° INTERPRETA√á√ÉO GERAL:\n")

if len(problems) >= 2:
    print("üî¥ SIM, OS RESULTADOS S√ÉO PREOCUPANTES")
    print()
    print("   O modelo apresenta problemas significativos:")
    print()
    print("   1Ô∏è‚É£  VI√âS OTIMISTA SISTEM√ÅTICO")
    print("      ‚Ä¢ 96% das previs√µes acima do real")
    print("      ‚Ä¢ Bias m√©dio de +$5,140 (4.6%)")
    print("      ‚Ä¢ Modelo 'espera' pre√ßos mais altos que a realidade")
    print()
    print("   2Ô∏è‚É£  INTERVALO DE CONFIAN√áA MAL CALIBRADO")
    print("      ‚Ä¢ Coverage de 38.5% quando deveria ser 90%")
    print("      ‚Ä¢ Faixas muito estreitas (overconfident)")
    print("      ‚Ä¢ Subestima a incerteza real do mercado")
    print()
    print("   ‚ö†Ô∏è  IMPLICA√á√ïES PR√ÅTICAS:")
    print("      ‚Ä¢ Trading: Estrat√©gias podem ser muito agressivas")
    print("      ‚Ä¢ Risk Management: Subestima√ß√£o de riscos")
    print("      ‚Ä¢ Stop-loss: Pode ser acionado com frequ√™ncia inesperada")
    print()
else:
    print("üü° RESULTADOS MISTOS - REQUER ATEN√á√ÉO")
    print()
    print("   O modelo tem aspectos bons e ruins:")
    print("   ‚úÖ Erro m√©dio (MAPE) aceit√°vel")
    print("   ‚ùå Calibra√ß√£o dos intervalos precisa melhorar")
    print()

print("\n" + "="*90)
print()
print("üìã RECOMENDA√á√ïES:")
print()
print("1Ô∏è‚É£  CURTO PRAZO (Usar modelo hoje):")
print("   ‚Ä¢ ‚ö†Ô∏è  Ajustar expectativas: Reduzir previs√µes em ~4-5%")
print("   ‚Ä¢ ‚ö†Ô∏è  Ampliar faixas: Multiplicar p05/p95 por fator 1.5-2.0")
print("   ‚Ä¢ ‚úÖ Usar MAPE como refer√™ncia de erro esperado")
print()
print("2Ô∏è‚É£  M√âDIO PRAZO (Melhorias no modelo):")
print("   ‚Ä¢ üîß Recalibrar quantis (ajustar alpha/conformidade)")
print("   ‚Ä¢ üîß Investigar per√≠odo de treinamento (pode estar enviesado)")
print("   ‚Ä¢ üîß Adicionar features de volatilidade/regime de mercado")
print("   ‚Ä¢ üîß Testar com per√≠odos mais longos de backtest")
print()
print("3Ô∏è‚É£  LONGO PRAZO (Valida√ß√£o):")
print("   ‚Ä¢ üìä Walk-forward backtest (re-treinar no passado)")
print("   ‚Ä¢ üìä Valida√ß√£o out-of-sample real (dados nunca vistos)")
print("   ‚Ä¢ üìä Comparar com benchmarks (naive, GARCH, etc)")
print()
print("="*90)
print()
print("‚ö° NOTA IMPORTANTE SOBRE PSEUDO-BACKTEST:")
print()
print("   Estes resultados t√™m LOOK-AHEAD BIAS (modelo viu os dados).")
print("   Em um backtest real (walk-forward), os resultados podem ser:")
print("   ‚Ä¢ üìâ PIORES: Se o modelo se beneficiou do look-ahead")
print("   ‚Ä¢ üìà MELHORES: Se o per√≠odo testado foi atipicamente dif√≠cil")
print()
print("   Para conclus√µes definitivas, NECESS√ÅRIO fazer walk-forward backtest.")
print()
print("="*90)

---

## üìù Resposta Direta: Os Resultados S√£o Preocupantes?

### üî¥ **SIM, s√£o preocupantes, mas com contexto importante:**

#### ‚ùå Problemas Identificados:

1. **Vi√©s Otimista Severo**: 
   - 96% das previs√µes s√£o mais altas que a realidade
   - Bias m√©dio de +$5,140 (4.6%)
   - Modelo sistematicamente "otimista"

2. **Intervalos de Confian√ßa Mal Calibrados**:
   - Coverage de apenas 38.5% quando deveria ser 90%
   - Faixas muito estreitas ("overconfident")
   - Subestima a incerteza real

#### ‚úÖ Pontos Positivos:

1. **Erro M√©dio Aceit√°vel**:
   - MAPE de 4.68% √© considerado bom
   - Modelo tem capacidade preditiva

2. **Largura Razo√°vel**:
   - 6.4% de largura est√° dentro do aceit√°vel
   - O problema √© a calibra√ß√£o, n√£o a largura em si

---

### ü§î Mas Por Que Isso Aconteceu?

Poss√≠veis causas:

1. **Per√≠odo de Treinamento Otimista**:
   - Modelo treinado em per√≠odo de alta
   - "Aprendeu" a esperar pre√ßos crescentes

2. **Conformal Prediction Needs Recalibration**:
   - Alpha atual n√£o est√° capturando a distribui√ß√£o real
   - Precisa ajustar par√¢metros de calibra√ß√£o

3. **Look-Ahead Bias do Pseudo-Backtest**:
   - Modelo viu os dados que est√° "prevendo"
   - Resultados reais podem ser diferentes

4. **Falta de Features de Regime**:
   - Modelo n√£o detecta mudan√ßas de bull‚Üíbear
   - Sempre assume regime similar ao treinamento

---

### üéØ O Que Fazer?

#### Solu√ß√£o Imediata (usar modelo hoje):

```python
# Ajustar previs√µes
p50_ajustado = p50_original * 0.955  # Reduzir 4.5%

# Ampliar faixas
p05_ajustado = S0 + (p05_original - S0) * 1.7
p95_ajustado = S0 + (p95_original - S0) * 1.7
```

#### Solu√ß√£o de M√©dio Prazo:

1. **Recalibrar quantis** com conformal prediction ajustado
2. **Adicionar features** de regime de mercado (bull/bear detection)
3. **Testar m√∫ltiplos per√≠odos** de backtest
4. **Implementar walk-forward** backtest verdadeiro

---

### ‚ö†Ô∏è Conclus√£o:

**Os resultados INDICAM problemas reais** que precisam ser endere√ßados, MAS:

- ‚úÖ O modelo tem capacidade preditiva (MAPE bom)
- ‚ö†Ô∏è A calibra√ß√£o precisa ser corrigida
- üîç Pseudo-backtest tem limita√ß√µes (look-ahead bias)
- üìä Necess√°rio valida√ß√£o adicional (walk-forward)

**N√£o descarte o modelo, mas n√£o use sem ajustes!**