# BTC Momentum Analysis ‚Äî Module 02 Only

**Objetivo:** Produzir sinais de momentum a partir das bandas quant√≠licas do M√≥dulo 02.

**Escopo:** Apenas arquivos `preds_T=*.parquet` com T ‚àà {42,48,54,60}.

**Sa√≠das:**
- S√©rie temporal de scores de momentum (dire√ß√£o/volatilidade/confian√ßa)
- Snapshots por horizonte T
- Gr√°ficos de an√°lise
- Relat√≥rio HTML
- Pr√©-checagens para M√≥dulo 03

---

**Data de execu√ß√£o:** October 2, 2025  
**Timezone:** UTC

## 1. Setup & Configuration

In [1]:
# Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import json
import yaml
from datetime import datetime, timedelta
import warnings
from scipy import stats
from typing import Dict, List, Tuple

warnings.filterwarnings('ignore')

# Configura√ß√£o de plots
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette('husl')
%matplotlib inline

# Seed para reprodutibilidade
np.random.seed(42)

print("‚úÖ Imports carregados")
print(f"üìÖ Data: {datetime.now().strftime('%Y-%m-%d %H:%M:%S UTC')}")

‚úÖ Imports carregados
üìÖ Data: 2025-10-02 15:58:53 UTC


### 1.1 Configuration Parameters

In [2]:
# Configura√ß√£o do notebook
CONFIG = {
    'lookback_days': 180,           # janela para an√°lises/percentis
    'horizons': [42, 48, 54, 60],   # horizontes de previs√£o (horas)
    'target_T_default': 48,         # horizonte padr√£o para gr√°ficos
    'tilt_strength_hi': 1.2,        # |tilt_ratio| > este valor => dire√ß√£o forte
    'vol_hi_pct': 0.80,             # percentil de largura > 0.8 => vol alta
    'vol_lo_pct': 0.20,             # percentil de largura < 0.2 => vol baixa
    'recency_max_days': 7,          # m√°ximo de dias desde √∫ltima previs√£o
    
    'score_weights': {
        'directional': {'tilt': 0.6, 'slope': 0.4},
        'volatility': {'width_pct': 0.7, 'rv_delta': 0.3},
        'confidence': {'consistency': 0.5, 'stability': 0.5}
    },
    
    'export_paths': {
        'ts_table': 'data/processed/momentum/momentum_timeseries.parquet',
        'snapshot': 'data/processed/momentum/momentum_snapshot.csv',
        'report_html': 'data/processed/momentum/momentum_report.html',
        'charts_dir': 'data/processed/momentum/charts/'
    }
}

# Exibir configura√ß√£o
print("‚öôÔ∏è  Configura√ß√£o do Notebook:")
print("=" * 60)
for key, value in CONFIG.items():
    if key != 'score_weights' and key != 'export_paths':
        print(f"{key:20s}: {value}")

print("\nüìä Pesos dos Scores:")
for score_type, weights in CONFIG['score_weights'].items():
    print(f"  {score_type:15s}: {weights}")

print("\n‚úÖ Configura√ß√£o carregada")

‚öôÔ∏è  Configura√ß√£o do Notebook:
lookback_days       : 180
horizons            : [42, 48, 54, 60]
target_T_default    : 48
tilt_strength_hi    : 1.2
vol_hi_pct          : 0.8
vol_lo_pct          : 0.2
recency_max_days    : 7

üìä Pesos dos Scores:
  directional    : {'tilt': 0.6, 'slope': 0.4}
  volatility     : {'width_pct': 0.7, 'rv_delta': 0.3}
  confidence     : {'consistency': 0.5, 'stability': 0.5}

‚úÖ Configura√ß√£o carregada


## 2. Data Discovery & Loading

### 2.1 Descoberta de Arquivos

In [3]:
# Descobrir arquivos de predi√ß√µes
data_dir = Path('data/processed/preds')
pred_files = sorted(data_dir.glob('preds_T=*.parquet'))

print(f"üîç Buscando em: {data_dir}")
print(f"üìÅ Arquivos encontrados: {len(pred_files)}")
print("=" * 60)

if not pred_files:
    # Tentar diret√≥rio alternativo (notebooks)
    alt_dir = Path('notebooks/data/processed/preds')
    pred_files = sorted(alt_dir.glob('preds_T=*.parquet'))
    print(f"üîç Tentando diret√≥rio alternativo: {alt_dir}")
    print(f"üìÅ Arquivos encontrados: {len(pred_files)}")

if pred_files:
    for f in pred_files:
        size_mb = f.stat().st_size / (1024*1024)
        print(f"  ‚úì {f.name:30s} ({size_mb:6.2f} MB)")
else:
    print("‚ùå ERRO: Nenhum arquivo preds_T=*.parquet encontrado!")
    print("\nVerificando estrutura de diret√≥rios...")
    if data_dir.exists():
        all_files = list(data_dir.glob('*'))
        print(f"\nArquivos em {data_dir}:")
        for f in all_files[:10]:  # Primeiros 10
            print(f"  - {f.name}")

# Buscar metadados opcionais
meta_file = data_dir / 'meta_pred.json'
qc_file = data_dir / 'qc_oos.json'

print(f"\nüìã Metadados:")
print(f"  meta_pred.json: {'‚úì Encontrado' if meta_file.exists() else '‚úó N√£o encontrado'}")
print(f"  qc_oos.json:    {'‚úì Encontrado' if qc_file.exists() else '‚úó N√£o encontrado'}")

print("\n‚úÖ Descoberta conclu√≠da")

üîç Buscando em: data/processed/preds
üìÅ Arquivos encontrados: 1
  ‚úì preds_T=42.parquet             (  0.01 MB)

üìã Metadados:
  meta_pred.json: ‚úì Encontrado
  qc_oos.json:    ‚úó N√£o encontrado

‚úÖ Descoberta conclu√≠da


### 2.2 Carregar e Concatenar Dados

In [4]:
# Carregar todos os arquivos de predi√ß√£o
if not pred_files:
    raise FileNotFoundError("‚ùå Nenhum arquivo de predi√ß√£o encontrado. Verifique o diret√≥rio de dados.")

dfs = []
for f in pred_files:
    try:
        df_temp = pd.read_parquet(f)
        dfs.append(df_temp)
        print(f"‚úì Carregado {f.name}: {len(df_temp):,} linhas")
    except Exception as e:
        print(f"‚úó Erro ao carregar {f.name}: {e}")

# Concatenar
if dfs:
    df_raw = pd.concat(dfs, ignore_index=True)
    print(f"\nüìä Dataset concatenado: {len(df_raw):,} linhas, {len(df_raw.columns)} colunas")
else:
    raise ValueError("‚ùå Nenhum arquivo foi carregado com sucesso")

# Exibir colunas dispon√≠veis
print(f"\nüìã Colunas dispon√≠veis:")
print(f"  {', '.join(sorted(df_raw.columns))}")

# Amostra dos dados
print(f"\nüîç Primeiras linhas:")
display(df_raw.head())

print("\n‚úÖ Dados carregados")

‚úì Carregado preds_T=42.parquet: 1 linhas

üìä Dataset concatenado: 1 linhas, 12 colunas

üìã Colunas dispon√≠veis:
  S0, T, h_days, p_25, p_50, p_75, p_med, q25, q50, q75, rvhat_ann, ts0

üîç Primeiras linhas:


Unnamed: 0,ts0,T,h_days,S0,rvhat_ann,q25,p_25,q50,p_50,q75,p_75,p_med
0,2025-10-02 00:00:00+00:00,42,7.0,118822.1,,-0.016067,116928.199661,0.010727,120103.593414,0.039374,123593.87164,120103.593414



‚úÖ Dados carregados


## 3. Data Validation & Preprocessing

### 3.1 Valida√ß√µes B√°sicas

In [None]:
print("üîç Executando valida√ß√µes...\n")

# 1. Converter ts0 para UTC
if 'ts0' in df_raw.columns:
    df_raw['ts0'] = pd.to_datetime(df_raw['ts0'], utc=True)
    print(f"‚úì Coluna 'ts0' convertida para UTC")
else:
    raise ValueError("‚ùå Coluna 'ts0' n√£o encontrada")

# 2. Filtrar horizontes v√°lidos
if 'T' in df_raw.columns:
    horizons_found = df_raw['T'].unique()
    print(f"\nüìä Horizontes encontrados: {sorted(horizons_found)}")
    
    invalid_T = [t for t in horizons_found if t not in CONFIG['horizons']]
    if invalid_T:
        print(f"‚ö†Ô∏è  Horizontes inv√°lidos (ser√£o ignorados): {invalid_T}")
        df_raw = df_raw[df_raw['T'].isin(CONFIG['horizons'])].copy()
    
    print(f"‚úì Dataset filtrado: {len(df_raw):,} linhas com T v√°lido")
else:
    raise ValueError("‚ùå Coluna 'T' n√£o encontrada")

# 3. Verificar campos obrigat√≥rios
# Nota: Os arquivos t√™m q25, q50, q75 (n√£o q05/q95)
required_cols = ['ts0', 'T', 'S0', 'q25', 'q50', 'q75']
optional_cols = ['p_25', 'p_50', 'p_75', 'p_med', 'rvhat_ann', 'h_days']

missing_cols = [col for col in required_cols if col not in df_raw.columns]

if missing_cols:
    raise ValueError(f"‚ùå Colunas obrigat√≥rias ausentes: {missing_cols}")
else:
    print(f"\n‚úì Todas as colunas obrigat√≥rias presentes: {required_cols}")

# Verificar colunas opcionais dispon√≠veis
available_optional = [col for col in optional_cols if col in df_raw.columns]
print(f"‚úì Colunas opcionais dispon√≠veis: {available_optional}")

# 4. Verificar monotonicidade dos quantis (q25 <= q50 <= q75)
monotone_check = (
    (df_raw['q25'] <= df_raw['q50']) &
    (df_raw['q50'] <= df_raw['q75'])
)

n_violations = (~monotone_check).sum()
pct_violations = 100 * n_violations / len(df_raw)

print(f"\nüîç Monotonicidade dos quantis (q25 ‚â§ q50 ‚â§ q75):")
print(f"  Total de linhas: {len(df_raw):,}")
print(f"  Viola√ß√µes: {n_violations:,} ({pct_violations:.2f}%)")

if pct_violations > 1.0:
    print(f"  ‚ö†Ô∏è  ATEN√á√ÉO: {pct_violations:.2f}% de viola√ß√µes (limite: 1%)")
else:
    print(f"  ‚úì Monotonicidade OK ({pct_violations:.4f}% viola√ß√µes)")

# 5. Verificar rec√™ncia
latest_ts = df_raw['ts0'].max()
now = pd.Timestamp.now(tz='UTC')
days_since_last = (now - latest_ts).days

print(f"\nüìÖ Rec√™ncia dos dados:")
print(f"  √öltima previs√£o: {latest_ts}")
print(f"  Dias desde √∫ltima: {days_since_last}")
print(f"  Limite configurado: {CONFIG['recency_max_days']} dias")

if days_since_last > CONFIG['recency_max_days']:
    print(f"  ‚ö†Ô∏è  ATEN√á√ÉO: Dados podem estar desatualizados")
else:
    print(f"  ‚úì Dados recentes")

# 6. Verificar NaNs em colunas cr√≠ticas
print(f"\nüîç NaNs em colunas cr√≠ticas:")
for col in required_cols:
    n_nans = df_raw[col].isna().sum()
    if n_nans > 0:
        print(f"  ‚ö†Ô∏è  {col}: {n_nans:,} NaNs ({100*n_nans/len(df_raw):.2f}%)")
    else:
        print(f"  ‚úì {col}: sem NaNs")

print("\n‚úÖ Valida√ß√µes conclu√≠das")
print(f"\nüìù Nota: Dataset cont√©m quantis q25, q50, q75 (n√£o q05/q95)")

üîç Executando valida√ß√µes...

‚úì Coluna 'ts0' convertida para UTC

üìä Horizontes encontrados: [np.int64(42)]
‚úì Dataset filtrado: 1 linhas com T v√°lido


ValueError: ‚ùå Colunas obrigat√≥rias ausentes: ['q05', 'q95']

### 3.2 Informa√ß√µes do Dataset

In [None]:
# Resumo estat√≠stico
print("üìä Resumo do Dataset")
print("=" * 60)
print(f"Total de linhas: {len(df_raw):,}")
print(f"Total de colunas: {len(df_raw.columns)}")
print(f"\nPer√≠odo dos dados:")
print(f"  In√≠cio: {df_raw['ts0'].min()}")
print(f"  Fim:    {df_raw['ts0'].max()}")
print(f"  Dias:   {(df_raw['ts0'].max() - df_raw['ts0'].min()).days}")

print(f"\nüìà Distribui√ß√£o por horizonte T:")
for T in sorted(df_raw['T'].unique()):
    n = (df_raw['T'] == T).sum()
    pct = 100 * n / len(df_raw)
    print(f"  T={T}h: {n:6,} linhas ({pct:5.2f}%)")

print(f"\nüí∞ Estat√≠sticas de S0 (pre√ßo spot):")
print(f"  Min:    ${df_raw['S0'].min():,.2f}")
print(f"  M√©dia:  ${df_raw['S0'].mean():,.2f}")
print(f"  Mediana:${df_raw['S0'].median():,.2f}")
print(f"  Max:    ${df_raw['S0'].max():,.2f}")

# Estat√≠sticas dos quantis dispon√≠veis
print(f"\nüìä Estat√≠sticas dos Quantis (valores relativos):")
quantile_cols = ['q25', 'q50', 'q75']
print(df_raw[quantile_cols].describe())

# Se tiver pre√ßos absolutos, mostrar tamb√©m
if 'p_25' in df_raw.columns:
    print(f"\nüíµ Estat√≠sticas de Pre√ßos Absolutos (USD):")
    price_cols = ['p_25', 'p_50', 'p_75']
    available_price_cols = [c for c in price_cols if c in df_raw.columns]
    if available_price_cols:
        print(df_raw[available_price_cols].describe())

# Volatilidade realizada se dispon√≠vel
if 'rvhat_ann' in df_raw.columns:
    print(f"\nüìâ Estat√≠sticas de Volatilidade Realizada Anualizada:")
    print(f"  Min:    {df_raw['rvhat_ann'].min():.4f}")
    print(f"  M√©dia:  {df_raw['rvhat_ann'].mean():.4f}")
    print(f"  Mediana:{df_raw['rvhat_ann'].median():.4f}")
    print(f"  Max:    {df_raw['rvhat_ann'].max():.4f}")

print("\n‚úÖ Informa√ß√µes do dataset exibidas")

## 4. Feature Engineering

### 4.1 Criar Bandas Absolutas e Quantis Adicionais

Como os dados cont√™m apenas q25, q50, q75, vamos:
1. Criar bandas de pre√ßo absolutas (p = S0 √ó q) se necess√°rio
2. Estimar q05 e q95 usando a assimetria dos quantis existentes

In [None]:
# Criar c√≥pia para trabalhar
df = df_raw.copy()

print("üîß Enriquecendo dataset com features derivadas...\n")

# 1. Garantir que temos pre√ßos absolutos p_25, p_50, p_75
if 'p_25' not in df.columns:
    df['p_25'] = df['S0'] * df['q25']
    print("‚úì Criado p_25 = S0 √ó q25")
    
if 'p_50' not in df.columns:
    df['p_50'] = df['S0'] * df['q50']
    print("‚úì Criado p_50 = S0 √ó q50")
    
if 'p_75' not in df.columns:
    df['p_75'] = df['S0'] * df['q75']
    print("‚úì Criado p_75 = S0 √ó q75")

# 2. Estimar q05 e q95 usando extrapola√ß√£o sim√©trica
# Assuma distribui√ß√£o sim√©trica em torno de q50 (pode ser ajustado)
# q05 ‚âà q50 - k*(q50-q25), onde k √© fator de extrapola√ß√£o
# q95 ‚âà q50 + k*(q75-q50)

# Usar raz√£o baseada na dist√¢ncia normal padr√£o
# Dist√¢ncia q25‚Üíq50: 0.25 da distribui√ß√£o (z ‚âà -0.674)
# Dist√¢ncia q05‚Üíq50: 0.45 da distribui√ß√£o (z ‚âà -1.645)
# Ratio: 1.645/0.674 ‚âà 2.44

k_lower = 2.44  # extrapola√ß√£o para q05
k_upper = 2.44  # extrapola√ß√£o para q95

df['q05'] = df['q50'] - k_lower * (df['q50'] - df['q25'])
df['q95'] = df['q50'] + k_upper * (df['q75'] - df['q50'])

# Criar pre√ßos absolutos correspondentes
df['p_05'] = df['S0'] * df['q05']
df['p_95'] = df['S0'] * df['q95']

print(f"‚úì Estimado q05 e q95 (extrapola√ß√£o k={k_lower:.2f})")
print(f"‚úì Criado p_05 e p_95")

# 3. Verificar sanidade dos quantis estimados
print(f"\nüîç Valida√ß√£o dos quantis estimados:")
monotone_full = (
    (df['q05'] <= df['q25']) &
    (df['q25'] <= df['q50']) &
    (df['q50'] <= df['q75']) &
    (df['q75'] <= df['q95'])
)
n_ok = monotone_full.sum()
pct_ok = 100 * n_ok / len(df)
print(f"  Monotonicidade q05‚â§q25‚â§q50‚â§q75‚â§q95: {pct_ok:.2f}% OK")

if pct_ok < 95:
    print(f"  ‚ö†Ô∏è  Ajustando quantis que violam monotonicidade...")
    # For√ßar monotonicidade
    df.loc[df['q05'] > df['q25'], 'q05'] = df.loc[df['q05'] > df['q25'], 'q25'] * 0.99
    df.loc[df['q95'] < df['q75'], 'q95'] = df.loc[df['q95'] < df['q75'], 'q75'] * 1.01
    df['p_05'] = df['S0'] * df['q05']
    df['p_95'] = df['S0'] * df['q95']
    print(f"  ‚úì Quantis ajustados para garantir monotonicidade")

print(f"\n‚úÖ Dataset enriquecido: {len(df.columns)} colunas")
print(f"üìã Quantis dispon√≠veis: q05, q25, q50, q75, q95")
print(f"üí∞ Pre√ßos dispon√≠veis: p_05, p_25, p_50, p_75, p_95")