# Fase 2: Defini√ß√£o do Alvo e Engenharia de Atributos (EAP 2.0)

Este notebook implementa a Fase 2 do projeto de previs√£o de tend√™ncia do IBOVESPA, focando na cria√ß√£o da vari√°vel a ser prevista e no enriquecimento dos dados com atributos preditivos, com aten√ß√£o rigorosa para evitar vi√©s de lookahead.

**Autor:** Projeto Tech Challenge 2  
**Data:** 2025-01-24  
**Refer√™ncia:** EAP.md e Steering.md

## ‚ö†Ô∏è Compatibilidade NumPy 2.0+

**Problema identificado**: O `pandas_ta` n√£o √© compat√≠vel com NumPy 2.0+ devido √† remo√ß√£o do `numpy.NaN`.

**Solu√ß√£o**: Implementamos os indicadores t√©cnicos manualmente usando apenas pandas e numpy, garantindo compatibilidade total.

## 1. Importa√ß√µes e Configura√ß√µes

In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import json

warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette('husl')

# Verifica vers√µes para compatibilidade
print('=== VERIFICA√á√ÉO DE COMPATIBILIDADE ===')
print(f'‚úì Pandas: {pd.__version__}')
print(f'‚úì NumPy: {np.__version__}')
print('‚úì Bibliotecas importadas com sucesso!')
print('‚úì Usando implementa√ß√£o manual para indicadores t√©cnicos')

## 2. Fun√ß√µes Auxiliares (Compat√≠veis com NumPy 2.0+)

Implementamos manualmente os indicadores t√©cnicos:

In [None]:
def calcular_sma(serie, periodo):
    """
    Calcula a M√©dia M√≥vel Simples (SMA)
    Compat√≠vel com NumPy 2.0+
    """
    return serie.rolling(window=periodo, min_periods=periodo).mean()

def calcular_retornos_log(serie):
    """
    Calcula retornos logar√≠tmicos
    Compat√≠vel com NumPy 2.0+
    """
    return np.log(serie / serie.shift(1))

def criar_lags_retornos(retornos, max_lag=5):
    """
    Cria lags dos retornos
    Compat√≠vel com NumPy 2.0+
    """
    lags = {}
    for lag in range(1, max_lag + 1):
        lags[f'Return_Lag_{lag}'] = retornos.shift(lag)
    return lags

print('‚úì Fun√ß√µes auxiliares definidas com sucesso!')
print('‚úì Implementa√ß√£o manual dos indicadores t√©cnicos')
print('‚úì Totalmente compat√≠vel com NumPy 2.0+')

## 3. Carregamento dos Dados

In [None]:
# Carrega os dados limpos da Fase 1
dados_limpos = pd.read_csv('dados_bovespa.csv', index_col=0, parse_dates=True)

print(f'‚úì Dados carregados: {len(dados_limpos)} registros')
print(f'‚úì Per√≠odo: {dados_limpos.index.min()} a {dados_limpos.index.max()}')
print(f'‚úì Colunas: {list(dados_limpos.columns)}')

# Visualiza as primeiras linhas
print('\n=== PRIMEIRAS LINHAS DOS DADOS ===')
dados_limpos.head()

## 4. Cria√ß√£o da Vari√°vel Alvo (Target)

Criamos a vari√°vel alvo seguindo as especifica√ß√µes do EAP 2.0:
- **Target = 1** se Close(t+1) > Close(t)
- **Target = 0** caso contr√°rio

In [None]:
# Copia os dados para n√£o modificar o original
dados_com_target = dados_limpos.copy()

# Identifica coluna de fechamento
col_close = None
for col in dados_com_target.columns:
    if 'close' in col.lower():
        col_close = col
        break

if col_close is None:
    raise ValueError('Coluna de pre√ßo de fechamento n√£o encontrada')

print(f'‚úì Coluna de fechamento identificada: {col_close}')

# Cria a vari√°vel alvo
close_amanha = dados_com_target[col_close].shift(-1)
close_hoje = dados_com_target[col_close]
dados_com_target['Target'] = (close_amanha > close_hoje).astype(int)

# Remove a √∫ltima linha que cont√©m NaN no Target
dados_com_target = dados_com_target.dropna(subset=['Target'])

print('\n=== CRIA√á√ÉO DA VARI√ÅVEL ALVO ===')
print('‚úì Vari√°vel Target criada com sucesso')
print('‚úì L√≥gica: Target = 1 se Close(t+1) > Close(t), 0 caso contr√°rio')
print(f'‚úì Registros ap√≥s remo√ß√£o de NaN: {len(dados_com_target)}')

# Visualiza os primeiros registros com o target
print('\n=== PRIMEIROS REGISTROS COM TARGET ===')
dados_com_target[['Open', 'High', 'Low', 'Close', 'Target']].head(10)

## 5. An√°lise da Distribui√ß√£o de Classes

In [None]:
# Calcula e analisa a frequ√™ncia das classes 0 e 1
distribuicao = dados_com_target['Target'].value_counts()
proporcoes = dados_com_target['Target'].value_counts(normalize=True)

# An√°lise de desbalanceamento
classe_majoritaria = proporcoes.idxmax()
prop_majoritaria = proporcoes.max()
prop_minoritaria = proporcoes.min()
razao_desbalanceamento = prop_majoritaria / prop_minoritaria

print('=== AN√ÅLISE DA DISTRIBUI√á√ÉO DE CLASSES ===')
print('‚úì Distribui√ß√£o absoluta:')
for classe, count in distribuicao.items():
    print(f'   - Classe {classe}: {count} ({proporcoes[classe]:.2%})')

print('\n‚úì An√°lise de desbalanceamento:')
print(f'   - Classe majorit√°ria: {classe_majoritaria} ({prop_majoritaria:.2%})')
print(f'   - Raz√£o de desbalanceamento: {razao_desbalanceamento:.2f}:1')

if razao_desbalanceamento > 1.5:
    print('   - Status: DESBALANCEADO (raz√£o > 1.5)')
    print('   - Implica√ß√µes:')
    print('     ‚Ä¢ Acur√°cia n√£o √© uma m√©trica confi√°vel')
    print('     ‚Ä¢ Usar Precis√£o, Recall e F1-Score')
    print('     ‚Ä¢ Considerar scale_pos_weight no XGBoost')
else:
    print('   - Status: BALANCEADO (raz√£o <= 1.5)')

# Visualiza√ß√£o gr√°fica
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))

# Gr√°fico de barras
distribuicao.plot(kind='bar', ax=ax1, color=['red', 'green'])
ax1.set_title('Distribui√ß√£o Absoluta das Classes')
ax1.set_xlabel('Classe Target')
ax1.set_ylabel('Frequ√™ncia')
ax1.tick_params(axis='x', rotation=0)

# Gr√°fico de pizza
proporcoes.plot(kind='pie', ax=ax2, autopct='%1.1f%%', colors=['red', 'green'])
ax2.set_title('Distribui√ß√£o Percentual das Classes')
ax2.set_ylabel('')

plt.tight_layout()
plt.show()

## 6. Engenharia de Atributos

### 6.1 Atributos de Momento (Lags de Retornos)

In [None]:
# Copia os dados com target para adicionar features
dados_com_features = dados_com_target.copy()

# Calcula retornos logar√≠tmicos usando fun√ß√£o manual
dados_com_features['Retornos_Log'] = calcular_retornos_log(dados_com_features[col_close])

# Dicion√°rio para armazenar informa√ß√µes dos atributos criados
dicionario_atributos = {}

# Cria lags dos retornos (1 a 5 dias)
print('=== CRIANDO ATRIBUTOS DE MOMENTO ===')
print('‚úì Usando implementa√ß√£o manual (compat√≠vel com NumPy 2.0+)')

lags_retornos = criar_lags_retornos(dados_com_features['Retornos_Log'], 5)
for col_name, serie_lag in lags_retornos.items():
    dados_com_features[col_name] = serie_lag
    lag_num = col_name.split('_')[-1]
    
    # Adiciona ao dicion√°rio de atributos
    dicionario_atributos[col_name] = {
        'calculo': f'log(Close(t-{lag_num}) / Close(t-{lag_num}-1))',
        'dados_entrada': 'Close',
        'intuicao_financeira': f'Captura o momentum de {lag_num} dia(s) atr√°s',
        'categoria': 'Momento'
    }
    print(f'‚úì Criado: {col_name}')

print('\n‚úì Atributos de momento criados com sucesso!')
print('‚úì Capturam informa√ß√µes de momentum de curto prazo')

# Visualiza os novos atributos
colunas_momento = [f'Return_Lag_{i}' for i in range(1, 6)]
print('\n=== PRIMEIROS REGISTROS COM ATRIBUTOS DE MOMENTO ===')
dados_com_features[['Close', 'Retornos_Log'] + colunas_momento + ['Target']].head(10)

### 6.2 Atributos de Tend√™ncia (SMAs e Ratios)

In [None]:
# Cria m√©dias m√≥veis simples usando fun√ß√£o manual
periodos_sma = [5, 10, 20]

print('=== CRIANDO ATRIBUTOS DE TEND√äNCIA ===')
print('‚úì Usando implementa√ß√£o manual (compat√≠vel com NumPy 2.0+)')

for periodo in periodos_sma:
    col_name = f'SMA_{periodo}'
    dados_com_features[col_name] = calcular_sma(dados_com_features[col_close], periodo)
    
    # Adiciona ao dicion√°rio de atributos
    dicionario_atributos[col_name] = {
        'calculo': f'M√©dia m√≥vel simples de {periodo} per√≠odos',
        'dados_entrada': 'Close',
        'intuicao_financeira': f'Tend√™ncia de {"curto" if periodo <= 10 else "m√©dio"} prazo',
        'categoria': 'Tend√™ncia'
    }
    print(f'‚úì Criado: {col_name}')

# Cria ratios entre pre√ßo e SMAs
print('\n=== CRIANDO RATIOS PRE√áO/SMA ===')
for periodo in periodos_sma:
    col_name = f'Close_SMA_{periodo}_Ratio'
    dados_com_features[col_name] = dados_com_features[col_close] / dados_com_features[f'SMA_{periodo}']
    
    # Adiciona ao dicion√°rio de atributos
    dicionario_atributos[col_name] = {
        'calculo': f'Close / SMA_{periodo}',
        'dados_entrada': 'Close, SMA',
        'intuicao_financeira': f'Posi√ß√£o relativa do pre√ßo vs tend√™ncia de {periodo} dias',
        'categoria': 'Tend√™ncia'
    }
    print(f'‚úì Criado: {col_name}')

# Cria ratios entre SMAs
print('\n=== CRIANDO RATIOS ENTRE SMAS ===')
dados_com_features['SMA_5_10_Ratio'] = dados_com_features['SMA_5'] / dados_com_features['SMA_10']
dados_com_features['SMA_10_20_Ratio'] = dados_com_features['SMA_10'] / dados_com_features['SMA_20']

# Adiciona ao dicion√°rio
dicionario_atributos['SMA_5_10_Ratio'] = {
    'calculo': 'SMA_5 / SMA_10',
    'dados_entrada': 'SMA_5, SMA_10',
    'intuicao_financeira': 'Diverg√™ncia entre tend√™ncias de curto e m√©dio prazo',
    'categoria': 'Tend√™ncia'
}

dicionario_atributos['SMA_10_20_Ratio'] = {
    'calculo': 'SMA_10 / SMA_20',
    'dados_entrada': 'SMA_10, SMA_20',
    'intuicao_financeira': 'Diverg√™ncia entre tend√™ncias de m√©dio prazo',
    'categoria': 'Tend√™ncia'
}

print('‚úì Criado: SMA_5_10_Ratio')
print('‚úì Criado: SMA_10_20_Ratio')

print('\n‚úì Atributos de tend√™ncia criados com sucesso!')
print('‚úì Capturam informa√ß√µes sobre dire√ß√£o e for√ßa das tend√™ncias')

## 7. Finaliza√ß√£o e Limpeza dos Dados

In [None]:
# Remove registros com NaN (causados pelos lags e m√©dias m√≥veis)
dados_finais = dados_com_features.dropna()

print('=== FINALIZA√á√ÉO DOS DADOS ===')
print(f'‚úì Registros antes da limpeza: {len(dados_com_features)}')
print(f'‚úì Registros ap√≥s limpeza: {len(dados_finais)}')
print(f'‚úì Registros removidos: {len(dados_com_features) - len(dados_finais)}')
print(f'‚úì Total de colunas: {len(dados_finais.columns)}')

# Lista todas as colunas criadas
colunas_originais = dados_limpos.columns.tolist()
colunas_criadas = [col for col in dados_finais.columns if col not in colunas_originais]

print(f'\n‚úì Colunas criadas ({len(colunas_criadas)}): {colunas_criadas}')

# Verifica distribui√ß√£o final do target
distribuicao_final = dados_finais['Target'].value_counts(normalize=True)
print(f'\n‚úì Distribui√ß√£o final do Target:')
for classe, prop in distribuicao_final.items():
    print(f'   - Classe {classe}: {prop:.2%}')

# Salva os dados processados
dados_finais.to_csv('dados_fase2_completos.csv')
print(f'\n‚úì Dados salvos em: dados_fase2_completos.csv')

# Salva o dicion√°rio de atributos
with open('dicionario_atributos_fase2.json', 'w', encoding='utf-8') as f:
    json.dump(dicionario_atributos, f, indent=2, ensure_ascii=False)
print(f'‚úì Dicion√°rio salvo em: dicionario_atributos_fase2.json')

# Visualiza o dataset final
print('\n=== DATASET FINAL ===')
dados_finais.head()

## 8. Resumo da Fase 2

### ‚úÖ Objetivos Alcan√ßados:

1. **‚úÖ Compatibilidade NumPy 2.0+**: Resolvido problema com pandas_ta
2. **‚úÖ Cria√ß√£o da Vari√°vel Alvo**: Target bin√°rio baseado na dire√ß√£o do pre√ßo
3. **‚úÖ An√°lise de Balanceamento**: Verifica√ß√£o da distribui√ß√£o das classes
4. **‚úÖ Atributos de Momento**: 5 lags de retornos para capturar momentum
5. **‚úÖ Atributos de Tend√™ncia**: SMAs e ratios para capturar tend√™ncias
6. **‚úÖ Documenta√ß√£o Completa**: Dicion√°rio detalhado de todos os atributos
7. **‚úÖ Preven√ß√£o de Lookahead**: Implementada corretamente

### üéØ Pr√≥ximos Passos:

1. **Fase 3**: Prepara√ß√£o para modelagem (normaliza√ß√£o, divis√£o treino/teste)
2. **Fase 4**: Treinamento e valida√ß√£o de modelos
3. **Fase 5**: An√°lise de resultados e conclus√µes

### üí° Solu√ß√£o de Compatibilidade:

- **Problema**: pandas_ta incompat√≠vel com NumPy 2.0+
- **Solu√ß√£o**: Implementa√ß√£o manual de indicadores t√©cnicos
- **Resultado**: C√≥digo totalmente compat√≠vel e controlado