# Fase 3: Prepara√ß√£o da Base para Modelagem (EAP 3.0)

Este notebook implementa a Fase 3 do projeto de previs√£o de tend√™ncia do IBOVESPA, estruturando os dados para que possam ser consumidos pelos algoritmos de machine learning, respeitando a ordem temporal.

**Autor:** Projeto Tech Challenge 2  
**Data:** 2025-01-24  
**Refer√™ncia:** EAP.md e Steering.md

## üéØ Objetivos da Fase 3:

1. **Estrutura√ß√£o com Janela Deslizante**: Transformar s√©rie temporal em dataset tabular
2. **Divis√£o Cronol√≥gica**: Separar dados respeitando ordem temporal
3. **Escalonamento**: Normalizar features para melhor performance dos modelos

## ‚ö†Ô∏è Abordagem Funcional

**Mudan√ßa de arquitetura**: Convertemos a estrutura de classe para **abordagem funcional** mais adequada ao formato notebook, facilitando a compreens√£o e execu√ß√£o sequencial.

## 1. Importa√ß√µes e Configura√ß√µes

In [None]:
#!/usr/bin/env python3
# -*- coding: utf-8 -*-

import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import TimeSeriesSplit
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
import json

warnings.filterwarnings('ignore')
plt.style.use('default')
sns.set_palette('husl')

# Verifica vers√µes
print('=== VERIFICA√á√ÉO DE COMPATIBILIDADE ===')
print(f'‚úì Pandas: {pd.__version__}')
print(f'‚úì NumPy: {np.__version__}')
print(f'‚úì Scikit-learn: Importado com sucesso')
print('‚úì Bibliotecas importadas com sucesso!')
print('‚úì Pronto para prepara√ß√£o dos dados para modelagem')

## 2. Carregamento dos Dados da Fase 2

In [None]:
# Carrega os dados processados da Fase 2
try:
    dados_com_features = pd.read_csv('dados_fase2_completos.csv', index_col=0, parse_dates=True)
    print('‚úì Dados da Fase 2 carregados com sucesso!')
except FileNotFoundError:
    print('‚ö†Ô∏è Arquivo dados_fase2_completos.csv n√£o encontrado.')
    print('‚ö†Ô∏è Executando a Fase 2 primeiro ou carregando dados alternativos...')
    # Carrega dados b√°sicos como fallback
    dados_com_features = pd.read_csv('dados_bovespa.csv', index_col=0, parse_dates=True)
    # Cria target simples para demonstra√ß√£o
    col_close = [col for col in dados_com_features.columns if 'close' in col.lower()][0]
    dados_com_features['Target'] = (dados_com_features[col_close].shift(-1) > dados_com_features[col_close]).astype(int)
    dados_com_features = dados_com_features.dropna()
    print('‚úì Dados b√°sicos carregados e target criado')

print(f'\n=== INFORMA√á√ïES DOS DADOS ===')
print(f'‚úì Registros: {len(dados_com_features)}')
print(f'‚úì Per√≠odo: {dados_com_features.index.min()} a {dados_com_features.index.max()}')
print(f'‚úì Colunas: {len(dados_com_features.columns)}')
print(f'‚úì Colunas dispon√≠veis: {list(dados_com_features.columns)}')

# Verifica se h√° coluna Target
if 'Target' not in dados_com_features.columns:
    raise ValueError('Coluna Target n√£o encontrada. Execute a Fase 2 primeiro.')

# Visualiza as primeiras linhas
print('\n=== PRIMEIRAS LINHAS DOS DADOS ===')
dados_com_features.head()

## 3. Estrutura√ß√£o com Janela Deslizante

### 3.1 Defini√ß√£o da Janela de Entrada (Lookback Window)

Transformamos a s√©rie temporal em um dataset tabular onde cada linha cont√©m os atributos dos √∫ltimos **n=5 dias** e o alvo correspondente.

In [None]:
# Configura√ß√µes da janela deslizante
JANELA_TAMANHO = 5  # Lookback window de 5 dias

print(f'=== ESTRUTURA√á√ÉO COM JANELA DESLIZANTE ===')
print(f'‚úì Tamanho da janela: {JANELA_TAMANHO} dias')

# Identifica features num√©ricas (exclui Target)
colunas_excluir = ['Target']
features_numericas = dados_com_features.select_dtypes(include=[np.number]).columns
features_numericas = [col for col in features_numericas if col not in colunas_excluir]

print(f'‚úì Features selecionadas: {len(features_numericas)}')
print(f'‚úì Features: {features_numericas[:10]}...')  # Mostra apenas as primeiras 10

# Remove linhas com NaN nas features
dados_limpos = dados_com_features[features_numericas + ['Target']].dropna()
print(f'‚úì Dados limpos: {len(dados_limpos)} registros')

### 3.2 Implementa√ß√£o da L√≥gica de Janela Deslizante

In [None]:
# Cria estrutura de janela deslizante
print('=== CRIANDO ESTRUTURA DE JANELA DESLIZANTE ===')

X_list = []
y_list = []
indices_list = []

# Itera pelos dados criando janelas deslizantes
for i in range(JANELA_TAMANHO, len(dados_limpos)):
    # Janela de features (√∫ltimos n dias)
    janela_features = dados_limpos[features_numericas].iloc[i-JANELA_TAMANHO:i].values
    
    # Achata a janela (transforma matriz em vetor)
    janela_achatada = janela_features.flatten()
    
    # Target correspondente
    target = dados_limpos['Target'].iloc[i]
    
    X_list.append(janela_achatada)
    y_list.append(target)
    indices_list.append(dados_limpos.index[i])

# Converte para arrays numpy
X = np.array(X_list)
y = np.array(y_list)

print(f'‚úì Janelas criadas: {len(X_list)}')
print(f'‚úì Shape do X: {X.shape}')
print(f'‚úì Shape do y: {y.shape}')

# Cria nomes das colunas para o DataFrame final
nomes_colunas = []
for lag in range(JANELA_TAMANHO, 0, -1):
    for feature in features_numericas:
        nomes_colunas.append(f"{feature}_lag_{lag}")

print(f'‚úì Colunas criadas: {len(nomes_colunas)}')
print(f'‚úì Exemplo de colunas: {nomes_colunas[:5]}...')

# Cria DataFrame estruturado
dados_janela_deslizante = pd.DataFrame(
    X, 
    columns=nomes_colunas,
    index=indices_list
)
dados_janela_deslizante['Target'] = y

print(f'\n‚úì Dataset estruturado criado: {X.shape[0]} amostras, {X.shape[1]} features')
print(f'‚úì Cada amostra cont√©m {JANELA_TAMANHO} dias de {len(features_numericas)} features')

# Visualiza as primeiras linhas
print('\n=== PRIMEIRAS LINHAS DO DATASET ESTRUTURADO ===')
dados_janela_deslizante.head()

## 4. Divis√£o Cronol√≥gica dos Dados

### 4.1 Defini√ß√£o da Data de Corte

Separamos os dados em treino (80%) e teste (20%) **sem usar amostragem aleat√≥ria**, respeitando a ordem cronol√≥gica.

In [None]:
# Configura√ß√µes da divis√£o
PROPORCAO_TREINO = 0.8

print(f'=== DIVIS√ÉO CRONOL√ìGICA DOS DADOS ===')
print(f'‚úì Propor√ß√£o treino/teste: {PROPORCAO_TREINO:.0%}/{1-PROPORCAO_TREINO:.0%}')

# Calcula ponto de corte cronol√≥gico
total_amostras = len(dados_janela_deslizante)
ponto_corte = int(total_amostras * PROPORCAO_TREINO)

# Data de corte
data_corte = dados_janela_deslizante.index[ponto_corte]
print(f'‚úì Data de corte: {data_corte}')
print(f'‚úì Ponto de corte: {ponto_corte} (de {total_amostras} amostras)')

# Separa√ß√£o cronol√≥gica
dados_treino = dados_janela_deslizante.iloc[:ponto_corte]
dados_teste = dados_janela_deslizante.iloc[ponto_corte:]

print(f'\n‚úì Per√≠odo de treino: {dados_treino.index.min()} at√© {dados_treino.index.max()}')
print(f'‚úì Per√≠odo de teste: {dados_teste.index.min()} at√© {dados_teste.index.max()}')
print(f'‚úì Amostras de treino: {len(dados_treino)}')
print(f'‚úì Amostras de teste: {len(dados_teste)}')

### 4.2 Separa√ß√£o de Features e Target

In [None]:
# Separa features e target
colunas_features = [col for col in dados_janela_deslizante.columns if col != 'Target']

X_train = dados_treino[colunas_features]
y_train = dados_treino['Target']
X_test = dados_teste[colunas_features]
y_test = dados_teste['Target']

print(f'=== SEPARA√á√ÉO DE FEATURES E TARGET ===')
print(f'‚úì Features: {len(colunas_features)}')
print(f'‚úì X_train shape: {X_train.shape}')
print(f'‚úì y_train shape: {y_train.shape}')
print(f'‚úì X_test shape: {X_test.shape}')
print(f'‚úì y_test shape: {y_test.shape}')

# Verifica distribui√ß√£o de classes
dist_treino = y_train.value_counts(normalize=True)
dist_teste = y_test.value_counts(normalize=True)

print(f'\n‚úì Distribui√ß√£o de classes no treino:')
for classe, prop in dist_treino.items():
    print(f'   - Classe {classe}: {prop:.2%}')

print(f'‚úì Distribui√ß√£o de classes no teste:')
for classe, prop in dist_teste.items():
    print(f'   - Classe {classe}: {prop:.2%}')

# Visualiza√ß√£o gr√°fica da distribui√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 4))

# Distribui√ß√£o no treino
dist_treino.plot(kind='bar', ax=ax1, color=['red', 'green'])
ax1.set_title('Distribui√ß√£o de Classes - Treino')
ax1.set_xlabel('Classe Target')
ax1.set_ylabel('Propor√ß√£o')
ax1.tick_params(axis='x', rotation=0)

# Distribui√ß√£o no teste
dist_teste.plot(kind='bar', ax=ax2, color=['red', 'green'])
ax2.set_title('Distribui√ß√£o de Classes - Teste')
ax2.set_xlabel('Classe Target')
ax2.set_ylabel('Propor√ß√£o')
ax2.tick_params(axis='x', rotation=0)

plt.tight_layout()
plt.show()

## 5. Escalonamento de Atributos

### 5.1 Instancia√ß√£o e Ajuste do StandardScaler

**Importante**: O scaler √© ajustado **APENAS** no conjunto de treino para evitar data leakage.

In [None]:
print(f'=== ESCALONAMENTO DE ATRIBUTOS ===')

# 5.1.1 - Instancia StandardScaler
scaler = StandardScaler()
print('‚úì StandardScaler instanciado')

# 5.1.2 - Ajusta APENAS no conjunto de treino
scaler.fit(X_train)
print('‚úì Scaler ajustado APENAS nos dados de treino')
print('‚úì Isso previne data leakage!')

# Mostra estat√≠sticas do scaler
print(f'\n‚úì Estat√≠sticas do scaler (baseadas no treino):')
print(f'   - N√∫mero de features: {len(scaler.mean_)}')
print(f'   - M√©dia das primeiras 5 features: {scaler.mean_[:5]}')
print(f'   - Desvio padr√£o das primeiras 5 features: {scaler.scale_[:5]}')

### 5.2 Aplica√ß√£o da Transforma√ß√£o

In [None]:
# 5.2.1 - Aplica transforma√ß√£o em ambos os conjuntos
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

print(f'=== APLICA√á√ÉO DA TRANSFORMA√á√ÉO ===')
print('‚úì Transforma√ß√£o aplicada em treino e teste')
print('‚úì Usando os mesmos par√¢metros ajustados no treino')

# Converte de volta para DataFrame mantendo √≠ndices e nomes das colunas
X_train_scaled_df = pd.DataFrame(
    X_train_scaled,
    index=X_train.index,
    columns=X_train.columns
)

X_test_scaled_df = pd.DataFrame(
    X_test_scaled,
    index=X_test.index,
    columns=X_test.columns
)

print(f'\n‚úì DataFrames escalonados criados:')
print(f'   - X_train_scaled shape: {X_train_scaled_df.shape}')
print(f'   - X_test_scaled shape: {X_test_scaled_df.shape}')

# Verifica se a transforma√ß√£o foi aplicada corretamente
media_treino = X_train_scaled_df.mean().mean()
std_treino = X_train_scaled_df.std().mean()

print(f'\n‚úì Verifica√ß√£o da transforma√ß√£o:')
print(f'   - M√©dia do treino escalonado: {media_treino:.6f} (deve ser ~0)')
print(f'   - Desvio padr√£o do treino escalonado: {std_treino:.6f} (deve ser ~1)')

if abs(media_treino) < 1e-10 and abs(std_treino - 1) < 0.1:
    print('‚úÖ Escalonamento aplicado corretamente!')
else:
    print('‚ö†Ô∏è Verificar escalonamento - valores fora do esperado')

## 6. Visualiza√ß√£o dos Dados Preparados

In [None]:
print(f'=== VISUALIZA√á√ÉO DOS DADOS PREPARADOS ===')

# Compara√ß√£o antes e depois do escalonamento
fig, axes = plt.subplots(2, 2, figsize=(15, 10))

# Primeira feature - antes do escalonamento
primeira_feature = X_train.columns[0]
axes[0, 0].hist(X_train[primeira_feature], bins=30, alpha=0.7, color='blue')
axes[0, 0].set_title(f'Antes do Escalonamento\n{primeira_feature}')
axes[0, 0].set_xlabel('Valor')
axes[0, 0].set_ylabel('Frequ√™ncia')

# Primeira feature - depois do escalonamento
axes[0, 1].hist(X_train_scaled_df[primeira_feature], bins=30, alpha=0.7, color='green')
axes[0, 1].set_title(f'Depois do Escalonamento\n{primeira_feature}')
axes[0, 1].set_xlabel('Valor Escalonado')
axes[0, 1].set_ylabel('Frequ√™ncia')

# Distribui√ß√£o geral - antes
sample_features = X_train.iloc[:, :5]  # Primeiras 5 features
axes[1, 0].boxplot([sample_features[col].dropna() for col in sample_features.columns])
axes[1, 0].set_title('Distribui√ß√£o Geral - Antes')
axes[1, 0].set_xlabel('Features (primeiras 5)')
axes[1, 0].set_ylabel('Valor')

# Distribui√ß√£o geral - depois
sample_features_scaled = X_train_scaled_df.iloc[:, :5]  # Primeiras 5 features
axes[1, 1].boxplot([sample_features_scaled[col].dropna() for col in sample_features_scaled.columns])
axes[1, 1].set_title('Distribui√ß√£o Geral - Depois')
axes[1, 1].set_xlabel('Features (primeiras 5)')
axes[1, 1].set_ylabel('Valor Escalonado')

plt.tight_layout()
plt.show()

# Mostra estat√≠sticas descritivas
print('\n=== ESTAT√çSTICAS DESCRITIVAS ===')
print('\nüìä Dados ANTES do escalonamento (primeiras 5 features):')
print(X_train.iloc[:, :5].describe())

print('\nüìä Dados DEPOIS do escalonamento (primeiras 5 features):')
print(X_train_scaled_df.iloc[:, :5].describe())

## 7. Salvamento dos Dados Preparados

In [None]:
print(f'=== SALVAMENTO DOS DADOS PREPARADOS ===')

# Salva os dados preparados
X_train.to_csv('X_train_fase3.csv')
X_test.to_csv('X_test_fase3.csv')
y_train.to_csv('y_train_fase3.csv')
y_test.to_csv('y_test_fase3.csv')

# Salva os dados escalonados
X_train_scaled_df.to_csv('X_train_scaled_fase3.csv')
X_test_scaled_df.to_csv('X_test_scaled_fase3.csv')

# Salva informa√ß√µes da prepara√ß√£o
info_preparacao = {
    'janela_tamanho': JANELA_TAMANHO,
    'proporcao_treino': PROPORCAO_TREINO,
    'data_corte': str(data_corte),
    'total_features': len(colunas_features),
    'amostras_treino': len(X_train),
    'amostras_teste': len(X_test),
    'features_originais': len(features_numericas),
    'periodo_treino': f'{X_train.index.min()} at√© {X_train.index.max()}',
    'periodo_teste': f'{X_test.index.min()} at√© {X_test.index.max()}'
}

with open('info_preparacao_fase3.json', 'w', encoding='utf-8') as f:
    json.dump(info_preparacao, f, indent=2, ensure_ascii=False, default=str)

print('‚úì Arquivos salvos:')
print('   - X_train_fase3.csv')
print('   - X_test_fase3.csv')
print('   - y_train_fase3.csv')
print('   - y_test_fase3.csv')
print('   - X_train_scaled_fase3.csv')
print('   - X_test_scaled_fase3.csv')
print('   - info_preparacao_fase3.json')

print(f'\n‚úÖ Dados preparados e salvos com sucesso!')

## 8. Resumo da Fase 3

### ‚úÖ Objetivos Alcan√ßados:

1. **‚úÖ Estrutura√ß√£o com Janela Deslizante**: 
   - Janela de 5 dias implementada
   - S√©rie temporal transformada em dataset tabular
   - Cada amostra cont√©m hist√≥rico de 5 dias

2. **‚úÖ Divis√£o Cronol√≥gica dos Dados**:
   - Divis√£o 80/20 respeitando ordem temporal
   - Sem amostragem aleat√≥ria
   - Data de corte bem definida
   - Distribui√ß√£o de classes preservada

3. **‚úÖ Escalonamento de Atributos**:
   - StandardScaler ajustado apenas no treino
   - Preven√ß√£o de data leakage
   - Transforma√ß√£o aplicada em treino e teste
   - Verifica√ß√£o de qualidade realizada

4. **‚úÖ Abordagem Funcional**:
   - C√≥digo sem classes, mais direto
   - Adequado ao formato notebook
   - F√°cil compreens√£o e execu√ß√£o
   - Compat√≠vel com NumPy 2.0+

### üìä Dados Finais Preparados:

- **Treino**: {len(X_train)} amostras com {len(colunas_features)} features
- **Teste**: {len(X_test)} amostras com {len(colunas_features)} features
- **Janela**: {JANELA_TAMANHO} dias de hist√≥rico por amostra
- **Features**: Dados escalonados (m√©dia‚âà0, std‚âà1)
- **Target**: Balanceamento preservado entre treino e teste

### üéØ Pr√≥ximos Passos:

1. **Fase 4**: Treinamento e valida√ß√£o de modelos de ML
2. **Modelos a testar**: XGBoost, Random Forest, SVM, etc.
3. **Valida√ß√£o**: Time Series Cross-Validation
4. **M√©tricas**: Precis√£o, Recall, F1-Score, AUC-ROC

### üí° Pontos Importantes:

- **‚úÖ Data Leakage Prevenido**: Scaler ajustado apenas no treino
- **‚úÖ Ordem Temporal Respeitada**: Divis√£o cronol√≥gica sem aleatoriedade
- **‚úÖ Estrutura Adequada**: Janela deslizante para capturar padr√µes temporais
- **‚úÖ Dados Prontos**: Formato ideal para algoritmos de ML

---

**üöÄ Os dados est√£o prontos para a modelagem na Fase 4!**