## üîÑ Ajuste do Diret√≥rio de Trabalho

Antes de carregar ou manipular arquivos, √© importante garantir que estamos no diret√≥rio correto do projeto.  
O c√≥digo abaixo verifica se o notebook est√° sendo executado a partir da pasta `notebooks`. Se for o caso, ele sobe um n√≠vel na hierarquia de diret√≥rios para garantir que o diret√≥rio de trabalho seja a raiz do projeto.

Isso √© √∫til para manter caminhos relativos consistentes ao acessar dados, scripts ou outros recursos do projeto.

üìå **Resumo do que o c√≥digo faz:**
- Verifica se o diret√≥rio atual termina com `notebooks`.
- Se sim, volta uma pasta (para a raiz do projeto).
- Exibe o novo diret√≥rio de trabalho.


In [1]:
import os

# Verifica se o diret√≥rio de trabalho atual termina com 'notebooks'
if os.path.basename(os.getcwd()) == 'notebooks':
    # Se sim, sobe um n√≠vel de diret√≥rio para a pasta raiz do projeto
    os.chdir('..')

# Imprime o diret√≥rio de trabalho para confirmar que a mudan√ßa foi feita
print(f"Diret√≥rio de Trabalho Atual: {os.getcwd()}")

Diret√≥rio de Trabalho Atual: c:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov


## üì¶ Carregamento das Bibliotecas para a Fase 3: Modelagem Preditiva

Nesta etapa, carregamos todas as bibliotecas necess√°rias para realizar o treinamento, valida√ß√£o e interpreta√ß√£o de modelos de Machine Learning aplicados √† previs√£o da tend√™ncia do Ibovespa.

---

### üîß Principais Componentes Importados:

#### üìä Manipula√ß√£o de Dados
- `pandas`, `numpy`: Estrutura√ß√£o e transforma√ß√£o de dados tabulares e num√©ricos.
- `duckdb`: Consulta e carregamento eficiente da base persistida na fase anterior.

#### ‚öôÔ∏è Modelagem e Avalia√ß√£o
- `lightgbm`: Framework de gradient boosting eficiente, usado para modelagem supervisionada.
- `sklearn.model_selection.train_test_split`: Divis√£o da base de forma temporal para simular previs√£o realista.
- `sklearn.metrics`: Avalia√ß√£o com m√©tricas como `accuracy`, `ROC AUC`, `confusion_matrix`.

#### üß† Interpreta√ß√£o do Modelo
- `shap`: Framework de interpretabilidade para entender a import√¢ncia das features no modelo treinado.

#### üìà Visualiza√ß√£o
- `matplotlib`, `seaborn`: Cria√ß√£o de gr√°ficos e an√°lise visual dos resultados.

#### üõ†Ô∏è Configura√ß√£o do Projeto
- `src.config`: Importa o caminho e demais par√¢metros definidos nas fases anteriores.

---

‚úÖ Todas as bibliotecas e depend√™ncias da **Fase 3 - Modelagem** foram carregadas com sucesso e est√£o prontas para uso.


In [8]:
import duckdb
import pandas as pd
import numpy as np
import lightgbm as lgb
import shap
import optuna
from sklearn.model_selection import train_test_split, TimeSeriesSplit # Usaremos para a divis√£o temporal
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score, confusion_matrix, ConfusionMatrixDisplay
from sklearn.inspection import permutation_importance
import matplotlib.pyplot as plt
import seaborn as sns

# Importa nossas configura√ß√µes de projeto
import src.config as config

# Helpers do Notebook
from IPython.display import display

# Configura√ß√µes de estilo
sns.set_theme(style='whitegrid', palette='viridis')
plt.style.use("fivethirtyeight")
%matplotlib inline

print("‚úÖ Bibliotecas para a Fase 3 carregadas com sucesso!")

‚úÖ Bibliotecas para a Fase 3 carregadas com sucesso!


## üß± Carregamento dos Dados para Modelagem

Nesta etapa, buscamos no banco de dados DuckDB a tabela `features_completas`, que cont√©m todas as vari√°veis criadas e tratadas na **Fase 2** do projeto. Esses dados s√£o a base para o treinamento dos modelos de Machine Learning.

---

### üì• Etapas Realizadas:

1. **Conex√£o ao Banco DuckDB**
   - Utilizamos o caminho salvo no m√≥dulo `config`.

2. **Leitura da Tabela `features_completas`**
   - A tabela cont√©m os dados finais ap√≥s a engenharia de atributos, com a vari√°vel `alvo` (target) j√° definida.

3. **Convers√£o da Coluna `data`**
   - A coluna `data` √© convertida para o tipo `datetime` e definida como √≠ndice do DataFrame.
   - Essa configura√ß√£o √© fundamental para **garantir uma divis√£o temporal correta** entre treino e teste, evitando vazamento de dados.

---

‚úÖ Ao final desta c√©lula, temos o DataFrame `df_model` carregado, indexado por data e pronto para os pr√≥ximos passos de prepara√ß√£o e modelagem.


In [3]:
print(f"Carregando dados da tabela 'features_completas' de: {config.DB_PATH}")

try:
    con = duckdb.connect(database=str(config.DB_PATH), read_only=True)
    # MUITO IMPORTANTE: Selecionar da nova tabela com todas as features
    df_model = con.execute("SELECT * FROM features_completas").fetchdf()
    con.close()

    # Configura a coluna 'data' como o √≠ndice para facilitar a divis√£o temporal
    df_model['data'] = pd.to_datetime(df_model['data'])
    df_model.set_index('data', inplace=True)

    print("\n‚úÖ Dados para modelagem carregados com sucesso!")
    print("Estrutura do DataFrame:")
    df_model.info()

except Exception as e:
    print(f"‚ùå Ocorreu um erro ao carregar os dados: {e}")

Carregando dados da tabela 'features_completas' de: C:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov\data\mercados.duckdb

‚úÖ Dados para modelagem carregados com sucesso!
Estrutura do DataFrame:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2975 entries, 2014-02-05 to 2025-07-03
Data columns (total 83 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   close_petroleo_brent             2975 non-null   float64
 1   close_petrobras                  2975 non-null   float64
 2   close_dolar                      2975 non-null   float64
 3   close_ibovespa                   2975 non-null   float64
 4   close_sp500                      2975 non-null   float64
 5   high_petroleo_brent              2975 non-null   float64
 6   high_petrobras                   2975 non-null   float64
 7   high_dolar                       2975 non-null   float64
 8   high_ibovespa                    2975 non-null 

## üéØ Cria√ß√£o da Vari√°vel Alvo Multiclasse

Para refinar o problema e permitir abordagens mais sofisticadas de modelagem, transformamos o alvo bin√°rio em uma **vari√°vel multiclasse com 3 categorias**, baseada na magnitude do retorno do dia seguinte do Ibovespa.

---

### üß™ L√≥gica Utilizada

- **Classe 1 ‚Äì Alta Significativa**: Retorno > +0.5%
- **Classe -1 ‚Äì Baixa Significativa**: Retorno < -0.5%
- **Classe 0 ‚Äì Neutro**: Varia√ß√£o entre -0.5% e +0.5%

Essa abordagem permite que o modelo diferencie entre movimentos significativos de mercado e ru√≠dos de varia√ß√£o di√°ria, tornando a previs√£o mais realista para aplica√ß√µes pr√°ticas como aloca√ß√£o de risco e decis√µes de trading.

---

### üîç Resultado

A distribui√ß√£o das classes no conjunto de dados foi verificada, garantindo equil√≠brio e viabilidade para modelagem multiclasse. A √∫ltima linha (que teria alvo indefinido) foi removida para manter a integridade do dataset.


In [4]:
# O DataFrame 'df_model' foi carregado e tem a data como √≠ndice.

print("--- Refinando o Problema: Cria√ß√£o do Alvo Multiclasse ---")

# 1. Definimos o nosso threshold de signific√¢ncia.
# Um movimento de 0.5% (0.005) √© um bom ponto de partida.
# Podemos ajustar este valor mais tarde se necess√°rio.
threshold = 0.005

# 2. Calculamos o retorno do dia seguinte para o Ibovespa
retorno_futuro = df_model['close_ibovespa'].pct_change().shift(-1)

# 3. Criamos a nova coluna 'alvo_multiclasse' com a l√≥gica de 3 classes
# Usamos np.where aninhado, que funciona como um "SE/SEN√ÉOSE/SEN√ÉO"
df_model['alvo_multiclasse'] = np.where(
    retorno_futuro > threshold,      # Condi√ß√£o 1: Se o retorno futuro for > 0.5%
    1,                               # Ent√£o, a classe √© 1 (Alta Significativa)
    np.where(
        retorno_futuro < -threshold, # Condi√ß√£o 2: Se o retorno futuro for < -0.5%
        -1,                          # Ent√£o, a classe √© -1 (Baixa Significativa)
        0                            # Caso contr√°rio, a classe √© 0 (Neutra)
    )
)

# 4. Removemos o √∫ltimo dia, que ter√° um NaN no alvo
df_model.dropna(subset=['alvo_multiclasse'], inplace=True)

# --- Verifica√ß√£o ---
print("\nDistribui√ß√£o do nosso novo alvo multiclasse (em %):")
# Usamos value_counts para ver quantas amostras temos de cada classe
print(df_model['alvo_multiclasse'].value_counts(normalize=True).sort_index().map('{:.2%}'.format))

print("\nExibindo as √∫ltimas linhas com o novo alvo para valida√ß√£o manual:")
display(df_model[['close_ibovespa', 'alvo_multiclasse']].tail(10))

--- Refinando o Problema: Cria√ß√£o do Alvo Multiclasse ---

Distribui√ß√£o do nosso novo alvo multiclasse (em %):
alvo_multiclasse
-1    29.58%
 0    36.64%
 1    33.78%
Name: proportion, dtype: object

Exibindo as √∫ltimas linhas com o novo alvo para valida√ß√£o manual:


Unnamed: 0_level_0,close_ibovespa,alvo_multiclasse
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2025-06-20,137116.0,0
2025-06-23,136551.0,0
2025-06-24,137165.0,-1
2025-06-25,135767.0,1
2025-06-26,137114.0,0
2025-06-27,136866.0,1
2025-06-30,138855.0,0
2025-07-01,139549.0,0
2025-07-02,139051.0,1
2025-07-03,140928.0,0


## üì¶ Prepara√ß√£o dos Dados para o Modelo Multiclasse

Agora que j√° temos nossa vari√°vel alvo multiclasse (`alvo_multiclasse`), preparamos os dados para a modelagem com tr√™s etapas fundamentais:

---

### üîÅ 1. Separa√ß√£o entre Features (X) e Alvo (y)

- **X**: Todas as colunas do `df_model`, exceto `alvo_multiclasse` (nosso novo alvo) e `alvo` (alvo antigo bin√°rio, se ainda existir).
- **y**: Apenas a coluna `alvo_multiclasse`.

---

### ‚è≥ 2. Divis√£o Temporal: Treino vs. Teste

- Utilizamos **os √∫ltimos 6 meses como conjunto de teste**, mantendo a ordem temporal dos dados (fundamental para s√©ries temporais financeiras).
- O restante do hist√≥rico √© usado para treino do modelo.

---

### üìä 3. Verifica√ß√£o da Distribui√ß√£o das Classes

- Avaliamos a propor√ß√£o de cada classe (-1, 0, 1) tanto no treino quanto no teste.
- Isso nos ajuda a identificar poss√≠veis desequil√≠brios entre os conjuntos que possam afetar a performance do modelo.

---

Com isso, garantimos que os dados est√£o corretamente estruturados para prosseguir com a modelagem multiclasse do Ibovespa.


In [5]:
# O 'df_model' j√° cont√©m a coluna 'alvo_multiclasse' que criamos.

print("--- Preparando Dados Finais para Modelo Multiclasse ---")

# 1. Separa√ß√£o de Features (X) e Alvo (y)
# X s√£o todas as colunas, exceto nosso novo alvo. 
# Usamos errors='ignore' para n√£o dar erro se a coluna 'alvo' antiga j√° foi removida.
X = df_model.drop(columns=['alvo_multiclasse', 'alvo'], errors='ignore') 

# y √© apenas a nossa nova coluna alvo multiclasse.
y = df_model['alvo_multiclasse']

print("\nSepara√ß√£o X/y conclu√≠da.")
print("Shape de X (features):", X.shape)
print("Shape de y (alvo):", y.shape)

# 2. Divis√£o Temporal em Treino e Teste
# Mantemos a mesma l√≥gica: √∫ltimos 6 meses para teste.
ponto_de_corte = X.index.max() - pd.DateOffset(months=6)

print(f"\nData de corte para o conjunto de teste: {ponto_de_corte.date()}")

X_treino = X[X.index < ponto_de_corte]
X_teste = X[X.index >= ponto_de_corte]

y_treino = y.loc[X_treino.index]
y_teste = y.loc[X_teste.index]

print("\n--- Tamanho dos Conjuntos ---")
print(f"Conjunto de Treino: {len(X_treino)} amostras")
print(f"Conjunto de Teste: {len(X_teste)} amostras")

# 3. Verifica√ß√£o da distribui√ß√£o do alvo nos dois conjuntos
print("\nDistribui√ß√£o do alvo no conjunto de Treino:")
print(y_treino.value_counts(normalize=True).sort_index().map('{:.2%}'.format))

print("\nDistribui√ß√£o do alvo no conjunto de Teste:")
print(y_teste.value_counts(normalize=True).sort_index().map('{:.2%}'.format))

--- Preparando Dados Finais para Modelo Multiclasse ---

Separa√ß√£o X/y conclu√≠da.
Shape de X (features): (2975, 82)
Shape de y (alvo): (2975,)

Data de corte para o conjunto de teste: 2025-01-03

--- Tamanho dos Conjuntos ---
Conjunto de Treino: 2846 amostras
Conjunto de Teste: 129 amostras

Distribui√ß√£o do alvo no conjunto de Treino:
alvo_multiclasse
-1    29.94%
 0    36.05%
 1    34.01%
Name: proportion, dtype: object

Distribui√ß√£o do alvo no conjunto de Teste:
alvo_multiclasse
-1    21.71%
 0    49.61%
 1    28.68%
Name: proportion, dtype: object


## üîß Otimiza√ß√£o de Hiperpar√¢metros com Optuna (Modelo Multiclasse)

Nesta etapa, usamos a biblioteca **Optuna** para encontrar a melhor combina√ß√£o de hiperpar√¢metros para o modelo **LightGBM Multiclasse**, maximizando a m√©trica **AUC (One-vs-Rest)** em uma valida√ß√£o cruzada temporal.

---

### üß™ Estrat√©gia Utilizada

- **Valida√ß√£o Cruzada Temporal (TimeSeriesSplit)**: Utilizamos 5 dobras (splits) respeitando a ordem temporal dos dados, fundamental em s√©ries temporais.
- **Fun√ß√£o Objetivo**: Para cada combina√ß√£o de par√¢metros, treinamos o modelo em m√∫ltiplos folds e retornamos a m√©dia do AUC.
- **Espa√ßo de Busca**: Foram testados hiperpar√¢metros como n√∫mero de √°rvores (`n_estimators`), taxa de aprendizado (`learning_rate`), profundidade m√°xima (`max_depth`), n√∫mero de folhas (`num_leaves`) e regulariza√ß√µes L1/L2 (`reg_alpha`, `reg_lambda`).
- **Modelo**: `LightGBMClassifier` com `objective='multiclass'` e `metric='multi_logloss'`.

---

### üìà Resultados

- **Total de Combina√ß√µes Avaliadas**: 100
- **Melhor Score (AUC M√©dio)**: Apresentado ao final da execu√ß√£o
- **Melhores Hiperpar√¢metros**: S√£o armazenados em `best_params`

---

Com essa otimiza√ß√£o, aumentamos significativamente as chances do nosso modelo multiclasse alcan√ßar maior performance e generaliza√ß√£o no conjunto de teste real.


In [None]:
# Usaremos os dados X_treino, y_treino que j√° separamos.

print("--- Iniciando Otimiza√ß√£o de Hiperpar√¢metros com Optuna ---")

# 1. Definir a estrat√©gia de Valida√ß√£o Cruzada para S√©ries Temporais
# Usaremos 5 "cortes" (splits) nos nossos dados de treino.
tscv = TimeSeriesSplit(n_splits=5)

# 2. Definir a fun√ß√£o "objetivo" que o Optuna ir√° maximizar
def objective(trial):
    # Definimos o espa√ßo de busca para os hiperpar√¢metros do LightGBM
    params = {
        'objective': 'multiclass',
        'metric': 'multi_logloss',
        'num_class': 3, # Temos 3 classes: 1 (Alta), -1 (Baixa), 0 (Neutro)
        'n_estimators': trial.suggest_int('n_estimators', 200, 1000),
        'learning_rate': trial.suggest_float('learning_rate', 0.01, 0.3),
        'num_leaves': trial.suggest_int('num_leaves', 20, 300),
        'max_depth': trial.suggest_int('max_depth', 3, 12),
        'reg_alpha': trial.suggest_float('reg_alpha', 0.0, 1.0), # L1 regularization
        'reg_lambda': trial.suggest_float('reg_lambda', 0.0, 1.0), # L2 regularization
        'random_state': 42,
        'verbosity': -1,
        'n_jobs': -1 # Usa todos os cores da CPU
    }
    
    # Lista para guardar os scores de cada dobra da valida√ß√£o cruzada
    scores = []
    
    # Loop de Valida√ß√£o Cruzada
    for train_index, val_index in tscv.split(X_treino):
        X_train_fold, X_val_fold = X_treino.iloc[train_index], X_treino.iloc[val_index]
        y_train_fold, y_val_fold = y_treino.iloc[train_index], y_treino.iloc[val_index]
        
        # Treina o modelo
        model = lgb.LGBMClassifier(**params)
        model.fit(X_train_fold, y_train_fold)
        
        # Faz previs√µes de probabilidade e calcula o score AUC
        y_proba = model.predict_proba(X_val_fold)
        score = roc_auc_score(y_val_fold, y_proba, multi_class='ovr')
        scores.append(score)
        
    # Retorna a m√©dia dos scores. O Optuna tentar√° maximizar este valor.
    return np.mean(scores)

# 3. Criar e executar o estudo
# 'direction="maximize"' porque queremos o maior AUC poss√≠vel
study = optuna.create_study(direction="maximize")
# Vamos testar 100 combina√ß√µes diferentes de par√¢metros
study.optimize(objective, n_trials=100)

# 4. Exibir os resultados
print("\n--- Otimiza√ß√£o Conclu√≠da ---")
print("N√∫mero de trials conclu√≠dos: ", len(study.trials))
print("Melhor score AUC na valida√ß√£o cruzada: ", study.best_value)

print("\nMelhores hiperpar√¢metros encontrados:")
best_params = study.best_params
print(best_params)

[I 2025-07-06 19:10:20,592] A new study created in memory with name: no-name-30a03f7b-8f4f-4cc9-9cbc-a91e1376e320


--- Iniciando Otimiza√ß√£o de Hiperpar√¢metros com Optuna ---


[I 2025-07-06 19:10:29,424] Trial 0 finished with value: 0.5212060135271501 and parameters: {'n_estimators': 202, 'learning_rate': 0.29357502678256947, 'num_leaves': 250, 'max_depth': 8, 'reg_alpha': 0.4180995409037658, 'reg_lambda': 0.5432989244088593}. Best is trial 0 with value: 0.5212060135271501.
[I 2025-07-06 19:10:44,702] Trial 1 finished with value: 0.5181096097073736 and parameters: {'n_estimators': 882, 'learning_rate': 0.2805789885508433, 'num_leaves': 255, 'max_depth': 8, 'reg_alpha': 0.2351600152544845, 'reg_lambda': 0.5581450814876018}. Best is trial 0 with value: 0.5212060135271501.
[I 2025-07-06 19:11:14,658] Trial 2 finished with value: 0.5215192465048546 and parameters: {'n_estimators': 383, 'learning_rate': 0.06926025441511806, 'num_leaves': 129, 'max_depth': 10, 'reg_alpha': 0.8937184587552391, 'reg_lambda': 0.3391058954527302}. Best is trial 2 with value: 0.5215192465048546.
[I 2025-07-06 19:11:31,947] Trial 3 finished with value: 0.5180419418747786 and parameters:

## Fase Final: Treinamento do Modelo Multiclasse Otimizado com LightGBM

Nesta etapa, utilizamos os melhores hiperpar√¢metros encontrados com o Optuna para treinar um modelo final de classifica√ß√£o multiclasse, com o objetivo de prever movimentos significativos do Ibovespa.

### üß† Modelo
- Algoritmo: LightGBM
- Tipo de problema: Classifica√ß√£o Multiclasse
- Classes: 
  - `1`: Alta Significativa (> +0.5%)
  - `0`: Neutra (entre -0.5% e +0.5%)
  - `-1`: Baixa Significativa (< -0.5%)
- Hiperpar√¢metros otimizados com valida√ß√£o cruzada em s√©ries temporais.

### üìà Resultados Finais
- M√©tricas calculadas no conjunto de teste (√∫ltimos 6 meses).
- **Relat√≥rio de Classifica√ß√£o** mostra o desempenho por classe.
- **AUC ROC Multiclasse (One-vs-Rest)** quantifica a separa√ß√£o geral entre as classes.
- **Matriz de Confus√£o** permite uma an√°lise clara dos acertos e erros do modelo.

### üìå Conclus√£o
O modelo final foi treinado com os dados mais recentes e calibrado para reconhecer nuances sutis nos movimentos do Ibovespa, com base em retornos percentuais futuros. A avalia√ß√£o com m√∫ltiplas m√©tricas garante uma vis√£o completa da sua performance.


In [None]:
# A vari√°vel 'best_params' cont√©m os melhores hiperpar√¢metros encontrados pelo Optuna.
# Os dataframes X_treino, y_treino, X_teste, y_teste j√° est√£o definidos.

print("--- Treinando e Avaliando o Modelo Final Otimizado ---")

# 1. Instanciar o modelo final com os melhores par√¢metros
# √â uma boa pr√°tica adicionar os par√¢metros fixos ao dicion√°rio dos melhores par√¢metros.
final_params = best_params.copy()
final_params['objective'] = 'multiclass'
final_params['metric'] = 'multi_logloss'
final_params['num_class'] = 3
final_params['random_state'] = 42
final_params['verbosity'] = -1

modelo_final = lgb.LGBMClassifier(**final_params)

# 2. Treinar o modelo no conjunto de treino COMPLETO
print("\nTreinando o modelo final no conjunto de treino completo...")
modelo_final.fit(X_treino, y_treino)
print("Treinamento conclu√≠do.")

# 3. Fazer previs√µes no conjunto de TESTE
y_pred_final = modelo_final.predict(X_teste)
y_proba_final = modelo_final.predict_proba(X_teste)

# 4. Avaliar a performance final
print("\n--- Resultados Finais no Conjunto de Teste ---")
print(classification_report(y_teste, y_pred_final, labels=[-1, 0, 1], target_names=['Baixa Sig.', 'Neutra', 'Alta Sig.']))

# Para o AUC em multiclasse, usamos o modo 'one-vs-rest' (ovr)
final_auc = roc_auc_score(y_teste, y_proba_final, multi_class='ovr', labels=[-1, 0, 1])
print(f"AUC ROC Final (One-vs-Rest): {final_auc:.4f}")

# 5. Visualizar a Matriz de Confus√£o
print("\nMatriz de Confus√£o Final:")
cm = confusion_matrix(y_teste, y_pred_final, labels=[-1, 0, 1])
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=['Baixa Sig.', 'Neutra', 'Alta Sig.'])

fig, ax = plt.subplots(figsize=(8, 6))
disp.plot(ax=ax, cmap=plt.cm.Blues)
plt.title("Matriz de Confus√£o do Modelo Final")
plt.show()