## üîÑ Ajuste do Diret√≥rio de Trabalho

Antes de carregar ou manipular arquivos, √© importante garantir que estamos no diret√≥rio correto do projeto.  
O c√≥digo abaixo verifica se o notebook est√° sendo executado a partir da pasta `notebooks`. Se for o caso, ele sobe um n√≠vel na hierarquia de diret√≥rios para garantir que o diret√≥rio de trabalho seja a raiz do projeto.

Isso √© √∫til para manter caminhos relativos consistentes ao acessar dados, scripts ou outros recursos do projeto.

üìå **Resumo do que o c√≥digo faz:**
- Verifica se o diret√≥rio atual termina com `notebooks`.
- Se sim, volta uma pasta (para a raiz do projeto).
- Exibe o novo diret√≥rio de trabalho.


In [1]:
import os

# Verifica se o diret√≥rio de trabalho atual termina com 'notebooks'
if os.path.basename(os.getcwd()) == 'notebooks':
    # Se sim, sobe um n√≠vel de diret√≥rio para a pasta raiz do projeto
    os.chdir('..')

# Imprime o diret√≥rio de trabalho para confirmar que a mudan√ßa foi feita
print(f"Diret√≥rio de Trabalho Atual: {os.getcwd()}")

Diret√≥rio de Trabalho Atual: c:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov


## üì¶ Carregamento das Bibliotecas para a Fase 3: Modelagem Preditiva

Nesta etapa, carregamos todas as bibliotecas necess√°rias para realizar o treinamento, valida√ß√£o e interpreta√ß√£o de modelos de Machine Learning aplicados √† previs√£o da tend√™ncia do Ibovespa.

---

### üîß Principais Componentes Importados:

#### üìä Manipula√ß√£o de Dados
- `pandas`, `numpy`: Estrutura√ß√£o e transforma√ß√£o de dados tabulares e num√©ricos.
- `duckdb`: Consulta e carregamento eficiente da base persistida na fase anterior.

#### ‚öôÔ∏è Modelagem e Avalia√ß√£o
- `lightgbm`: Framework de gradient boosting eficiente, usado para modelagem supervisionada.
- `sklearn.model_selection.train_test_split`: Divis√£o da base de forma temporal para simular previs√£o realista.
- `sklearn.metrics`: Avalia√ß√£o com m√©tricas como `accuracy`, `ROC AUC`, `confusion_matrix`.

#### üß† Interpreta√ß√£o do Modelo
- `shap`: Framework de interpretabilidade para entender a import√¢ncia das features no modelo treinado.

#### üìà Visualiza√ß√£o
- `matplotlib`, `seaborn`: Cria√ß√£o de gr√°ficos e an√°lise visual dos resultados.

#### üõ†Ô∏è Configura√ß√£o do Projeto
- `src.config`: Importa o caminho e demais par√¢metros definidos nas fases anteriores.

---

‚úÖ Todas as bibliotecas e depend√™ncias da **Fase 3 - Modelagem** foram carregadas com sucesso e est√£o prontas para uso.


In [2]:
import duckdb
import pandas as pd
import numpy as np
import lightgbm as lgb
import shap
from sklearn.model_selection import train_test_split # Usaremos para a divis√£o temporal
from sklearn.metrics import accuracy_score, classification_report, roc_auc_score, confusion_matrix, ConfusionMatrixDisplay
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.inspection import permutation_importance

# Importa nossas configura√ß√µes de projeto
import src.config as config

# Helpers do Notebook
from IPython.display import display

# Configura√ß√µes de estilo
sns.set_theme(style='whitegrid', palette='viridis')
plt.style.use("fivethirtyeight")
%matplotlib inline

print("‚úÖ Bibliotecas para a Fase 3 carregadas com sucesso!")

  from .autonotebook import tqdm as notebook_tqdm


‚úÖ Bibliotecas para a Fase 3 carregadas com sucesso!


## üß± Carregamento dos Dados para Modelagem

Nesta etapa, buscamos no banco de dados DuckDB a tabela `features_completas`, que cont√©m todas as vari√°veis criadas e tratadas na **Fase 2** do projeto. Esses dados s√£o a base para o treinamento dos modelos de Machine Learning.

---

### üì• Etapas Realizadas:

1. **Conex√£o ao Banco DuckDB**
   - Utilizamos o caminho salvo no m√≥dulo `config`.

2. **Leitura da Tabela `features_completas`**
   - A tabela cont√©m os dados finais ap√≥s a engenharia de atributos, com a vari√°vel `alvo` (target) j√° definida.

3. **Convers√£o da Coluna `data`**
   - A coluna `data` √© convertida para o tipo `datetime` e definida como √≠ndice do DataFrame.
   - Essa configura√ß√£o √© fundamental para **garantir uma divis√£o temporal correta** entre treino e teste, evitando vazamento de dados.

---

‚úÖ Ao final desta c√©lula, temos o DataFrame `df_model` carregado, indexado por data e pronto para os pr√≥ximos passos de prepara√ß√£o e modelagem.


In [3]:
print(f"Carregando dados da tabela 'features_completas' de: {config.DB_PATH}")

try:
    con = duckdb.connect(database=str(config.DB_PATH), read_only=True)
    # MUITO IMPORTANTE: Selecionar da nova tabela com todas as features
    df_model = con.execute("SELECT * FROM features_completas").fetchdf()
    con.close()

    # Configura a coluna 'data' como o √≠ndice para facilitar a divis√£o temporal
    df_model['data'] = pd.to_datetime(df_model['data'])
    df_model.set_index('data', inplace=True)

    print("\n‚úÖ Dados para modelagem carregados com sucesso!")
    print("Estrutura do DataFrame:")
    df_model.info()

except Exception as e:
    print(f"‚ùå Ocorreu um erro ao carregar os dados: {e}")

Carregando dados da tabela 'features_completas' de: C:\Users\Carlo\Desktop\Portfolio\postech-challenge-ibov\data\mercados.duckdb

‚úÖ Dados para modelagem carregados com sucesso!
Estrutura do DataFrame:
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 2975 entries, 2014-02-05 to 2025-07-03
Data columns (total 83 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   close_petroleo_brent             2975 non-null   float64
 1   close_petrobras                  2975 non-null   float64
 2   close_dolar                      2975 non-null   float64
 3   close_ibovespa                   2975 non-null   float64
 4   close_sp500                      2975 non-null   float64
 5   high_petroleo_brent              2975 non-null   float64
 6   high_petrobras                   2975 non-null   float64
 7   high_dolar                       2975 non-null   float64
 8   high_ibovespa                    2975 non-null 

## üéØ Cria√ß√£o da Vari√°vel Alvo Multiclasse

Para refinar o problema e permitir abordagens mais sofisticadas de modelagem, transformamos o alvo bin√°rio em uma **vari√°vel multiclasse com 3 categorias**, baseada na magnitude do retorno do dia seguinte do Ibovespa.

---

### üß™ L√≥gica Utilizada

- **Classe 1 ‚Äì Alta Significativa**: Retorno > +0.5%
- **Classe -1 ‚Äì Baixa Significativa**: Retorno < -0.5%
- **Classe 0 ‚Äì Neutro**: Varia√ß√£o entre -0.5% e +0.5%

Essa abordagem permite que o modelo diferencie entre movimentos significativos de mercado e ru√≠dos de varia√ß√£o di√°ria, tornando a previs√£o mais realista para aplica√ß√µes pr√°ticas como aloca√ß√£o de risco e decis√µes de trading.

---

### üîç Resultado

A distribui√ß√£o das classes no conjunto de dados foi verificada, garantindo equil√≠brio e viabilidade para modelagem multiclasse. A √∫ltima linha (que teria alvo indefinido) foi removida para manter a integridade do dataset.


In [4]:
# O DataFrame 'df_model' foi carregado e tem a data como √≠ndice.

print("--- Refinando o Problema: Cria√ß√£o do Alvo Multiclasse ---")

# 1. Definimos o nosso threshold de signific√¢ncia.
# Um movimento de 0.5% (0.005) √© um bom ponto de partida.
# Podemos ajustar este valor mais tarde se necess√°rio.
threshold = 0.005

# 2. Calculamos o retorno do dia seguinte para o Ibovespa
retorno_futuro = df_model['close_ibovespa'].pct_change().shift(-1)

# 3. Criamos a nova coluna 'alvo_multiclasse' com a l√≥gica de 3 classes
# Usamos np.where aninhado, que funciona como um "SE/SEN√ÉOSE/SEN√ÉO"
df_model['alvo_multiclasse'] = np.where(
    retorno_futuro > threshold,      # Condi√ß√£o 1: Se o retorno futuro for > 0.5%
    1,                               # Ent√£o, a classe √© 1 (Alta Significativa)
    np.where(
        retorno_futuro < -threshold, # Condi√ß√£o 2: Se o retorno futuro for < -0.5%
        -1,                          # Ent√£o, a classe √© -1 (Baixa Significativa)
        0                            # Caso contr√°rio, a classe √© 0 (Neutra)
    )
)

# 4. Removemos o √∫ltimo dia, que ter√° um NaN no alvo
df_model.dropna(subset=['alvo_multiclasse'], inplace=True)

# --- Verifica√ß√£o ---
print("\nDistribui√ß√£o do nosso novo alvo multiclasse (em %):")
# Usamos value_counts para ver quantas amostras temos de cada classe
print(df_model['alvo_multiclasse'].value_counts(normalize=True).sort_index().map('{:.2%}'.format))

print("\nExibindo as √∫ltimas linhas com o novo alvo para valida√ß√£o manual:")
display(df_model[['close_ibovespa', 'alvo_multiclasse']].tail(10))

--- Refinando o Problema: Cria√ß√£o do Alvo Multiclasse ---

Distribui√ß√£o do nosso novo alvo multiclasse (em %):
alvo_multiclasse
-1    29.58%
 0    36.64%
 1    33.78%
Name: proportion, dtype: object

Exibindo as √∫ltimas linhas com o novo alvo para valida√ß√£o manual:


Unnamed: 0_level_0,close_ibovespa,alvo_multiclasse
data,Unnamed: 1_level_1,Unnamed: 2_level_1
2025-06-20,137116.0,0
2025-06-23,136551.0,0
2025-06-24,137165.0,-1
2025-06-25,135767.0,1
2025-06-26,137114.0,0
2025-06-27,136866.0,1
2025-06-30,138855.0,0
2025-07-01,139549.0,0
2025-07-02,139051.0,1
2025-07-03,140928.0,0
