In [35]:
# carregamento de bibliotecas
import os
import sys
from xgboost import XGBRegressor
from catboost import CatBoostRegressor
from sklearn.ensemble import RandomForestRegressor
import pandas as pd
# Adiciona a pasta raiz do projeto (onde está a pasta src) ao sys.path
sys.path.append(os.path.abspath(os.path.join("..")))
from src.config.logging_config import setup_logging
from src.model.train import *


In [36]:
# configuração do logging
setup_logging()

In [37]:
# carregamento do dataset processado
tbl_cotacao_ibovespa = pd.read_csv('../data/processed/tbl_cotacao_ibovespa_processed.csv',index_col=0, parse_dates=True)
tbl_cotacao_ibovespa.index = tbl_cotacao_ibovespa.index.tz_localize(None)


# Seleção de features

In [38]:
#filtro = ~tbl_cotacao_ibovespa.columns.str.startswith(('retorno',))
tbl_cotacao_ibovespa = tbl_cotacao_ibovespa.drop(columns=['fechamento', 'month','dayofweek','abertura','feriado','tipo'])
#tbl_cotacao_ibovespa = tbl_cotacao_ibovespa[tbl_cotacao_ibovespa.columns[filtro]]

In [39]:
tbl_cotacao_ibovespa.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 12117 entries, 2024-12-16 to 2025-07-24
Data columns (total 73 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   acao                             12117 non-null  object 
 1   maximo                           12117 non-null  float64
 2   minimo                           12117 non-null  float64
 3   volume                           12117 non-null  int64  
 4   setor                            12117 non-null  object 
 5   industria                        12117 non-null  object 
 6   day_sin                          12117 non-null  float64
 7   day_cos                          12117 non-null  float64
 8   month_sin                        12117 non-null  float64
 9   month_cos                        12117 non-null  float64
 10  close_diff                       12117 non-null  float64
 11  lag_1_close_diff                 12117 non-null  float64
 12  l

In [40]:
# visualização dos dados selecionados
tbl_cotacao_ibovespa.head()

Unnamed: 0_level_0,acao,maximo,minimo,volume,setor,industria,day_sin,day_cos,month_sin,month_cos,...,rolling_mean_60_Volume,volatility_60_Volume,retorno_acumulado_60_Volume,rolling_mean_90_Volume,volatility_90_Volume,retorno_acumulado_90_Volume,rsi,macd,macd_signal,retorno
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2024-12-16,ABEV3,12.488062,11.948339,32095500,Consumo não-cíclico,Bebidas,0.0,1.0,-2.449294e-16,1.0,...,33298250.0,15110810.0,1997895000.0,30773290.0,13814570.0,2769596000.0,53.080443,0.012518,0.016665,-0.006633
2024-12-17,ABEV3,12.274033,12.087922,39564500,Consumo não-cíclico,Bebidas,0.951057,0.309017,-2.449294e-16,1.0,...,33087950.0,15036880.0,1985277000.0,30816870.0,13812460.0,2773519000.0,56.951273,0.010027,0.015338,0.007229
2024-12-18,ABEV3,12.171673,11.86459,40864200,Consumo não-cíclico,Bebidas,0.587785,-0.809017,-2.449294e-16,1.0,...,33057160.0,15021420.0,1983429000.0,31044010.0,13786040.0,2793961000.0,54.425876,0.006025,0.013475,-0.009412
2024-12-19,ABEV3,12.013478,11.762228,38104000,Consumo não-cíclico,Bebidas,-0.587785,-0.809017,-2.449294e-16,1.0,...,33404740.0,14955530.0,2004284000.0,31303600.0,13748080.0,2817324000.0,50.657092,0.002936,0.011367,0.000565
2024-12-20,ABEV3,12.076701,11.791965,86074600,Consumo não-cíclico,Bebidas,-0.951057,0.309017,-2.449294e-16,1.0,...,33663160.0,14899500.0,2019790000.0,31392730.0,13766060.0,2825346000.0,45.052726,0.001194,0.009333,0.003487


# Separação dos dados

In [41]:
# separação dos dados em treino e teste
X_treino, X_teste,y_treino,y_teste = split_data_by_date(df=tbl_cotacao_ibovespa,cutoff_date='2025-06-24',
                                                        target='close_diff')

Dados de treino: 2024-12-16 a 2025-06-23
Dados de teste: 2025-06-24 a 2025-07-24


# Rodada de Seleção de Modelo: Sarimax

In [42]:
# Junta os dataframes de treino
dataset_treino = pd.concat([X_treino, y_treino], axis=1)

# Remove ação problemática (poucos dados após pré-processamento)
dataset_treino = dataset_treino[dataset_treino['acao'] != 'TIMS3']

# Remove colunas não relevantes
dataset_treino.drop(columns=['setor', 'industria'], axis=1, inplace=True)

In [None]:
# treino do modelo do modelo SARIMAX
coluna_target = 'close_diff'

feat_exog = [
    'day_sin','day_cos','month_sin','month_cos',
    'volume','rsi','lag_1_Volume','lag_3_Volume','lag_5_Volume','lag_7_Volume','lag_15_Volume',
    'lag_30_Volume','lag_60_Volume','lag_90_Volume','rolling_mean_3_Volume','volatility_3_Volume',
    'rolling_mean_5_Volume','volatility_5_Volume','rolling_mean_7_Volume','volatility_7_Volume',
    'rolling_mean_15_Volume','volatility_15_Volume','rolling_mean_30_Volume','volatility_30_Volume',
    'rolling_mean_60_Volume','volatility_60_Volume','rolling_mean_90_Volume','volatility_90_Volume','macd','macd_signal'
]

for acao in X_treino.

2025-08-08 18:36:47,859 | INFO | src.model.train | Usando parâmetros ARIMA: (1, 0, 1). Sazonalidade removida.
2025-08-08 18:36:47,862 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: ABEV3
2025-08-08 18:36:48,008 | INFO | src.model.train | Modelo SARIMAX para ABEV3 treinado com sucesso.
2025-08-08 18:36:48,010 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: PETR4


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:48,152 | INFO | src.model.train | Modelo SARIMAX para PETR4 treinado com sucesso.
2025-08-08 18:36:48,153 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: UGPA3
2025-08-08 18:36:48,290 | INFO | src.model.train | Modelo SARIMAX para UGPA3 treinado com sucesso.
2025-08-08 18:36:48,291 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: GOAU4


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:48,430 | INFO | src.model.train | Modelo SARIMAX para GOAU4 treinado com sucesso.
2025-08-08 18:36:48,431 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: COGN3
2025-08-08 18:36:48,573 | INFO | src.model.train | Modelo SARIMAX para COGN3 treinado com sucesso.
2025-08-08 18:36:48,575 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: CSNA3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:48,709 | INFO | src.model.train | Modelo SARIMAX para CSNA3 treinado com sucesso.
2025-08-08 18:36:48,710 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: SLCE3
2025-08-08 18:36:48,844 | INFO | src.model.train | Modelo SARIMAX para SLCE3 treinado com sucesso.
2025-08-08 18:36:48,845 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: STBP3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:48,981 | INFO | src.model.train | Modelo SARIMAX para STBP3 treinado com sucesso.
2025-08-08 18:36:48,982 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: ITSA4
2025-08-08 18:36:49,115 | INFO | src.model.train | Modelo SARIMAX para ITSA4 treinado com sucesso.
2025-08-08 18:36:49,116 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: BRFS3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:49,251 | INFO | src.model.train | Modelo SARIMAX para BRFS3 treinado com sucesso.
2025-08-08 18:36:49,252 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: IRBR3
2025-08-08 18:36:49,387 | INFO | src.model.train | Modelo SARIMAX para IRBR3 treinado com sucesso.
2025-08-08 18:36:49,388 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: VALE3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:49,525 | INFO | src.model.train | Modelo SARIMAX para VALE3 treinado com sucesso.
2025-08-08 18:36:49,526 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: MULT3
2025-08-08 18:36:49,656 | INFO | src.model.train | Modelo SARIMAX para MULT3 treinado com sucesso.
2025-08-08 18:36:49,657 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: PSSA3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:49,812 | INFO | src.model.train | Modelo SARIMAX para PSSA3 treinado com sucesso.
2025-08-08 18:36:49,813 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: ALOS3
2025-08-08 18:36:49,952 | INFO | src.model.train | Modelo SARIMAX para ALOS3 treinado com sucesso.
2025-08-08 18:36:49,952 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: BBDC4


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:50,091 | INFO | src.model.train | Modelo SARIMAX para BBDC4 treinado com sucesso.
2025-08-08 18:36:50,092 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: VIVA3
2025-08-08 18:36:50,228 | INFO | src.model.train | Modelo SARIMAX para VIVA3 treinado com sucesso.
2025-08-08 18:36:50,229 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: ELET3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:50,372 | INFO | src.model.train | Modelo SARIMAX para ELET3 treinado com sucesso.
2025-08-08 18:36:50,373 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: SMTO3
2025-08-08 18:36:50,567 | INFO | src.model.train | Modelo SARIMAX para SMTO3 treinado com sucesso.


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:50,567 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: TAEE11
2025-08-08 18:36:50,706 | INFO | src.model.train | Modelo SARIMAX para TAEE11 treinado com sucesso.
2025-08-08 18:36:50,707 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: DIRR3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:50,845 | INFO | src.model.train | Modelo SARIMAX para DIRR3 treinado com sucesso.
2025-08-08 18:36:50,846 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: B3SA3
2025-08-08 18:36:50,990 | INFO | src.model.train | Modelo SARIMAX para B3SA3 treinado com sucesso.
2025-08-08 18:36:50,991 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: VAMO3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:51,150 | INFO | src.model.train | Modelo SARIMAX para VAMO3 treinado com sucesso.
2025-08-08 18:36:51,151 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: MGLU3
2025-08-08 18:36:51,296 | INFO | src.model.train | Modelo SARIMAX para MGLU3 treinado com sucesso.
2025-08-08 18:36:51,297 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: GGBR4


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:51,441 | INFO | src.model.train | Modelo SARIMAX para GGBR4 treinado com sucesso.
2025-08-08 18:36:51,442 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: POMO4
2025-08-08 18:36:51,583 | INFO | src.model.train | Modelo SARIMAX para POMO4 treinado com sucesso.
2025-08-08 18:36:51,583 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: PETZ3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:51,725 | INFO | src.model.train | Modelo SARIMAX para PETZ3 treinado com sucesso.
2025-08-08 18:36:51,726 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: SANB11
2025-08-08 18:36:51,868 | INFO | src.model.train | Modelo SARIMAX para SANB11 treinado com sucesso.
2025-08-08 18:36:51,868 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: CSAN3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:52,018 | INFO | src.model.train | Modelo SARIMAX para CSAN3 treinado com sucesso.
2025-08-08 18:36:52,019 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: CPFE3
2025-08-08 18:36:52,160 | INFO | src.model.train | Modelo SARIMAX para CPFE3 treinado com sucesso.
2025-08-08 18:36:52,162 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: AZZA3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:52,307 | INFO | src.model.train | Modelo SARIMAX para AZZA3 treinado com sucesso.
2025-08-08 18:36:52,307 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: LREN3
2025-08-08 18:36:52,451 | INFO | src.model.train | Modelo SARIMAX para LREN3 treinado com sucesso.
2025-08-08 18:36:52,452 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: WEGE3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:52,589 | INFO | src.model.train | Modelo SARIMAX para WEGE3 treinado com sucesso.
2025-08-08 18:36:52,591 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: IGTI11
2025-08-08 18:36:52,731 | INFO | src.model.train | Modelo SARIMAX para IGTI11 treinado com sucesso.
2025-08-08 18:36:52,731 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: CXSE3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:52,884 | INFO | src.model.train | Modelo SARIMAX para CXSE3 treinado com sucesso.
2025-08-08 18:36:52,885 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: BEEF3
2025-08-08 18:36:53,031 | INFO | src.model.train | Modelo SARIMAX para BEEF3 treinado com sucesso.
2025-08-08 18:36:53,032 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: USIM5


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:53,171 | INFO | src.model.train | Modelo SARIMAX para USIM5 treinado com sucesso.
2025-08-08 18:36:53,172 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: PETR3
2025-08-08 18:36:53,310 | INFO | src.model.train | Modelo SARIMAX para PETR3 treinado com sucesso.
2025-08-08 18:36:53,312 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: PRIO3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:53,456 | INFO | src.model.train | Modelo SARIMAX para PRIO3 treinado com sucesso.
2025-08-08 18:36:53,457 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: HYPE3
2025-08-08 18:36:53,595 | INFO | src.model.train | Modelo SARIMAX para HYPE3 treinado com sucesso.
2025-08-08 18:36:53,595 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: CMIG4


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:53,734 | INFO | src.model.train | Modelo SARIMAX para CMIG4 treinado com sucesso.
2025-08-08 18:36:53,735 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: VBBR3
2025-08-08 18:36:53,870 | INFO | src.model.train | Modelo SARIMAX para VBBR3 treinado com sucesso.
2025-08-08 18:36:53,870 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: SMFT3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:54,014 | INFO | src.model.train | Modelo SARIMAX para SMFT3 treinado com sucesso.
2025-08-08 18:36:54,014 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: EMBR3
2025-08-08 18:36:54,151 | INFO | src.model.train | Modelo SARIMAX para EMBR3 treinado com sucesso.
2025-08-08 18:36:54,152 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: ELET6


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


2025-08-08 18:36:54,290 | INFO | src.model.train | Modelo SARIMAX para ELET6 treinado com sucesso.
2025-08-08 18:36:54,291 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: SUZB3
2025-08-08 18:36:54,428 | INFO | src.model.train | Modelo SARIMAX para SUZB3 treinado com sucesso.
2025-08-08 18:36:54,429 | INFO | src.model.train | Treinando modelo SARIMAX para a ação: AURE3


  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)
  self._init_dates(dates, freq)


KeyboardInterrupt: 

In [18]:
# concatenação dos dados de teste para validação de resultado
dataset_teste = pd.concat([X_teste, y_teste], axis=1).drop(columns=['setor', 'industria'], axis=1)

Processo de seleção de Modelo

In [496]:
# pré-processamento dos dados: target encoding, onehot encoding e transformação e scaler. 

# separação das colunas categoricas 
cols_cat_oh = ['setor','industria']
cols_nums = tbl_cotacao_ibovespa.drop(columns=['close_diff'],axis=1).select_dtypes('number').columns.to_list()

# target encoder inserido na função
preprocessor = criar_preprocessor(target_encoder='acao', colunas_categoricas_onehot=cols_cat_oh, colunas_numericas=cols_nums)
preprocessor

2025-08-08 15:00:30,220 | INFO | src.model.train | Iniciando construção do pipeline de pré-processamento.
2025-08-08 15:00:30,221 | INFO | src.model.train | Pipeline de pré-processamento construído com sucesso.


0,1,2
,transformers,"[('target_encoder', ...), ('cat_features', ...), ...]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,False
,force_int_remainder_cols,'deprecated'

0,1,2
,verbose,0
,cols,['acao']
,drop_invariant,False
,return_df,True
,handle_missing,'value'
,handle_unknown,'value'
,min_samples_leaf,20
,smoothing,10
,hierarchy,

0,1,2
,missing_values,
,strategy,'most_frequent'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'ignore'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,method,'yeo-johnson'
,standardize,True
,copy,True

0,1,2
,copy,True
,with_mean,True
,with_std,True


In [448]:
preprocessor = criar_preprocessor_sem_target_encoder(
    colunas_categoricas_onehot=teste.select_dtypes('object').columns.to_list(),
    colunas_numericas=tbl_cotacao_ibovespa.drop(columns='close_diff',axis=1).select_dtypes('number').columns.to_list()
                                                     )

2025-08-08 03:24:21,856 | INFO | src.model.train | Iniciando construção do pipeline de pré-processamento.
2025-08-08 03:24:21,856 | INFO | src.model.train | Pipeline de pré-processamento construído com sucesso.


XGBOOST

In [497]:
# construção do pipeline para o modelo XGboost

model_xgb = criar_pipeline(preprocessor=preprocessor, modelo_final=XGBRegressor(random_state=42))
model_xgb

2025-08-08 15:00:37,280 | INFO | src.model.train | Iniciando criação do pipeline completo.
2025-08-08 15:00:37,295 | INFO | src.model.train | ColumnTransformer(transformers=[('target_encoder', TargetEncoder(cols=['acao']),
                                 ['acao']),
                                ('cat_features',
                                 Pipeline(steps=[('imputer',
                                                  SimpleImputer(strategy='most_frequent')),
                                                 ('onehot_encoder',
                                                  OneHotEncoder(handle_unknown='ignore',
                                                                sparse_output=False))]),
                                 ['setor', 'industria']),
                                ('num_features',
                                 Pipeline(steps=[('imputer', SimpleImputer()),
                                                 ('power_transf...
                                

0,1,2
,steps,"[('preprocessador', ...), ('modelo', ...)]"
,transform_input,
,memory,
,verbose,False

0,1,2
,transformers,"[('target_encoder', ...), ('cat_features', ...), ...]"
,remainder,'drop'
,sparse_threshold,0.3
,n_jobs,
,transformer_weights,
,verbose,False
,verbose_feature_names_out,False
,force_int_remainder_cols,'deprecated'

0,1,2
,verbose,0
,cols,['acao']
,drop_invariant,False
,return_df,True
,handle_missing,'value'
,handle_unknown,'value'
,min_samples_leaf,20
,smoothing,10
,hierarchy,

0,1,2
,missing_values,
,strategy,'most_frequent'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,categories,'auto'
,drop,
,sparse_output,False
,dtype,<class 'numpy.float64'>
,handle_unknown,'ignore'
,min_frequency,
,max_categories,
,feature_name_combiner,'concat'

0,1,2
,missing_values,
,strategy,'mean'
,fill_value,
,copy,True
,add_indicator,False
,keep_empty_features,False

0,1,2
,method,'yeo-johnson'
,standardize,True
,copy,True

0,1,2
,copy,True
,with_mean,True
,with_std,True

0,1,2
,objective,'reg:squarederror'
,base_score,
,booster,
,callbacks,
,colsample_bylevel,
,colsample_bynode,
,colsample_bytree,
,device,
,early_stopping_rounds,
,enable_categorical,False


In [498]:
from sklearn.model_selection import RandomizedSearchCV, TimeSeriesSplit

ts = TimeSeriesSplit(n_splits=5)
param_grid_xgb = {
    'modelo__n_estimators': [200, 500],
    'modelo__max_depth': [3, 6, 9],
    'modelo__learning_rate': [0.01, 0.1],
    'modelo__subsample': [0.8, 1.0],
    'modelo__colsample_bytree': [0.8, 1.0]
}

random = RandomizedSearchCV(estimator=model_xgb,param_distributions=param_grid_xgb,cv=ts, n_iter=100, 
                            random_state=42, n_jobs=-1, verbose=5)

In [499]:
random.fit(X_treino,y_treino)
y_pred_xgb = random.predict(X_teste)



Fitting 5 folds for each of 48 candidates, totalling 240 fits


In [500]:
# avaliação de resultado
gerar_metricas(y_pred=y_pred_xgb, y_true=y_teste)

MAE: 0.0101
RMSE: 0.0137
R2 Score: 0.4013


Random Forest

In [501]:
# construção do pipeline para o modelo Random Forest Regressor
model_rf = criar_pipeline(preprocessor=preprocessor, modelo_final=RandomForestRegressor())


2025-08-08 15:10:48,914 | INFO | src.model.train | Iniciando criação do pipeline completo.
2025-08-08 15:10:48,925 | INFO | src.model.train | ColumnTransformer(transformers=[('target_encoder', TargetEncoder(cols=['acao']),
                                 ['acao']),
                                ('cat_features',
                                 Pipeline(steps=[('imputer',
                                                  SimpleImputer(strategy='most_frequent')),
                                                 ('onehot_encoder',
                                                  OneHotEncoder(handle_unknown='ignore',
                                                                sparse_output=False))]),
                                 ['setor', 'industria']),
                                ('num_features',
                                 Pipeline(steps=[('imputer', SimpleImputer()),
                                                 ('power_transf...
                                

In [502]:
from sklearn.model_selection import TimeSeriesSplit

ts = TimeSeriesSplit(n_splits=5)

param_grid = {
    'modelo__n_estimators': [100, 200, 500],
    'modelo__max_depth': [5, 10, 20, 30, None],
    'modelo__min_samples_split': [2, 5, 10, 15],
    'modelo__min_samples_leaf': [1, 2, 4, 8],
    'modelo__max_features': ['sqrt', 'log2', 0.8, 1.0]
}

random = RandomizedSearchCV(estimator=model_xgb,
                          param_distributions=param_grid_xgb,cv=ts, 
                          n_iter=100, random_state=42, n_jobs=-1, verbose=5)


In [503]:
random.fit(X_treino, y_treino)
y_pred_rf = random.predict(X_teste)



Fitting 5 folds for each of 48 candidates, totalling 240 fits


In [504]:
# avaliação de resultado
gerar_metricas(y_pred=y_pred_rf, y_true=y_teste)

MAE: 0.0101
RMSE: 0.0137
R2 Score: 0.4013


CATBOOST

In [505]:
# construção do pipeline para o modelo Catboost
import numpy as np
from sklearn.model_selection import TimeSeriesSplit
colunas_numericas = X_treino.select_dtypes(include=np.number).columns.tolist()
colunas_categoricas = ['acao','setor']
todas_colunas = colunas_numericas + colunas_categoricas

ts = TimeSeriesSplit(n_splits=5)
# Verifique se as listas de colunas estão corretas
print(f"Colunas numéricas: {colunas_numericas}")
print(f"Colunas categóricas: {colunas_categoricas}")

# 2. Crie o pré-processador
preprocessor_catboost = ColumnTransformer(
    transformers=[
        ('num', Pipeline([
            ('norm', PowerTransformer(method='yeo-johnson')),
            ('scaler', StandardScaler())
        ]), colunas_numericas),
        ('cat', 'passthrough', colunas_categoricas)
    ],
    remainder='drop' # 'drop' para garantir que apenas as colunas que você especificou sejam usadas
)

# 3. Mapeie os índices das colunas categóricas APÓS a transformação
# O ColumnTransformer irá colocar as colunas numéricas primeiro, seguidas pelas categóricas
cat_features_indices = list(range(len(colunas_numericas), len(colunas_numericas) + len(colunas_categoricas)))
print(f"Índices das colunas categóricas para o CatBoost: {cat_features_indices}")

# 4. Instancie o modelo CatBoost
catboost_model = CatBoostRegressor(
    random_state=42, 
    verbose=0,
    cat_features=cat_features_indices,
    # É importante definir aqui, não na busca de parâmetros
)

# 5. Crie o pipeline final
model_cb = Pipeline([
    ('preprocessor', preprocessor_catboost),
    ('model', catboost_model)
])

# 6. Dicionário de parâmetros para o RandomizedSearchCV
# Note que 'model__cat_features' foi removido para evitar a duplicação
param_grid_catboost = {
    'model__iterations': [100, 250, 500, 750, 1000],
    'model__learning_rate': [0.01, 0.05, 0.1, 0.2],
    'model__depth': [4, 6, 8, 10],
    'model__l2_leaf_reg': [1, 3, 5, 7, 9],
    'model__subsample': [0.6, 0.8, 1.0],
    'model__border_count': [32, 64, 128],
    'model__verbose': [0]
}

# 7. Crie o objeto RandomizedSearchCV
random = RandomizedSearchCV(
    estimator=model_cb,
    param_distributions=param_grid_catboost,
    cv=ts, 
    n_iter=100, 
    random_state=42, 
    n_jobs=-1
)

Colunas numéricas: ['volume', 'day_sin', 'day_cos', 'month_sin', 'month_cos', 'lag_1_close_diff', 'lag_3_close_diff', 'lag_5_close_diff', 'lag_7_Close_diff', 'lag_15_Close_diff', 'lag_30_Close_diff', 'lag_60_Close_diff', 'lag_90_Close_diff', 'rolling_mean_3_close_diff', 'volatility_3_close_diff', 'rolling_mean_5_close_diff', 'volatility_5_close_diff', 'rolling_mean_7_Close_diff', 'volatility_7_Close_diff', 'rolling_mean_15_Close_diff', 'volatility_15_Close_diff', 'rolling_mean_30_Close_diff', 'volatility_30_Close_diff', 'rolling_mean_60_Close_diff', 'volatility_60_Close_diff', 'rolling_mean_90_Close_diff', 'volatility_90_Close_diff', 'lag_1_Volume', 'lag_3_Volume', 'lag_5_Volume', 'lag_7_Volume', 'lag_15_Volume', 'lag_30_Volume', 'lag_60_Volume', 'lag_90_Volume', 'rolling_mean_3_Volume', 'volatility_3_Volume', 'rolling_mean_5_Volume', 'volatility_5_Volume', 'rolling_mean_7_Volume', 'volatility_7_Volume', 'rolling_mean_15_Volume', 'volatility_15_Volume', 'rolling_mean_30_Volume', 'volat

In [506]:
# ajuste e previsão do modelo
random.fit(X_treino, y_treino)
y_pred_cb = random.predict(X_teste)

KeyboardInterrupt: 

In [238]:
# avaliação de resultado
gerar_metricas(y_pred=y_pred_cb, y_true=y_teste)

MAE: 0.0140
RMSE: 0.0190
R2 Score: -0.1911
