In [41]:
import pandas as pd
import joblib
import time

from sklearn.model_selection import train_test_split
from skopt import BayesSearchCV  # Bayesian optimization: utilizado para optimizar hiperpar√°metros

import lightgbm as lgbm
from lightgbm import early_stopping  # Early stopping: utilizado para evitar sobreajuste

from Funcoes_Comuns import avaliar_modelo, registrar_modelo

Recuperar base j√° pr√©-processada

In [43]:
# Obter dados
df_enem = pd.read_pickle('Bases\Finais\enem_2023_full.pkl')

variaveis_alvo = ['NUM_NOTA_MT', 'NUM_NOTA_LC', 'NUM_NOTA_CN', 'NUM_NOTA_CH', 'NUM_NOTA_REDACAO']

# separar em treino e teste
X = df_enem.drop(columns=variaveis_alvo)
y = df_enem[variaveis_alvo]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajuste de tipo para MLflow
# Converter colunas inteiras para float
X_train = X_train.astype({col: 'float' for col in X_train.select_dtypes('int').columns})
X_test = X_test.astype({col: 'float' for col in X_test.select_dtypes('int').columns})

categorical_features = X_train.select_dtypes(include=['category']).columns.tolist()

# Criar Eval Set para valida√ß√£o cruzada (15% do conjunto de treino)
# Apenas utilizado nos modelos fianais, BayesSearchCV n√£o utiliza Eval Set j√° possui validacao cruzada interna
X_train_final, X_eval, y_train_final, y_eval = train_test_split(
    X_train,
    y_train,
    test_size=0.15,
    random_state=42
)

### 1. Modelo base

In [44]:
# Treinar modelo LGBMRegressor Base
modelo_lgbm = lgbm.LGBMRegressor(n_estimators=1000, 
                                 learning_rate=0.01, 
                                 random_state=42,
                                 max_bin=4095,
                                 force_row_wise=True)

start_time = time.time()

modelo_lgbm.fit(X_train_final, 
                y_train_final['NUM_NOTA_CH'], 
                eval_set=[(X_eval, y_eval['NUM_NOTA_CH'])], 
                eval_metric=['r2', 'rmse', 'mae'],
                categorical_feature=categorical_features)

tempo_treino = time.time() - start_time

[LightGBM] [Info] Total Bins 4296
[LightGBM] [Info] Number of data points in the train set: 487214, number of used features: 40
[LightGBM] [Info] Start training from score 527.881246


In [45]:
# Previs√µes
y_pred = modelo_lgbm.predict(X_test)

In [8]:
nome_experimento = 'Notas CH ENEM 2023'

registrar_modelo(experimento=nome_experimento,
                 parametros={**modelo_lgbm.get_params(), "amostra": X_train.shape[0], "tempo": tempo_treino},
                 X_train=X_train,
                 y_train=y_train,
                 y_test=y_test,
                 y_pred=y_pred,
                 variavel_alvo='NUM_NOTA_CH',
                 modelo=modelo_lgbm,
                 nome_modelo='modelo_lgbm_base',
                 descricao_modelo='Modelo LGBMRegressor base')

Registered model 'modelo_lgbm_base' already exists. Creating a new version of this model...
2025/06/07 23:02:26 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: modelo_lgbm_base, version 3
Created version '3' of model 'modelo_lgbm_base'.


üèÉ View run resilient-pig-154 at: http://127.0.0.1:9080/#/experiments/957135083854196683/runs/95fb16e000d14a73be8a3e660aa993f5
üß™ View experiment at: http://127.0.0.1:9080/#/experiments/957135083854196683
Modelo registrado com sucesso no MLflow: modelo_lgbm_base
Rastreamento do MLflow finalizado.


In [46]:
# Avalia√ß√£o grupo treino
avaliar_modelo(y_train['NUM_NOTA_CH'], modelo_lgbm.predict(X_train), "treino")

# Avalia√ß√£o grupo teste
avaliar_modelo(y_test['NUM_NOTA_CH'], y_pred, "teste")

MAE (treino): 53.8265
RMSE (treino): 68.2660
R2 (treino): 0.3498
MAE (teste): 55.2285
RMSE (teste): 70.0224
R2 (teste): 0.3122


In [47]:
# Salvar o modelo otimizado como um arquivo pickle
joblib.dump(modelo_lgbm, 'Modelos\modelo_lgbm_base.pkl')

['Modelos\\modelo_lgbm_base.pkl']

### 2. Bayes Search

In [48]:
modelo_lgbm_bayes = lgbm.LGBMRegressor(random_state=42,
                                       max_bin=4095, 
                                       force_row_wise=True)

In [49]:
# Defini√ß√£o do espa√ßo de busca para otimiza√ß√£o bayesiana
param_grid = {
    'num_leaves': (5, 60),                         # N√∫mero de folhas na √°rvore de decis√£o
    'max_depth': (40, 100),                        # Profundidade m√°xima da √°rvore
    'learning_rate': (0.005, 0.1, 'log-uniform'),  # Taxa de aprendizado
    'n_estimators': (5000, 6000),                  # N√∫mero de √°rvores
    'subsample': (0.3, 1.0),                       # Propor√ß√£o de amostras usadas em cada √°rvore
    'colsample_bytree': (0.2, 1.0),                # Fra√ß√£o de colunas a serem usadas por √°rvore
    'reg_alpha': (1e-3, 1.0, 'log-uniform'),       # Regulariza√ß√£o L1
    'reg_lambda': (1e-5, 1.0, 'log-uniform'),      # Regulariza√ß√£o L2
}

In [50]:
# Configurar a busca Bayesiana usando BayesSearchCV

# Criando o otimizador Bayesiano
bayes_search = BayesSearchCV(
    estimator=modelo_lgbm_bayes,    # Modelo a ser otimizado
    search_spaces=param_grid,       # Espa√ßo de busca definido acima
    scoring='r2',                   # Crit√©rio de sele√ß√£o
    n_iter=30,                      # N√∫mero de avalia√ß√µes do modelo
    cv=5,                           # Valida√ß√£o cruzada
    random_state=42,                # Semente para reprodutibilidade
    n_jobs=-1,                      # Paraleliza√ß√£o total dos c√°lculos
    verbose=1                       # 0 = sem mensagens, 1 = mensagens de progresso, 2 = mensagens detalhadas
)

In [51]:
fit_params = {
    'eval_metric': ['r2', 'rmse', 'mae'],               # M√©tricas a serem avaliadas
    'categorical_feature': categorical_features,        # Colunas categ√≥ricas
}

In [53]:
# Executar a busca Bayesiana

start_time = time.time()
bayes_search.fit(X_train, y_train['NUM_NOTA_CH'], **fit_params)

# Parar o cron√¥metro
end_time = time.time()
elapsed_time = end_time - start_time

Fitting 5 folds for each of 1 candidates, totalling 5 fits


KeyboardInterrupt: 

In [None]:
# Melhores par√¢metros encontrados
try:
    melhores_parametros = bayes_search.best_params_
    print(f"Melhores par√¢metros: {melhores_parametros}")
    print("R2: ", bayes_search.best_score_)
    print(f"Tempo total de execu√ß√£o: {elapsed_time:.2f} segundos")
except:
    melhores_parametros = {
        "colsample_bytree": 0.2297823151086026,
        "learning_rate": 0.028382425255806625,
        "max_depth": 40,
        "n_estimators": 5990,
        "num_leaves": 40,
        "reg_alpha": 0.00596084139054512,
        "reg_lambda": 0.8601375912019539,
        "subsample": 0.9434176158805601
    }
    print(f"Erro ao obter melhores par√¢metros, usando valores calculados anteriormente:\n {melhores_parametros}")

Erro ao obter melhores par√¢metros, usando valores calculados anteriormente:
 {'colsample_bytree': 0.2297823151086026, 'learning_rate': 0.028382425255806625, 'max_depth': 40, 'n_estimators': 5990, 'num_leaves': 40, 'reg_alpha': 0.00596084139054512, 'reg_lambda': 0.8601375912019539, 'subsample': 0.9434176158805601}


In [None]:
# Treinar o modelo com os melhores par√¢metros encontrados
modelo_lgbm_bayes.set_params(**melhores_parametros)

start_time = time.time()

# Treinamento do modelo com os melhores par√¢metros encontrados
modelo_lgbm_bayes.fit(X_train_final,
                      y_train_final['NUM_NOTA_CH'],
                      eval_set=[(X_eval, y_eval['NUM_NOTA_CH'])], 
                      eval_metric=['r2', 'rmse', 'mae'],
                      categorical_feature=categorical_features,
                      callbacks=[early_stopping(stopping_rounds=200)])

tempo_treino = time.time() - start_time

[LightGBM] [Info] Total Bins 4296
[LightGBM] [Info] Number of data points in the train set: 487214, number of used features: 40
[LightGBM] [Info] Start training from score 527.881246
Training until validation scores don't improve for 200 rounds
Early stopping, best iteration is:
[2901]	valid_0's rmse: 69.8154	valid_0's l1: 55.0559	valid_0's l2: 4874.18


In [None]:
# Previs√µes
y_pred_bayes = modelo_lgbm_bayes.predict(X_test)

In [21]:
nome_experimento = 'Notas CH ENEM 2023'

registrar_modelo(experimento=nome_experimento,
                    modelo=modelo_lgbm_bayes,
                    parametros={**modelo_lgbm_bayes.get_params(), "amostra": X_train.shape[0], "tempo": tempo_treino},
                    X_train=X_train,
                    y_train=y_train,
                    y_test=y_test,
                    y_pred=y_pred_bayes,
                    variavel_alvo='NUM_NOTA_CH',
                    nome_modelo='modelo_lgbm_bayes',
                    descricao_modelo='Modelo LGBMRegressor otimizado com BayesSearchCV')

Registered model 'modelo_lgbm_bayes' already exists. Creating a new version of this model...
2025/06/07 23:26:47 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: modelo_lgbm_bayes, version 5


üèÉ View run amazing-carp-611 at: http://127.0.0.1:9080/#/experiments/957135083854196683/runs/40540fd080d74b25b19b1833aee7ca39
üß™ View experiment at: http://127.0.0.1:9080/#/experiments/957135083854196683
Modelo registrado com sucesso no MLflow: modelo_lgbm_bayes
Rastreamento do MLflow finalizado.


Created version '5' of model 'modelo_lgbm_bayes'.


In [None]:
# Avalia√ß√£o grupo treino
avaliar_modelo(y_train['NUM_NOTA_CH'], modelo_lgbm_bayes.predict(X_train), "treino")

# Avalia√ß√£o grupo teste
avaliar_modelo(y_test['NUM_NOTA_CH'], y_pred_bayes, "teste")

MAE (treino): 53.3724
RMSE (treino): 67.7531
R2 (treino): 0.3595
MAE (teste): 54.8517
RMSE (teste): 69.5887
R2 (teste): 0.3207


In [None]:
# Salvar o modelo otimizado como um arquivo pickle
joblib.dump(modelo_lgbm_bayes, 'Modelos\modelo_lgbm_bayes.pkl')

['Modelos\\modelo_lgbm_bayes.pkl']

### 3. Buscar melhorar modelo alterando Features

#### a. Tentar melhorar removendo todas as vari√°veis sem categorias definidas ("N√£o informado")

    TP_ESTADO_CIVIL: 0 (N√£o informado)
    TP_COR_RACA: 0 (N√£o declarado)
    TP_NACIONALIDADE: 0 (N√£o informado)
    TP_ESCOLA: 1 (N√£o Respondeu)
    TP_ENSINO: 0 (N√£o informado)

In [None]:
# Obter dados
df_enem = pd.read_pickle('Bases\Finais\enem_2023_full.pkl')

# Remover linhas com valores n√£o explicativos
df_enem = df_enem[
    (df_enem['CAT_NACIONALIDADE'] != 0) &
    (df_enem['CAT_ENSINO'] != 0) &
    (df_enem['CAT_COR_RACA'] != 0) &
    (df_enem['CAT_ESTADO_CIVIL'] != 0) &
    (df_enem['CAT_ESCOLA'] != 1)
]

#Variaveis alvo
variaveis_alvo = ['NUM_NOTA_MT', 'NUM_NOTA_LC', 'NUM_NOTA_CN', 'NUM_NOTA_CH', 'NUM_NOTA_REDACAO']

# separar em treino e teste
X = df_enem.drop(columns=variaveis_alvo)
y = df_enem[variaveis_alvo]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajuste de tipo para MLflow -> Converter colunas inteiras para float
X_train = X_train.astype({col: 'float' for col in X_train.select_dtypes('int').columns})
X_test = X_test.astype({col: 'float' for col in X_test.select_dtypes('int').columns})

# Obter colunas categ√≥ricas
categorical_features = X_train.select_dtypes(include=['category']).columns.tolist()

# Criar Eval Set para valida√ß√£o cruzada (15% do conjunto de treino)
X_train_final, X_eval, y_train_final, y_eval = train_test_split(
    X_train,
    y_train,
    test_size=0.15,
    random_state=42
)

In [None]:
# Criar o modelo LGBMRegressor sem categorias definidas
modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas = lgbm.LGBMRegressor(random_state=42,
                                                                                max_bin=4095, 
                                                                                force_row_wise=True)

# Treinar o modelo com os melhores par√¢metros encontrados
modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas.set_params(**melhores_parametros)

start_time = time.time()

# Treinamento do modelo com os melhores par√¢metros encontrados
modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas.fit(X_train_final, 
                                                                y_train_final['NUM_NOTA_CH'], 
                                                                eval_set=[(X_eval, y_eval['NUM_NOTA_CH'])], 
                                                                eval_metric=['r2', 'rmse', 'mae'],
                                                                categorical_feature=categorical_features,
                                                                callbacks=[early_stopping(stopping_rounds=200)])

tempo_treino = time.time() - start_time

[LightGBM] [Info] Total Bins 4237
[LightGBM] [Info] Number of data points in the train set: 457203, number of used features: 40
[LightGBM] [Info] Start training from score 529.413394
Training until validation scores don't improve for 200 rounds
Early stopping, best iteration is:
[3118]	valid_0's rmse: 69.7432	valid_0's l1: 54.9119	valid_0's l2: 4864.11


In [27]:
# Previs√µes
y_pred_explicativas = modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas.predict(X_test)

In [None]:
nome_experimento = 'Notas CH ENEM 2023'

registrar_modelo(experimento=nome_experimento,
                    modelo=modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas,
                    parametros={**modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas.get_params(), "amostra": X_train.shape[0], "tempo": tempo_treino},
                    X_train=X_train,
                    y_train=y_train,
                    y_test=y_test,
                    y_pred=y_pred_explicativas,
                    variavel_alvo='NUM_NOTA_CH',
                    nome_modelo='modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas',
                    descricao_modelo='Modelo LGBMRegressor otimizado com BayesSearchCV sem categorias definidas')

Registered model 'modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas' already exists. Creating a new version of this model...
2025/06/07 23:37:31 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas, version 3


üèÉ View run suave-shark-495 at: http://127.0.0.1:9080/#/experiments/957135083854196683/runs/303d650dedda447b920aaa527264eb0e
üß™ View experiment at: http://127.0.0.1:9080/#/experiments/957135083854196683
Modelo registrado com sucesso no MLflow: modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas
Rastreamento do MLflow finalizado.


Created version '3' of model 'modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas'.


In [28]:
# Avalia√ß√£o grupo treino
avaliar_modelo(y_train['NUM_NOTA_CH'], modelo_lgbm_remocao_de_variaveis_sem_categorias_definidas.predict(X_train), "treino")

# Avalia√ß√£o grupo teste
avaliar_modelo(y_test['NUM_NOTA_CH'], y_pred_explicativas, "teste")

MAE (treino): 52.8961
RMSE (treino): 67.2000
R2 (treino): 0.3653
MAE (teste): 54.6748
RMSE (teste): 69.5368
R2 (teste): 0.3220


### 2. Tentar melhorar removendo vari√°veis de menor import√¢ncia (import√¢ncia e informa√ß√£o m√∫tua)

    CAT_SIT_FUNC_ESC
    CAT_NACIONALIDADE
    CAT_ENSINO
    CAT_LOCALIZACAO_ESC
    CAT_ESTADO_CIVIL
    BIN_Q002_DUMMY_H
    NUM_Q017
    NUM_Q012
    BIN_Q001_DUMMY_H
    NUM_Q015

In [None]:
# Obter dados
df_enem = pd.read_pickle('Bases\Finais\enem_2023_full.pkl')

# Remover algumas colunas com MENOR valor explicativo
df_enem = df_enem.drop(columns=['CAT_SIT_FUNC_ESC',
                                'CAT_NACIONALIDADE',
                                'CAT_ENSINO',
                                'CAT_LOCALIZACAO_ESC',
                                'CAT_ESTADO_CIVIL',
                                'BIN_Q002_DUMMY_H',
                                'NUM_Q017',
                                'NUM_Q012',
                                'BIN_Q001_DUMMY_H',
                                'NUM_Q015',
                                ])

#Variaveis alvo
variaveis_alvo = ['NUM_NOTA_MT', 'NUM_NOTA_LC', 'NUM_NOTA_CN', 'NUM_NOTA_CH', 'NUM_NOTA_REDACAO']

# separar em treino e teste
X = df_enem.drop(columns=variaveis_alvo)
y = df_enem[variaveis_alvo]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajuste de tipo para MLflow -> Converter colunas inteiras para float
X_train = X_train.astype({col: 'float' for col in X_train.select_dtypes('int').columns})
X_test = X_test.astype({col: 'float' for col in X_test.select_dtypes('int').columns})

# Obter colunas categ√≥ricas
categorical_features = X_train.select_dtypes(include=['category']).columns.tolist()

# Criar Eval Set para valida√ß√£o cruzada (15% do conjunto de treino)
X_train_final, X_eval, y_train_final, y_eval = train_test_split(
    X_train,
    y_train,
    test_size=0.15,
    random_state=42
)

In [None]:
# Criar o modelo LGBMRegressor com redu√ß√£o de features
modelo_lgbm_reducao_de_features = lgbm.LGBMRegressor(random_state=42,
                                                        max_bin=4095, 
                                                        force_row_wise=True)

# Treinar o modelo com os melhores par√¢metros encontrados
modelo_lgbm_reducao_de_features.set_params(**melhores_parametros)

start_time = time.time()

# Treinamento do modelo com os melhores par√¢metros encontrados
modelo_lgbm_reducao_de_features.fit(X_train_final,
                                    y_train_final['NUM_NOTA_CH'], 
                                    eval_set=[(X_eval, y_eval['NUM_NOTA_CH'])], 
                                    eval_metric=['r2', 'rmse', 'mae'],
                                    categorical_feature=categorical_features,
                                    callbacks=[early_stopping(stopping_rounds=200)])

tempo_treino = time.time() - start_time

[LightGBM] [Info] Total Bins 4258
[LightGBM] [Info] Number of data points in the train set: 487214, number of used features: 30
[LightGBM] [Info] Start training from score 527.881246
Training until validation scores don't improve for 200 rounds
Early stopping, best iteration is:
[1291]	valid_0's rmse: 70.0128	valid_0's l1: 55.2252	valid_0's l2: 4901.79


In [32]:
# Previs√µes
y_pred_var_importantes = modelo_lgbm_reducao_de_features.predict(X_test)

In [None]:
nome_experimento = 'Notas CH ENEM 2023'

# Avaliar o modelo
registrar_modelo(experimento=nome_experimento,
                    modelo=modelo_lgbm_reducao_de_features,
                    parametros={**modelo_lgbm_reducao_de_features.get_params(), "amostra": X_train.shape[0], "tempo": tempo_treino},
                    X_train=X_train,
                    y_train=y_train,
                    y_test=y_test,
                    y_pred=y_pred_var_importantes,
                    variavel_alvo='NUM_NOTA_CH',
                    nome_modelo='modelo_lgbm_reducao_de_10_features',
                    descricao_modelo='Modelo LGBMRegressor otimizado com BayesSearchCV com redu√ß√£o de 10 features')

Registered model 'modelo_lgbm_reducao_de_10_features' already exists. Creating a new version of this model...
2025/06/07 23:42:04 INFO mlflow.store.model_registry.abstract_store: Waiting up to 300 seconds for model version to finish creation. Model name: modelo_lgbm_reducao_de_10_features, version 2


üèÉ View run amazing-midge-269 at: http://127.0.0.1:9080/#/experiments/957135083854196683/runs/3dcfbf3840ba41ceb594d915223aba03
üß™ View experiment at: http://127.0.0.1:9080/#/experiments/957135083854196683
Modelo registrado com sucesso no MLflow: modelo_lgbm_reducao_de_10_features
Rastreamento do MLflow finalizado.


Created version '2' of model 'modelo_lgbm_reducao_de_10_features'.


In [33]:
# Avalia√ß√£o grupo treino
avaliar_modelo(y_train['NUM_NOTA_CH'], modelo_lgbm_reducao_de_features.predict(X_train), "treino")
# Avalia√ß√£o grupo teste
avaliar_modelo(y_test['NUM_NOTA_CH'], y_pred_var_importantes, "teste")

MAE (treino): 53.9122
RMSE (treino): 68.3946
R2 (treino): 0.3469
MAE (teste): 55.0416
RMSE (teste): 69.7828
R2 (teste): 0.3169


### 3. Aplicar os dois: remover categorias n√£o explicativas + remover colunas menos importantes

In [None]:
# Obter dados
df_enem = pd.read_pickle('Bases\Finais\enem_2023_full.pkl')

# Remover linhas com valores n√£o explicativos
df_enem = df_enem[
    (df_enem['CAT_NACIONALIDADE'] != 0) &
    (df_enem['CAT_ENSINO'] != 0) &
    (df_enem['CAT_COR_RACA'] != 0) &
    (df_enem['CAT_ESTADO_CIVIL'] != 0) &
    (df_enem['CAT_ESCOLA'] != 1)
]

# Remover algumas colunas com MENOR valor explicativo
df_enem = df_enem.drop(columns=['CAT_SIT_FUNC_ESC',
                                'CAT_NACIONALIDADE',
                                'CAT_ENSINO',
                                'CAT_LOCALIZACAO_ESC',
                                'CAT_ESTADO_CIVIL',
                                'BIN_Q002_DUMMY_H',
                                'NUM_Q017',
                                'NUM_Q012',
                                'BIN_Q001_DUMMY_H',
                                'NUM_Q015',
                                ])

#Variaveis alvo
variaveis_alvo = ['NUM_NOTA_MT', 'NUM_NOTA_LC', 'NUM_NOTA_CN', 'NUM_NOTA_CH', 'NUM_NOTA_REDACAO']

# separar em treino e teste
X = df_enem.drop(columns=variaveis_alvo)
y = df_enem[variaveis_alvo]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ajuste de tipo para MLflow -> Converter colunas inteiras para float
X_train = X_train.astype({col: 'float' for col in X_train.select_dtypes('int').columns})
X_test = X_test.astype({col: 'float' for col in X_test.select_dtypes('int').columns})

# Obter colunas categ√≥ricas
categorical_features = X_train.select_dtypes(include=['category']).columns.tolist()

# Criar Eval Set para valida√ß√£o cruzada (15% do conjunto de treino)
X_train_final, X_eval, y_train_final, y_eval = train_test_split(
    X_train,
    y_train,
    test_size=0.15,
    random_state=42
)

In [None]:
# Criar o modelo LGBMRegressor com redu√ß√£o de features e categorias menos explicativas
modelo_lgbm_reducao_de_features_categorias_nao_explicativas = lgbm.LGBMRegressor(random_state=42,
                                                                                    max_bin=4095, 
                                                                                    force_row_wise=True)

# Treinar o modelo com os melhores par√¢metros encontrados
modelo_lgbm_reducao_de_features_categorias_nao_explicativas.set_params(**melhores_parametros)

start_time = time.time()

# Treinamento do modelo com os melhores par√¢metros encontrados
modelo_lgbm_reducao_de_features_categorias_nao_explicativas.fit(X_train_final,
                                                                y_train_final['NUM_NOTA_CH'], 
                                                                eval_set=[(X_eval, y_eval['NUM_NOTA_CH'])], 
                                                                eval_metric=['r2', 'rmse', 'mae'],
                                                                categorical_feature=categorical_features,
                                                                callbacks=[early_stopping(stopping_rounds=200)])

tempo_treino = time.time() - start_time

[LightGBM] [Info] Total Bins 4201
[LightGBM] [Info] Number of data points in the train set: 457203, number of used features: 30
[LightGBM] [Info] Start training from score 529.413394
Training until validation scores don't improve for 200 rounds
Early stopping, best iteration is:
[2577]	valid_0's rmse: 69.9135	valid_0's l1: 55.0636	valid_0's l2: 4887.9


In [39]:
# Previs√µes
y_pred_var_feat_categ = modelo_lgbm_reducao_de_features_categorias_nao_explicativas.predict(X_test)

In [None]:
nome_experimento = 'Notas CH ENEM 2023'

# Avaliar o modelo
registrar_modelo(experimento=nome_experimento,
                    modelo=modelo_lgbm_reducao_de_features_categorias_nao_explicativas,
                    parametros={**modelo_lgbm_reducao_de_features_categorias_nao_explicativas.get_params(), "amostra": X_train.shape[0], "tempo": tempo_treino},
                    X_train=X_train,
                    y_train=y_train,
                    y_test=y_test,
                    y_pred=modelo_lgbm_reducao_de_features_categorias_nao_explicativas.predict(X_test),
                    variavel_alvo='NUM_NOTA_CH',
                    nome_modelo='modelo_lgbm_reducao_de_10_features_categorias_nao_explicativas',
                    descricao_modelo='Modelo LGBMRegressor otimizado com BayesSearchCV com redu√ß√£o de 10 features e categorias n√£o explicativas')

In [40]:
# Avalia√ß√£o grupo treino
avaliar_modelo(y_train['NUM_NOTA_CH'], modelo_lgbm_reducao_de_features_categorias_nao_explicativas.predict(X_train), "treino")
# Avalia√ß√£o grupo teste
avaliar_modelo(y_test['NUM_NOTA_CH'], y_pred_var_feat_categ, "teste")

MAE (treino): 53.3024
RMSE (treino): 67.6805
R2 (treino): 0.3562
MAE (teste): 54.7989
RMSE (teste): 69.6746
R2 (teste): 0.3193


Conclus√£o

- Remo√ß√£o de categorias n√£o explicativas
    - mantendo fixo os par√¢metros do modelo e removendo apenas as linhas com categorias n√£o explicativas houve uma melhora do modelo
    - R¬≤ de 0.3207 para 0.3220

- Remo√ß√£o das 10 vari√°veis menos explicativas
    - mantendo fixo os par√¢metros do modelo e removendo apenas as colunas com menor import√¢ncia para o alvo houve uma piora do modelo
    - Removendo 10: R¬≤ de 0.3207 para 0.3169

- Aplicando as duas t√©nicas
    - Redu√ß√£o R¬≤ de 0.3207 para 0.3193

Padr√£o se mant√©m para outras m√©tricas RMSE e MAE

√â interessante remover todas as categorias n√£o explicativas, mostra uma melhora no modelo, mas manter todas as vari√°veis dispon√≠veis, mesmo se menos importantes.