In [1]:
import warnings
warnings.filterwarnings("ignore")

import pandas as pd
import matplotlib.pyplot as plt
import joblib
from pathlib import Path

# sklearn
from sklearn.ensemble import RandomForestClassifier
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split, KFold, cross_validate, cross_val_score, RandomizedSearchCV
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.base import BaseEstimator, TransformerMixin, clone

#hiperparamentros search
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import randint

# Importa√ß√µes locais
from setup_notebook import setup_path
setup_path()
from src.model_utils import *
from src.preprocess_utils_tic import preprocessador_titanic

In [2]:
BASE = Path.cwd().parent   
# =====================================================
# ‚öôÔ∏è 0. carregamento dos preprocessador 
# =====================================================
temp = joblib.load(BASE /'src'/'preprocess_Titanic_v1.0.joblib')
PP2=temp['preprocessador']

# # =====================================================
# # üìÅ 1. Leitura dos dados & Separa√ß√£o das bases
# # =====================================================

DATA_DIR = BASE / "data" / "processed"
X_train = pd.read_csv(DATA_DIR / "X_train_final.csv").reset_index(drop=True)
X_test  = pd.read_csv(DATA_DIR / "X_test_final.csv")
y_train = pd.read_csv(DATA_DIR / "y_train_final.csv").values.ravel()
y_test  = pd.read_csv(DATA_DIR / "y_test_final.csv")

In [3]:
# # =====================================================
# #  ü§ñ 3.Defini√ß√£o dos Modelos Base
# # =====================================================
model_RF = RandomForestClassifier()
pipe_RF       = pipe_models(model_RF,PP2)

#primeira busca
# 1. Defini√ß√£o do Espa√ßo de Busca (Grades de Par√¢metros)
param_dist = {
    'model__n_estimators': randint(100, 500),
    'model__max_depth': [None, 5, 8, 10, 15, 20],
    'model__min_samples_split': randint(2, 20),
    'model__min_samples_leaf': randint(1, 20),
    'model__max_features': ['sqrt', 'log2', None],
    'model__bootstrap': [True, False]
}

# 2. Configura√ß√£o do RandomSearch
# Usamos cv=5 ou 10 para otimizar tempo, e n_iter para definir quantas tentativas
random_search = RandomizedSearchCV(
    estimator=pipe_RF, 
    param_distributions=param_dist,
    n_iter=50,          # Testa 50 combina√ß√µes aleat√≥rias
    cv=10,              # Valida√ß√£o cruzada em cada tentativa
    scoring='accuracy', # M√©trica alvo
    n_jobs=-1,          # Usa todos os n√∫cleos do processador
    random_state=42,
    verbose=1
)

# 3. Execu√ß√£o da Busca
print("üîç Iniciando a busca pelos melhores hiperpar√¢metros...")
random_search.fit(X_train, y_train)

# 4. Resultados
print(f"\n‚úÖ Melhor Acur√°cia no CV: {random_search.best_score_*100:.2f}%")

print(f"üìå Melhores Par√¢metros: {random_search.best_params_}")

random_search.best_estimator_

üîç Iniciando a busca pelos melhores hiperpar√¢metros...
Fitting 10 folds for each of 50 candidates, totalling 500 fits

‚úÖ Melhor Acur√°cia no CV: 83.64%
üìå Melhores Par√¢metros: {'model__bootstrap': True, 'model__max_depth': 20, 'model__max_features': 'log2', 'model__min_samples_leaf': 3, 'model__min_samples_split': 8, 'model__n_estimators': 351}


In [5]:
# # =====================================================
# #  ü§ñ 3.Defini√ß√£o dos Modelos Base
# # =====================================================
from scipy.stats import randint, uniform
model_RF = RandomForestClassifier()
pipe_RF       = pipe_models(model_RF,PP2)

#primeira busca
# 1. Defini√ß√£o do Espa√ßo de Busca (Grades de Par√¢metros)
param_dist = {
    'model__n_estimators': randint(120, 300),          # Focado perto dos 144 que venceram
    'model__max_depth': [7, 8, 9, 10],                 # Refinando perto do 8
    'model__min_samples_split': randint(9, 15),        # Focado perto do 11
    'model__min_samples_leaf': [2, 3, 4],              # Refinando perto do 2
    'model__max_features': [None],                     # Venceu como None, vamos manter fixo ou testar 'sqrt'
    'model__criterion': ['gini', 'entropy'],           # Testando formas de medir a pureza
    'model__bootstrap': [True],                        # Mantendo True j√° que RF depende disso
    'model__ccp_alpha': uniform(0, 0.02)               # Adicionando complexidade de poda
}

# 2. Configura√ß√£o do RandomSearch
# Usamos cv=5 ou 10 para otimizar tempo, e n_iter para definir quantas tentativas
random_search = RandomizedSearchCV(
    estimator=pipe_RF, 
    param_distributions=param_dist,
    n_iter=250,          # Testa 100 combina√ß√µes aleat√≥rias
    cv=5,              # Valida√ß√£o cruzada em cada tentativa
    scoring='accuracy', # M√©trica alvo
    n_jobs=-1,          # Usa todos os n√∫cleos do processador
    random_state=42,
    verbose=1
)

# 3. Execu√ß√£o da Busca
print("üîç Iniciando a busca pelos melhores hiperpar√¢metros...")
random_search.fit(X_train, y_train)

# 4. Resultados
print(f"\n‚úÖ Melhor Acur√°cia no CV: {random_search.best_score_*100:.2f}%")
print(f"üìå Melhores Par√¢metros: {random_search.best_params_}")
random_search.best_estimator_

üîç Iniciando a busca pelos melhores hiperpar√¢metros...
Fitting 5 folds for each of 250 candidates, totalling 1250 fits

‚úÖ Melhor Acur√°cia no CV: 82.82%
üìå Melhores Par√¢metros: {'model__bootstrap': True, 'model__ccp_alpha': 0.01621106661563666, 'model__criterion': 'entropy', 'model__max_depth': 9, 'model__max_features': None, 'model__min_samples_leaf': 2, 'model__min_samples_split': 11, 'model__n_estimators': 204}
