# Como temos feito até o momento

In [None]:
# Passo 1: Import de Bibliotecas
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.ensemble import RandomForestClassifier

In [None]:
# Passo 2: Importando o Dataset Iris
X, y = load_iris(as_frame=True, return_X_y=True)

In [None]:
# Passo 3: Divisão entre Treino e Teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

In [None]:
# Passo 4: Criação do modelo e treinamento
rf = RandomForestClassifier(n_estimators=100, random_state=42).fit(X_train, y_train)

In [None]:
# Passo 5: Resultados
rf.score(X_test, y_test)

0.9777777777777777

# Agora com Validação Cruzada

In [None]:
# Passo 6: Importando Bibliotecas
from sklearn.model_selection import cross_val_score

In [None]:
# Passo 7: Aplicando a função cross_val_score
rf = RandomForestClassifier(n_estimators=100, random_state=42).fit(X_train, y_train)
scores = cross_val_score(rf, X_train, y_train, cv=5)

In [None]:
# Passo 8: Obtendo as avaliações
scores

array([0.85714286, 1.        , 1.        , 0.9047619 , 0.95238095])

In [None]:
# Passo 9: Média e Devio Padrão
print(f'{scores.mean():0.2f} acurácia com um desvio padrão de {scores.std():0.2f}')

0.94 acurácia com um desvio padrão de 0.06


**Multiplas Métricas**

Para avaliar um modelo usando múltiplas métricas com cross_val_score, você precisa utilizar cross_validate em vez de cross_val_score.

A função cross_validate permite passar uma lista de métricas no parâmetro scoring, além de retornar os resultados para cada métrica especificada.

In [None]:
# Passo 10: Importando novas Bibliotecas
from sklearn.model_selection import cross_validate
from sklearn.model_selection import StratifiedKFold

In [None]:
# Passo 11: Definindo outras métricas
scoring = ['precision_macro', 'recall_macro', 'accuracy']
skf = StratifiedKFold(n_splits=5)
scores = cross_validate(rf, X_train, y_train, scoring=scoring, cv=skf)

In [None]:
# Passo 12: Imprimindo resultados
scores

{'fit_time': array([0.25945616, 0.26245141, 0.25837207, 0.26324797, 0.25227904]),
 'score_time': array([0.02922916, 0.02804065, 0.02498055, 0.02589655, 0.02929592]),
 'test_precision_macro': array([0.9       , 1.        , 1.        , 0.90277778, 0.96296296]),
 'test_recall_macro': array([0.875     , 1.        , 1.        , 0.90277778, 0.94444444]),
 'test_accuracy': array([0.85714286, 1.        , 1.        , 0.9047619 , 0.95238095])}

# Cross-validation + search para tuning de hiperparâmetros

In [None]:
# Passo 13: Importando KFold
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV

In [None]:
# Passo 14: Instanciando KFold e GridSearchCV

# Grade de parâmetros para busca
param_grid = {
    'n_estimators': [100, 120, 130],          # Número de árvores
    'max_depth': [None, 10, 20, 30],          # Profundidade máxima da árvore
    'min_samples_split': [2, 5, 10],          # Número mínimo de amostras para dividir um nó
    'min_samples_leaf': [1, 2, 4],            # Número mínimo de amostras em uma folha
    'criterion': ['gini', 'entropy']          # Critério para medir a qualidade da divisão
}

# Configuração do GridSearchCV
grid_search = GridSearchCV(estimator=rf, param_grid=param_grid, scoring='f1_macro', cv=5)

# Executando o ajuste com a busca dos melhores parâmetros
grid_search.fit(X, y)

# Obter as melhores configurações
best_params = grid_search.best_params_

In [None]:
# Passo 15: Exibindo os melhores parâmetros encontrados
print("Melhores parâmetros:", grid_search.best_params_)
print("Melhor f1_macro:", grid_search.best_score_)

Melhores parâmetros: {'criterion': 'gini', 'max_depth': None, 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
Melhor f1_macro: 0.9664818612187034
