#Tunagem de hyperparâmetros

In [7]:
import pandas as pd

In [8]:
penguins = pd.read_csv("C:\\Users\Dell\\Desktop\\IntroducaoML\\datasets\\penguins.csv")

In [9]:
penguins.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'sex', 'year'],
      dtype='object')

In [10]:
X_columns = ['bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g']

In [11]:
X = penguins[X_columns]
y = penguins['species']

In [12]:
from sklearn.model_selection import train_test_split

In [13]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=4)

In [14]:
from sklearn.ensemble import RandomForestClassifier #Podemos utilizar outros métodos de aprendizado de máquina aqui

In [15]:
model = RandomForestClassifier(n_estimators=1)

In [16]:
model.fit(X_train, y_train)

In [29]:
preds = model.predict(X_test)

#Gera um relatório detalhado das principais métricas de avaliação para modelos de classificação. 

#Após importar a função você pode utilizá-la para avaliar o desempenho do seu modelo comparando os rótulos reais (y_test) com as previsões do modelo (predicoes).

In [18]:
from sklearn.metrics import classification_report

In [19]:
print(classification_report(y_test, preds))

              precision    recall  f1-score   support

      Adelie       0.97      0.92      0.94        36
   Chinstrap       0.84      0.94      0.89        17
      Gentoo       1.00      1.00      1.00        16

    accuracy                           0.94        69
   macro avg       0.94      0.95      0.94        69
weighted avg       0.95      0.94      0.94        69



#Documentação de Hyperparâmetros do Randon Forest

#https://scikit-learn.org/1.6/modules/generated/sklearn.ensemble.RandomForestClassifier.html

#OBS: Lembrando que podemos utilizar qualquer modelo, logo, qualquer hyperparâmetros desses modelos

In [20]:
params = {
    'n_estimators': [1, 10, 100], #Refere-se ao número de árvores que serão construídas no quanto + maior a acurácia e maior tempo de trinemento.
    'max_depth': [3, 5, None], #Define a profundidade máxima das árvores no modelo. Valore baixos evitam overfitting, mas podem levar a underfitting.
    'min_samples_leaf': [1, 2, 4] #Número mínimo de amostras que devem estar em um nó folha.
}

#O GridSearchCV do sklearn é uma ferramenta poderosa para realizar a busca por combinações ideais de hiperparâmetros de um modelo de machine learning. Ele testa sistematicamente todas as combinações dos hiperparâmetros fornecidos e avalia o desempenho usando validação cruzada.

In [21]:
from sklearn.model_selection import GridSearchCV

#Os dados são divididos em 3 partes aproximadamente iguais.

#Em cada rodada, 2 partes são usadas para treinar o modelo, e a terceira é usada para avaliar.

#O processo é repetido 3 vezes, garantindo que cada parte dos dados seja usada como validação exatamente uma vez.

#estimator:Refere-se ao modelo de machine learning que você quer otimizar. 

#param_grid=params:É um dicionário que define os hiperparâmetros e seus possíveis valores para serem testados pelo GridSearchCV

#cv=3, significa que ele realizará validação cruzada com 3 folds.

In [22]:
gs = GridSearchCV(estimator=model, param_grid=params, cv=3)

#Treina os modelos

In [23]:
gs.fit(X_train, y_train)

#Representa o modelo que apresentou o melhor desempenho durante a busca pelos hiperparâmetros ideais.

In [24]:
gs.best_estimator_

#Armazenando o modelo que apresentou o melhor desempenho durante a busca de hiperparâmetros realizada pelo GridSearchCV. 

#Esse modelo, rf, já está treinado com os melhores parâmetros encontrados e pode ser utilizado diretamente para fazer previsões ou avaliações em novos dados.

In [25]:
rf = gs.best_estimator_

#Utilizando o modelo rf para prever os resultados com base nos dados de entrada X_test. 

#O método predict() aplica o modelo treinado aos dados fornecidos e retorna as previsões correspondentes.

In [28]:
predicoes = rf.predict(X_test)

#Gerando um relatório detalhado que avalia o desempenho do seu modelo de classificação.

In [None]:
print(classification_report(y_test, predicoes))

              precision    recall  f1-score   support

      Adelie       1.00      1.00      1.00        36
   Chinstrap       1.00      1.00      1.00        17
      Gentoo       1.00      1.00      1.00        16

    accuracy                           1.00        69
   macro avg       1.00      1.00      1.00        69
weighted avg       1.00      1.00      1.00        69

