# Otimização de hiperparâmetros com *sklearn*

In [None]:
# caso rode no google colab, para retirar do Drive o dataset
from google.colab import drive
drive.mount('/content/drive', force_remount=True)

Mounted at /content/drive


In [None]:
# importações do que precisaremos
from sklearn.model_selection import GridSearchCV, RandomizedSearchCV
from sklearn.metrics import accuracy_score
import pandas as pd
import numpy as np
import time
from sklearn.neural_network import MLPClassifier

In [None]:
# carregando o dataset
df = pd.read_csv("/content/drive/MyDrive/Colab Notebooks/DS - Trainee/Iris.csv")
df.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
# fazendo um Label encoding (algo a se pesquisar, caso esteja aprendendo Machine Learning e Data Science) na coluna target
three_cat = [0,1,2]

for col in df.columns:
  if len(df[col].unique()) == 3:
    df[col].replace(df[col].unique(), three_cat, inplace=True)

df['Species'].unique()

array([0, 1, 2])

In [None]:
# separando os dados em variáveis independentes (X) e variável alvo/target (y)
X = df.drop(["Id","Species"], axis=1)
y = df["Species"].copy()
X.head(3)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2


In [None]:
# os parametros que serao passados para os métodos de busca
params_mlp = {'max_iter': [2000, 2500],
              'activation':('tanh','relu'),
              'solver':('lbfgs', 'adam'),
              'learning_rate':('constant', 'invscaling')}

## *Grid Search*

In [None]:
mlp_GS = MLPClassifier() # instancia o MLP
mlp_GS = GridSearchCV(mlp_GS, params_mlp) # instancia o GridSearch, passando o modelo e o conjunto de parametros
start = time.time()
mlp_GS.fit(X, y) # roda o GridSearch
end = time.time()
print(f"tempo de execução (em segs): {end - start}")

tempo de execução (em segs): 38.13947296142578


In [None]:
print(f"Melhor acuracia no MLP GridSearch - {mlp_GS.best_score_*100}%")
print(f"Melhores parametros no MLP GridSearch - {mlp_GS.best_params_}")

Melhor acuracia no MLP GridSearch - 98.00000000000001%
Melhores parametros no MLP GridSearch - {'activation': 'tanh', 'learning_rate': 'constant', 'max_iter': 2000, 'solver': 'adam'}


In [None]:
print(f"Média do tempo de execução do GridSearch: {np.mean(mlp_GS.cv_results_['mean_fit_time'])}, \nMédia da acuracia do GridSearch: {np.mean(mlp_GS.cv_results_['mean_test_score'])}")

Média do tempo de execução do GridSearch: 0.4610674619674683, 
Média da acuracia do GridSearch: 0.9720833333333334


## *Randomized Search*

In [None]:
mlp_RS = MLPClassifier() # instancia o MLP
mlp_RS = RandomizedSearchCV(mlp_RS, params_mlp) # instancia o RandomizedSearch, passando o modelo e o mesmo conjunto de parametros
start = time.time()
mlp_RS.fit(X, y) # roda o RandomizedSearch
end = time.time()
print(f"tempo de execução (em segs): {end - start}")

tempo de execução (em segs): 21.131561994552612


In [None]:
print(f"Melhor acuraria no MLP RandomizedSearch - {mlp_RS.best_score_*100}%")
print(f"Melhores parametros no MLP RandomizedSearch - {mlp_RS.best_params_}")

Melhor acuraria no MLP RandomizedSearch - 98.00000000000001%
Melhores parametros no MLP RandomizedSearch - {'solver': 'lbfgs', 'max_iter': 2500, 'learning_rate': 'invscaling', 'activation': 'tanh'}


In [None]:
print(f"Média do tempo de execução no RandomizedSearch: {np.mean(mlp_RS.cv_results_['mean_fit_time'])}, \nMédia da acuracia no RandomizedSearch: {np.mean(mlp_RS.cv_results_['mean_test_score'])}")

Média do tempo de execução no RandomizedSearch: 0.4082957315444946, 
Média da acuracia no RandomizedSearch: 0.9733333333333333


## Documentação e links úteis



*   [Método RandomizedSearchCV() - docs sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html)
*   [Método GridSearchCV() - docs sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html)
*   [Artigo com breve introdução aos métodos](https://medium.com/@peterworcester_29377/a-comparison-of-grid-search-and-randomized-search-using-scikit-learn-29823179bc85)