# Hands-On de Sintonia de Hiperparâmetros
---

Vamos trabalhar com a otimização de hiperparâmetros de modelos de aprendizado de maquina utilizando a base de dados diabetes.csv que pode ser encontrada no OpenML.
Além disso, vamos usar dois modelos de classificação:
* Support Vector Machine. (SVM)
* Random Forest.

Será dividido em duas etapas, primeira vamos treinar e testar os modelos de classificação (lembrando que o método apresentado aqui é equivalente para regressão e clusterização). Na segunda, vamos aplicar cross validation para o processo de validação dos modelos e, em conjunto, vamos usar os métodos de grid search e random search para otimização.

## Importando bibliotecas

In [2]:
#Importando as bibliotecas mais usadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [3]:
#Agora vamos importar o nosso dataframe.
df = pd.read_csv(r'C:\Users\Ademir\Desktop\BootCamp IGTI\ML\Módulo 3 - Seleção de Modelos de ML\dataset_37_diabetes.csv')

In [4]:
#Checando
df.head()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,tested_positive
1,1,85,66,29,0,26.6,0.351,31,tested_negative
2,8,183,64,0,0,23.3,0.672,32,tested_positive
3,1,89,66,23,94,28.1,0.167,21,tested_negative
4,0,137,40,35,168,43.1,2.288,33,tested_positive


*   preg: number of times pregnant
*   plas: Plasma glucose concentration a 2 hours in an oral glucose tolerance test
*   pres: Diastolic blood pressure (mm Hg)
*   skin: Triceps skin fold thickness (mm)
*   insu: 2-Hour serum insulin (mu U/ml)
*   mass: Body mass index (weight in kg/(height in m)^2)
*   pedi: Diabetes pedigree function
*   age: Age (years)
*   class: Class variable (tested_positive or tested_negative)

In [5]:
#Agora fazendo uma análise rápida dos nossos dados
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   preg    768 non-null    int64  
 1   plas    768 non-null    int64  
 2   pres    768 non-null    int64  
 3   skin    768 non-null    int64  
 4   insu    768 non-null    int64  
 5   mass    768 non-null    float64
 6   pedi    768 non-null    float64
 7   age     768 non-null    int64  
 8   class   768 non-null    object 
dtypes: float64(2), int64(6), object(1)
memory usage: 54.1+ KB


## Pré-processamento

In [6]:
#Vamos mapear nossa coluna 'class' do dataframe 
name_to_class ={
    'tested_positive': 1,
    'tested_negative': 0
}

df['class'] = df['class'].map(name_to_class)
df.head()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [7]:
#Agora vamos analisar os parâmetros das colunas
df.describe()

Unnamed: 0,preg,plas,pres,skin,insu,mass,pedi,age,class
count,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0,768.0
mean,3.845052,120.894531,69.105469,20.536458,79.799479,31.992578,0.471876,33.240885,0.348958
std,3.369578,31.972618,19.355807,15.952218,115.244002,7.88416,0.331329,11.760232,0.476951
min,0.0,0.0,0.0,0.0,0.0,0.0,0.078,21.0,0.0
25%,1.0,99.0,62.0,0.0,0.0,27.3,0.24375,24.0,0.0
50%,3.0,117.0,72.0,23.0,30.5,32.0,0.3725,29.0,0.0
75%,6.0,140.25,80.0,32.0,127.25,36.6,0.62625,41.0,1.0
max,17.0,199.0,122.0,99.0,846.0,67.1,2.42,81.0,1.0


    Como os modelos construidos com sklearn recebe arrays, vamos fazer a separação dos nossos dados e labels para realizar nosso treino.

In [8]:
#Armazenando nossos labels
labels_diab = np.array(df['class'])
feature_list = list(df.columns)

In [11]:
#Agora vamos pegar nossos dados
data_diab = df.drop('class', axis = 1)
data_diab = np.array(data_diab)

Agora vamos usar o método de validação Treino-Teste apenas porque utilizaremos o método de força bruta, e isso facilita nossa vida.

In [12]:
#Importando bibliotecas
from sklearn.model_selection import train_test_split

#Separando nossos dados e labels em treino e teste

xtrain, xtest, ytrain, ytest = train_test_split(data_diab, labels_diab,
                                               test_size = 0.25, random_state = 42)

## Support Vector Machine
---
Analisando o SVM

In [15]:
#Vamos importar e setar nosso modelo
from sklearn.svm import SVC

#Vamos fazer agora nosso set
classifier_svc1 = SVC(kernel='rbf').fit(xtrain, ytrain)

In [16]:
#Agora que setamos vamos realizar nossa previsão

pred_svm1 = classifier_svc.predict(xtest)

In [17]:
#Agora vamos analisar nossas métricas de classificação

from sklearn import metrics

print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_svm1))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_svm1))
print('\nF1: ', metrics.f1_score(ytest, pred_svm1))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_svm1))

Matriz de confusão:
 [[106  17]
 [ 35  34]]

Acurácia:  0.7291666666666666

F1:  0.5666666666666667

AUROC:  0.6772711205372923


In [19]:
#Vamos fazer com outro tipo de kernel
classifier_svm2 = SVC(kernel='sigmoid').fit(xtrain, ytrain)
pred_svm2 = classifier_svm2.predict(xtest)

In [20]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_svm2))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_svm2))
print('\nF1: ', metrics.f1_score(ytest, pred_svm2))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_svm2))

Matriz de confusão:
 [[94 29]
 [57 12]]

Acurácia:  0.5520833333333334

F1:  0.21818181818181817

AUROC:  0.46907034287734173


Como é visível **PIOROU BASTANTE**.
O que fazemos então? voltamos para o rbf

In [21]:
#Agora vamos testar com o rbf e gamma
classifier_svm3 = SVC(kernel = 'rbf', gamma = 'auto').fit(xtrain, ytrain)
pred_svm3 = classifier_svm3.predict(xtest)

In [22]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_svm3))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_svm3))
print('\nF1: ', metrics.f1_score(ytest, pred_svm3))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_svm3))

Matriz de confusão:
 [[123   0]
 [ 69   0]]

Acurácia:  0.640625

F1:  0.0

AUROC:  0.5


Nossos dados ficaram horríveis e ainda por cima, enviesamos nosso classificador para predizer apenas um dado, o que é horrível.

In [23]:
#Nossa ultima análise
classifier_svm4 = SVC(C = 0.1, kernel = 'rbf', gamma = 0.0001).fit(xtrain, ytrain)
pred_svm4 = classifier_svm4.predict(xtest)

In [24]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_svm4))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_svm4))
print('\nF1: ', metrics.f1_score(ytest, pred_svm4))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_svm4))

Matriz de confusão:
 [[112  11]
 [ 43  26]]

Acurácia:  0.71875

F1:  0.49056603773584906

AUROC:  0.6436903499469776


Melhorou comparada ao anterior, mas ao primeiro de todos, ainda está ruim.

**CONCLUSÃO**: podemos ficar aqui o dia todo testando combinações, setando e rodando e não sairíamos daqui, pois é um trabalho braçal e muito lento.

**COMO SERIA NO RANDOM FOREST?**

## Random Forest
---

In [25]:
#Importanfo as bibliotecas
from sklearn.ensemble import RandomForestClassifier

#treinando 
classifier_florest1 = RandomForestClassifier(n_estimators=10, random_state=42).fit(xtrain, ytrain)

#Aplicando previsão
pred_florest1 = classifier_florest1.predict(xtest)

In [26]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_florest1))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_florest1))
print('\nF1: ', metrics.f1_score(ytest, pred_florest1))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_florest1))

Matriz de confusão:
 [[97 26]
 [24 45]]

Acurácia:  0.7395833333333334

F1:  0.6428571428571428

AUROC:  0.72039589961117


In [27]:
#Testando outro seed do problema para ver a diferença
#treinando 
classifier_florest2 = RandomForestClassifier(n_estimators=10, random_state=100).fit(xtrain, ytrain)

#Aplicando previsão
pred_florest2 = classifier_florest2.predict(xtest)

In [28]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_florest2))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_florest2))
print('\nF1: ', metrics.f1_score(ytest, pred_florest2))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_florest2))

Matriz de confusão:
 [[104  19]
 [ 32  37]]

Acurácia:  0.734375

F1:  0.5920000000000001

AUROC:  0.690880169671262


In [29]:
#Treinando com mais estimadores

#treinando 
classifier_florest3 = RandomForestClassifier(n_estimators=100, random_state=42).fit(xtrain, ytrain)

#Aplicando previsão
pred_florest3 = classifier_florest3.predict(xtest)

In [30]:
#Avaliando
print('Matriz de confusão:\n', metrics.confusion_matrix(ytest, pred_florest3))
print('\nAcurácia: ', metrics.accuracy_score(ytest, pred_florest3))
print('\nF1: ', metrics.f1_score(ytest, pred_florest3))
print('\nAUROC: ', metrics.roc_auc_score(ytest, pred_florest3))

Matriz de confusão:
 [[96 27]
 [24 45]]

Acurácia:  0.734375

F1:  0.6382978723404256

AUROC:  0.7163308589607635


Poderiamos até aplicar o bootstrap = false, porém, na prática isso até pioraria o modelo.
**CONCLUSÃO**: É inviável totalmente aplicar sistematicamente o processo de sintonia de hiperparâmetros manualmente.
Vamos buscar formas diferentes de fazer isso, logo, vamos trabalhar com duas formas de fazer isso:
* GRID SEARCH
* RANDOM SEARCH

Aplicando com a validação cruzada, tudo implementado de forma em conjunto para utilizar menos código e mais tempo para avaliação.

## GRID SEARCH
---
Utilizando o GRID Search com kfold estratificado e o SVM

In [31]:
#Importanto o necessário para trabalharmos
from sklearn.model_selection import StratifiedKFold, GridSearchCV

In [33]:
#Agora vamos realizar todo o desenvolvimento de código para aplicar o grid

hiperparam_dic = {'kernel': ('sigmoid', 'rbf'), 'C':[0.01, 1, 10]}
#este dicionário é para informar a função do grid quais os parâmetros utilizar

cv_strat = StratifiedKFold(n_splits=10)

classifier_svc = SVC() #apenas instânciando

f1 = metrics.make_scorer(metrics.f1_score) #Definindo uma estratégia de score a partir de uma métrica

#Instânciando nosso modelo de grid com os hiperparâmetros e a validação
grid_cv = GridSearchCV(classifier_svc, hiperparam_dic, cv= cv_strat, scoring=f1)
grid_cv.fit(data_diab, labels_diab) #treinando os modelos

GridSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
             error_score=nan,
             estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                           class_weight=None, coef0=0.0,
                           decision_function_shape='ovr', degree=3,
                           gamma='scale', kernel='rbf', max_iter=-1,
                           probability=False, random_state=None, shrinking=True,
                           tol=0.001, verbose=False),
             iid='deprecated', n_jobs=None,
             param_grid={'C': [0.01, 1, 10], 'kernel': ('sigmoid', 'rbf')},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=make_scorer(f1_score), verbose=0)

In [34]:
#Agora, depois do treino e validação, vamos verificar as repostas
print('Resumo de todos os resultado: \n\n', grid_cv.cv_results_)

Resumo de todos os resultado: 

 {'mean_fit_time': array([0.01253459, 0.00937467, 0.00977321, 0.00837734, 0.00907538,
       0.00927827]), 'std_fit_time': array([0.00537225, 0.00091407, 0.00039891, 0.00048879, 0.00029922,
       0.00063674]), 'mean_score_time': array([0.0017957 , 0.00129683, 0.00159609, 0.0013967 , 0.00169573,
       0.00149648]), 'std_score_time': array([0.00039908, 0.00045691, 0.00048867, 0.00048858, 0.00045691,
       0.00049889]), 'param_C': masked_array(data=[0.01, 0.01, 1, 1, 10, 10],
             mask=[False, False, False, False, False, False],
       fill_value='?',
            dtype=object), 'param_kernel': masked_array(data=['sigmoid', 'rbf', 'sigmoid', 'rbf', 'sigmoid', 'rbf'],
             mask=[False, False, False, False, False, False],
       fill_value='?',
            dtype=object), 'params': [{'C': 0.01, 'kernel': 'sigmoid'}, {'C': 0.01, 'kernel': 'rbf'}, {'C': 1, 'kernel': 'sigmoid'}, {'C': 1, 'kernel': 'rbf'}, {'C': 10, 'kernel': 'sigmoid'}, {'C': 10

FICA UMA PARADA MUITO FEIA DE OLHAR ASSIM, E MUITO CONFUSO, VAMOS OLHAR APENAS PARA O MELHOR RESULTADO

In [35]:
#Olhando o melhor resultado
print('Melhor resultado f1:', grid_cv.best_score_)
print('\nMelhor configuração de hiperparâmetros: ', grid_cv.best_params_)
print('\nConfiguração de todos os hiperparâmetros do melhor estimador encontrado:\n',
     grid_cv.best_estimator_)

Melhor resultado f1: 0.6086487385278134

Melhor configuração de hiperparâmetros:  {'C': 10, 'kernel': 'rbf'}

Configuração de todos os hiperparâmetros do melhor estimador encontrado:
 SVC(C=10, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='rbf',
    max_iter=-1, probability=False, random_state=None, shrinking=True,
    tol=0.001, verbose=False)


### APLICANDO NO RANDOM FOREST

In [36]:
#Há diversas formas de realizar esse tipo, e a aplicação computacional é extremamente pesada
#Pois o random forest já é pesado na execução dependendo dos n_estimators
#Vamos fazer apenas mais simples

classifier_florest = RandomForestClassifier()
hiperparam_dic1 = {'n_estimators':[10, 100, 1000], 'bootstrap': (True, False)}

#Instânciando
grid_cv1 = GridSearchCV(classifier_florest, hiperparam_dic1, cv = cv_strat, scoring=f1)
grid_cv1.fit(data_diab, labels_diab)

GridSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
             error_score=nan,
             estimator=RandomForestClassifier(bootstrap=True, ccp_alpha=0.0,
                                              class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features='auto',
                                              max_leaf_nodes=None,
                                              max_samples=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              n_estimators=100, n_jobs=None,
                                        

In [37]:
#Agora vamos ver o melhor modelo e como ele se comportou
#Olhando o melhor resultado
print('Melhor resultado f1:', grid_cv1.best_score_)
print('\nMelhor configuração de hiperparâmetros: ', grid_cv1.best_params_)
print('\nConfiguração de todos os hiperparâmetros do melhor estimador encontrado:\n',
     grid_cv1.best_estimator_)

Melhor resultado f1: 0.6443936932632583

Melhor configuração de hiperparâmetros:  {'bootstrap': True, 'n_estimators': 1000}

Configuração de todos os hiperparâmetros do melhor estimador encontrado:
 RandomForestClassifier(bootstrap=True, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=1000,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)


## RANDOM SEARCH
---
Agora vamos analisar como o random search se comporta, sendo muito melhor e mais aplicável que o grid search, pelo custo computacional em alguns casos (mas não é sempre, deve-se avaliar).

In [38]:
#Importando as bibliotecas necessárias
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform

In [39]:
#Criando e definindo a instânciação
distributions = dict(kernel = ['sigmoid', 'rbf'], 
                    C = uniform(loc=0, scale =10)) #Definindo uma distribuição uniforme de 0 a 10
random_cv = RandomizedSearchCV(classifier_svc, distributions, cv = cv_strat, scoring=f1, random_state=42, n_iter=10)
random_cv.fit(data_diab, labels_diab)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=SVC(C=1.0, break_ties=False, cache_size=200,
                                 class_weight=None, coef0=0.0,
                                 decision_function_shape='ovr', degree=3,
                                 gamma='scale', kernel='rbf', max_iter=-1,
                                 probability=False, random_state=None,
                                 shrinking=True, tol=0.001, verbose=False),
                   iid='deprecated', n_iter=10, n_jobs=None,
                   param_distributions={'C': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001AB9D1D4688>,
                                        'kernel': ['sigmoid', 'rbf']},
                   pre_dispatch='2*n_jobs', random_state=42, refit=True,
                   return_train_score=False, scoring=make_scorer(f1_score),
                   verbose=0)

In [40]:
#Olhando o melhor resultado
print('Melhor resultado f1:', random_cv.best_score_)
print('\nMelhor configuração de hiperparâmetros: ', random_cv.best_params_)
print('\nConfiguração de todos os hiperparâmetros do melhor estimador encontrado:\n',
     random_cv.best_estimator_)

Melhor resultado f1: 0.6065838014605637

Melhor configuração de hiperparâmetros:  {'C': 8.324426408004218, 'kernel': 'rbf'}

Configuração de todos os hiperparâmetros do melhor estimador encontrado:
 SVC(C=8.324426408004218, break_ties=False, cache_size=200, class_weight=None,
    coef0=0.0, decision_function_shape='ovr', degree=3, gamma='scale',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)


In [42]:
#Fazendo para o random forest
from scipy.stats import randint #para criar distribuição inteira aleatória

In [None]:
#Definindo e instanciando

distributions1 = dict(n_estimators = randint(10, 100),
                    bootstrap = [True, False],
                    criterion = ['gini', 'entropy'])

classifier_florest = RandomForestClassifier(random_state=42)

random_cv1 = RandomizedSearchCV(classifier_florest, distributions1, cv =cv_strat,
                               scoring=f1, random_state=42, n

In [43]:
#Definindo e instanciando

distributions1 = dict(n_estimators = randint(10, 100),
                    bootstrap = [True, False],
                    criterion = ['gini', 'entropy'])

classifier_florest = RandomForestClassifier(random_state=42)

random_cv1 = RandomizedSearchCV(classifier_florest, distributions1, cv =cv_strat,
                               scoring=f1, random_state=42, n_iter=10)
random_cv1.fit(data_diab, labels_diab)

RandomizedSearchCV(cv=StratifiedKFold(n_splits=10, random_state=None, shuffle=False),
                   error_score=nan,
                   estimator=RandomForestClassifier(bootstrap=True,
                                                    ccp_alpha=0.0,
                                                    class_weight=None,
                                                    criterion='gini',
                                                    max_depth=None,
                                                    max_features='auto',
                                                    max_leaf_nodes=None,
                                                    max_samples=None,
                                                    min_impurity_decrease=0.0,
                                                    min_impurity_split=None,
                                                    min_samples_leaf=1,
                                                    min_samples_s...
                     

In [44]:
#Olhando o melhor resultado
print('Melhor resultado f1:', random_cv1.best_score_)
print('\nMelhor configuração de hiperparâmetros: ', random_cv1.best_params_)
print('\nConfiguração de todos os hiperparâmetros do melhor estimador encontrado:\n',
     random_cv1.best_estimator_)

Melhor resultado f1: 0.6336649387264222

Melhor configuração de hiperparâmetros:  {'bootstrap': False, 'criterion': 'gini', 'n_estimators': 42}

Configuração de todos os hiperparâmetros do melhor estimador encontrado:
 RandomForestClassifier(bootstrap=False, ccp_alpha=0.0, class_weight=None,
                       criterion='gini', max_depth=None, max_features='auto',
                       max_leaf_nodes=None, max_samples=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=42,
                       n_jobs=None, oob_score=False, random_state=42, verbose=0,
                       warm_start=False)


Nosso random search foi muito mais rápido, demorando pouco tempo e realizando até mesmo mais iterações que o próprio grid search e devolvendo um melhor resultado que o mesmo.