<a href="https://colab.research.google.com/github/tvaditya/intro_ds_and_ml/blob/main/%5BML17%5D_Grid_Search.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Grid Search

O Grid Search é uma técnica de otimização de hyper-parâmetros que nos ajuda a encontrar os melhores parâmetros para o nosso modelo.

<center><img src="https://blogs.sas.com/content/subconsciousmusings/files/2016/09/patricks-hyperparameter-grid-search.png" width="60%"></center>


Basicamente, ele testa diferentes combinações de parâmetros, retendo os melhores resultados para cada um deles, retornando a melhor combinação possível de parâmetros para aquele conjunto de dados específico.

Essa é uma forma muito direta e eficiente de melhorar os resultados dos nossos modelos.



In [None]:
# importar os pacotes necessários
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
import numpy as np

# garantir replicabilidade
np.random.seed(42)

# importar o arquivo
df = pd.read_csv("http://dl.dropboxusercontent.com/s/6d91j46mkcdj4qv/heart-disease-clean.csv?dl=1")

In [None]:
# 1. escolher e importar um modelo
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# 2. Instanciar e escolher os hyperparameters
model = LogisticRegression()

# 3. Separar os dados entre feature matrix e target vector 
X = df.drop('num', axis=1)
y = df['num']

# 3.1 Dividir o dataset entre treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y)

# 3.2 Padronizar os dados de treino
scaler = StandardScaler().fit(X_train)
X_train_transformed = scaler.transform(X_train)

# 4. Grid Search
parameters = {
    'C': [0.001,0.01,0.1,1,10,100,1000],
    }

clf = GridSearchCV(model, parameters)
clf.fit(X_train_transformed, y_train)

GridSearchCV(cv=None, error_score=nan,
             estimator=LogisticRegression(C=1.0, class_weight=None, dual=False,
                                          fit_intercept=True,
                                          intercept_scaling=1, l1_ratio=None,
                                          max_iter=100, multi_class='auto',
                                          n_jobs=None, penalty='l2',
                                          random_state=None, solver='lbfgs',
                                          tol=0.0001, verbose=0,
                                          warm_start=False),
             iid='deprecated', n_jobs=None,
             param_grid={'C': [0.001, 0.01, 0.1, 1, 10, 100, 1000]},
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,
             scoring=None, verbose=0)

In [None]:
# ver melhor parâmetro
print(clf.best_params_)

{'C': 1}


In [None]:
print("Melhor: {} usando {}".format(clf.best_score_, clf.best_params_))

Melhor: 0.8371014492753623 usando {'C': 1}


In [None]:
# ver todos parâmetros testados
means = clf.cv_results_['mean_test_score']
stds = clf.cv_results_['std_test_score']

for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))

0.692 (+/-0.061) for {'C': 0.001}
0.833 (+/-0.036) for {'C': 0.01}
0.828 (+/-0.034) for {'C': 0.1}
0.837 (+/-0.043) for {'C': 1}
0.824 (+/-0.026) for {'C': 10}
0.819 (+/-0.015) for {'C': 100}
0.819 (+/-0.015) for {'C': 1000}


In [None]:
# resultados armazenados
clf.cv_results_

{'mean_fit_time': array([0.00299916, 0.00281725, 0.00301232, 0.00349321, 0.00349994,
        0.0034595 , 0.00355053]),
 'mean_score_time': array([0.00042896, 0.00039682, 0.00040989, 0.00041175, 0.00039253,
        0.00039449, 0.00040197]),
 'mean_test_score': array([0.69169082, 0.83256039, 0.82811594, 0.83710145, 0.82386473,
        0.81942029, 0.81942029]),
 'param_C': masked_array(data=[0.001, 0.01, 0.1, 1, 10, 100, 1000],
              mask=[False, False, False, False, False, False, False],
        fill_value='?',
             dtype=object),
 'params': [{'C': 0.001},
  {'C': 0.01},
  {'C': 0.1},
  {'C': 1},
  {'C': 10},
  {'C': 100},
  {'C': 1000}],
 'rank_test_score': array([7, 2, 3, 1, 4, 5, 5], dtype=int32),
 'split0_test_score': array([0.7173913 , 0.84782609, 0.84782609, 0.80434783, 0.80434783,
        0.80434783, 0.80434783]),
 'split1_test_score': array([0.65217391, 0.82608696, 0.82608696, 0.84782609, 0.82608696,
        0.82608696, 0.82608696]),
 'split2_test_score': array([0