# Utilizando GridSearch com o dataset Pima Indians Diabetes

In [1]:
# Forçando o Keras a utilizar a CPU
import os
os.environ["CUDA_DEVICE_ORDER"] = "PCI_BUS_ID"  
os.environ["CUDA_VISIBLE_DEVICES"] = ""

In [2]:
# Importa as libs
import tensorflow as tf
import numpy as np
import keras
from keras.models import Sequential
from keras.layers import Dense, Activation
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.model_selection import GridSearchCV

In [3]:
# Definindo o modelo
def criar_model():
    model = Sequential()
    model.add(Dense(input_dim = 8, units = 12, kernel_initializer = 'normal', activation = 'relu'))
    model.add(Dense(1, activation = 'sigmoid'))
    
    model.compile(loss = 'binary_crossentropy',
                  optimizer = 'adam',
                  metrics = ['accuracy'])
    
    return model    

In [4]:
# Carregando o datast 
dataset = np.loadtxt("data/pima-indians-diabetes.csv", delimiter=",")

In [5]:
# Separando os dados de treino e teste
x_train = dataset[:,:8]
y_train = dataset[:, 8]

# Shape dos dados de treino e teste
print("Dataset completo: ", dataset.shape)
print("X shape: ", x_train.shape)
print("Y shape: ", y_train.shape)

Dataset completo:  (768, 9)
X shape:  (768, 8)
Y shape:  (768,)


In [6]:
# Construindo o GridSearch
model = KerasClassifier(build_fn=criar_model, verbose = 0)

# Definindo os parâmetros para o GridSearch
batchs = [20, 40, 60, 80, 100]
epochs = [20, 50, 100]

# Cria o dicionário
param_grid = dict(batch_size = batchs, epochs = epochs)

In [7]:
# Definindo o GridSearch
grid = GridSearchCV(estimator = model, param_grid = param_grid)

# Executando o GridSearch
grid_result = grid.fit(x_train, y_train)

In [18]:
# Exibindo o melhor modelo
print("Melhor score %.3f" % (grid_result.best_score_))
print("Parâmetros utilizados {0}".format(grid_result.best_params_))

Melhor score 0.720
Parâmetros utilizados {'batch_size': 20, 'epochs': 100}


Utilizando 20 batchs e 100 epochs consegui atingir o melhor modelo com os parâmetros experimentados.

In [17]:
# Exibindo o resultado de todas as combinações
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']

for mean, stdev, param in zip(means, stds, params):
    print("Média: %.3f - Desvio padrão: %.3f - Parâmetros: %r" % (mean, stdev, param))

Média: 0.684 - Desvio padrão: 0.036 - Parâmetros: {'batch_size': 20, 'epochs': 20}
Média: 0.715 - Desvio padrão: 0.029 - Parâmetros: {'batch_size': 20, 'epochs': 50}
Média: 0.720 - Desvio padrão: 0.044 - Parâmetros: {'batch_size': 20, 'epochs': 100}
Média: 0.686 - Desvio padrão: 0.030 - Parâmetros: {'batch_size': 40, 'epochs': 20}
Média: 0.704 - Desvio padrão: 0.033 - Parâmetros: {'batch_size': 40, 'epochs': 50}
Média: 0.706 - Desvio padrão: 0.040 - Parâmetros: {'batch_size': 40, 'epochs': 100}
Média: 0.688 - Desvio padrão: 0.034 - Parâmetros: {'batch_size': 60, 'epochs': 20}
Média: 0.689 - Desvio padrão: 0.025 - Parâmetros: {'batch_size': 60, 'epochs': 50}
Média: 0.710 - Desvio padrão: 0.051 - Parâmetros: {'batch_size': 60, 'epochs': 100}
Média: 0.680 - Desvio padrão: 0.025 - Parâmetros: {'batch_size': 80, 'epochs': 20}
Média: 0.691 - Desvio padrão: 0.025 - Parâmetros: {'batch_size': 80, 'epochs': 50}
Média: 0.703 - Desvio padrão: 0.039 - Parâmetros: {'batch_size': 80, 'epochs': 100}
