# Tuning dos parametros com GridSearch

In [62]:
# para fazer pesquisa em grade em combinar os parametros CV(Cross-validation) e importacao dos algoritmos a ser trabalhados
from sklearn.model_selection import GridSearchCV 
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier
import pickle

In [63]:
with open('Credito.pkl', 'rb') as f: #Carregamento dos dados
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pickle.load(f)

In [64]:
X_credit_treinamento.shape, y_credit_treinamento.shape

((1500, 3), (1500,))

In [65]:
X_credit_teste.shape, y_credit_teste.shape

((500, 3), (500,))

In [66]:
#Criacao da variavel para concatenacao dos dados previsores
import numpy as np
X_concatenado = np.concatenate((X_credit_treinamento, X_credit_teste), axis=0) # 0 para concatenar linhas

In [67]:
X_concatenado.shape

(2000, 3)

In [68]:
X_concatenado

array([[-1.3754462 ,  0.50631087,  0.10980934],
       [ 1.45826409, -1.6489393 , -1.21501497],
       [-0.79356829,  0.22531191, -0.43370226],
       ...,
       [ 1.37445674, -1.05746281, -1.12564819],
       [-1.57087737, -0.63488173, -0.36981671],
       [-1.03572293, -0.93978122,  0.04244312]])

In [69]:
Y_concatenado = np.concatenate((y_credit_treinamento, y_credit_teste), axis=0)

In [70]:
Y_concatenado.shape

(2000,)

In [71]:
Y_concatenado

array([0, 0, 0, ..., 0, 1, 1], dtype=int64)

# Tuning de parametros com Arvores de decisao

In [72]:
# Definicao de parametros e algoritmos a serem aplicados 
parametros = {'criterion': ['gini', 'entropy'],
             'splitter': ['best', 'random'],
             'min_samples_split': [2, 6, 10],
             'min_samples_leaf': [1, 5, 10]}

In [73]:
# Combinar os algoritmos
Grid_search = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=parametros)
Grid_search.fit(X_concatenado, Y_concatenado) # treinamento dos dados concatenados
melhores_parametros = Grid_search.best_params_ # Verificacao dos melhores parametros
melhor_resultado = Grid_search.best_score_ # verificacao do melhor resultado
print(melhores_parametros)
print(melhor_resultado)

{'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 6, 'splitter': 'best'}
0.9835


# Tuning de parametros com RandomForest

In [74]:
# Definicao de parametros e algoritmos a serem aplicados 
parametros = {'criterion': ['gini', 'entropy'], # Algoritmos aplicados
             'n_estimators': [10, 40, 100, 150], # Indicacao de numero de arvore
             'min_samples_split': [2, 6, 10], # Metricas a serem selecionados pelas combinacoes dos algoritmos
             'min_samples_leaf': [1, 5, 10]} # Metricas a serem selecionados pelas combinacoes dos algoritmos

In [75]:
# Combinar os algoritmos
Random_search = GridSearchCV(estimator = RandomForestClassifier(), param_grid=parametros)
Random_search.fit(X_concatenado, Y_concatenado) # treinamento dos dados concatenados
Melhores_parametros = Random_search.best_params_ # Verificacao dos melhores parametros
Melhor_resultado = Random_search.best_score_ # verificacao do melhor resultado
print(Melhores_parametros)
print(Melhor_resultado)

{'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
0.9865


# Tuning de parametros com KNN

In [76]:
# Combinar os algoritmos
parametros = {'n_neighbors': [3, 5, 10, 20], 'p': [1, 2]}
KNN_search = GridSearchCV(estimator = KNeighborsClassifier(), param_grid=parametros)
KNN_search.fit(X_concatenado, Y_concatenado) # treinamento dos dados concatenados
K_melhores_parametros = KNN_search.best_params_ # Verificacao dos melhores parametros
K_melhor_resultado = KNN_search.best_score_ # verificacao do melhor resultado
print(K_melhores_parametros)
print(K_melhor_resultado)

{'n_neighbors': 20, 'p': 1}
0.9800000000000001


# Tuning de parametros com LogisticRegression

In [77]:
# Combinar os algoritmos
parametros = {'tol': [0.00100, 0.0000001, 0.200003], 'solver': ['lbfgs', 'sag', 'saga'], 'C': [1.0, 1.5, 2.0]}
Linear_search = GridSearchCV(estimator = LogisticRegression(), param_grid=parametros)
Linear_search.fit(X_concatenado, Y_concatenado) # treinamento dos dados concatenados
Linear_melhores_parametros = Linear_search.best_params_ # Verificacao dos melhores parametros
Linear_melhor_resultado = Linear_search.best_score_ # verificacao do melhor resultado
print(Linear_melhores_parametros)
print(Linear_melhor_resultado)

{'C': 1.0, 'solver': 'lbfgs', 'tol': 0.001}
0.9484999999999999


# Tuning de parametros com SVM

In [78]:
parametros = {'tol': [0.001, 0.00003, 0.0000000001], 'kernel': ['rbf', 'sigmoid', 'linear', 'poly'],
              'C': [1.0, 2.0, 5.0]}

SVM_grid_search = GridSearchCV(estimator = SVC(), param_grid = parametros)
SVM_grid_search.fit(X_concatenado, Y_concatenado)
Bom_parametro = SVM_grid_search.best_params_
Bom_resultado = SVM_grid_search.best_score_
print(Bom_parametro)
print(Bom_resultado)

{'C': 5.0, 'kernel': 'rbf', 'tol': 0.001}
0.9850000000000001


In [79]:
parametros = {'hidden_layer_sizes': [2,4, 10, 20, 100, 150], 'activation': ['relu', 'logistic', 'tahn'],
              'solver': ['adam', 'sgd'], 'batch_size': ['auto', 100, 200, 300]}

Rede_grid_search = GridSearchCV(estimator = MLPClassifier(), param_grid = parametros)
Rede_grid_search.fit(X_concatenado, Y_concatenado)
melhorRede_parametros = Rede_grid_search.best_params_
Bom_resultado_Rede = Rede_grid_search.best_score_



























240 fits failed out of a total of 720.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
240 fits failed with the following error:
Traceback (most recent call last):
  File "C:\Users\LeonelSilima\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 680, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\LeonelSilima\anaconda3\lib\site-packages\sklearn\neural_network\_multilayer_perceptron.py", line 752, in fit
    return self._fit(X, y, incremental=False)
  File "C:\Users\LeonelSilima\anaconda3\lib\site-packages\sklearn\neural_network\_multilayer_perceptron.py", line 384, in _fit
    self._validate_hyperparameters()
  File "C:\Users\LeonelSilima\anaconda3\lib\site-packages\sklearn\neur

In [80]:
print(melhorRede_parametros)
print(Bom_resultado_Rede)

{'activation': 'relu', 'batch_size': 100, 'hidden_layer_sizes': 150, 'solver': 'adam'}
0.9964999999999999


# VALIDACAO CRUZADA ( cross_validation)

In [81]:
from sklearn.model_selection import cross_val_score, KFold # Classes para validacao cruzada

# variaveis para cada algoritimo

In [82]:
resultados_arvore = [] # Arvore de decisao
resultados_random_forest =[]
resultados_knn =[]
resultados_logistica =[]
resultados_svm=[]
resultados_rede_neural =[]

In [83]:
# Numero de vezes a executar o algoritmo
for i in range(30):
    kfold = KFold(n_splits=10, shuffle=True, random_state=i)# 10 eh o numero de divisao da base de dados recomendado

#  cross_validation arvore de decisao

In [84]:
arvore = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=2, splitter = 'best') #ametros da arvore de decisao
scores = cross_val_score(arvore, X_concatenado, Y_concatenado, cv=kfold)
#print(scores) # Estatistica do resultado
#print(scores.mean) # A media dos resultados das 9 subdivisoes dos dados submetidos ao treinamento (1 foi reservado para o teste)
resultados_arvore.append(scores.mean())

#  cross_validation random_forest

In [85]:
random_forest = RandomForestClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, n_estimators=10) # Parametros da arvore de decisao
scores = cross_val_score(random_forest, X_concatenado, Y_concatenado, cv=kfold)
# print(scores) # Estatistica do resultado
# print(scores.mean) # A media dos resultados das 9 subdivisoes dos dados submetidos ao treinamento (1 foi reservado para o teste)
resultados_random_forest.append(scores.mean())

# cross_validation knn

In [86]:
KNN = KNeighborsClassifier() # Parametros da arvore de decisao
scores = cross_val_score(KNN, X_concatenado, Y_concatenado, cv=kfold)
resultados_knn.append(scores.mean())

# cross_validation_regressao_lostica

In [87]:
Regressao = LogisticRegression(tol = 0.00010,solver = 'lbfgs', C = 1.0 ) # Parametros da arvore de decisao
scores = cross_val_score(Regressao, X_concatenado, Y_concatenado, cv=kfold)
resultados_logistica.append(scores.mean())

# Cross_validation SVM

In [88]:
SVM = SVC(tol = 0.000010,kernel = 'rbf', C = 2.0 ) # Parametros aprovados no Tuning
scores = cross_val_score(SVM, X_concatenado, Y_concatenado, cv=kfold)
resultados_svm.append(scores.mean()) # Para verificar a media dos resultados dos 30 testes

# Cross_validation Neural Network

In [89]:
Rede_neural = MLPClassifier(hidden_layer_sizes = 50, activation = 'relu', batch_size = 100, solver = 'adam')
score = cross_val_score(Rede_neural, X_concatenado, Y_concatenado, cv = kfold)
resultados_rede_neural.append(scores.mean())



# Resultados dos algoritmos 

In [90]:
resultados_arvore

[0.9880000000000001]

In [91]:
resultados_random_forest

[0.9855]

In [92]:
resultados_knn

[0.9804999999999999]

In [93]:
resultados_svm

[0.9865]

In [94]:
resultados_logistica

[0.9465]

In [95]:
resultados_rede_neural

[0.9865]

# Variancia e desvio padrao dos algoritmos

In [96]:
# Criacao da lista dos resultados obtidos
import pandas as pd
Resultados = pd.DataFrame({'Arvore': resultados_arvore, 'Random': resultados_random_forest, 'KNN': resultados_knn,
                            'Logistica': resultados_logistica, 'SVM': resultados_svm, 'Rede_neural': resultados_rede_neural})

In [97]:
Resultados.describe()

Unnamed: 0,Arvore,Random,KNN,Logistica,SVM,Rede_neural
count,1.0,1.0,1.0,1.0,1.0,1.0
mean,0.988,0.9855,0.9805,0.9465,0.9865,0.9865
std,,,,,,
min,0.988,0.9855,0.9805,0.9465,0.9865,0.9865
25%,0.988,0.9855,0.9805,0.9465,0.9865,0.9865
50%,0.988,0.9855,0.9805,0.9465,0.9865,0.9865
75%,0.988,0.9855,0.9805,0.9465,0.9865,0.9865
max,0.988,0.9855,0.9805,0.9465,0.9865,0.9865


In [98]:
Resultados.mean()

Arvore         0.9880
Random         0.9855
KNN            0.9805
Logistica      0.9465
SVM            0.9865
Rede_neural    0.9865
dtype: float64