In [None]:
import numpy as np

**Tuning dos parâmetros com GridSearch**

Inicialmente é feito o tuning dos parâmetros com a classe GridSearchCV para encontrar o melhor conjunto de parâmetros para obter os melhores resultados com o algoritmo. Algumas vezes é possível melhorar a acurácia do algoritmo de aprendizado de máquina modificando um ou mais parâmetros. Após aplicar o tuning, podemos aplicar os melhores parâmetros para a implementação do algoritmo.

**Preparação dos dados**

Ao invés de dividirmos a base de dados em dados de treinamento e dados de teste, podemos usar o conceito de validação cruzada. A validação cruzada particiona a base de dados em partes iguais e seleciona um conjunto como teste e outro para o treinamento. Em seguida, outros conjuntos são selecionados de modo a utilizar todos os dados no treinamento e no teste. Em geral, utiliza-se K = 10 (partes iguais)

In [None]:
#importando a classe responsável por fazer a validação cruzada, temos:
from sklearn.model_selection import GridSearchCV

In [None]:
#Importando todas as bibliotecas dos algoritmos de aprendizagem de máquina que utilizamos, temos:
from sklearn.tree import DecisionTreeClassifier #árvore de decisão
from sklearn.ensemble import RandomForestClassifier #florestas randômicas
from sklearn.neighbors import KNeighborsClassifier #algoritmo de KNN
from sklearn.linear_model import LogisticRegression #algoritmo de regressão logística
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

In [None]:
#importando a base de dados base credit
import pickle
with open('credit.pkl','rb') as f:
  x_credit_treinamento, y_credit_treinamento, x_credit_teste, y_credit_teste = pickle.load(f)

In [None]:
x_credit_treinamento.shape, y_credit_treinamento.shape

((1500, 3), (1500,))

In [None]:
x_credit_teste.shape, y_credit_teste.shape

((500, 3), (500,))

Na validação cruzada usamos toda a base de dados, sem a necessidade de dividir a base de dados em treinamento e teste.

In [None]:
#Podemos concatenar as duas bases de dados novamente. Para isso utilizamos a função np.concatenate((xtreino,xteste), axis = 0)
x_credit = np.concatenate((x_credit_treinamento,x_credit_teste),axis=0)
x_credit.shape

(2000, 3)

In [None]:
x_credit

array([[-1.3754462 ,  0.50631087,  0.10980934],
       [ 1.45826409, -1.6489393 , -1.21501497],
       [-0.79356829,  0.22531191, -0.43370226],
       ...,
       [ 1.37445674, -1.05746281, -1.12564819],
       [-1.57087737, -0.63488173, -0.36981671],
       [-1.03572293, -0.93978122,  0.04244312]])

In [None]:
#Agora concatenamos as classificações armazenadas nas variáveis y_credit_treinamento e y_credit_teste
y_credit = np.concatenate((y_credit_treinamento,y_credit_teste),axis=0)
y_credit.shape

(2000,)

In [None]:
y_credit

array([0, 0, 0, ..., 0, 1, 1])

**Árvore de decisão**

In [None]:
parametros = {'criterion':['gini','entropy'],'splitter':['best','random'],'min_samples_split':[1,2,3,4,5,6,7,8,9,10]
              ,'min_samples_leaf':[1,2,3,4,5,6,7,8,9,10,15,20]}

In [None]:
grid_search = GridSearchCV(estimator=DecisionTreeClassifier(),param_grid=parametros);
grid_search.fit(x_credit,y_credit);
melhores_parametros = grid_search.best_params_;
melhores_resultados = grid_search.best_score_;

In [None]:
print(melhores_parametros)
print(melhores_resultados)

{'criterion': 'entropy', 'min_samples_leaf': 3, 'min_samples_split': 2, 'splitter': 'best'}
0.9840000000000002


**Random Forest**

In [None]:
RandomForestClassifier()

In [None]:
parametros = {'n_estimators':[10,30,40,50,60,70,90,100,150]
              ,'criterion':['gini','entropy']
              ,'min_samples_split':[1,2,3,4,5],
              'min_samples_leaf':[1,2,3,4,5]}

In [None]:
grid_search = GridSearchCV(estimator=RandomForestClassifier(),param_grid=parametros)
grid_search.fit(x_credit,y_credit)
melhores_parametros = grid_search.best_params_
melhores_resultados = grid_search.best_score_

In [None]:
print(melhores_parametros)
print(melhores_resultados)

{'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 4, 'n_estimators': 40}
0.9880000000000001


**Cross validation KNN**

In [None]:
KNeighborsClassifier()

In [None]:
parametros = {'n_neighbors':[3,5,10,20],'p':[1,2]}

In [None]:
grid_search = GridSearchCV(estimator=KNeighborsClassifier(),param_grid=parametros)
grid_search.fit(x_credit,y_credit)
melhores_parametros = grid_search.best_params_
melhores_resultados = grid_search.best_score_
print(melhores_parametros)
print(melhores_resultados)

{'n_neighbors': 20, 'p': 1}
0.9800000000000001


**Cross validation - Regressão logística**

In [None]:
LogisticRegression()

In [None]:
parametros = {'tol':[0.0001,0.00001,0.000001], 'C':[1.0, 1.5,2.0],'solver':['lblfgs','sag','saga']}

In [None]:
grid_search = GridSearchCV(estimator = LogisticRegression(),param_grid=parametros)
grid_search.fit(x_credit,y_credit)
best_resultados = grid_search.best_score_
best_parametros = grid_search.best_params_

In [None]:
print(best_resultados)
print(best_parametros)

0.9484999999999999
{'C': 1.0, 'solver': 'sag', 'tol': 0.0001}


**Tuning dos parâmetros do SVM**

In [None]:
parametros = {'C':[0.1,0.4,0.7,0.9,1.0,1.5,2.0],
              'kernel':['poly','rbf','sigmoid'],'tol':[0.01,0.001,0.001]}

In [None]:
grid_search = GridSearchCV(estimator=SVC(),param_grid=parametros)
grid_search.fit(x_credit,y_credit)
melhores_parametros=grid_search.best_params_
melhores_resultados=grid_search.best_score_

In [None]:
print(melhores_parametros)
print(melhores_resultados)

{'C': 1.5, 'kernel': 'rbf', 'tol': 0.01}
0.9835


**Tuning de parâmetros usando redes neurais de multicamadas**

In [None]:
parametros = {'hidden_layer_sizes':[(50,50),(100,100),(60,60)],'activation':['relu','logistic','identify'],
              'solver':['adam','lbfgs','sgd'],'batch_size':[10,20],'max_iter':[1000],
              'tol':[0.01,0.001,0.0001]}

In [None]:
grid_search = GridSearchCV(MLPClassifier(),param_grid=parametros)
grid_search.fit(x_credit,y_credit)
melhores_parametros=grid_search.best_params_
melhores_resultados=grid_search.best_score_

ValueError: The activation 'identify' is not supported. Supported activations are ['identity', 'logistic', 'relu', 'softmax', 'tanh'].



In [None]:
print(melhores_parametros)
print(melhores_resultados)

{'activation': 'relu', 'batch_size': 10, 'hidden_layer_sizes': (50, 50), 'max_iter': 1000, 'solver': 'sgd', 'tol': 0.0001}
0.9975000000000002
