In [7]:

# importação dos modulos com os algoritmos de classificação
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier


# importação dos modulos para avaliação de modelos
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report

# importação 
import pickle as pkl
import numpy as np

In [4]:
with open('./data/credit.pkl', 'rb') as f:
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pkl.load(f)

In [6]:
X_credit_treinamento.shape, y_credit_treinamento.shape, X_credit_teste.shape, y_credit_teste.shape

((1500, 3), (1500,), (500, 3), (500,))

In [8]:
# concatenando as bases de treinamento para uso de GridSearchCV

X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis=0)
X_credit.shape

(2000, 3)

In [10]:
X_credit

array([[-1.3754462 ,  0.50630999,  0.10980934],
       [ 1.45826409, -1.64894017, -1.21501497],
       [-0.79356829,  0.22531104, -0.43370226],
       ...,
       [ 1.37445674, -1.05746369, -1.12564819],
       [-1.57087737, -0.6348826 , -0.36981671],
       [-1.03572293, -0.93978209,  0.04244312]])

In [9]:
# concatenando as bases de treinamento para uso de GridSearchCV

y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis=0)
y_credit.shape

(2000,)

In [11]:
y_credit

array([0, 0, 0, ..., 0, 1, 1], dtype=int64)

In [16]:
# criando um dicionario de parametros para o GridSearchCV

parametros_ad = {'criterion': ['gini', 'entropy'],
                 'splitter': ['best', 'random'],
                 'min_samples_split': [2, 3, 4, 5, 6, 7, 8, 9, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}

In [18]:
# Decision Tree

grid_search = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=parametros_ad)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 3, 'min_samples_split': 6, 'splitter': 'best'} 
Melhor resultado:  0.9840000000000002


In [21]:
parametros_rf = {'criterion': ['gini', 'entropy'],
                 'n_estimators': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100],
                 'min_samples_split': [2, 5, 6, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 10]}

In [22]:
# Random Forest

grid_search = GridSearchCV(estimator=RandomForestClassifier(), param_grid=parametros_rf)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 10} 
Melhor resultado:  0.9884999999999999
