In [3]:
# importações das bibliotecas

# importação dos modulos com os algoritmos de classificação
from sklearn.tree import DecisionTreeClassifier                             # importação do algoritmo de árvore de decisão
from sklearn.ensemble import RandomForestClassifier                         # importação do algoritmo de floresta aleatória
from sklearn.neighbors import KNeighborsClassifier                          # importação do algoritmo de vizinhos
from sklearn.svm import SVC                                                 # importação do algoritmo de SVM
from sklearn.linear_model import LogisticRegression                         # importação do algoritmo de regressão logística
from sklearn.neural_network import MLPClassifier                            # importação do algoritmo de rede neural


# importação dos modulos para avaliação de modelos
from sklearn.model_selection import GridSearchCV                            # importação do GridSearchCV ( otimização em grid )
from sklearn.model_selection import cross_val_score, KFold                  # importação do cross_val_score ( avaliação cruzada )
from sklearn.metrics import accuracy_score                                  # importação do accuracy_score ( avaliação de precisão )
from sklearn.metrics import confusion_matrix                                # importação do confusion_matrix ( matriz de confusão )
from sklearn.metrics import classification_report                           # importação do classification_report ( relatório de classificação )


# importação de modulos para manipulação de dados
import pandas as pd                                                        # importação do pandas para manipulação de dados
import pickle as pkl                                                       # importação do pickle para salvar o modelo
import numpy as np                                                         # importação do numpy para manipulação de dados numericos
import warnings                                                            # importação do warnings para não mostrar mensagens de aviso

# não mostrar mensagens de aviso
warnings.filterwarnings("ignore")

In [4]:
with open('./data/credit.pkl', 'rb') as f:
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pkl.load(f)

In [5]:
X_credit_treinamento.shape, y_credit_treinamento.shape, X_credit_teste.shape, y_credit_teste.shape

((1500, 3), (1500,), (500, 3), (500,))

In [6]:
# concatenando as bases de treinamento para uso de GridSearchCV

X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis=0)
X_credit.shape

(2000, 3)

In [7]:
X_credit

array([[-1.3754462 ,  0.50630999,  0.10980934],
       [ 1.45826409, -1.64894017, -1.21501497],
       [-0.79356829,  0.22531104, -0.43370226],
       ...,
       [ 1.37445674, -1.05746369, -1.12564819],
       [-1.57087737, -0.6348826 , -0.36981671],
       [-1.03572293, -0.93978209,  0.04244312]])

In [8]:
# concatenando as bases de treinamento para uso de GridSearchCV

y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis=0)
y_credit.shape

(2000,)

In [9]:
y_credit

array([0, 0, 0, ..., 0, 1, 1], dtype=int64)

In [10]:
# criando um dicionario de parametros para o GridSearchCV

parametros_ad = {'criterion': ['gini', 'entropy'],
                 'splitter': ['best', 'random'],
                 'min_samples_split': [2, 3, 4, 5, 6, 7, 8, 9, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}

In [11]:
# Decision Tree

grid_search = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=parametros_ad)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 3, 'min_samples_split': 8, 'splitter': 'best'} 
Melhor resultado:  0.9840000000000002


In [12]:
parametros_rf = {'criterion': ['gini', 'entropy'],
                 'n_estimators': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100],
                 'min_samples_split': [2, 5, 6, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 10]}

In [13]:
# Random Forest

grid_search = GridSearchCV(estimator=RandomForestClassifier(), param_grid=parametros_rf)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'criterion': 'entropy', 'min_samples_leaf': 3, 'min_samples_split': 6, 'n_estimators': 30} 
Melhor resultado:  0.9884999999999999


In [14]:
parametros_knn = {'n_neighbors': [9, 10, 15, 20],
                  'p': [1, 2]}


In [15]:
# K-Nearest Neighbors

grid_search = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=parametros_knn)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'n_neighbors': 15, 'p': 1} 
Melhor resultado:  0.984


In [16]:
parametros_lr ={'tol': [0.001, 0.00001, 0.000001],
                'C': [1.0, 1.5, 2.0],
                'solver': ['lbfgs', 'sag', 'saga']}

In [17]:
# Logistic Regression

grid_search = GridSearchCV(estimator=LogisticRegression(), param_grid=parametros_lr)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'C': 1.0, 'solver': 'lbfgs', 'tol': 0.001} 
Melhor resultado:  0.9484999999999999


In [18]:
parametros_svm = {'tol': [0.001, 0.0001, 0.00001],
                  'C': [1.0, 1.5, 2.0],
                  'kernel': ['linear', 'rbf', 'poly', 'sigmoid'],
                   }

In [19]:
# SVM Suport Vector Machine

grid_search = GridSearchCV(estimator=SVC(), param_grid=parametros_svm)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

Melhores parametros:  {'C': 1.5, 'kernel': 'rbf', 'tol': 0.001} 
Melhor resultado:  0.9829999999999999


In [20]:
parametros_nn = {'activation': ['logistic', 'tanh', 'relu'],
                 'batch_size': [10, 30, 50, 56],
                 'solver': ['sgd', 'adam']} 

In [21]:
# MultiLayer Perceptron Neural Network

grid_search = GridSearchCV(estimator=MLPClassifier(), param_grid=parametros_nn)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)



Melhores parametros:  {'activation': 'relu', 'batch_size': 10, 'solver': 'adam'} 
Melhor resultado:  0.9970000000000001
