In [2]:

# importação dos modulos com os algoritmos de classificação
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.linear_model import LogisticRegression
from sklearn.neural_network import MLPClassifier


# importação dos modulos para avaliação de modelos
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import cross_val_score, KFold
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report


# importação 
import pickle as pkl
import numpy as np

In [None]:
with open('./data/credit.pkl', 'rb') as f:
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pkl.load(f)

In [None]:
X_credit_treinamento.shape, y_credit_treinamento.shape, X_credit_teste.shape, y_credit_teste.shape

In [None]:
# concatenando as bases de treinamento para uso de GridSearchCV

X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis=0)
X_credit.shape

In [None]:
X_credit

In [None]:
# concatenando as bases de treinamento para uso de GridSearchCV

y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis=0)
y_credit.shape

In [None]:
y_credit

In [None]:
# criando um dicionario de parametros para o GridSearchCV

parametros_ad = {'criterion': ['gini', 'entropy'],
                 'splitter': ['best', 'random'],
                 'min_samples_split': [2, 3, 4, 5, 6, 7, 8, 9, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}

In [None]:
# Decision Tree

grid_search = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=parametros_ad)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
parametros_rf = {'criterion': ['gini', 'entropy'],
                 'n_estimators': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100],
                 'min_samples_split': [2, 5, 6, 10],
                 'min_samples_leaf': [1, 2, 3, 4, 5, 6, 10]}

In [None]:
# Random Forest

grid_search = GridSearchCV(estimator=RandomForestClassifier(), param_grid=parametros_rf)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
parametros_knn = {'n_neighbors': [3, 4, 5, 6, 8, 9, 10, 15, 20],
                  'p': [1, 2]}


In [None]:
# K-Nearest Neighbors

grid_search = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=parametros_knn)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
parametros_lr ={'tol': [0.001, 0.00001, 0.000001],
                'C': [1.0, 1.5, 2.0],
                'solver': ['lbfgs', 'sag', 'saga']}

In [None]:
# Logistic Regression

grid_search = GridSearchCV(estimator=LogisticRegression(), param_grid=parametros_lr)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
parametros_svm = {'tol': [0.001, 0.0001, 0.00001],
                  'C': [1.0, 1.5, 2.0],
                  'kernel': ['linear', 'rbf', 'poly', 'sigmoid'],
                   }

In [None]:
# SVM Suport Vector Machine

grid_search = GridSearchCV(estimator=SVC(), param_grid=parametros_svm)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
parametros_nn = {'activation': ['logistic', 'tanh', 'relu'],
                 'batch_size': [10, 30, 50, 56],
                 'solver': ['sgd', 'adam']}                   

In [None]:
# MultiLayer Perceptron Neural Network

grid_search = GridSearchCV(estimator=MLPClassifier(), param_grid=parametros_nn)
grid_search.fit(X_credit, y_credit)

melhores_parametros = grid_search.best_params_
melhor_resultado = grid_search.best_score_

print('Melhores parametros: ', melhores_parametros, '\nMelhor resultado: ', melhor_resultado)

In [None]:
resultados_arvore= []
resultados_random_forest = []
resultados_knn = []
resultados_logistic_regression = []
resultados_svm = []
resultados_nn = []

for i in range(30):
    kfold = KFold(n_splits=10, shuffle=True, random_state=i)

    arvore = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, splitter='best')
    scores_ad = cross_val_score(arvore, X_credit, y_credit, cv=kfold)
    resultados_arvore.append(scores_ad.mean())


    random_forest = RandomForestClassifier(n_estimators=10, criterion='entropy', min_samples_leaf=1, min_samples_split=5)
    scores_rf = cross_val_score(random_forest, X_credit, y_credit, cv=kfold)
    resultados_random_forest.append(scores_rf.mean())

    knn = KNeighborsClassifier()
    scores_knn = cross_val_score(knn, X_credit, y_credit, cv=kfold)
    resultados_knn.append(scores_knn.mean())

    logistic_regression = LogisticRegression(tol=0.0001, C=1.0, solver='lbfgs')
    scores_lr = cross_val_score(logistic_regression, X_credit, y_credit, cv=kfold)
    resultados_logistic_regression.append(scores_lr.mean())

    svm = SVC(C=2.0, kernel='rbf')
    scores_svm = cross_val_score(svm, X_credit, y_credit, cv=kfold)
    resultados_svm.append(scores_svm.mean())

    nn = MLPClassifier(activation='relu', batch_size=56, solver='adam')
    scores_nn = cross_val_score(nn, X_credit, y_credit, cv=kfold)
    resultados_nn.append(scores_nn.mean())