In [1]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

In [2]:
import pickle

with open('credit.pkl', 'rb') as f:
    X_credit_treinamento, y_credit_treinamento, X_credit_teste, y_credit_teste = pickle.load(f)

Árvore de decisão

In [3]:
# Concatenando a base de dados, pois a validação cruzada usa a base inteira
import numpy as np

X_credit = np.concatenate((X_credit_treinamento, X_credit_teste), axis=0)
y_credit = np.concatenate((y_credit_treinamento, y_credit_teste), axis=0)


In [10]:
#Definindo dicionário com os parametros da árvore de decisão a serem testados

parametrosDecisionTree = {'criterion': ['gini', 'entropy'],
            'splitter': ['best', 'random'],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 5, 10]}

In [12]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=DecisionTreeClassifier(), param_grid=parametrosDecisionTree)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_

print(melhoresParametros)
print(melhorResultado)

{'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 2, 'splitter': 'best'}
0.9825000000000002


Randon Forest

In [13]:
#Definindo dicionário com os parametros da floresta de árvore a serem testados

parametrosRandonForest = {'criterion': ['gini', 'entropy'],
            'n_estimators': [10, 40, 100, 150],
            'min_samples_split': [2, 5, 10],
            'min_samples_leaf': [1, 5, 10]}

In [14]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=RandomForestClassifier(), param_grid=parametrosRandonForest)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_

print(melhoresParametros)
print(melhorResultado)

{'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 40}
0.9855


KNN

In [15]:
#Definindo dicionário com os parametros do KNN a serem testados

parametrosKnn = {'n_neighbors': [3, 5, 10, 20], 'p': [1, 2],}

In [16]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=KNeighborsClassifier(), param_grid=parametrosKnn)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_

print(melhoresParametros)
print(melhorResultado)

{'n_neighbors': 5, 'p': 1}
0.9800000000000001


Regressão Logística

In [17]:
#Definindo dicionário com os parametros da regressão logística a serem testados

parametrosLogisticRegression = {'tol': [0.0001, 0.00001, 0.000001], 'C': [1.0, 1.5, 2.0], 'solver': ['lbfgs', 'sag', 'saga']}

In [18]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=LogisticRegression(), param_grid=parametrosLogisticRegression)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_

print(melhoresParametros)
print(melhorResultado)

{'C': 2.0, 'solver': 'lbfgs', 'tol': 0.0001}
0.9469999999999998


SVM

In [19]:
#Definindo dicionário com os parametros do SVM a serem testados

parametrosSvm = {'tol': [0.001, 0.0001, 0.00001], 'C': [1.0, 1.5, 2.0], 'kernel': ['rbf', 'linear', 'poly', 'sigmoid']}

In [20]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=SVC(), param_grid=parametrosSvm)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_

print(melhoresParametros)
print(melhorResultado)

{'C': 2.0, 'kernel': 'rbf', 'tol': 0.001}
0.984


Redes Neurais

In [25]:
#Definindo dicionário com os parametros da rede neural a serem testados

parametrosNeuralNetWork = {'activation': ['relu', 'logistic', 'tahn'], 'solver': ['adam', 'sgd'], 'batch_size': [10, 56]}

In [None]:
#Instanciando o algoritmo Grid Search que fara os testes com os parametros e retornara os melhores encontrados

gridSearch = GridSearchCV(estimator=MLPClassifier(), param_grid=parametrosNeuralNetWork)

gridSearch.fit(X_credit, y_credit)

melhoresParametros = gridSearch.best_params_
melhorResultado = gridSearch.best_score_


In [27]:
print(melhoresParametros)
print(melhorResultado)

{'activation': 'relu', 'batch_size': 56, 'solver': 'adam'}
0.9960000000000001


IMPLEMENTAÇÃO DA VALIDAÇÃO CRUZADA

In [28]:
from sklearn.model_selection import cross_val_score, KFold

In [29]:
resultadosTree = []
resultadosRandonForest = []
resultadosKnn = []
resultadosLogisticRegression = []
resultadosSvm = []
#resultadosNeuralNetWork = []

for i in range(30):
    kfold = KFold(n_splits=10, shuffle=True, random_state=i)

    tree = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, splitter='best')
    scoresTree = cross_val_score(tree, X_credit, y_credit, cv=kfold)
    resultadosTree.append(scoresTree.mean())

    randonForest = RandomForestClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, n_estimators=40)
    scoresRandonForest = cross_val_score(randonForest, X_credit, y_credit, cv=kfold)
    resultadosRandonForest.append(scoresRandonForest.mean())

    knn = KNeighborsClassifier()
    scoresKnn = cross_val_score(knn, X_credit, y_credit, cv=kfold)
    resultadosKnn.append(scoresKnn.mean())

    logisticRegression = LogisticRegression(C=1.0, solver='lbfgs', tol=0.0001)
    scoresLogisticRegression = cross_val_score(logisticRegression, X_credit, y_credit, cv=kfold)
    resultadosLogisticRegression.append(scoresLogisticRegression.mean())

    svm = SVC(kernel='rbf', C=2.0)
    scoresSvm = cross_val_score(svm, X_credit, y_credit, cv=kfold)
    resultadosSvm.append(scoresSvm.mean())

In [32]:
#Criação de um DataFrame com os resultados

import pandas as pd

resultados = pd.DataFrame({'Tree': resultadosTree, 'Random_Forest': resultadosRandonForest,
                            'Knn': resultadosKnn, 'Logistic_Regression': resultadosLogisticRegression,
                            'SVM': resultadosSvm})

resultados

Unnamed: 0,Tree,Random_Forest,Knn,Logistic_Regression,SVM
0,0.988,0.9865,0.9825,0.947,0.9845
1,0.988,0.986,0.9805,0.947,0.985
2,0.987,0.9865,0.9795,0.947,0.985
3,0.987,0.985,0.98,0.9465,0.9845
4,0.9895,0.9885,0.979,0.9465,0.984
5,0.987,0.9855,0.981,0.9465,0.9835
6,0.989,0.991,0.98,0.9465,0.987
7,0.9875,0.9895,0.9815,0.9465,0.986
8,0.987,0.9865,0.9815,0.9465,0.985
9,0.9885,0.987,0.982,0.9485,0.9865


In [33]:
resultados.describe()

Unnamed: 0,Tree,Random_Forest,Knn,Logistic_Regression,SVM
count,30.0,30.0,30.0,30.0,30.0
mean,0.987633,0.986583,0.980017,0.94685,0.984867
std,0.001707,0.001747,0.001453,0.000618,0.000955
min,0.9835,0.9835,0.9765,0.9455,0.9825
25%,0.987,0.9855,0.979125,0.9465,0.9845
50%,0.9875,0.9865,0.98025,0.94675,0.985
75%,0.9885,0.9875,0.981,0.947,0.9855
max,0.991,0.991,0.9825,0.9485,0.987


In [34]:
#Verificando o coeficiente de variação

(resultados.std() / resultados.mean()) * 100

Tree                   0.172802
Random_Forest          0.177109
Knn                    0.148283
Logistic_Regression    0.065267
SVM                    0.097000
dtype: float64