In [1]:
import pandas as pd
import numpy as np
import pickle

# Ajuste dos parêmetros dos algoritmos

In [2]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

## Base Crédito

### Preparação dos dados

In [3]:
with open('credit.pkl', 'rb') as f:
    X_credit_train, y_credit_train, X_credit_test, y_credit_test = pickle.load(f)

In [4]:
print('treino: ',X_credit_train.shape, y_credit_train.shape)
print('teste: ',X_credit_test.shape, y_credit_test.shape)

treino:  (1500, 3) (1500,)
teste:  (500, 3) (500,)


Para utilizar o Cross-validation não dividiremos a base de dados da mesma forma, então, primeiramente, vamos unir as bases de treino e teste utilizadas anteriormente.

In [5]:
X_credit = np.concatenate((X_credit_train, X_credit_test), axis=0)
X_credit.shape

(2000, 3)

In [6]:
y_credit = np.concatenate((y_credit_train, y_credit_test), axis=0)
y_credit.shape

(2000,)

### Árvore de decisão

In [7]:
parametros_arvore = {'criterion': ['gini','entropy'],
                     'splitter':['best','random'], 
                     'min_samples_split': [2, 5, 10],
                     'min_samples_leaf': [1, 5, 10]}

In [8]:
grid_search_arvore = GridSearchCV(estimator=DecisionTreeClassifier(), 
                                  param_grid=parametros_arvore)
grid_search_arvore.fit(X_credit, y_credit)
melhores_parametros = grid_search_arvore.best_params_
melhor_resultado = grid_search_arvore.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 5, 'splitter': 'best'}
0.983


### Random forest

In [9]:
parametros_random = {'criterion': ['gini','entropy'],
                     'n_estimators':[10, 40, 100, 150], 
                     'min_samples_split': [2, 5, 10],
                     'min_samples_leaf': [1, 5, 10]}

In [10]:
grid_search_random = GridSearchCV(estimator=RandomForestClassifier(), 
                                  param_grid=parametros_random)
grid_search_random.fit(X_credit, y_credit)
melhores_parametros = grid_search_random.best_params_
melhor_resultado = grid_search_random.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'criterion': 'entropy', 'min_samples_leaf': 1, 'min_samples_split': 5, 'n_estimators': 40}
0.986


### KNN

In [11]:
parametros_knn = {'n_neighbors': [3, 5, 10, 20], 
                  'p': [1, 2]}

In [12]:
grid_search_knn = GridSearchCV(estimator=KNeighborsClassifier(), 
                                  param_grid=parametros_knn)
grid_search_knn.fit(X_credit, y_credit)
melhores_parametros = grid_search_knn.best_params_
melhor_resultado = grid_search_knn.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'n_neighbors': 20, 'p': 1}
0.9800000000000001


### Logistic Regression

In [13]:
parametros_logistic = {'tol': [0.0001, 0.00001, 0.000001] ,
                       'C': [1.0, 1.5, 2.0],
                       'solver': ['lbfgs', 'sag', 'saga']}

In [14]:
grid_search_logistic = GridSearchCV(estimator=LogisticRegression(), 
                                  param_grid=parametros_logistic)
grid_search_logistic.fit(X_credit, y_credit)
melhores_parametros = grid_search_logistic.best_params_
melhor_resultado = grid_search_logistic.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'C': 1.0, 'solver': 'lbfgs', 'tol': 0.0001}
0.9484999999999999


### SVM

In [15]:
parametros_svm = {'tol': [0.001, 0.0001, 0.00001],
                  'C': [1.0, 1.5, 2.0],
                  'kernel': ['rbf', 'linear', 'poly', 'sigmoid']}

In [16]:
grid_search_svm = GridSearchCV(estimator=SVC(), 
                                  param_grid=parametros_svm)
grid_search_svm.fit(X_credit, y_credit)
melhores_parametros = grid_search_svm.best_params_
melhor_resultado = grid_search_svm.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'C': 1.5, 'kernel': 'rbf', 'tol': 0.001}
0.9829999999999999


### Redes Neurais

In [17]:
parametros_redes = {'activation': ['relu', 'logistic', 'tanh'], 
                    'solver': ['adam', 'sgd'],
                    'batch_size': [10, 56]}

In [18]:
grid_search_redes = GridSearchCV(estimator=MLPClassifier(), 
                                  param_grid=parametros_redes)
grid_search_redes.fit(X_credit, y_credit)
melhores_parametros = grid_search_redes.best_params_
melhor_resultado = grid_search_redes.best_score_
print(melhores_parametros)
print(melhor_resultado)





{'activation': 'relu', 'batch_size': 56, 'solver': 'adam'}
0.9960000000000001




## Base Census

In [19]:
with open ('census.pkl', 'rb') as f:
    X_census_train, y_census_train, X_census_test, y_census_test = pickle.load(f)

In [20]:
print('treino: ',X_census_train.shape, y_census_train.shape)
print('teste: ',X_census_test.shape, y_census_test.shape)

treino:  (27676, 108) (27676,)
teste:  (4885, 108) (4885,)


Juntando:

In [21]:
X_census = np.concatenate((X_census_train, X_census_test), axis=0)
X_census.shape

(32561, 108)

In [22]:
y_census = np.concatenate((y_census_train, y_census_test), axis=0)
y_census.shape

(32561,)

# Validação Cruzada

In [23]:
from sklearn.model_selection import cross_val_score, KFold

In [28]:
resultados_arvore = []

for i in range(30):
    kfold = KFold(n_splits=10, 
                  shuffle=True, 
                  random_state=i)
    arvore = DecisionTreeClassifier(criterion='entropy', 
                                    min_samples_leaf=1, 
                                    min_samples_split=5,
                                    splitter='best')
    scores = cross_val_score(arvore, 
                             X_credit, 
                             y_credit, 
                             cv=kfold)
    resultados_arvore.append(scores.mean())
    print(f'iteração:{i} com score: {scores.mean()}')

iteração:0 com score: 0.986
iteração:1 com score: 0.984
iteração:2 com score: 0.9905000000000002
iteração:3 com score: 0.9875
iteração:4 com score: 0.9879999999999999
iteração:5 com score: 0.9884999999999999
iteração:6 com score: 0.9880000000000001
iteração:7 com score: 0.9875
iteração:8 com score: 0.9870000000000001
iteração:9 com score: 0.9875
iteração:10 com score: 0.9860000000000001
iteração:11 com score: 0.9894999999999999
iteração:12 com score: 0.9884999999999999
iteração:13 com score: 0.9864999999999998
iteração:14 com score: 0.983
iteração:15 com score: 0.986
iteração:16 com score: 0.9855
iteração:17 com score: 0.9904999999999999
iteração:18 com score: 0.9875
iteração:19 com score: 0.9869999999999999
iteração:20 com score: 0.983
iteração:21 com score: 0.9870000000000001
iteração:22 com score: 0.9884999999999999
iteração:23 com score: 0.9875
iteração:24 com score: 0.9880000000000001
iteração:25 com score: 0.9880000000000001
iteração:26 com score: 0.9875
iteração:27 com score: 0.