In [2]:
import pandas as pd
import numpy as np
import pickle

# Ajuste dos parêmetros dos algoritmos

In [3]:
from sklearn.model_selection import GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.neural_network import MLPClassifier

## Base Crédito

### Preparação dos dados

In [4]:
with open('credit.pkl', 'rb') as f:
    X_credit_train, y_credit_train, X_credit_test, y_credit_test = pickle.load(f)

In [5]:
print('treino: ',X_credit_train.shape, y_credit_train.shape)
print('teste: ',X_credit_test.shape, y_credit_test.shape)

treino:  (1500, 3) (1500,)
teste:  (500, 3) (500,)


Para utilizar o Cross-validation não dividiremos a base de dados da mesma forma, então, primeiramente, vamos unir as bases de treino e teste utilizadas anteriormente.

In [6]:
X_credit = np.concatenate((X_credit_train, X_credit_test), axis=0)
X_credit.shape

(2000, 3)

In [7]:
y_credit = np.concatenate((y_credit_train, y_credit_test), axis=0)
y_credit.shape

(2000,)

### Árvore de decisão

In [8]:
parametros_arvore = {'criterion': ['gini','entropy'],
                     'splitter':['best','random'], 
                     'min_samples_split': [2, 5, 10],
                     'min_samples_leaf': [1, 5, 10]}

In [9]:
grid_search_arvore = GridSearchCV(estimator=DecisionTreeClassifier(), 
                                  param_grid=parametros_arvore)
grid_search_arvore.fit(X_credit, y_credit)
melhores_parametros = grid_search_arvore.best_params_
melhor_resultado = grid_search_arvore.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 2, 'splitter': 'best'}
0.9835


### Random forest

In [10]:
parametros_random = {'criterion': ['gini','entropy'],
                     'n_estimators':[10, 40, 100, 150], 
                     'min_samples_split': [2, 5, 10],
                     'min_samples_leaf': [1, 5, 10]}

In [11]:
grid_search_random = GridSearchCV(estimator=RandomForestClassifier(), 
                                  param_grid=parametros_random)
grid_search_random.fit(X_credit, y_credit)
melhores_parametros = grid_search_random.best_params_
melhor_resultado = grid_search_random.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'criterion': 'gini', 'min_samples_leaf': 1, 'min_samples_split': 2, 'n_estimators': 100}
0.985


### KNN

In [12]:
parametros_knn = {'n_neighbors': [3, 5, 10, 20], 
                  'p': [1, 2]}

In [13]:
grid_search_knn = GridSearchCV(estimator=KNeighborsClassifier(), 
                                  param_grid=parametros_knn)
grid_search_knn.fit(X_credit, y_credit)
melhores_parametros = grid_search_knn.best_params_
melhor_resultado = grid_search_knn.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'n_neighbors': 20, 'p': 1}
0.9800000000000001


### Logistic Regression

In [14]:
parametros_logistic = {'tol': [0.0001, 0.00001, 0.000001] ,
                       'C': [1.0, 1.5, 2.0],
                       'solver': ['lbfgs', 'sag', 'saga']}

In [15]:
grid_search_logistic = GridSearchCV(estimator=LogisticRegression(), 
                                  param_grid=parametros_logistic)
grid_search_logistic.fit(X_credit, y_credit)
melhores_parametros = grid_search_logistic.best_params_
melhor_resultado = grid_search_logistic.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'C': 1.0, 'solver': 'lbfgs', 'tol': 0.0001}
0.9484999999999999


### SVM

In [16]:
parametros_svm = {'tol': [0.001, 0.0001, 0.00001],
                  'C': [1.0, 1.5, 2.0],
                  'kernel': ['rbf', 'linear', 'poly', 'sigmoid']}

In [17]:
grid_search_svm = GridSearchCV(estimator=SVC(), 
                                  param_grid=parametros_svm)
grid_search_svm.fit(X_credit, y_credit)
melhores_parametros = grid_search_svm.best_params_
melhor_resultado = grid_search_svm.best_score_
print(melhores_parametros)
print(melhor_resultado)

{'C': 1.5, 'kernel': 'rbf', 'tol': 0.001}
0.9829999999999999


### Redes Neurais

In [17]:
parametros_redes = {'activation': ['relu', 'logistic', 'tanh'], 
                    'solver': ['adam', 'sgd'],
                    'batch_size': [10, 56]}

In [None]:
grid_search_redes = GridSearchCV(estimator=MLPClassifier(), 
                                  param_grid=parametros_redes)
grid_search_redes.fit(X_credit, y_credit)
melhores_parametros = grid_search_redes.best_params_
melhor_resultado = grid_search_redes.best_score_
print(melhores_parametros)
print(melhor_resultado)

## Base Census

In [None]:
with open ('census.pkl', 'rb') as f:
    X_census_train, y_census_train, X_census_test, y_census_test = pickle.load(f)

In [None]:
print('treino: ',X_census_train.shape, y_census_train.shape)
print('teste: ',X_census_test.shape, y_census_test.shape)

Juntando:

In [None]:
X_census = np.concatenate((X_census_train, X_census_test), axis=0)
X_census.shape

In [None]:
y_census = np.concatenate((y_census_train, y_census_test), axis=0)
y_census.shape

# Validação Cruzada

In [18]:
from sklearn.model_selection import cross_val_score, KFold

In [19]:
resultados_arvore = []
resultados_random = []
resultados_knn = []
resultados_logistica = []
resultados_svm = []
resultados_rede = []

for i in range(30):
    print(i)
    kfold = KFold(n_splits=10, shuffle=True, random_state=i)
    
    arvore = DecisionTreeClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5,splitter='best')
    scores = cross_val_score(arvore, X_credit, y_credit, cv=kfold)
    resultados_arvore.append(scores.mean())
    #print(f'iteração:{i} com score: {scores.mean()}')
    
    random = RandomForestClassifier(criterion='entropy', min_samples_leaf=1, min_samples_split=5, n_estimators=10)
    scores = cross_val_score(random, X_credit, y_credit, cv=kfold)
    resultados_random.append(scores.mean())
    
    knn = KNeighborsClassifier(n_neighbors=20, p=1)
    scores = cross_val_score(knn, X_credit, y_credit, cv=kfold)
    resultados_knn.append(scores.mean())
    
    logistica = LogisticRegression(C=1.0, solver='lbfgs', tol=0.0001)
    scores = cross_val_score(logistica, X_credit, y_credit, cv=kfold)
    resultados_logistica.append(scores.mean())
    
    svm = SVC(C=1.5, kernel='rbf', tol=0.001)
    scores = cross_val_score(svm, X_credit, y_credit, cv=kfold)
    resultados_svm.append(scores.mean())
    
    #rede = MLPClassifier(activation='relu', batch_size=56, solver='adam')
    #scores = cross_val_score(rede, X_credit, y_credit, cv=kfold)
    #resultados_rede.append(scores.mean())

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
