In [32]:
import pandas as pd
import numpy as np
from collections import Counter
import matplotlib.pyplot as plt
from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from keras.wrappers.scikit_learn import KerasClassifier
from keras.optimizers import SGD
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
from sklearn.metrics import roc_auc_score, average_precision_score
from scipy.stats import ks_2samp
from keras.wrappers.scikit_learn import KerasClassifier
from sklearn.svm import SVC
from sklearn.ensemble import GradientBoostingClassifier, RandomForestClassifier, VotingClassifier
%matplotlib inline

In [2]:
X_train_res = pd.read_csv('database/X_train_res.csv').drop(columns=['Unnamed: 0'])
y_train_res = pd.read_csv('database/y_train_res.csv').drop(columns=['Unnamed: 0'])
X_val = pd.read_csv('database/X_val.csv').drop(columns=['INDEX'])
y_val = pd.read_csv('database/y_val.csv', names=['INDEX', 'IND_BOM_1_1']).drop(columns=['INDEX'])
X_test = pd.read_csv('database/X_test.csv').drop(columns=['INDEX'])
y_test = pd.read_csv('database/y_test.csv', names=['INDEX', 'IND_BOM_1_1']).drop(columns=['INDEX'])

In [3]:
input_dim = len(list(X_train_res))

<h2>Treinando MLPs</h2>
<p>Para o treino de MLPs foram testadas diversas formas de otimizar hiperparâmetros como: learning rate, algoritmo de otimização, número de camadas escondidas, etc. A estimativa do learning rate e do número de camadas escondidas foi feita automaticamente a partir do conjunto de validação.</p>

<h3>O MLP Básico</h3>
<p>O MLP é montado com base na biblioteca Keras e segue uma estrutura básica:</p>
<ul>
    <li>O MLP em si é uma classe Sequential e nela serão adicionadas as camadas de entrada, saída e internas.</li>
    <li>As camadas são uma classe Dense. Passamos para o construtor dessa classe o número de nodes, a função de ativação e, no caso de ser a primeira camada, a dimensão da entrada.</li>
    <li>Antes de treinar o MLP, devemos compilar o mesmo e setar parâmetros como a função de otimização, algumas métricas opcionais como 'accuracy' e a função de perda, que retorna uma métrica para avaliarmos o MLP</li>
    <li>Para treinarmos o modelo utilizaremos a função fit que recebe como parâmetros X sendo as amostras para treinamento, y sendo as classes de cada amostra, batch_size sendo o comprimento do batch utilizado no treinamento, o número de epochs sendo quantas vezes iremos dar entrada com o dataset para o treinamento, validation_data sendo os dados utilizados para validação e callbacks para pararmos o treinamento com certas condições.</li>
</ul>
<p>Para a primeira fase, procuraremos funções de ativação, número de nós na camada de entrada e função de otimização que melhorem o acerto no conjunto de validação</p>

<h3>Estimando Hiperparâmetros</h3>
<ul>
    <li>Função de Ativação</li>
    <li>Função de Otimização</li>
    <li>Camadas escondidas</li>
</ul>

<h4>Função de Ativação nas Camadas de Entrada</h4>

In [23]:
mlp = Sequential()
mlp.add(Dense(20, activation='tanh', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000


In [25]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.64


In [26]:
mlp = Sequential()
mlp.add(Dense(30, activation='tanh', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000


In [27]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.63


In [28]:
mlp = Sequential()
mlp.add(Dense(50, activation='tanh', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000


In [29]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.63


In [30]:
mlp = Sequential()
mlp.add(Dense(100, activation='tanh', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000


In [31]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.64


<p>Pela configuração atual notamos que o número de nós na camada de entrada não influenciou muito na perda sobre o conjunto de validação, porém 30 obteve um valor mais baixo de 0.63. Manteremos esse valor.</p>

In [36]:
mlp = Sequential()
mlp.add(Dense(100, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000


In [37]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.64


In [38]:
mlp = Sequential()
mlp.add(Dense(100, activation='relu', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000


In [40]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.63


<p>Modificando as funções de ativação na camada de entrada também não variou muito a perda média. Testamos então na camada de saída.</p>

In [46]:
mlp = Sequential()
mlp.add(Dense(100, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='relu')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000


In [47]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 10.56


In [44]:
mlp = Sequential()
mlp.add(Dense(100, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='tanh')) # Camada de saída
mlp.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000
Epoch 10/100000
Epoch 11/100000
Epoch 12/100000
Epoch 13/100000


In [45]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 0.64


<p>Notamos que utilizando ReLU como função de ativação na camada de saída não gera bons resultados, mas na camada de entrada obteve a menor perda. Por fim optamos por manter ReLU na camada de entrada e Sigmoid na de saída.</p>

<h4>Algoritmo de Otimização</h4>

In [48]:
mlp = Sequential()
mlp.add(Dense(100, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='tanh')) # Camada de saída
mlp.compile(optimizer='sgd', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000


In [49]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Acurácia Média de Validação: 3.08


In [50]:
mlp = Sequential()
mlp.add(Dense(100, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='tanh')) # Camada de saída
mlp.compile(optimizer='adamax', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000
Epoch 10/100000


In [51]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Perda Média de Validação: 0.65


In [54]:
mlp = Sequential()
mlp.add(Dense(30, activation='sigmoid', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='tanh')) # Camada de saída
mlp.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000


In [55]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Perda Média de Validação: 0.63


<p>Notamos que a função adadelta gerou uma menor perda.</p>

In [58]:
mlp = Sequential()
mlp.add(Dense(30, activation='relu', input_dim=input_dim)) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000


In [59]:
print("Perda Média de Validação: %.2f"%(np.mean(history.history['val_loss'])))

Perda Média de Validação: 0.64


<p>No fim não houve muita mudança e os valores otimizados para cada teste gerou um valor próximo de todos os outros testes (0.64)</p>

<h4>Camadas Escondidas</h4>

In [5]:
hidden_nodes = 30

In [60]:
for hidden_layers in range(6):
    mlp = Sequential()
    mlp.add(Dense(30, activation='relu', input_dim=input_dim)) # Camada de entrada
    for i in range(hidden_layers):
        mlp.add(Dense(hidden_nodes, activation='relu')) # Camada de entrada
    mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
    mlp.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['acc'])
    history = mlp.fit(X_train_res, y_train_res, batch_size=64, epochs=100000, 
            callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))
    print('Para %d camadas escondidas:\n\tPerda Média: %.2f'%(hidden_layers, np.mean(history.history['val_loss'])))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Para 0 camadas escondidas:
	Perda Média: 0.65
Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Para 1 camadas escondidas:
	Perda Média: 0.65
Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Para 2 camadas escondidas:
	Perda Média: 0.65
Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000
Epoch 10/100000
Epoch 11/100000
Epoch 12/100000
Epoch 13/100000
Epoch 14/100000
Epoch 15/100000
Para 3 camadas escondidas:
	Perda Média: 0.63
Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000


<p>O erro médio se manteve entre os mesmos valores [0.63, 0.65], porém notamos um acerto maior no conjunto de validação quando utilizamos 3 camadas escondidas.</p>

<h4>Batch Size</h4>

In [64]:
opt_hidden_layer = 3
mlp = Sequential()
mlp.add(Dense(30, activation='relu', input_dim=input_dim)) # Camada de entrada
for i in range(opt_hidden_layer):
    mlp.add(Dense(hidden_nodes, activation='relu')) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=128, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))
print('Perda Média: %.2f'%(np.mean(history.history['val_loss'])))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Perda Média: 0.65


In [6]:
opt_hidden_layer = 3
mlp = Sequential()
mlp.add(Dense(30, activation='relu', input_dim=input_dim)) # Camada de entrada
for i in range(opt_hidden_layer):
    mlp.add(Dense(hidden_nodes, activation='relu')) # Camada de entrada
mlp.add(Dense(1, activation='sigmoid')) # Camada de saída
mlp.compile(optimizer='adadelta', loss='binary_crossentropy', metrics=['acc'])
history = mlp.fit(X_train_res, y_train_res, batch_size=32, epochs=100000, 
        callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))
print('Perda Média: %.2f'%(np.mean(history.history['val_loss'])))

Train on 307646 samples, validate on 26077 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000
Epoch 10/100000
Epoch 11/100000
Epoch 12/100000
Epoch 13/100000
Epoch 14/100000
Perda Média: 0.62


<p>Para o tamanho do batch = 32 obtivemos a menor perda.</p>

In [None]:
test_evaluation = mlp.evaluate(X_test, y_test, batch_size=32)
print("Conjunto de Teste:\n\tPerda: %.3f\n\tAcurácia: %.3f"%(test_evaluation[0],test_evaluation[1]))

In [82]:
y_pred = mlp.predict_classes(X_test)
y_pred_proba = mlp.predict(X_test)

In [105]:
# Método auxiliar para imprimir todas as métricas para um classificador
def generateMetrics(y_true, y_pred, y_pred_proba = None):
    print("Acurácia: %.5f"%(accuracy_score(y_true=y_true, y_pred=y_pred)))
    print("Recall: %.5f"%(recall_score(y_true=y_true, y_pred=y_pred)))
    print("Precisão: %.5f"%(precision_score(y_true=y_true, y_pred=y_pred)))
    print("F1-Score: %.5f"%(f1_score(y_true=y_true, y_pred=y_pred)))
    if not y_pred_proba is None:
        print("Área Sobre a Curva ROC: %.5f"%(roc_auc_score(y_true=y_true, y_score=y_pred_proba)))
        print("Precisão Média sobre as Probabilidades:%.5f"%(average_precision_score(y_true=y_true, y_score=y_pred_proba)))
        print("Matriz de Confusão:\n")
        print(pd.DataFrame(confusion_matrix(y_true=y_true, y_pred=y_pred), 
                           columns=['P', 'N'], 
                           index=['P', 'N']))

In [106]:
print('Métricas Geradas para o MLP:')
generateMetrics(y_test, y_pred, y_pred_proba)

Métricas Geradas para o MLP:
Acurácia: 0.65165
Recall: 0.71463
Precisão: 0.74385
F1-Score: 0.72895
Área Sobre a Curva ROC: 0.68076
Precisão Média sobre as Probabilidades:0.79633
Matriz de Confusão:

       P      N
P  23535  20717
N  24023  60160


In [114]:
def calc_distr(y_true:pd.DataFrame, y_pred_proba:np.array):
    ac_distr_0 = np.zeros(101)
    ac_distr_1 = np.zeros(101)
    count_classes = y_true['IND_BOM_1_1'].value_counts()
    for i in range(1, 101):
        lim = i/100.0
        count_classes = y_true[y_pred_proba <= lim]['IND_BOM_1_1'].value_counts()
        ac_distr_0[i] += count_classes[0]
        ac_distr_1[i] += count_classes[1]
    return (ac_distr_0/count_classes[0], ac_distr_1/count_classes[1])

In [116]:
distr_0, distr_1 = calc_distr(y_test, y_pred_proba)

In [117]:
ks_2samp(distr_0, distr_1)

Ks_2sampResult(statistic=0.17821782178217827, pvalue=0.07148265768062076)

In [120]:
roc_auc_score(y_true=y_test, y_score=y_pred_proba)

0.6813878353811542