# IF702 Redes Neurais
Este notebook contém um script base para o projeto da disciplina IF702 Redes Neurais.

In [1]:
import numpy as np
import pandas as pd

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score
from sklearn.metrics import roc_auc_score, average_precision_score

from imblearn.over_sampling import SMOTE

import matplotlib
matplotlib.use('nbagg')
import matplotlib.pyplot as plt

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


## Leitura e Limpeza dos Dados

A leitura dos dados é feita utilizando a biblioteca `pandas`. O presente exemplo importa a base de dados `mammography`. Caso você esteja trabalhando com outro data set, modifique este trecho de código.
Para importar o conjunto de dados do PAKDD, use a função `pd.read_table` ao invés da `pd.read_csv`.

In [2]:
data_set = pd.read_table('data/TRN.csv')
data_set.drop_duplicates(inplace=True)  # Remove exemplos repetidos

In [4]:
# Exibe as 5 primeiras linhas do data set
data_set.head(5)

Unnamed: 0,INDEX,UF_1,UF_2,UF_3,UF_4,UF_5,UF_6,UF_7,IDADE,SEXO_1,...,CEP4_7,CEP4_8,CEP4_9,CEP4_10,CEP4_11,CEP4_12,CEP4_13,CEP4_14,IND_BOM_1_1,IND_BOM_1_2
0,0,1,1,1,0,0,0,0,0.135098,1,...,0,0,1,1,0,1,1,1,0,1
1,1,1,0,1,0,0,1,0,0.273504,1,...,0,1,0,1,1,0,0,0,1,0
2,2,1,0,1,0,0,1,0,0.28191,0,...,1,1,0,0,0,0,1,0,1,0
3,3,1,1,1,0,0,0,0,0.225741,0,...,1,1,0,1,1,0,1,0,1,0
4,4,1,1,0,0,0,1,0,0.480403,0,...,1,1,1,0,0,1,0,1,1,0


In [4]:
# Estatísticas sobre as variáveis
data_set.describe()

Unnamed: 0,INDEX,UF_1,UF_2,UF_3,UF_4,UF_5,UF_6,UF_7,IDADE,SEXO_1,...,CEP4_7,CEP4_8,CEP4_9,CEP4_10,CEP4_11,CEP4_12,CEP4_13,CEP4_14,IND_BOM_1_1,IND_BOM_1_2
count,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,...,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0,389196.0
mean,194597.5,0.889274,0.691952,0.476552,0.296195,0.241179,0.218011,0.186836,0.4552049,0.521514,...,0.423378,0.41754,0.425708,0.45982,0.440842,0.436896,0.433709,0.440339,0.655449,0.344551
std,112351.35202,0.313793,0.461687,0.499451,0.456579,0.427799,0.412895,0.389781,0.2537459,0.499538,...,0.494095,0.493154,0.494451,0.498384,0.496489,0.496002,0.495587,0.496428,0.475222,0.475222
min,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.506237e-16,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,97298.75,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.2507866,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
50%,194597.5,1.0,1.0,0.0,0.0,0.0,0.0,0.0,0.4375241,1.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0
75%,291896.25,1.0,1.0,1.0,1.0,0.0,0.0,0.0,0.6578835,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0
max,389195.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,...,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0,1.0


Agora vamos separar o data set em atributos dependentes (X = features) e independentes (y = classe). No caso do `mammography` a classe majoritária está codificada como -1 e a classe minoritária está codificada como 1. Para treinar nossa rede neural precisamos que os valores de classe sejam 0 e 1 (saída da última camada é uma sigmóide), assim modificamos a codificação da majoritária para 0.

Perceba que esse pré-processamento varia de data set para data set.

In [3]:
X = data_set.drop(['INDEX', 'IND_BOM_1_1', 'IND_BOM_1_2'], axis=1)
y = data_set[['IND_BOM_1_1', 'IND_BOM_1_2']]

# IND_BOM_1_1 e IND_BOM_1_2 sao os indicadores de "bom pagador", o que se refere a conceder o credito
# ou nao. Ou seja, a resposta de uma vai ser o inverso da outra. 

# Vamos utilzizar apenas uma como target, pois ambas representam "a mesma coisa".

y = y.drop(['IND_BOM_1_2'], axis=1)

## Divisão dos Dados em Treino, Validação, e Teste

Aqui dividimos o data set em treino, validação e teste de maneira estratificada.

In [4]:
## Treino: 50%, Validação: 25%, Teste: 25%
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1/4, 
                                                    random_state=42, shuffle=True, stratify=y)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=1/3, 
                                                  random_state=42, shuffle=True, stratify=y_train)

train_class0 = y_train[y_train == 0] 
train_class0 = train_class0.dropna()
train_class1 = y_train[y_train == 1] 
train_class1 = train_class1.dropna()

print("class 0: {}, class 1: {}".format(train_class0.shape[0], train_class1.shape[0]))

class 0: 67049, class 1: 127549


## Sampling dos Dados e Normalização

Para testar o comportamento da rede com diferentes funções de sampling, as mesmas devem ser implementadas e aplicadas ao conjunto de treinamento antes da normalização dos dados (você também pode investigar qual o efeito de aplicar o sampling após a normalização).

In [5]:
## TO DO -- Implementar as funções de sampling a serem utilizadas

y_train_group = y_train.groupby('IND_BOM_1_1')
print(y_train_group.size())

X_train_columns = X_train.columns

# oversampling nos dados de treinamento
X_train, y_train = SMOTE().fit_sample(X_train, y_train)
print("Base de treinamento")
print("Class 0: ", np.where(y_train == 0)[0].shape[0])
print("Class 1: ", np.where(y_train == 1)[0].shape[0])

y_train = pd.DataFrame(np.array(y_train), columns=['IND_BOM_1_1'])
X_train = pd.DataFrame(np.array(X_train), columns=X_train_columns)

# oversampling nos dados de validação
X_val, y_val = SMOTE().fit_sample(X_val, y_val)
print("Base de validação")
print("Class 0: ", np.where(y_val == 0)[0].shape[0])
print("Class 1: ", np.where(y_val == 1)[0].shape[0])

y_val = pd.DataFrame(np.array(y_val), columns=['IND_BOM_1_1'])
X_val = pd.DataFrame(np.array(X_val), columns=X_train_columns)


#X_train.describe()
df_train = pd.DataFrame(X_train)
print(X_train)
#f_train.describe()

IND_BOM_1_1
0     67049
1    127549
dtype: int64


  y = column_or_1d(y, warn=True)


Base de teste
Class 0:  127549
Class 1:  127549


  y = column_or_1d(y, warn=True)


Base de validação
Class 0:  63775
Class 1:  63775
        UF_1  UF_2  UF_3  UF_4  UF_5  UF_6  UF_7     IDADE    SEXO_1  \
0        1.0   0.0   0.0   0.0   1.0   1.0   0.0  0.921349  0.000000   
1        1.0   1.0   0.0   0.0   1.0   0.0   0.0  0.879833  1.000000   
2        0.0   1.0   1.0   0.0   1.0   0.0   0.0  0.521749  1.000000   
3        1.0   1.0   1.0   0.0   0.0   0.0   0.0  0.095115  1.000000   
4        1.0   1.0   0.0   1.0   0.0   0.0   0.0  0.818269  0.000000   
5        1.0   1.0   1.0   0.0   0.0   0.0   0.0  0.274413  1.000000   
6        1.0   1.0   1.0   0.0   0.0   0.0   0.0  0.718482  1.000000   
7        1.0   1.0   1.0   0.0   0.0   0.0   0.0  0.890226  1.000000   
8        1.0   0.0   1.0   1.0   0.0   0.0   0.0  0.076487  1.000000   
9        1.0   1.0   1.0   0.0   0.0   0.0   0.0  0.931118  1.000000   
10       1.0   1.0   0.0   0.0   1.0   0.0   0.0  0.644935  0.000000   
11       1.0   1.0   0.0   0.0   0.0   0.0   1.0  0.012367  1.000000   
12       1.0  

É importante lembrar de normalizar os dados. A classe `StandardScaler` centraliza as variáveis e transforma as features para terem variância unitária. Você pode testar outras opções como o `MinMaxScaler`.

Todas as alternativas estão disponíveis em:
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing.

In [58]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

[-1.49166856  0.37156596  0.69023372  1.08082579 -0.67418088 -0.59435622
 -0.53943671 -0.49302891  1.84898557  0.99697037 -0.19378465 -0.05108644
 -0.2865236  -0.18298907 -0.13000445 -0.12569987 -0.11302087  0.28099599
  0.29417237 -0.53289452 -0.3518387  -0.35073559 -0.4654444  -0.27995596
  0.80172009 -0.4260305  -0.53347845 -0.32970784 -0.28231018 -0.42173103
 -0.54757364  0.20167484  0.36166907 -2.50669569 -0.3188381  -0.29851785
  3.81120397 -0.26270127  1.91472698  0.88553597 -0.30268525  0.18478571
 -0.17845119  0.29844535  0.06250679  0.20430941  0.99897485 -0.70196169
 -0.42199684 -0.26456887 -0.55166001  0.30286956 -0.28643221  0.53923624
 -0.4416035  -0.38006221 -0.559879    0.68208793 -0.31262546  1.31537284
 -1.0105708   1.22180807  1.15065353  1.16618445 -0.94019606  0.88316789
 -0.63089207 -1.16395216 -0.90057129  0.44243528 -0.90007812 -1.16412516
  1.50416235 -0.78365298 -0.72327325 -0.81072464  0.426778    1.03683123
 -0.85555573 -0.43048398 -0.76044742 -1.11481127  0

## Definição e Treino da Rede

Aqui definimos a arquitetura da nossa rede neural e treinamos ela.

No presente exemplo a rede possui apenas uma camada escondida. O código é bem intuitivo e a adição de novas camadas pode ser feita através da função `add`.

Para treinar a rede várias funções de otimização estão disponíveis. 

Confira os exemplos em: https://keras.io/optimizers/

O treinamento da rede pode ser interrompido baseado na performance dela em um conjunto de validação através de callbacks.

Confira a documentação da classe `EarlyStopping`: https://keras.io/callbacks/

In [9]:
# Número de features do nosso data set.
input_dim = X_train.shape[1]

# Aqui criamos o esboço da rede.
classifier = Sequential()

# Agora adicionamos a primeira camada escondida contendo 16 neurônios e função de ativação
# tangente hiperbólica. Por ser a primeira camada adicionada à rede, precisamos especificar
# a dimensão de entrada (número de features do data set).
classifier.add(Dense(16, activation='tanh', input_dim=input_dim))

# Em seguida adicionamos a camada de saída. Como nosso problema é binário só precisamos de
# 1 neurônio com função de ativação sigmoidal. A partir da segunda camada adicionada keras já
# consegue inferir o número de neurônios de entrada (16) e nós não precisamos mais especificar.
classifier.add(Dense(1, activation='sigmoid'))

# Por fim compilamos o modelo especificando um otimizador, a função de custo, e opcionalmente
# métricas para serem observadas durante treinamento.
classifier.compile(optimizer='adam', loss='mean_squared_error')

In [10]:
# Para treinar a rede passamos o conjunto de treinamento e especificamos o tamanho do mini-batch,
# o número máximo de épocas, e opcionalmente callbacks. No seguinte exemplo utilizamos early
# stopping para interromper o treinamento caso a performance não melhore em um conjunto de validação.
history = classifier.fit(X_train, y_train, batch_size=64, epochs=100000, 
                         callbacks=[EarlyStopping(patience=3)], validation_data=(X_val, y_val))

Train on 3924 samples, validate on 1962 samples
Epoch 1/100000
Epoch 2/100000
Epoch 3/100000
Epoch 4/100000
Epoch 5/100000
Epoch 6/100000
Epoch 7/100000
Epoch 8/100000
Epoch 9/100000
Epoch 10/100000
Epoch 11/100000
Epoch 12/100000
Epoch 13/100000
Epoch 14/100000
Epoch 15/100000
Epoch 16/100000
Epoch 17/100000
Epoch 18/100000
Epoch 19/100000
Epoch 20/100000
Epoch 21/100000
Epoch 22/100000
Epoch 23/100000
Epoch 24/100000
Epoch 25/100000
Epoch 26/100000
Epoch 27/100000
Epoch 28/100000
Epoch 29/100000
Epoch 30/100000
Epoch 31/100000
Epoch 32/100000
Epoch 33/100000
Epoch 34/100000
Epoch 35/100000
Epoch 36/100000
Epoch 37/100000
Epoch 38/100000
Epoch 39/100000
Epoch 40/100000
Epoch 41/100000
Epoch 42/100000
Epoch 43/100000
Epoch 44/100000
Epoch 45/100000
Epoch 46/100000
Epoch 47/100000
Epoch 48/100000
Epoch 49/100000
Epoch 50/100000
Epoch 51/100000
Epoch 52/100000
Epoch 53/100000
Epoch 54/100000
Epoch 55/100000
Epoch 56/100000
Epoch 57/100000
Epoch 58/100000
Epoch 59/100000
Epoch 60/100000
E

Algumas funções auxiliares.

In [11]:
def extract_final_losses(history):
    """Função para extrair o melhor loss de treino e validação.
    
    Argumento(s):
    history -- Objeto retornado pela função fit do keras.
    
    Retorno:
    Dicionário contendo o melhor loss de treino e de validação baseado 
    no menor loss de validação.
    """
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    idx_min_val_loss = np.argmin(val_loss)
    return {'train_loss': train_loss[idx_min_val_loss], 'val_loss': val_loss[idx_min_val_loss]}

def plot_training_error_curves(history):
    """Função para plotar as curvas de erro do treinamento da rede neural.
    
    Argumento(s):
    history -- Objeto retornado pela função fit do keras.
    
    Retorno:
    A função gera o gráfico do treino da rede e retorna None.
    """
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    
    fig, ax = plt.subplots()
    ax.plot(train_loss, label='Train')
    ax.plot(val_loss, label='Validation')
    ax.set(title='Training and Validation Error Curves', xlabel='Epochs', ylabel='Loss (MSE)')
    ax.legend()
    plt.show()

def compute_performance_metrics(y, y_pred_class, y_pred_scores=None):
    accuracy = accuracy_score(y, y_pred_class)
    recall = recall_score(y, y_pred_class)
    precision = precision_score(y, y_pred_class)
    f1 = f1_score(y, y_pred_class)
    performance_metrics = (accuracy, recall, precision, f1)
    if y_pred_scores is not None:
        auroc = roc_auc_score(y, y_pred_scores)
        aupr = average_precision_score(y, y_pred_scores)
        performance_metrics = performance_metrics + (auroc, aupr)
    return performance_metrics

def print_metrics_summary(accuracy, recall, precision, f1, auroc=None, aupr=None):
    print()
    print("{metric:<18}{value:.4f}".format(metric="Accuracy:", value=accuracy))
    print("{metric:<18}{value:.4f}".format(metric="Recall:", value=recall))
    print("{metric:<18}{value:.4f}".format(metric="Precision:", value=precision))
    print("{metric:<18}{value:.4f}".format(metric="F1:", value=f1))
    if auroc is not None:
        print("{metric:<18}{value:.4f}".format(metric="AUROC:", value=auroc))
    if aupr is not None:
        print("{metric:<18}{value:.4f}".format(metric="AUPR:", value=aupr))

In [12]:
plot_training_error_curves(history)

<IPython.core.display.Javascript object>