# IF702 Redes Neurais
Este notebook contém um script base para o projeto da disciplina IF702 Redes Neurais.

In [92]:
import numpy as np
import pandas as pd

from keras.models import Sequential
from keras.layers import Dense
from keras.callbacks import EarlyStopping
from keras.optimizers import Adam

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, recall_score, precision_score, f1_score, roc_auc_score, mean_squared_error

import matplotlib
matplotlib.use('nbagg')
import matplotlib.pyplot as plt

## Leitura e Limpeza dos Dados

A leitura dos dados é feita utilizando a biblioteca `pandas`. O presente exemplo importa a base de dados `mammography`. Caso você esteja trabalhando com outro data set, modifique este trecho de código.
Para importar o conjunto de dados do PAKDD, use a função `pd.read_table` ao invés da `pd.read_csv`.

In [94]:
data_set = pd.read_csv('data/mammography.csv.zip')
data_set.drop_duplicates(inplace=True)  # Remove exemplos repetidos

In [95]:
# Imprime as 5 primeiras linhas do data set
data_set.head(5)

Unnamed: 0,X1,X2,X3,X4,X5,X6,class
0,0.23002,5.072578,-0.276061,0.832444,-0.377866,0.480322,-1
1,0.155491,-0.16939,0.670652,-0.859553,-0.377866,-0.945723,-1
2,-0.784415,-0.443654,5.674705,-0.859553,-0.377866,-0.945723,-1
3,0.546088,0.131415,-0.456387,-0.859553,-0.377866,-0.945723,-1
4,-0.102987,-0.394994,-0.140816,0.979703,-0.377866,1.013566,-1


In [96]:
# Estatísticas sobre as variáveis
data_set.describe()

Unnamed: 0,X1,X2,X3,X4,X5,X6,class
count,7849.0,7849.0,7849.0,7849.0,7849.0,7849.0,7849.0
mean,0.333194,0.199706,0.251306,0.36511,0.160505,0.401712,-0.935278
std,1.025862,1.136235,1.101344,0.988751,1.156892,0.939931,0.353935
min,-0.784415,-0.470195,-0.591631,-0.859553,-0.377866,-0.945723,-1.0
25%,-0.145672,-0.408265,-0.276061,-0.859553,-0.377866,-0.945723,-1.0
50%,0.111621,-0.271133,-0.005571,0.548898,-0.377866,0.845975,-1.0
75%,0.508993,0.219887,0.400163,1.027382,0.386166,1.132403,-1.0
max,31.508443,5.085849,29.477769,9.591164,23.617122,1.949027,1.0


Agora vamos separar o data set em atributos dependentes (X = features) e independentes (y = classe). No caso do `mammography` a classe majoritária está codificada como -1 e a classe minoritária está codificada como 1. Para treinar nossa rede neural precisamos que os valores de classe sejam 0 e 1 (restrição da biblioteca `keras`), assim modificamos a codificação da majoritária para 0.

Perceba que esse pré-processamento varia de data set para data set.

In [97]:
# Também convertemos os dados para arrays ao invés de DataFrames
# X = data_set.iloc[:, :-1].values
# y = data_set.iloc[:, -1].values
# y = np.where(y == -1, 0, 1)

## Divisão dos Dados em Treino, Validação, e Teste

Aqui dividimos o data set em treino, validação e teste de maneira estratificada.

In [98]:
# Treino: 50%, Validação: 25%, Teste: 25%
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=1./4., 
#                                                 random_state=42, stratify=y)
#X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=1./3., 
#                                                 random_state=42, stratify=y_train)

In [99]:
train = pd.read_csv('data/oversampling/mammography_train.csv')
test = pd.read_csv('data/oversampling/mammography_test.csv')
val = pd.read_csv('data/oversampling/mammography_validation.csv')

In [100]:
X_train = train.iloc[:, :-1].values
X_test = test.iloc[:, :-1].values
X_val = val.iloc[:, :-1].values

In [101]:
y_train = train.iloc[:, -1].values
y_test = test.iloc[:, -1].values
y_val = val.iloc[:, -1].values

## Sampling dos Dados e Normalização

Para testar o comportamento da rede com diferentes funções de sampling, as mesmas devem ser implementadas e aplicadas ao conjunto de treinamento antes da normalização dos dados (você também pode investigar qual o efeito de aplicar o sampling após a normalização).

In [102]:
## TO DO -- Implementar as funções de sampling a serem utilizadas

É importante lembrar de normalizar os dados. A classe `StandardScaler` centraliza as variáveis e transforma as features para terem variância unitária. Você pode testar outras opções como o `MinMaxScaler`.

Todas as alternativas estão disponíveis em:
http://scikit-learn.org/stable/modules/classes.html#module-sklearn.preprocessing.

In [103]:
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

## Definição e Treino da Rede

Aqui definimos a arquitetura da nossa rede neural e treinamos ela.

No presente exemplo a rede possui apenas uma camada escondida. O código é bem intuitivo e a adição de novas camadas pode ser feita através da função `add`.

Para treinar a rede várias funções de otimização estão disponíveis. 

Confira os exemplos em: https://keras.io/optimizers/

O treinamento da rede pode ser interrompido baseado na performance dela em um conjunto de validação através de callbacks.

Confira a documentação da classe `EarlyStopping`: https://keras.io/callbacks/

In [104]:
# Aqui criamos o esboço da rede.
classifier = Sequential()

# Agora adicionamos a primeira camada escondida contendo 16 neurônios e função de ativação
# tangente hiperbólica. Por ser a primeira camada adicionada à rede, precisamos especificar
# a dimensão de entrada (número de features do data set), que no caso do mammography são 6.
classifier.add(Dense(16, activation='tanh', input_dim=6))

# Em seguida adicionamos a camada de saída. Como nosso problema é binário só precisamos de
# 1 neurônio com função de ativação sigmoidal. A partir da segunda camada adicionada keras já
# consegue inferir o número de neurônios de entrada (16) e nós não precisamos mais especificar.
classifier.add(Dense(1, activation='sigmoid'))

# Por fim compilamos o modelo especificando um otimizador, a função de custo, e opcionalmente
# métricas para serem observadas durante treinamento.
adam = Adam(lr=0.001, beta_1=0.9, beta_2=0.999, epsilon=1e-08, decay=0.0)
classifier.compile(optimizer=adam, loss='mean_squared_error')

In [105]:
# Para treinar a rede passamos o conjunto de treinamento e especificamos o tamanho do mini-batch,
# o número máximo de épocas, e opcionalmente callbacks. No presente exemplo utilizamos early
# stopping para interromper o treinamento caso a performance não melhore em um conjunto de validação.
history = classifier.fit(X_train, y_train, batch_size=64, epochs=10000, 
                         callbacks=[EarlyStopping(patience=20)],
                         validation_data=(X_val, y_val))

Train on 3925 samples, validate on 1962 samples
Epoch 1/10000
Epoch 2/10000
Epoch 3/10000
Epoch 4/10000
Epoch 5/10000
Epoch 6/10000
Epoch 7/10000
Epoch 8/10000
Epoch 9/10000
Epoch 10/10000
Epoch 11/10000
Epoch 12/10000
Epoch 13/10000
Epoch 14/10000
Epoch 15/10000
Epoch 16/10000
Epoch 17/10000
Epoch 18/10000
Epoch 19/10000
Epoch 20/10000
Epoch 21/10000
Epoch 22/10000
Epoch 23/10000
Epoch 24/10000
Epoch 25/10000
Epoch 26/10000
Epoch 27/10000
Epoch 28/10000
Epoch 29/10000
Epoch 30/10000
Epoch 31/10000
Epoch 32/10000
Epoch 33/10000
Epoch 34/10000
Epoch 35/10000
Epoch 36/10000
Epoch 37/10000
Epoch 38/10000
Epoch 39/10000
Epoch 40/10000
Epoch 41/10000
Epoch 42/10000
Epoch 43/10000
Epoch 44/10000
Epoch 45/10000
Epoch 46/10000
Epoch 47/10000
Epoch 48/10000
Epoch 49/10000
Epoch 50/10000
Epoch 51/10000
Epoch 52/10000
Epoch 53/10000
Epoch 54/10000
Epoch 55/10000
Epoch 56/10000
Epoch 57/10000
Epoch 58/10000
Epoch 59/10000
Epoch 60/10000
Epoch 61/10000
Epoch 62/10000
Epoch 63/10000
Epoch 64/10000
E

Epoch 86/10000
Epoch 87/10000
Epoch 88/10000
Epoch 89/10000
Epoch 90/10000
Epoch 91/10000
Epoch 92/10000
Epoch 93/10000
Epoch 94/10000
Epoch 95/10000
Epoch 96/10000
Epoch 97/10000
Epoch 98/10000
Epoch 99/10000
Epoch 100/10000
Epoch 101/10000
Epoch 102/10000
Epoch 103/10000
Epoch 104/10000
Epoch 105/10000
Epoch 106/10000
Epoch 107/10000
Epoch 108/10000
Epoch 109/10000
Epoch 110/10000
Epoch 111/10000
Epoch 112/10000
Epoch 113/10000
Epoch 114/10000
Epoch 115/10000
Epoch 116/10000
Epoch 117/10000
Epoch 118/10000
Epoch 119/10000
Epoch 120/10000
Epoch 121/10000
Epoch 122/10000
Epoch 123/10000
Epoch 124/10000
Epoch 125/10000
Epoch 126/10000
Epoch 127/10000
Epoch 128/10000
Epoch 129/10000
Epoch 130/10000
Epoch 131/10000
Epoch 132/10000
Epoch 133/10000
Epoch 134/10000
Epoch 135/10000
Epoch 136/10000
Epoch 137/10000
Epoch 138/10000
Epoch 139/10000
Epoch 140/10000
Epoch 141/10000
Epoch 142/10000
Epoch 143/10000
Epoch 144/10000
Epoch 145/10000
Epoch 146/10000
Epoch 147/10000
Epoch 148/10000
Epoch 

Epoch 169/10000
Epoch 170/10000
Epoch 171/10000
Epoch 172/10000
Epoch 173/10000
Epoch 174/10000
Epoch 175/10000
Epoch 176/10000
Epoch 177/10000
Epoch 178/10000
Epoch 179/10000
Epoch 180/10000
Epoch 181/10000
Epoch 182/10000
Epoch 183/10000
Epoch 184/10000
Epoch 185/10000
Epoch 186/10000
Epoch 187/10000
Epoch 188/10000
Epoch 189/10000
Epoch 190/10000
Epoch 191/10000
Epoch 192/10000
Epoch 193/10000
Epoch 194/10000
Epoch 195/10000
Epoch 196/10000
Epoch 197/10000
Epoch 198/10000
Epoch 199/10000
Epoch 200/10000
Epoch 201/10000
Epoch 202/10000
Epoch 203/10000
Epoch 204/10000
Epoch 205/10000
Epoch 206/10000
Epoch 207/10000
Epoch 208/10000
Epoch 209/10000
Epoch 210/10000
Epoch 211/10000
Epoch 212/10000
Epoch 213/10000
Epoch 214/10000
Epoch 215/10000
Epoch 216/10000
Epoch 217/10000
Epoch 218/10000
Epoch 219/10000
Epoch 220/10000
Epoch 221/10000
Epoch 222/10000
Epoch 223/10000
Epoch 224/10000
Epoch 225/10000
Epoch 226/10000
Epoch 227/10000
Epoch 228/10000
Epoch 229/10000
Epoch 230/10000
Epoch 23

Epoch 252/10000
Epoch 253/10000
Epoch 254/10000
Epoch 255/10000
Epoch 256/10000
Epoch 257/10000
Epoch 258/10000
Epoch 259/10000
Epoch 260/10000
Epoch 261/10000
Epoch 262/10000
Epoch 263/10000
Epoch 264/10000
Epoch 265/10000
Epoch 266/10000
Epoch 267/10000
Epoch 268/10000
Epoch 269/10000
Epoch 270/10000
Epoch 271/10000
Epoch 272/10000
Epoch 273/10000
Epoch 274/10000
Epoch 275/10000
Epoch 276/10000
Epoch 277/10000
Epoch 278/10000
Epoch 279/10000
Epoch 280/10000
Epoch 281/10000
Epoch 282/10000
Epoch 283/10000
Epoch 284/10000
Epoch 285/10000
Epoch 286/10000
Epoch 287/10000
Epoch 288/10000
Epoch 289/10000
Epoch 290/10000
Epoch 291/10000
Epoch 292/10000
Epoch 293/10000
Epoch 294/10000
Epoch 295/10000
Epoch 296/10000
Epoch 297/10000
Epoch 298/10000
Epoch 299/10000
Epoch 300/10000
Epoch 301/10000
Epoch 302/10000
Epoch 303/10000
Epoch 304/10000
Epoch 305/10000
Epoch 306/10000
Epoch 307/10000
Epoch 308/10000
Epoch 309/10000
Epoch 310/10000
Epoch 311/10000
Epoch 312/10000
Epoch 313/10000
Epoch 31

Epoch 335/10000
Epoch 336/10000
Epoch 337/10000
Epoch 338/10000
Epoch 339/10000
Epoch 340/10000
Epoch 341/10000
Epoch 342/10000
Epoch 343/10000
Epoch 344/10000
Epoch 345/10000
Epoch 346/10000
Epoch 347/10000
Epoch 348/10000
Epoch 349/10000
Epoch 350/10000
Epoch 351/10000
Epoch 352/10000
Epoch 353/10000
Epoch 354/10000
Epoch 355/10000
Epoch 356/10000
Epoch 357/10000


Algumas funções auxiliares.

In [106]:
def extract_final_losses(history):
    """Função para extrair o melhor loss de treino e validação.
    
    Argumento(s):
    history -- Objeto retornado pela função fit do keras.
    
    Retorno:
    Dicionário contendo o melhor loss de treino e de validação baseado 
    no menor loss de validação.
    """
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    idx_min_val_loss = np.argmin(val_loss)
    return {'train_loss': train_loss[idx_min_val_loss], 'val_loss': val_loss[idx_min_val_loss]}

def plot_training_error_curves(history):
    """Função para plotar as curvas de erro do treinamento da rede neural.
    
    Argumento(s):
    history -- Objeto retornado pela função fit do keras.
    
    Retorno:
    A função gera o gráfico do treino da rede e retorna None.
    """
    train_loss = history.history['loss']
    val_loss = history.history['val_loss']
    
    fig, ax = plt.subplots()
    ax.plot(train_loss, label='Train')
    ax.plot(val_loss, label='Validation')
    ax.set(title='Training and Validation Error Curves', xlabel='Epochs', ylabel='Loss (MSE)')
    ax.legend()
    plt.show()

In [107]:
plot_training_error_curves(history)

<IPython.core.display.Javascript object>

## Predições no Conjunto de Teste

Agora utilizamos a nossa rede para fazer predições no conjunto de teste e computar métricas de desempenho.

Além das métricas utilizadas aqui, mais métricas de desempenho podem ser encontradas em: http://scikit-learn.org/stable/modules/classes.html#sklearn-metrics-metrics

In [109]:
## Fazer predições no conjunto de teste
y_pred = classifier.predict(X_test)
y_pred_class = classifier.predict_classes(X_test, verbose=0)

## Matriz de confusão
print('Matriz de confusão')
print(confusion_matrix(y_test, y_pred_class))

## Computar métricas de desempenho
losses = extract_final_losses(history)
print("")
print("{metric:<18}{value:.4f}".format(metric="Train Loss:", value=losses['train_loss']))
print("{metric:<18}{value:.4f}".format(metric="Validation Loss:", value=losses['val_loss']))
print("{metric:<18}{value:.4f}".format(metric="MSE:", value=mean_squared_error(y_test, y_pred)))
print("{metric:<18}{value:.4f}".format(metric="Accuracy:", value=accuracy_score(y_test, y_pred_class)))
print("{metric:<18}{value:.4f}".format(metric="Recall:", value=recall_score(y_test, y_pred_class)))
print("{metric:<18}{value:.4f}".format(metric="Precision:", value=precision_score(y_test, y_pred_class)))
print("{metric:<18}{value:.4f}".format(metric="F1:", value=f1_score(y_test, y_pred_class)))
print("{metric:<18}{value:.4f}".format(metric="AUROC:", value=roc_auc_score(y_test, y_pred)))

Matriz de confusão
[[1887   11]
 [  27   37]]

Train Loss:       0.0137
Validation Loss:  0.0115
MSE:              0.0138
Accuracy:         0.9806
Recall:           0.5781
Precision:        0.7708
F1:               0.6607
AUROC:            0.9564
