# FNNs com Keras

A biblioteca Keras fornece uma API padrão de alto nível para acessar o tensorflow. A seguir vamos ver como implementar algumas das técnicas anteriores usando Keras. Note que a API implementada na aula anterior foi inspirada na do Keras, modo sequencial, que é descrita a seguir, usando exemplos.

In [1]:
import keras
from keras.models import Sequential
from keras.layers import Dense, Activation, Dropout, \
    Convolution2D, Flatten, MaxPooling2D, Reshape, InputLayer

  from ._conv import register_converters as _register_converters
Using TensorFlow backend.


Como antes, vamos usar a coleção MNIST. Desta vez, vamos ter tantos neurônios na camada de saída quanto as classes em MNIST (10). Assim, vamos usar codificação _one-hot_ na classe.

In [2]:
from tensorflow.examples.tutorials.mnist import input_data
mnist = input_data.read_data_sets('data/MNIST_data', one_hot=True)

Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.
Instructions for updating:
Please write your own downloading logic.
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting data/MNIST_data\train-images-idx3-ubyte.gz
Instructions for updating:
Please use tf.data to implement this functionality.
Extracting data/MNIST_data\train-labels-idx1-ubyte.gz
Instructions for updating:
Please use tf.one_hot on tensors.
Extracting data/MNIST_data\t10k-images-idx3-ubyte.gz
Extracting data/MNIST_data\t10k-labels-idx1-ubyte.gz
Instructions for updating:
Please use alternatives such as official/mnist/dataset.py from tensorflow/models.


Inicialmente, vamos criar uma arquitetura larga. Ela tem 250 neurônios em uma única camada escondida. Ela será treinada em 5 épocas com mini-batches de tamanho 128.

In [3]:
# define vars
input_num_units = 28*28
hidden_num_units = 250
output_num_units = 10
epochs = 5
batch_size = 128

model = Sequential()
model.add(Dense(units=hidden_num_units, 
       input_dim=input_num_units, activation='relu'))
model.add(Dense(units=output_num_units, 
       input_dim=hidden_num_units, activation='softmax'))


Vamos treiná-la usando como função de perda a entropia cruzada, com algoritmo de otimização Adam (gradiente descendente com momento) e avaliá-la em termos de acurácia:

In [4]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_500 = model.fit(mnist.train.images, mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Uma dúvida que surge é se uma rede profunda, com o mesmo número de nerônios ocultos, porém através de 5 camadas, é capaz de algo melhor. É o que vamos ver na arquitetura seguinte.

In [9]:
# define vars
input_num_units = 784
hidden1_num_units = 50
hidden2_num_units = 50
hidden3_num_units = 50
hidden4_num_units = 50
hidden5_num_units = 50
output_num_units = 10

epochs = 5
batch_size = 128

model = Sequential([
 Dense(units=hidden1_num_units, 
       input_dim=input_num_units, activation='relu'),
 Dense(units=hidden2_num_units, 
       input_dim=hidden1_num_units, activation='relu'),
 Dense(units=hidden3_num_units, 
       input_dim=hidden2_num_units, activation='relu'),
 Dense(units=hidden4_num_units, 
       input_dim=hidden3_num_units, activation='relu'),
 Dense(units=hidden5_num_units, 
       input_dim=hidden4_num_units, activation='relu'),
 Dense(units=output_num_units, 
       input_dim=hidden5_num_units, activation='softmax'),
 ])

model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

In [10]:
trained_model_5d = model.fit(mnist.train.images, mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


Uma forma de melhorar o resultado talvez seja usar Dropout. Vamos ver como se comporta, usando uma taxa de droput de 20%:

In [11]:
# define vars
input_num_units = 784
hidden1_num_units = 50
hidden2_num_units = 50
hidden3_num_units = 50
hidden4_num_units = 50
hidden5_num_units = 50
output_num_units = 10

epochs = 5
batch_size = 128

dropout_ratio = 0.2

model = Sequential([
 Dense(units=hidden1_num_units, 
       input_dim=input_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden2_num_units, 
       input_dim=hidden1_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden3_num_units, 
       input_dim=hidden2_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden4_num_units, 
       input_dim=hidden3_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden5_num_units, 
       input_dim=hidden4_num_units, activation='relu'),
 Dropout(dropout_ratio),

Dense(units=output_num_units, 
      input_dim=hidden5_num_units, activation='softmax'),
 ])

In [9]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_5d_drop = model.fit(mnist.train.images, mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


O desempenho piorou. Uma razão possível talvez seja o fato de que não estamos treinando o suficiente. Assim, vamos aumentar o número de épocas.

In [12]:
# define vars
input_num_units = 784
hidden1_num_units = 50
hidden2_num_units = 50
hidden3_num_units = 50
hidden4_num_units = 50
hidden5_num_units = 50
output_num_units = 10

epochs = 50
batch_size = 128

dropout_ratio = 0.2

model = Sequential([
 Dense(units=hidden1_num_units, 
       input_dim=input_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden2_num_units, 
       input_dim=hidden1_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden3_num_units, 
       input_dim=hidden2_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden4_num_units, 
       input_dim=hidden3_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden5_num_units, 
       input_dim=hidden4_num_units, activation='relu'),
 Dropout(dropout_ratio),

Dense(units=output_num_units, 
      input_dim=hidden5_num_units, activation='softmax'),
 ])

In [13]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_5d_drop_mais_epocas = model.fit(mnist.train.images, 
                                              mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


E nada muito extraordinário. O próximo passo agora é testar uma rede larga e profunda (e lenta :(). Com ela, temos a chance de realmente nos aproximarmos do desempenho dos melhores métodos, baseados em convoluções. Para deixar as coisas menos complexas, vou deixar 500 neurônios na 1a camada e apenas 250 nas demais. Vou testar com 25 épocas... ah, pode esperar!

In [14]:
# define vars
input_num_units = 784
hidden1_num_units = 500
hidden2_num_units = 250
hidden3_num_units = 250
hidden4_num_units = 250
hidden5_num_units = 250
output_num_units = 10

epochs = 25
batch_size = 128

dropout_ratio = 0.2

model = Sequential([
 Dense(units=hidden1_num_units, 
       input_dim=input_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden2_num_units, 
       input_dim=hidden1_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden3_num_units, 
       input_dim=hidden2_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden4_num_units, 
       input_dim=hidden3_num_units, activation='relu'),
 Dropout(dropout_ratio),
 Dense(units=hidden5_num_units, 
       input_dim=hidden4_num_units, activation='relu'),
 Dropout(dropout_ratio),

Dense(units=output_num_units, 
      input_dim=hidden5_num_units, activation='softmax'),
 ])

In [15]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_5d_larga_profunda = model.fit(mnist.train.images, 
                                              mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


Este modelo já conseguiu um resultado bem superior ao anterior. Contudo, fica claro agora que já há algum overfitting, devido à complexidade do modelo. Vamos ver qual o efeito agora de aplicarmos _batch normalization_.

In [16]:
# define vars
input_num_units = 784
hidden1_num_units = 500
hidden2_num_units = 250
hidden3_num_units = 250
hidden4_num_units = 250
hidden5_num_units = 250
output_num_units = 10

epochs = 25
batch_size = 128

dropout_ratio = 0.2

from keras.layers.normalization import BatchNormalization

model = Sequential([
 Dense(units=hidden1_num_units, input_dim=input_num_units),
 BatchNormalization(), Activation('relu'),
 Dropout(dropout_ratio),
    
 Dense(units=hidden2_num_units, input_dim=hidden1_num_units),
 BatchNormalization(), Activation('relu'),
 Dropout(dropout_ratio),
    
 Dense(units=hidden3_num_units, input_dim=hidden2_num_units),
 BatchNormalization(), Activation('relu'),
 Dropout(dropout_ratio),
    
 Dense(units=hidden4_num_units, input_dim=hidden3_num_units),
 BatchNormalization(), Activation('relu'),
 Dropout(dropout_ratio),
    
 Dense(units=hidden5_num_units, input_dim=hidden4_num_units),
 BatchNormalization(), Activation('relu'),
 Dropout(dropout_ratio),
    
 Dense(units=output_num_units, input_dim=hidden5_num_units),
 BatchNormalization(), Activation('softmax'),
])

In [17]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_5d_larga_profunda = model.fit(mnist.train.images, 
                                              mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/25
Epoch 2/25
Epoch 3/25
Epoch 4/25
Epoch 5/25
Epoch 6/25
Epoch 7/25
Epoch 8/25
Epoch 9/25
Epoch 10/25
Epoch 11/25
Epoch 12/25
Epoch 13/25
Epoch 14/25
Epoch 15/25
Epoch 16/25
Epoch 17/25
Epoch 18/25
Epoch 19/25
Epoch 20/25
Epoch 21/25
Epoch 22/25
Epoch 23/25
Epoch 24/25
Epoch 25/25


Mas à frente, vamos melhorar mais este resultado usando uma rede convolutiva.

## Keras Funcional

A API sequencial do Keras permite a criação de modelos camada a camada, o que é uma boa representação para muitos modelos. Contudo, modelos mais complexos podem ter múltiplas entradas e saídas e várias sequências de camadas em paralelo. Isso não é simples de representar usando uma abstração sequencial. 

Uma abstração alternativa seria tratar a rede neural pelo o que ela é de fato: uma complexa combinação de funções. Esta é a ideia por trás da API funcional, que vamos ver agora.

### Uma FNN com Keras Funcional

Nosso primeiro modelo nesta aula foi:

```python
# define vars
input_num_units = 28*28
hidden_num_units = 250
output_num_units = 10
epochs = 5
batch_size = 128

model = Sequential()
model.add(Dense(units=hidden_num_units, 
       input_dim=input_num_units, activation='relu'))
model.add(Dense(units=output_num_units, 
       input_dim=hidden_num_units, activation='softmax'))
       
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

trained_model_500 = model.fit(mnist.train.images, mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))
```

Usando a notação funcional, ele seria re-escrito como:

In [5]:
from keras.layers import Input, Dense, Activation
from keras.models import Model

In [6]:
# define vars
input_num_units = 28*28
hidden_num_units = 250
output_num_units = 10
epochs = 5
batch_size = 128

A única parte do modelo que é diferente é realmente esta:

In [7]:
visible = Input(shape=(input_num_units,))
hidden = Dense(hidden_num_units, activation = 'relu')(visible)
output = Dense(output_num_units, activation = 'softmax')(hidden)
model = Model(inputs = visible, outputs = output)

# antes:
# model = Sequential()
# model.add(Dense(units=hidden_num_units, 
#       input_dim=input_num_units, activation='relu'))
# model.add(Dense(units=output_num_units, 
#       input_dim=hidden_num_units, activation='softmax'))

Ou seja, cada camada é tratada como uma função parametrizável. A saída de uma função é entrada para a próxima. A entrada é definida de forma explícita e o modelo é a composição das entradas e suas saídas (neste caso, apenas uma entrada e uma saída). Alternativamente, poderíamos definir este modelo assim:

In [8]:
visible = Input(shape=(input_num_units,))
hidden = Dense(hidden_num_units)(visible)
hidden = Activation('relu')(hidden)
output = Dense(output_num_units, activation = 'softmax')(hidden)
model = Model(inputs = visible, outputs = output)

Esta segunda formulação, em que a função de ativação é separada da camada oculta, é útil para executar operações antes da função de ativação como, por exemplo, BatchNormalization.

In [9]:
model.compile(loss='categorical_crossentropy', 
              optimizer='adam', metrics=['accuracy'])

In [10]:
trained_model_500 = model.fit(mnist.train.images, mnist.train.labels, 
                              epochs=epochs, 
                              batch_size=batch_size, 
                              validation_data=(mnist.validation.images, 
                                               mnist.validation.labels))

Train on 55000 samples, validate on 5000 samples
Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


__Exercício__: Usando a API funcional do Keras, crie uma FNN com 10 neurônios de entrada, 3 camadas ocultas com 10, 20 e 10 neurônios, e uma camada de saída com 1 neurônio. Use _relu_ como função de ativação em cada camada oculta e _sigmoid_ para a camada de saída.

<div align="right">
<a href="#modelkf1" class="btn btn-default" data-toggle="collapse">Solução #1</a>
</div>
<div id="modelkf1" class="collapse">
```
from keras.models import Model
from keras.layers import Input, Dense

inp = Input(shape=(10,))
h1  = Dense(10, activation = 'relu')(inp)
h2  = Dense(20, activation = 'relu')(h1)
h3  = Dense(10, activation = 'relu')(h2)
out = Dense( 1, activation = 'sigmoid')(h3)

model = Model(inputs = inp, outputs = out)
```
</div>

### Combinando duas FNNs, um modelo de duas entradas

Imagine que queremos saber se um usuário de uma operadora de TV à cabo pretende ou não desistir da sua assinatura. Suponha que temos duas redes neurais que usam diferentes conjuntos de evidências para prever a desistência. A primeira tem como entrada a quantidade de tempo gasto pelo usuário em dez categorias de programas. A segunda tem como entrada 8 diferentes informações demográficas do usuário, como sexo, idade, faixa de renda, plano assinado, etc. Queremos usar as representações dos usuários aprendidas por estas duas redes para criar um classificador final que tem a seguinte arquitetura: 



<img src="images/FnnMerge.png" alt="FNN combinada" style="width: 300px;"/>

Abaixo temos uma representação da rede em Keras, que demonstra a flexibidade da API funcional:

In [11]:
# Multiple Inputs
from keras.models import Model
from keras.layers import Input, Dense 
from keras.layers.merge import concatenate

# first input model
in1  = Input(shape=(10,))
h11  = Dense(10, activation = 'relu')(in1)
h12  = Dense(15, activation = 'relu')(h11)
out1 = Dense(10, activation = 'relu')(h12)

# second input model
in2  = Input(shape=(8,))
h21  = Dense(8, activation = 'relu')(in2)
out2 = Dense(8, activation = 'relu')(h21)

# merge input models
merge = concatenate([out1, out2])

# interpretation model
hm1 = Dense(10, activation='relu')(merge)
hm2 = Dense(10, activation='relu')(hm1)
output = Dense(1, activation='sigmoid')(hm2)
model = Model(inputs=[in1, in2], outputs=output)

# summarize layers
print(model.summary())

__________________________________________________________________________________________________
Layer (type)                    Output Shape         Param #     Connected to                     
input_3 (InputLayer)            (None, 10)           0                                            
__________________________________________________________________________________________________
dense_7 (Dense)                 (None, 10)           110         input_3[0][0]                    
__________________________________________________________________________________________________
input_4 (InputLayer)            (None, 8)            0                                            
__________________________________________________________________________________________________
dense_8 (Dense)                 (None, 15)           165         dense_7[0][0]                    
__________________________________________________________________________________________________
dense_10 (

O treino e previsão para este modelo devem incruir dados para ambas as entradas, o que resultaria em algo assim:

```python
model.fit([treino_programacao, treino_demograficos], labels, epochs=10)
preds = model.predict([teste_programacao, teste_demograficos])
```

__Exercício__: Usando a API funcional do Keras, crie uma FNN que combina três outras FNNs. Cada uma das FNNs combinadas tem 10 neurônios de entrada e 2 camadas ocultas com 20 e 10 neurônios. As representações de saída de cada FNN são adicionadas (`keras.layers.merge.add`) umas às outras para formar a representação de entrada da rede de interpretação. Esta rede, por sua vez, é formada por três camadas ocultas de 10 neurônios e uma camada de saída com 5 neurônios. Use _relu_ como função de ativação em cada camada oculta e _sigmoid_ para a camada de saída. Quantos são os parâmetros treináveis desta rede?

<div align="right">
<a href="#modelkf2" class="btn btn-default" data-toggle="collapse">Solução #1</a>
</div>
<div id="modelkf2" class="collapse">
```
# Multiple Inputs
from keras.models import Model
from keras.layers import Input, Dense 
from keras.layers.merge import add

in1  = Input(shape=(20,))
h11  = Dense(20, activation = 'relu')(in1)
out1 = Dense(10, activation = 'relu')(h11)

in2  = Input(shape=(20,))
h21  = Dense(20, activation = 'relu')(in2)
out2 = Dense(10, activation = 'relu')(h21)

in3  = Input(shape=(20,))
h31  = Dense(20, activation = 'relu')(in3)
out3 = Dense(10, activation = 'relu')(h31)

# merge input models
merge = add([out1, out2, out3])

# interpretation model
hm1 = Dense(10, activation='relu')(merge)
hm2 = Dense(10, activation='relu')(hm1)
hm3 = Dense(10, activation='relu')(hm2)
output = Dense(5, activation='sigmoid')(hm3)
model = Model(inputs=[in1, in2, in3], outputs=output)

# summarize layers
print(model.summary())

# na minha conta, 2275 parâmetros.```
</div>

Nas próximas aulas, vamos ver mais exemplos de arquiteturas complexas.

Esta aula inclui material de <a href = "https://linkedin.com/in/luisotsm">Luis Otavio Silveira Martins</a>, <a href = "https://linkedin.com/in/erich-natsubori-sato"> Erich Natsubori Sato </a></h4>. Material adicional de Imanol Schlag (https://ischlag.github.io/2016/06/04/how-to-use-tensorboard/) e Faizan Shaikh (https://www.analyticsvidhya.com/blog/2016/10/tutorial-optimizing-neural-networks-using-keras-with-image-recognition-case-study/). A API funcional é baseada no material de Jason Brownlee, disponível em https://machinelearningmastery.com/keras-functional-api-deep-learning/.