# Usando os truques de treinamento de redes neurais!

A documentação do Keras está em https://www.tensorflow.org/api_docs/python/tf/keras/

In [1]:
%matplotlib inline
import os

import matplotlib as mpl
import matplotlib.pyplot as plt
import numpy as np

np.random.seed(42)

mpl.rc("axes", labelsize=14)
mpl.rc("xtick", labelsize=12)
mpl.rc("ytick", labelsize=12)

In [2]:
# GAMBIARRA: https://stackoverflow.com/questions/69687794/unable-to-manually-load-cifar10-dataset
import ssl
ssl._create_default_https_context = ssl._create_unverified_context

In [3]:
import tensorflow as tf
from tensorflow import keras

tf.test.is_gpu_available()

Instructions for updating:
Use `tf.config.list_physical_devices('GPU')` instead.


False

In [4]:
# Lê o dataset CIFAR-10, https://keras.io/api/datasets/cifar10/
train_data, test_data = keras.datasets.cifar10.load_data()
X_train_full, y_train_full = train_data
X_test, y_test = test_data

Downloading data from https://www.cs.toronto.edu/~kriz/cifar-10-python.tar.gz


Fonte: https://www.cs.toronto.edu/~kriz/cifar.html

<img src='cifar.png'></img>

O conjunto de treinamento tem $50000$ imagens de $32 \times 32$ pixels, com $3$ canais de cor. Portanto, o *array* `X_train_full` contendo esses dados tem formato $(\text{amostras}, \text{linhas}, \text{colunas}, \text{canais}) = (50000, 32, 32, 3)$

In [5]:
print(X_train_full.shape)

(50000, 32, 32, 3)


Cada canal de cor é representado como um inteiro entre $0$ e $255$, e isso cabe em um único *byte*. Para economizar espaço, o tipo de dados do *array* então será `uint8`, significando "inteiro sem-sinal de 8 bits". Ou para o povo do C/C++, o famoso `unsigned char`.

In [6]:
print(X_train_full.dtype)

uint8


A variável dependente `y_train_full` tem $50000$ amostras e apenas um valor por amostra. Para se manter consistente com os formatos de dados do *framework* Tensorflow, a variável dependente será representada por uma matriz-coluna de tamanho $(50000, 1)$ ao invés de um array simples de tamanho $(50000,)$

In [7]:
print(y_train_full.shape)

(50000, 1)


Como as classes são inteiros entre $0$ e $9$, um `uint8` basta para armazená-las

In [8]:
print(y_train_full.dtype)

uint8


Já o conjunto de testes tem $10000$ amostras, observe os tamanhos e tipos de dado de `X_test` e `y_test`:

In [9]:
print(X_test.shape, X_test.dtype)
print(y_test.shape, y_test.dtype)

(10000, 32, 32, 3) uint8
(10000, 1) uint8


O conjunto de teste, como de costume, é inviolável. Vamos dividir o conjunto de treinamento mais uma vez em duas partes: um conjunto que realmente será usado para treinamento, e outro para validação (que é o conjunto de testes de dentro do conjunto de treinamento pleno, e então não é inviolável).

Vamos separar $5000$ amostras para validação.

In [10]:
from sklearn.model_selection import train_test_split

X_train, X_valid, y_train, y_valid = train_test_split(
    X_train_full,
    y_train_full,
    test_size=5000,
)

print("X_train", X_train.shape, X_train.dtype)
print("y_train", y_train.shape, y_train.dtype)
print("X_valid", X_valid.shape, X_valid.dtype)
print("y_valid", y_valid.shape, y_valid.dtype)

X_train (45000, 32, 32, 3) uint8
y_train (45000, 1) uint8
X_valid (5000, 32, 32, 3) uint8
y_valid (5000, 1) uint8


Antes de mais nada, vamos criar *baselines* de desempenho para comparação: o classificador trivial e a Random Forest.

O classificador mais simples, mais trivial possível, é simplesmente dizer que toda amostra vem da mesma classe: a classe com maior representação no conjunto de treinamento. Vamos ver:

In [11]:
import pandas as pd

pd.Series(y_train.ravel()).value_counts(True).sort_values()

2    0.099400
3    0.099489
7    0.099800
5    0.099911
8    0.099933
9    0.100000
1    0.100289
4    0.100311
6    0.100333
0    0.100533
dtype: float64

Aparentemente todas as classes estão representadas de modo aproximadamente igual, sendo a maior proporção igual a $10.05 \%$. Então vamos adotar como classe "oficial do nosso classificador trivial a classe $0$. Agora vamos ver o desempenho no conjunto de validação:

In [12]:
pd.Series(y_valid.ravel()).value_counts(True).sort_values()

0    0.0952
6    0.0970
4    0.0972
1    0.0974
9    0.1000
8    0.1006
5    0.1008
7    0.1018
3    0.1046
2    0.1054
dtype: float64

Neste conjunto a classe $0$ tem, por acidente estatístico, a pior proporção! Paciência, a vida é assim! (Procure pelo fenômeno de "regressão para a média", muitas coisas da vida vão ficar mais claras...)

Portanto, o nosso desempenho do classificador trivial será uma acurácia de $9.5\%$.

Se você quiser uma estimativa melhor de desempenho do classificador trivial você pode fazer validação cruzada, ou mesmo estimar a estatística de acurácia usando *bootstrap* para obter uma distribuição do valor de acurácia. Mas nada disso será relevante: $9.5\%$ é muito baixo.

Vamos ver agora a RandomForest.

In [13]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [14]:
%%time
model = RandomForestClassifier(n_jobs=-1, random_state=42)
model.fit(X_train.reshape(X_train.shape[0], -1), y_train.ravel())

CPU times: total: 7min 43s
Wall time: 36.6 s


In [15]:
y_pred = model.predict(X_valid.reshape(X_valid.shape[0], -1))
print(accuracy_score(y_valid.ravel(), y_pred))

0.454


Ok, esse é o *score* a ser vencido! (Será? Você pode pensar em alguma ressalva aqui?)

Vamos agora construir uma rede neural das antigas: nada profunda, e com função de ativação sigmoide. Vamos usar um `batch_size` grande, pois os itens do dataset são pequenos, não precisamos de batches muito pequenos (o tamanho padrão é 32 no TensorFlow). Veremos o desempenho:

In [16]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
model.add(keras.layers.Dense(100, activation="sigmoid"))
model.add(keras.layers.Dense(10, activation="softmax"))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="sgd",
    metrics=["accuracy"],
)

run_logdir = os.path.join(os.curdir, "cifar10_logs", "inicial")
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
callbacks = [tensorboard_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

[1.8087332248687744, 0.35040000081062317]

Vamos partir para uma rede profunda agora. Vamos criar $10$ camadas *fully-connected*, função de ativação "elu", inicialização de pesos adequada para a respectiva função de ativação, e otimizador "adam". Vamos ver se melhora:

In [17]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(10):
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"],
)

run_logdir = os.path.join(os.curdir, "cifar10_logs", "profunda")
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
callbacks = [tensorboard_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

[1.6749637126922607, 0.41440001130104065]

Muito melhor! Agora acertamos em torno de $43\%$ das classes!

A técnica de "batch normalization" pode melhorar ainda mais a convergência do modelo, vamos experimentar:

In [18]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)

model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(10):
    model.add(keras.layers.BatchNormalization())
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
            use_bias=False,
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"],
)

run_logdir = os.path.join(os.curdir, "cifar10_logs", "batchnorm")
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
callbacks = [tensorboard_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

[4.94550085067749, 0.448199987411499]

Uau. Isso sim que é *overfitting*! Para resolver o problema do *overfitting* vamos adotar o EarlyStopping:

In [19]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)
run_logdir = os.path.join(os.curdir, "cifar10_logs", "earlystopping")

# Criação do modelo.
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(10):
    model.add(keras.layers.BatchNormalization())
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
            use_bias=False,
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"],
)

# Otimização do modelo.
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10)
callbacks = [tensorboard_cb, early_stopping_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)

# Avaliação do modelo.
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100


[1.744353175163269, 0.48019999265670776]

Melhorou mais! Mas ainda temos o problema do *overfitting*, vamos tentar a técnica do "drop-out" para ver se melhora:

In [20]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)
run_logdir = os.path.join(os.curdir, "cifar10_logs", "dropout")

# Criação do modelo.
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(10):
    model.add(keras.layers.Dropout(rate=0.1))
    model.add(keras.layers.BatchNormalization())
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
            use_bias=False,
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="adam",
    metrics=["accuracy"],
)

# Otimização do modelo.
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10)
callbacks = [tensorboard_cb, early_stopping_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)

# Avaliação do modelo.
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100


[1.330750584602356, 0.5347999930381775]

Melhorou ainda mais! E agora não tem mais tanto overfitting! Já que é assim, vamos aumentar ainda mais a rede e ver se melhora: vamos colocar $20$ camadas!

In [21]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)
run_logdir = os.path.join(os.curdir, "cifar10_logs", "mais_profunda")

# Criação do modelo.
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(20):
    model.add(keras.layers.Dropout(rate=0.1))
    model.add(keras.layers.BatchNormalization())
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
            use_bias=False,
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer="nadam",
    metrics=["accuracy"],
)

# Otimização do modelo.
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10)
callbacks = [tensorboard_cb, early_stopping_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)

# Avaliação do modelo.
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

[1.3625441789627075, 0.5342000126838684]

Parece que não melhorou muito, estava bom do jeito anterior. Para terminar, vamos usar um escalonador de taxa de aprendizado para melhorar a velocidade de convergência do nosso modelo.

In [22]:
keras.backend.clear_session()
tf.random.set_seed(42)
np.random.seed(42)
run_logdir = os.path.join(os.curdir, "cifar10_logs", "escalonador")

# Criação do modelo.
model = keras.models.Sequential()
model.add(keras.layers.Flatten(input_shape=[32, 32, 3]))
for _ in range(10):
    model.add(keras.layers.Dropout(rate=0.1))
    model.add(keras.layers.BatchNormalization())
    model.add(
        keras.layers.Dense(
            100,
            kernel_initializer="he_normal",
            activation="elu",
            use_bias=False,
        ))
model.add(
    keras.layers.Dense(
        10,
        kernel_initializer="glorot_normal",
        activation="softmax",
    ))

s = 90 * len(X_train) // 1024  # number of steps in 90 epochs (batch size 1024)
learning_rate = keras.optimizers.schedules.ExponentialDecay(0.01, s, 0.1)
optimizer = keras.optimizers.Adam(learning_rate=learning_rate)

model.compile(
    loss="sparse_categorical_crossentropy",
    optimizer=optimizer,
    metrics=["accuracy"],
)

# Otimização do modelo.
tensorboard_cb = keras.callbacks.TensorBoard(run_logdir)
early_stopping_cb = keras.callbacks.EarlyStopping(patience=10)
callbacks = [tensorboard_cb, early_stopping_cb]

model.fit(
    X_train,
    y_train,
    epochs=100,
    batch_size=1024,
    validation_data=(X_valid, y_valid),
    callbacks=callbacks,
)

# Avaliação do modelo.
model.evaluate(X_valid, y_valid)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100


[1.3475792407989502, 0.5281999707221985]

In [23]:
model.evaluate(X_test, y_test)



[1.3102915287017822, 0.5467000007629395]

**Atividade**: Refaça a atividade da aula anterior (Fashion MNIST) mas tente usar os truques de melhoramento de desempenho das redes neurais vistos aqui nesta aula.