Redes convolucionais no MNIST

Primeiro: importar e normalizar o dataset

In [1]:
import tensorflow as tf
import time

mnist = tf.keras.datasets.mnist

(x_train, y_train),(x_test, y_test) = mnist.load_data()
x_train, x_test = x_train / 255, x_test / 255

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/mnist.npz


Criar e preparar o modelo:

In [2]:
model = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(16, (3,3), activation='relu', input_shape=(28, 28, 1)),    # 1 camada de convolução: 16 filtros 3x3
    tf.keras.layers.MaxPool2D((2,2)),                                                 # max pooling 2x2
    tf.keras.layers.Flatten(),                                                        # achatar p/ entrar em MLP
    tf.keras.layers.Dense(10, activation='softmax')                                   # 1 camada de saida com 10 neuronios
])

model.compile('adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d (Conv2D)             (None, 26, 26, 16)        160       
                                                                 
 max_pooling2d (MaxPooling2D  (None, 13, 13, 16)       0         
 )                                                               
                                                                 
 flatten (Flatten)           (None, 2704)              0         
                                                                 
 dense (Dense)               (None, 10)                27050     
                                                                 
Total params: 27,210
Trainable params: 27,210
Non-trainable params: 0
_________________________________________________________________


Função para treinar e avaliar o modelo

In [3]:
def train_and_test(model, x_train, y_train, x_test, y_test, epocas=10): 
  # aqui vc vai dar start em um 'cronometro' pra medir o tempo gasto
  start = time.time()  # troque o 0 pelo comando que faz a tomada de tempo

  model.fit(x_train, y_train, epochs=epocas) # faz o treino do modelo

  # aqui vc vai paralizar o 'cronometro' e exibir o tempo gasto
  duration = time.time() - start  # troque o 0 pelo comando que faz a tomada de tempo
  
  print(f"Treinamento demorou {duration} segundos")
  
  print(f"Avaliação do modelo:")
  model.evaluate(x_test, y_test)



Vamos chamar a função para o modelo simples instanciado anteriormente

In [4]:
train_and_test(model, x_train, y_train, x_test, y_test, epocas=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5
Treinamento demorou 41.703229904174805 segundos
Avaliação do modelo:


**Ex01**: Mude o treinamento para 20 épocas. Verifique o tempo gasto para treinar e a acurácia final. 

In [5]:
#seu codigo aqui
train_and_test(model, x_train, y_train, x_test, y_test, epocas=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20
Treinamento demorou 142.18351984024048 segundos
Avaliação do modelo:


**Ex01 - Resposta**: 

Treinamento demorou 142.24571061134338 segundos.

Avaliação do modelo: loss: 0.0768 - accuracy: 0.9821


**Ex02:** Crie um modelo que atinja 99% de acurácia de teste em 20 ou menos épocas. Verifique o tempo gasto para treinar

In [21]:
# seu codigo aqui
model_2 = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(128, (3,3), activation='relu', input_shape=(28, 28, 1)),    # 1 camada de convolução: 16 filtros 3x3
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(256, activation=tf.nn.relu),      
    tf.keras.layers.MaxPool2D((2,2)),                                                 # max pooling 2x2
    tf.keras.layers.Dropout(0.2),    
    tf.keras.layers.Flatten(),                              
    tf.keras.layers.Dense(128, activation=tf.nn.relu),      
    tf.keras.layers.Dropout(0.2),    
    tf.keras.layers.Dense(10, activation='softmax')                                   # 1 camada de saida com 10 neuronios

])

model_2.compile('adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model_2.summary()

train_and_test(model_2, x_train, y_train, x_test, y_test, epocas=20)

Model: "sequential_13"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_14 (Conv2D)          (None, 26, 26, 128)       1280      
                                                                 
 dropout_24 (Dropout)        (None, 26, 26, 128)       0         
                                                                 
 dense_33 (Dense)            (None, 26, 26, 256)       33024     
                                                                 
 max_pooling2d_13 (MaxPoolin  (None, 13, 13, 256)      0         
 g2D)                                                            
                                                                 
 dropout_25 (Dropout)        (None, 13, 13, 256)       0         
                                                                 
 flatten_13 (Flatten)        (None, 43264)             0         
                                                     

Não consegui 99%, o melhor resultado foi abaixo:

Treinamento demorou 287.9270815849304 segundos.

Avaliação do modelo: loss: 0.0679 - accuracy: 0.9890

**Ex03:** Agora vamos fazer testes com o Fashion MNIST, um dataset um pouco mais dificil que o MNIST



In [7]:
import tensorflow as tf
fashion_mnist = tf.keras.datasets.fashion_mnist

# INICIO: coloque aqui o codigo para carregar e normalizar os dados do fashion mnist
(x_train_fashion, y_train_fashion),(x_test_fashion, y_test_fashion) = fashion_mnist.load_data()
x_train_fashion, x_test_fashion = x_train_fashion / 255, x_test_fashion / 255
# FIM: coloque aqui o codigo para carregar e normalizar os dados do fashion mnist

train_and_test(model, x_train_fashion, y_train_fashion, x_test_fashion, y_test_fashion, epocas=10)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz
Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
Treinamento demorou 45.85748100280762 segundos
Avaliação do modelo:


**Ex04:** Crie um modelo que atinja 90% de acurácia de teste no Fashion MNIST em 20 ou menos épocas. Você pode adicionar mais camadas convolucionais ou ocultas no multi-layer perceptron da saída. Verifique o tempo gasto para treinar.

In [14]:
# seu codigo aqui
model_4 = tf.keras.models.Sequential([
    tf.keras.layers.Conv2D(16, (3,3), activation='relu', input_shape=(28, 28, 1)),    # 1 camada de convolução: 16 filtros 3x3
    tf.keras.layers.Dense(128, activation=tf.nn.relu),  
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.MaxPool2D((2,2)),                                                 # max pooling 2x2
    tf.keras.layers.Flatten(),                                                        # achatar p/ entrar em MLP
    tf.keras.layers.Dense(128, activation=tf.nn.relu),  
    tf.keras.layers.Dropout(0.2),
    tf.keras.layers.Dense(10, activation='softmax')                                   # 1 camada de saida com 10 neuronio

])

model_4.compile('adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])

model_4.summary()

train_and_test(model_4, x_train_fashion, y_train_fashion, x_test_fashion, y_test_fashion, epocas=15)

Model: "sequential_6"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv2d_7 (Conv2D)           (None, 26, 26, 16)        160       
                                                                 
 dense_12 (Dense)            (None, 26, 26, 128)       2176      
                                                                 
 dropout_6 (Dropout)         (None, 26, 26, 128)       0         
                                                                 
 max_pooling2d_6 (MaxPooling  (None, 13, 13, 128)      0         
 2D)                                                             
                                                                 
 flatten_6 (Flatten)         (None, 21632)             0         
                                                                 
 dense_13 (Dense)            (None, 128)               2769024   
                                                      

Treinamento demorou 153.19458627700806 segundos

Avaliação do modelo: loss: 0.3525 - accuracy: 0.9223