## Define a possible model

In [13]:
import tensorflow as tf
import matplotlib.pyplot as plt

# Load in fashion MNIST
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()

# Define the base model
model = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28,28)), 
                                    tf.keras.layers.Dense(512, activation=tf.nn.relu), 
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

## Normalizing Data


In [14]:
training_images  = training_images / 255.0
test_images = test_images / 255.0

In [15]:
training_images.max()

1.0

In [16]:
test_images.max()

1.0

## Compile Model

In [17]:
# compile the model
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])

# fit the model to the training data
model.fit(training_images, training_labels, epochs=5)

# test the model on the test data
model.evaluate(test_images, test_labels)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.336198627948761, 0.8794000148773193]

## Undestanting the model

In [18]:
classifications = model.predict(test_images)
print(classifications[0])

[9.25685626e-08 5.74098280e-09 1.03018444e-07 3.60960795e-09
 3.84998941e-07 4.58240509e-03 1.17439401e-06 4.80651855e-03
 4.95371637e-07 9.90608811e-01]


In [19]:
print(test_labels[0])

9


Os valores obtidos em "classifications" representam a "chance" da imagem testada
ser daquela classe, segundo o modelo. Desse modo ao usar o comando ```print(test_labels[0])```, percebe-se que o valor 9 corresponde a classe que possui o maior valor em "classifications".



## Double the number of neurons



In [20]:
NUMBER_OF_NEURONS = 1024

# define the new model
model = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28,28)),
                                    tf.keras.layers.Dense(NUMBER_OF_NEURONS, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

# compile fit and evaluate the model again
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(training_images, training_labels, epochs=5)
model.evaluate(test_images, test_labels)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.3389160633087158, 0.8762999773025513]

Aumentando o número de neurônios, aumenta-se também o tempo de treinamento, visto que existem mais neurônios, onde são realizados cálculos. <br>
Como foi visto nesse caso, o aumento de neurônios não significou no aumento da "accuracy" ou na diminuiação de "loss". <br>
Assim, conclui-se que o modelo com 512 neurônios apresenta um resultado melhor que o modelo com 1024 neurônios, já que demora menos tempo para ser treinado e possui uma "accuracy" um pouco melhor, quando analisado os dados de teste. 

## Add a new layer

In [38]:
YOUR_NEW_LAYER = tf.keras.layers.Dense(20, activation = tf.nn.relu)

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28,28)),
                                    tf.keras.layers.Dense(512, activation=tf.nn.relu),
                                    YOUR_NEW_LAYER,
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

In [39]:
# compile fit and evaluate the model again
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(training_images, training_labels, epochs=5)
model.evaluate(test_images, test_labels)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[0.3490239977836609, 0.8737000226974487]

Novamente, o primeiro modelo ainda apresenta um resultado um pouco melhor, levando em consideração o "loss". No entanto, os valores de "loss" obtido pelos três modelos foram bem próximos. <br>
Sendo assim, ainda considero o primeiro modelo melhor que os outros dois, visto que apresentou um "loss" mais baixo com os dados de teste e foi treinado com um tempo igual ao terceiro modelo.

## Using non-normalized data

In [40]:
# get new non-normalized mnist data
training_images_non = training_images * 255.0
test_images_non = test_images * 255.0
print(training_images_non.max())
print(test_images_non.max())

255.0
255.0


In [41]:
# re-compile, re-fit and re-evaluate
model = tf.keras.models.Sequential([tf.keras.layers.Flatten(input_shape=(28,28)),
                                    tf.keras.layers.Dense(512, activation=tf.nn.relu),
                                    YOUR_NEW_LAYER,
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])
model.fit(training_images_non, training_labels, epochs=5)
model.evaluate(test_images_non, test_labels)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


[1.4024919271469116, 0.38260000944137573]

In [42]:
classifications = model.predict(test_images_non)
print(classifications[0])

[4.8853374e-12 4.0856756e-16 3.6636104e-21 1.5922333e-18 1.7885766e-20
 3.9451060e-01 6.5330987e-13 5.6983568e-02 3.2228988e-02 5.1627690e-01]


Com os dados não normalizados, o resultado foi bem pior que os outros três modelos, visto que apresentou um "loss" consideravelmente maior e uma "accuracy" menor. <br>
Analisando "classifications", foi evidenciado que o modelo não tem uma boa precisão como o primeiro modelo.