# Deep Learning in Action

Você verá como podemos construir e treinar uma rede neural para classificar os dígitos escritos a mão, em menos de 20 linhas de código Python!

#### Nosso objetivo: classificar digitos escritos a mão do dataset MNIST.

In [1]:
from keras.datasets import mnist

Using TensorFlow backend.


In [2]:
(train_images, train_labels), (test_images, test_labels) = mnist.load_data()

In [3]:
train_images.shape

(60000, 28, 28)

In [4]:
len(train_labels)

60000

In [5]:
train_labels

array([5, 0, 4, ..., 5, 6, 8], dtype=uint8)

In [6]:
test_images.shape

(10000, 28, 28)

In [7]:
len(test_labels)

10000

In [8]:
test_labels

array([7, 2, 1, ..., 4, 5, 6], dtype=uint8)

In [9]:
from keras import models
from keras import layers

In [10]:
network = models.Sequential()
network.add(layers.Dense(512, activation='relu', input_shape=(28 * 28,)))
network.add(layers.Dense(10, activation='softmax'))

Para tornar nossa rede pronta para treinamento, precisamos escolher mais três coisas, como parte da etapa de "compilação":
- **Uma função de perda (a loss function)**: é como a rede será capaz de medir o quão bom é o trabalho que está fazendo nos dados de treinamento e, assim, como será capaz de orientar-se na direção certa.
- **Um otimizador (an optimizer)**: este é o mecanismo através do qual a rede se atualizará com base nos dados que vê e a sua perda funcionar.
- **Métricas (metrics)**: para monitorar durante treinamento e testes. Aqui, só nos preocupamos com a precisão.

In [11]:
network.compile(optimizer='rmsprop',
                loss='categorical_crossentropy',
                metrics=['accuracy'])

Antes do treinamento, nós processaremos nossos dados remodelando-o na forma que a rede espera, e dimensionando-o para que todos os valores estejam no intervalo [0, 1].
Anteriormente, nossas imagens de treinamento, por exemplo, foram armazenadas em uma matriz de forma (60000, 28, 28) do tipo uint8 com valores no intervalo [0, 255]. Nós o transformamos em uma matriz de forma float32 (60000, 28 * 28) com valores entre 0 e 1.

In [12]:
train_images = train_images.reshape((60000, 28 * 28))
train_images = train_images.astype('float32') / 255

In [13]:
test_images = test_images.reshape((10000, 28 * 28))
test_images = test_images.astype('float32') / 255

In [14]:
from keras.utils import to_categorical

In [15]:
train_labels = to_categorical(train_labels)
test_labels = to_categorical(test_labels)

In [16]:
network.fit(train_images, train_labels, epochs=5, batch_size=128)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<keras.callbacks.History at 0x1105e6ba8>

Duas quantidades estão sendo exibidas durante o treinamento: a "perda" da rede sobre os dados de treinamento e a precisão da rede em relação aos dados de treinamento.

Alcançamos rapidamente uma precisão de 0,989 (ou seja, 98,9%) nos dados de treinamento. Agora, verifique se o nosso modelo também funciona bem no conjunto de testes:

In [17]:
test_loss, test_acc = network.evaluate(test_images, test_labels)



In [18]:
print('test_acc:', test_acc)

test_acc: 0.9827


Nossa precisão do conjunto de testes acaba por ser 97,8% - isso é um pouco menor do que a precisão do conjunto de treinamento. Esta lacuna entre a precisão do treinamento e a precisão do teste é um exemplo de "superposição" (overfitting), o fato de que os modelos de aprendizagem em máquina tendem a apresentar pior desempenho em dados novos do que em seus dados de treinamento. Mas este resultado é mesmo assim excelente!