# Introdução ao TensorFlow


<img src="img/tensorflow.png" width=150px>

Ao longo desta aula, você aplicará seus conhecimentos de redes neurais em conjuntos de dados reais usando o [TensorFlow](https://www.tensorflow.org), uma biblioteca de código aberto de Deep Learning criada pela Google. Você usará o TensorFlow para classificar imagens do conjunto de dados notMNIST - um conjunto de imagens em inglês de A até J. Você pode ver alguns exemplos abaixo.

<img src="img/notmnist.png" width=400px>

Seu objetivo será detectar automaticamente a letra baseada na imagem do conjunto de dados.

---
## Instalação

Um arquivo de ambiente com todos os pacotes necessários para o acompanhamento da aula foi criado e está no mesmo repositório que este notebook (procure por `tf_intro.yaml`). Use o comando abaixo para criar o ambiente a partir dele:

`conda env create -f tf_intro.yaml`

Após criar e entrar no ambiente `tf_intro`, execute a célula abaixo para garantir que tudo está instalado corretamente. O output deve ser "Ola, mundo!". Não se preocupe em entender o que está acontecendo, explicações serão dadas ao longo do notebook.

In [1]:
import tensorflow as tf

hello_constant = tf.constant('Ola, mundo!')

with tf.Session() as sess:
    output = sess.run(hello_constant)
    print(output)

b'Ola, mundo!'


---
## "Olá, mundo" do TensorFlow

Nesta seção, vamos analisar o script que foi executado na célula acima.

### Tensor

No TensorFlow, os objetos não são salvos em integers, floats ou strings. estes valores são encapsulados em um objeto chamado tensor. No caso de `hello_constant = tf.constant('Ola, mundo!')`, `hello_constant` é um tensor string de 0 dimensões, mas os tensores podem ter uma variedade de tamanhos, como exposto abaixo:

In [2]:
# A é um tensor int32 de 0 dimensões
A = tf.constant(1234)

# B é um tensor int32 de 1 dimensão
B = tf.constant([123, 456, 789])

# C é um tensor int32 de 2 dimensões
C = tf.constant([[123, 456, 789], [222, 333, 444]])

[**`tf.constant`**](https://www.tensorflow.org/api_docs/python/tf/constant) é uma das diversas operações do TensorFlow que usaremos neste notebook. O tensor retornado por [**`tf.constant`**](https://www.tensorflow.org/api_docs/python/tf/constant) é o que chamamos de tensor constante, pois seu valor nunca muda.

### Sessão

A API do TensorFlow é construída em volta da ideia de um grafo computacional, um modo de visualizar processos matemáticos que é discutido no repositório do MiniFlow **(incluir link para repo)**. A figura abaixo ilustra o código do "Olá, mundo" transformado em um grafo:

<img src="img/session.png">

Uma "Sessão do TensorFlow", como mostrada acima, é um abiente para rodar um grafo. A sessão é responsável por alocar as operações para as GPU(s) e/ou CPU(s), incluindo máquinas remotas. Vamos executar o "Olá, mundo" mais uma vez e logo depois entender como funciona a sessão.

In [3]:
import tensorflow as tf

hello_constant = tf.constant('Ola, mundo!')

with tf.Session() as sess:
    output = sess.run(hello_constant)
    print(output)

b'Ola, mundo!'


O código cria o tensor `hello_constant` nas linhas iniciais. O próximo passo é avaliar o tensor na sessão.

O código cria uma instância de sessão, `sess`, usando [**`tf.Session`**](https://www.tensorflow.org/api_docs/python/tf/Session). A função [**`sess.run()`**](https://www.tensorflow.org/api_docs/python/tf/Session#run) então avalia o tensor e retorna os resultados.

---
## Input

Na seção anterior, passamos um tensor por uma sessão e ele retornou um resultado. E se quisermos usar algo não constante? Aqui é onde a função [**`tf.placeholder()`**](https://www.tensorflow.org/api_docs/python/tf/placeholder) e o `feed_dict` aparecem. Nesta seção, apresentaremos o básico sobre como introduzir dados no TensorFlow.

### tf.placeholder()

Infelizmente, não é possível alocar `x` para o conjunto de dados e colocar isso no TensorFlow, porque com o tempo você irá querer que o seu modelo receba diferentes conjuntos de dados com diferentes parâmetros. Para isso, você precisará do [**`tf.placeholder()`**](https://www.tensorflow.org/api_docs/python/tf/placeholder)!

[**`tf.placeholder()`**](https://www.tensorflow.org/api_docs/python/tf/placeholder) retorna um tensor que pega o valor dos dados passados para a função [**`tf.session.run()`**](https://www.tensorflow.org/api_docs/python/tf/Session#run), permitindo que você decida o input logo antes da sessão rodar.

### feed_dict

O parâmetro `feed_dict` é usado na [**`tf.session.run()`**](https://www.tensorflow.org/api_docs/python/tf/Session#run) para alocar o tensor placeholder. O exemplo abaixo mostra o tensor `x` recebendo a string `Ola, mundo`:

In [4]:
x = tf.placeholder(tf.string)

with tf.Session() as sess:
    output = sess.run(x, feed_dict={x: 'Ola, mundo'})

Também é possível alocar mais de um tensor usando o `feed_dict`, como feito abaixo:

In [5]:
x = tf.placeholder(tf.string)
y = tf.placeholder(tf.int32)
z = tf.placeholder(tf.float32)

with tf.Session() as sess:
    outpupt = sess.run(x, feed_dict={x: 'Teste', y: 123, z: 45.67})

Caso os dados passados para o `feed_dict` não combinem com o tipo do tensor e não possam ser lançados no tipo do tensor, você obterá o erro "`ValueError: invalid literal for`...".

---
## Matemática com TensorFlow

Conseguir o input é ótimo, mas agora precisamos usá-lo. Nesta seção, usaremos as funções matemáticas mais conhecidas (adição, subtração, multiplicação e divisão) com tensores. Existem muitas outras funções matemáticas que podem ser encontradas na [documentação](https://www.tensorflow.org/api_docs/python/math_ops/) do Tensorflow

### Adição

Começaremos com a função de adição. A função [**`tf.add()`**](https://www.tensorflow.org/api_docs/python/tf/add) faz exatamente o que esperamos que ela faça: recebe dois números, dois tensores ou um de cada, e retorna a soma deles como um tensor.

In [6]:
x = tf.add(5, 2)    # Retorna 7

with tf.Session() as sess:
    print(sess.run(x))

7


### Subratação, multiplicação e divisão

Assim como a função de adição, as funções de subratação, multiplicação e divisão são bastante intuitivas.

In [7]:
a = tf.subtract(15, 5)    # Retorna 10
b = tf.multiply(15, 5)    # Retorna 75
c = tf.div(15, 5)         # Retorna 3

with tf.Session() as sess:
    print(sess.run(a))
    print(sess.run(b))
    print(sess.run(c))

10
75
3


### Convertendo tipos

Pode ser necessário converter tipos para fazer alguns operadores trabalharem juntos. Por exemplo, o código `tf.subtract(tf.constant(2.0), tf.constant(1))` falha ao ser executad.

Isso acontece pois `1` é um interger e a constante `2.0` é um ponto flutuante. A operação `subtract` espera que eles combinem.

Em casos como este, você pode tanto garantir que os dados sejam sempre do mesmo tipo quanto mudar o tipo de um determinado valor. Neste caso, converter `2.0` para um interger antes de subtrair irá gerar o resultado certo.

### Exemplo

Na célula a seguir, usaremos o TensorFlow para imprimir o resultado da expressão numérica `10 / 2 - 1`:

In [8]:
import tensorflow as tf

x = tf.constant(10)
y = tf.constant(2)
result = tf.subtract(tf.div(x, y), 1)

with tf.Session() as sess:
    print(sess.run(result))

4


---
## Função linear no TensorFlow

A operação ais comum nas redes neurais é calcular a combinação linear de inputs, pesos e vieses. Para lembrar, nós podemos escrever o output da operação linear como

$$
y = xW + b
$$

Aqui, **W** é a matriz dos pesos conectando duas camadas. O output **y**, o input **x** e os vieses **b** são todos vetores.

O objetivo de treinar uma rede neural é modificar os pesos e vieses para prever os rótulos de modo mais eficiente. A fim de usar pesos e viés, você precisará de um tensor que pode ser modificado. Isso elimina o [**`tf.placeholder()`**](https://www.tensorflow.org/api_docs/python/tf/placeholder) e o [**`tf.constant()`**](https://www.tensorflow.org/api_docs/python/tf/constant), uma vez que esses tensores não podem ser modificados. Aqui é onde aparece a classe [**`tf.Variable`**](https://www.tensorflow.org/api_docs/python/tf/Variable).

### tf.Variable()

A classe [**`tf.Variable`**](https://www.tensorflow.org/api_docs/python/tf/Variable) cria um tensor com um valor inicial que pode ser modificado, tal como uma variável comum do Python.

In [9]:
x = tf.Variable(5)

Esse tensor guarda o estado em ua sessão, então é necessário inicializar o estado do tensor manualmente. Usaremos a função [**`tf.global_variables_initializer()`**](https://www.tensorflow.org/api_docs/python/tf/global_variables_initializer) para inicializar o estado de todos os tensores Variáveis.

In [10]:
init = tf.global_variables_initializer()

with tf.Session() as sess:
    sess.run(init)

Ao chamar [**`tf.global_variables_initializer()`**](https://www.tensorflow.org/api_docs/python/tf/global_variables_initializer), a função retorna uma operação que irá inicializar todas as variáveis TensorFlow do grafo. Chama-se a operação usando uma sessão para inicializar todas as variáveis, como mostrado acima. Usar a classe [**`tf.Variable`**](https://www.tensorflow.org/api_docs/python/tf/Variable) permite que mudemos os pesos e o viés, mas os alores iniciais precisam ser escolhidos.

Inicializar os pesos com números aleatórios a partir de uma distribuição normal é uma boa prática. Randomizar os pesos ajuda o modelo a não ficar preso sempre no mesmo lugar toda vez que for treinado.

De modo similar, escolher os pesos de uma distribuição normal previne que um peso se sobreponha aos outros. Usaremos a função [**`tf.truncated_normal()`**](https://www.tensorflow.org/api_docs/python/tf/truncated_normal) para gerar números aleatórios a partir de uma distribuição normal.

### tf.truncated_normal()

A função [**`tf.truncated_normal()`**](https://www.tensorflow.org/api_docs/python/tf/truncated_normal) retorna um tensor com valores aleatórios vindos de uma distribuição normal cuja magnitude é de não mais que 2 desvios padrão da média.

In [11]:
n_features = 120
n_labels = 5
weights = tf.Variable(tf.truncated_normal((n_features, n_labels)))

Uma vez que os pesos já auxiliam o modelo a não se prender, não é necessário randomizar também o viés. Vamos usar a solução mais simples que é definir o viés como 0.

### tf.zeros()

A função [**`tf.zeros()`**](https://www.tensorflow.org/api_docs/python/tf/zeros) retorna um tensor composto de zeros.

In [12]:
n_labels = 5
bias = tf.Variable(tf.zeros(n_labels))

### Exercício

Neste exercício, você deve classificar números `0`, `1` e `2` escritos a mão do conjunto de dados MNIST usando o TensorFlow. A figura abaixo mostra uma pequena amostra dos dados que serão usados para o treinamento. Repare que alguns dos `1` foram escritos com uma serifa no topo e com ângulos diferentes. As similaridades e diferenças terão um papel importante na definição dos pesos do modelo.

<img src='img/mnist_012.png'>

As imagens abaixo são os pesos treinados para cada rótulo (`0`, `1` e `2`, da esquerda para a direita). Os pesos mostram as propriedades únicas de cada dígito que eles encontraram.

<img src='img/weights_012.png' width=400px>

Siga as instruções abaixo para treinar seus próprios pesos:
1. Abra o arquivo funcao_linear.py
     1. Implemente `gerar_pesos` de modo que retorne um `tf.Variable` com pesos aleatórios
     2. Implemente `gerar_vies` de modo que retorne um `tf.Variable` preenchido com zeros.
     3. Implemente `linear`.
2. Inicialize todos os pesos antes de executar a célula abaixo.

**Nota**: uma vez que $xW$ em $xW + b$ é uma multiplicação de matrizes, é necessário usar a função [**`tf.matmul()`**](https://www.tensorflow.org/api_docs/python/tf/matmul) ao invés de [**`tf.multiply()`**](https://www.tensorflow.org/api_docs/python/tf/multiply). Não se esqueça que a ordem é importante na multiplicação de matrizes, então `tf.matmul(a, b)` não é a mesma coisa que `tf.matmul(b, a)`.

In [14]:
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from funcao_linear import gerar_pesos, gerar_vies, linear
from auxiliar import mnist_features_labels

# Definição do número de atributos e de rótulos
n_features = 28 * 28    # Imagens do MNIST têm dimensões 28x28
n_labels = 3            # Apenas os três primeiros rótulos (0, 1 e 2)

# Atributos e rótulos
features = tf.placeholder(tf.float32)
labels = tf.placeholder(tf.float32)

# TODO: Chamar as funções implementadas em funcao_linear.py
w = gerar_pesos(n_features, n_labels)
b = gerar_vies(n_labels)
logits = linear(features, w, b)

# Obter dados de treinamento
X, y = mnist_features_labels(n_labels)

with tf.Session() as sess:
    # TODO: Inicialize as variáveis na sessão
    sess.run(tf.global_variables_initializer())
    
    # Softmax
    prediction = tf.nn.softmax(logits)
    
    # Entropia cruzada
    cross_entropy = -tf.reduce_sum(labels * tf.log(prediction), 
                                   reduction_indices=1)
    
    # Perda
    loss = tf.reduce_mean(cross_entropy)
    
    # Taxa de aprendizado
    learning_rate = 0.08
    
    # Gradiente descendente
    optimizer = tf.train.GradientDescentOptimizer(learning_rate).minimize(loss)
    
    # Executar otimizador e obter perda
    _, l = sess.run([optimizer, loss], feed_dict={features: X, labels:y})

# Imprimir perda
print('Loss: {}'.format(l))

Extracting tmp/datasets/ud730/mnist\train-images-idx3-ubyte.gz
Extracting tmp/datasets/ud730/mnist\train-labels-idx1-ubyte.gz
Extracting tmp/datasets/ud730/mnist\t10k-images-idx3-ubyte.gz
Extracting tmp/datasets/ud730/mnist\t10k-labels-idx1-ubyte.gz
Loss: 5.477291107177734


---
## Softmax no TensorFlow

A função softmax comprime os inputs, normalmente chamados de **logits**, que são números entre 0 e 1 e também normaliza os outputs de modo que todos eles somados resultem em 1. Isso significa que o output da função softmax é equivalente Pa distribuição de probabilidade entre categorias. É a função perfeita para ser usada como ativação de output em uma rede prevendo múltiplas classes.

<img src='img/softmax_input_output.png' width=500px>

Estamos usando o TensorFlow para construir redes neurais e, convenientemente, existe uma função para calcular o softmax. A função [**`tf.nn.softmax()`**](https://www.tensorflow.org/api_docs/python/tf/nn/softmax) recebe os logits e retorna as ativações softmax.

In [15]:
import tensorflow as tf

logit_data = [2.0, 1.0, 0.1]

logits = tf.placeholder(tf.float32)
softmax = tf.nn.softmax(logits)

with tf.Session() as sess:
    output = sess.run(softmax, feed_dict={logits: logit_data})

print(output)

[0.6590012  0.24243298 0.09856589]


---
## Entropia cruzada no TensorFlow

Como visto anteriormente no curso, a entropia cruzada pode ser usada como função de custo em classificações codificadas one-hot. 

<img src='img/cross_entropy_diagram.png' width=500px>

A partir da figura acima, conclue-se que é possível criar uma função de entropia cruzada no TensorFlow. Para tanto, são necessárias duas funções: [**`tf.reduce_sum()`**](https://www.tensorflow.org/api_docs/python/tf/reduce_sum) e [**`tf.log()`**](https://www.tensorflow.org/api_docs/python/tf/log).

### tf.reduce_sum()

A função [**`tf.reduce_sum()`**](https://www.tensorflow.org/api_docs/python/tf/reduce_sum) soma todos os números de uma array.

In [16]:
x = tf.reduce_sum([1, 2, 3, 4, 5])    # Retorna 15

### tf.log()

A função [**`tf.log()`**](https://www.tensorflow.org/api_docs/python/tf/log) retorna o log natural de um número.

In [17]:
x = tf.log(100.0)    # Retorna 4.60517

### Implementação

Na célula abaixo, vamos implementar a função de entropia cruzada usando TensorFlow:

In [18]:
import tensorflow as tf

softmax_data = [0.7, 0.2, 0.1]
one_hot_data = [1.0, 0.0, 0.0]

softmax = tf.placeholder(tf.float32)
one_hot = tf.placeholder(tf.float32)

cross_entropy = -tf.reduce_sum(tf.multiply(one_hot, tf.log(softmax)))

with tf.Session() as sess:
    print(sess.run(cross_entropy, feed_dict={softmax: softmax_data, 
                                             one_hot: one_hot_data}))

0.35667497


---
## Minibatch no TensorFlow

Minibatch (miniloteamento em português) é a técnica utilizada para treinar em subconjuntos do conjunto de dados ao invés de usar todos os dados de uma vez. Isso permite treinar um modelo mesmo se o computador não tiver a memória para guardar todo o conjunto de dados.

O minibatch é computacionalmente ineficiente, uma vez que você não pode calcular a perda simultaneamente através de todas as amostras. No entanto, esse é um pequeno preço a se pagar para poder pelo menos rodar um modelo.

Essa técnica também é útil ao ser combinada com a SGD. A ideia é embaralhar aleatoriamente os dados no começo de cada época, então criar os minilotes. Para cada minilote, treina-se os pesos da rede com gradiente descendente. Uma vez que os lotes são aleatórios, está sendo realizado uma SGD com cada lote.

Vamos olhar o conjunto de dados do MNIST com pesos e viés para ver se sua máquina consegue lidar com ele.

In [19]:
import numpy as np
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data

n_input = 28 * 28    # MNIST data input (image shape: 28x28)
n_classes = 10       # MNIST total classes (0-9 digits)

mnist = input_data.read_data_sets('/tmp/datasets/ud730/mnist', 
                                  one_hot=True)

train_features = mnist.train.images
test_features = mnist.test.images

train_labels = mnist.train.labels.astype(np.float32)
test_labels = mnist.test.labels.astype(np.float32)

weights = tf.Variable(tf.random_normal([n_input, n_classes]))
bias = tf.Variable(tf.random_normal([n_classes]))

Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Extracting /tmp/datasets/ud730/mnist\train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Extracting /tmp/datasets/ud730/mnist\train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting /tmp/datasets/ud730/mnist\t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting /tmp/datasets/ud730/mnist\t10k-labels-idx1-ubyte.gz


Nas células a seguir, vamos calcular quantos bytes de memória as variáveis `train_features`, `train_labels`, `weights` e `bias` ocupam. Caso você não saiba quanta memória um float32 exige, recomendamos a leitura [deste link](https://en.wikipedia.org/wiki/Single-precision_floating-point_format).

In [20]:
variables = [train_features, train_labels, weights, bias]

for variable in variables:
    print(variable.shape)

(55000, 784)
(55000, 10)
(784, 10)
(10,)


In [21]:
train_features_size = 4 * variables[0].shape[0] * variables[0].shape[1]
print('train_features: {} bytes'.format(train_features_size))

train_labels_size = 4 * variables[1].shape[0] * variables[1].shape[1]
print('train_features: {} bytes'.format(train_labels_size))

weights_size = 4 * variables[2].shape[0] * variables[2].shape[1]
print('train_features: {} bytes'.format(weights_size))

bias_size = 4 * variables[3].shape[0]
print('train_features: {} bytes'.format(bias_size))

print('Total: {} bytes'.format(train_features_size + train_labels_size 
                               + weights_size + bias_size))

train_features: 172480000 bytes
train_features: 2200000 bytes
train_features: 31360 bytes
train_features: 40 bytes
Total: 174711400 bytes


O total de espaço na memória necessário para os inputs, pesos e viés é de aproximadamente 174 MB, o que não é muito. É possível treinar esse conjunto de dados na maioria dos CPUs e GPUs. Mas conjuntos de dados maiores que aparecerão no futuro serão medidos em GB ou até mais. É possível comprar mais memória, mas isso é caro. Uma placa de vídeo (GPU) Titan X com 12 GB de memória custa mais de R$ 4.000,00. Ao invés disso, para rodar modelos grandes na sua máquina, utiliza-se o miniloteamento.

Infelizmente, muitas vezes não é possível dividir os dados em lotes de tamanhos exatamente iguais. Por exemplo, imagine que você quer criar lotes de tamanho 128 cada um com um conjunto de dados com 1000 amostras. Uma vez que 128 não divide 1000 sem deixar resto, você terminará o processo com 7 lotes de 128 amostras e 1 lote com 104 amostrar (7 * 128 + 1 * 104 = 1000).

Neste caso, o tamanho das amostras varia, então é importante se aproveitar da função do TensorFlow [**`tf.placeholder()`**](https://www.tensorflow.org/api_docs/python/tf/placeholder) para receber os tamanhos variáveis dos lotes.

Continuando com o exemplo do MNIST, se cada amostra tiver 784 características (`n_input = 28 * 28`) e 10 possíveis rótulos (`n_classes = 10`), as dimensões de `features` seriam `[None, n_input]` e de `labels` seriam `[None, n_classes]`. 

A dimensão `None` é um marcador de posição para o tamanho do lote. Na hora de executar, o TensorFlow aceita qualquer tamanho de lote maior que 0. A configuração abaixo permite que você forneça `features` e `labels` para o modelo seja com lotes de 128 amostras, seja com lote lotes de 104 amostras.

In [22]:
features = tf.placeholder(tf.float32, [None, n_input])
labels = tf.placeholder(tf.float32, [None, n_classes])

Para fixar toda a ideia, vamos criar um exemplo na célula abaixo e calcular quantos lotes teremos e qual será o tamanho do último lote.

In [23]:
# features.shape = (50000, 400)
# labels.shape = (50000, 10)
# batch_size = 128

print('Quantidade de lotes: {}'.format(50000 // 128 + 1))
print('Tamanho do ultimo lote: {}'.format(50000 % 128))

Quantidade de lotes: 391
Tamanho do ultimo lote: 80


### Exercício

Neste exercício, você deve implementar a função `batches` no arquivo mini_batches.py e testá-lo na célula abaixo.

In [25]:
from mini_batches import batches
from pprint import pprint

# 4 samples of features
example_features = [['F11', 'F12', 'F13', 'F14'],
                    ['F21', 'F22', 'F23', 'F24'],
                    ['F31', 'F32', 'F33', 'F34'],
                    ['F41', 'F42', 'F43', 'F44']]

# 4 samples of labels
example_labels = [['L11', 'L12'],
                  ['L21', 'L22'],
                  ['L31', 'L32'],
                  ['L41', 'L42']]

# pprint imprime estruturas de dados como arrays 2D para tornar a leitura
# mais fácil
pprint(batches(3, example_features, example_labels))

[[[['F11', 'F12', 'F13', 'F14'],
   ['F21', 'F22', 'F23', 'F24'],
   ['F31', 'F32', 'F33', 'F34']],
  [['L11', 'L12'], ['L21', 'L22'], ['L31', 'L32']]],
 [[['F41', 'F42', 'F43', 'F44']], [['L41', 'L42']]]]


Agora que você se certificou que a função `batches` foi implementada corretamente, utilize-a para alimentar um modelo linear com rótulos e atributos do MNIST. Para isso, você deve configurar o tamanho do lote e rodar o otimizador por todos os lotes com a função implementada. O tamanho do lote recomendado é 128 (caso tenha restrições de memória, sinta-se livre para mudar o tamanho dos lotes).

In [27]:
import numpy as np
import tensorflow as tf
from tensorflow.examples.tutorials.mnist import input_data
from funcao_linear import linear
from mini_batches import batches

n_features = 28 * 28
n_labels = 3
learning_rate = 0.001

mnist = input_data.read_data_sets('/tmp/datasets/ud730/mnist', 
                                  one_hot=True)

train_features = mnist.train.images
test_features = mnist.test.images

train_labels = mnist.train.labels.astype(np.float32)
test_labels = mnist.test.labels.astype(np.float32)

features = tf.placeholder(tf.float32, [None, n_input])
labels = tf.placeholder(tf.float32, [None, n_classes])

weights = tf.Variable(tf.random_normal([n_input, n_classes]))
bias = tf.Variable(tf.random_normal([n_classes]))

logits = tf.add(tf.matmul(features, weights), bias)

loss = tf.reduce_mean(tf.nn.softmax_cross_entropy_with_logits(logits=logits, labels=labels))
optimizer = tf.train.GradientDescentOptimizer(learning_rate=learning_rate).minimize(loss)

correct_prediction = tf.equal(tf.argmax(logits, 1), tf.argmax(labels, 1))
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

X, y = mnist_features_labels(n_labels)

# TODO: Configure o tamanho do mini-lote
batch_size = 128
assert batch_size is not None, 'Configure batch_size'

with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    
    # TODO: Treinar o otimizador em todos os mini-lotes
    batches = batches(batch_size, train_features, train_labels)
    for batch_features, batch_labels in batches:
        sess.run(optimizer, feed_dict={features: batch_features,
                                       labels: batch_labels})
    
    test_accuracy = sess.run(accuracy, feed_dict={features: test_features,
                                                  labels: test_labels})

# Imprimir perda
print('Test accuracy: {}'.format(test_accuracy))

Extracting /tmp/datasets/ud730/mnist\train-images-idx3-ubyte.gz
Extracting /tmp/datasets/ud730/mnist\train-labels-idx1-ubyte.gz
Extracting /tmp/datasets/ud730/mnist\t10k-images-idx3-ubyte.gz
Extracting /tmp/datasets/ud730/mnist\t10k-labels-idx1-ubyte.gz
Extracting tmp/datasets/ud730/mnist\train-images-idx3-ubyte.gz
Extracting tmp/datasets/ud730/mnist\train-labels-idx1-ubyte.gz
Extracting tmp/datasets/ud730/mnist\t10k-images-idx3-ubyte.gz
Extracting tmp/datasets/ud730/mnist\t10k-labels-idx1-ubyte.gz
Test accuracy: 0.09470000118017197


A acurácia é baixa, mas você já sabe que pode treinar no conjunto de dados mais de uma vez. É possível treinar um modelo usando o conjunto de dados múltiplas vezes. Trataremos deste assunto na próxima sessão, onde falaremos sobre épocas (epochs).

---
## Épocas no TensorFlow