# Introdução a Machine Learning

## 5.2 - Introdução ao Tensor Flow

Olá

Nesta aula, iremos conhecer o Tensorflow que é uma biblioteca da aprendizado de máquina e Deep Learning para utilização de redes neurais. Embora também possamos utilizar a biblioteca Scikit-learn para a construção de redes neurais. O Tensorflow oferece uma alternativa mais complexa, robusta e que permite a construção de uma rede com mais camadas ou mais opções.

Então, o Tensorflow é extremamente importante na formação de quem está começando a trabalhar com aprendizaado de máquina. 

O Tensorflow foi pensado pelo Google Brain, uma divisão do Google incumbida da inteligência artificial da empresa. É uma biblioteca que foi pensada, no início, para computação numérica. E quando pensamos em todos os modelos de aprendizado de máquina como computação numérica, sobretudo, multiplicação de matrizes por vetores. O Tensorflow vem bem a calhar para esta finalidade. 

O Tensorflow foi pensado para rodar em CPUs, ou processadores normais, em GPUs, ou seja, placas de vídeo, uma vez que as redes neurais trabalham com multiplicações de matrizes por vetores. Como as placas de vídeos são especializadas em renderizar imagens. E imagens são, de fato, matrizes bem grandes, faz sentido rodarmos redes neurais em placas de vídeo. E o Tensorflow vem com  uma biblioteca para ser preparado para rodar em placas de vídeo. E, também, em dispositivos móveis, considerando as arquiteturas destes.

O Tensorflow é capaz de ser rodado em diversos ambientes e foi desenvolvido para aprendizado de máquina e Deep Learning. Mas, não somente isso, ele foi pensado para computação numérica em geral. 

Algumas das empresas que utilizam o Tensorflow:

![imagem.png](imagem/figura_5.2_1.png)

O Tensorflow é uma biblioteca que está sendo bastante utilizada pela sua praticidade, mas, graças a uma parceria com o Keras, a utilização do Tensorflow ficou um pouco mais fácil. 

![imagem.png](imagem/figura_5.2_2.png)

Uma vez que não precisávamos lidar com uma parte extremamente técnica do Tensorflow. 

Na próxima aula, iremos falar sobre o aspecto técnico do Tensorflow e como utilizá-lo para a construção das nossas redes.

## Preparando o conjunto de dados

Nessa aula iremos utilizar os primeiros passos do Tensorflow e do Keras. 

![imagem.png](imagem/figura_5.2_3.png)

Keras era uma biblioteca que era utilizada como uma espécie de Front-end de outras bibliotecas de aprendizado de máquina, ou seja, o Keras era utilizando para facilitar a vida de quem queria utilizar bibliotecas mais complexas como era o caso do Tensorflow. 

A partir da versão 1.4, o **Tensorflow** incorpora o **Keras** em seus pacote de bibliotecas. Então, o Keras facilitou bastante a vida dos usuários do Tensorflow de modo que construir um modelo se tornou algo mais simples. 

Nessa aula, iremos utilizar o **Tensorflow**, o **Keras** e o **NumPy** como bibliotecas principais para manipular os dados que iremos utilizar durante esta aula. 

Caso, seja necessário instalar a biblioteca Tensorflow, digite o comando no jupyter notebook:

``
conda install -c anaconda tensorflow
``
Pronto!

``
import tensorflow as tf
from tensorflow import keras
import numpy as np
``

O conjunto de dados utilizado nesta aula será carregado da base do Keras:

``
fashion_mnist = keras.datasets.fashion_mnist
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()
``

O nome deste conjunto de dados é "fashion_mnist". O "mnist" original era um conjunto de dados constituuído por dígitos escritos à mão. E o objetivo desse conjunto de dados, do "mnist" era tentar construir modelos que fossem capazes de reconhecer esses dígitos escritos à mão. Para variar um pouco, foi criado o "fashion_mnist" que é uma variação, dez categorias de rótulos diferentes. Várias imagens delas. E o objetivo é construir um modelo capaz de classificá-las corretamente. Em seguida, iremos separar o nosso conjunto de dados em treino e teste. Ou seja, essa função ``load_data()`` já efetua a separação do nosso conjunto de dados em um conjunto de "train" e "test", com os seus respectivos rótulos.

E podemos conferir na linha seguinte, o tamanho dos nossos conjuntos de dados, utilizando os comandos:

``
train_images.shape

len(train_labels)
``

Ao rodar o comando, teremos o resultado que a variável "train_images", um tensor 3D, onde nós temos 60 mil elementos de "train", cada um deles como uma matriz de 28x28. Então, o resultado desse shape será: (60000, 28, 28). O comando seguinte é para conferir o tamanho do nosso rótulo de treino. É esperado que os rótulos de "train" seja igual a "train_images". Ou seja, 60 mil. 

Para isso, iremos utilizar a nossa biblioteca **NumPy** que é uma biblioteca para tratar justamente com tensores e utilizaremos da seguinte maneira:

``
np.unique(train_labels)
``

Ao executar este comando, nós iremos ter todos os _labels_ que aparecem neste conjunto. Então, teremos:

``
array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8)
``

Dessa maneira, conseguimos descobrir quais são os rótulos de "train" e nós temos pelo menos um rótulo para cada uma dessas 10 classes. Ou seja, os 60 mil rótulos estão distribuídos nessas 10 classes. Também podemos efetuar no conjunto de "test" para verificar o seu tamanho.

``
test_images.shape
``

Ao executar este comando, iremos ter o resultado: ``(10000, 28, 28)`` Isso significa que temos 10 mil imagem para "teste" de 28x28. Enquanto que para "train" temos 60 mil. Em seguida, vamos conferir os rótulos:

``
len(test_labels)
``

E como para verificar quais são os rótulos de "test". 

``
np.unique(test_labels)
``

Para finalizar essa preparação de dados, nós podemos verificar que as nossas imagens de "train" e as imagens de "test" são compostas por uma matriz de dimenões 28x28. E cada um desses elementos da matriz, ele é, exatamente, um pixel com valores entre 0 e 255. Onde 0 é a ausência de cor do pixel e 255 é a intensidade máxima do pixel.

Em alguns modelos, tais como a regressão linear e as próprias redes neurais, eles se beneficiam de atributos escalados. Esses modelos utilziam uma técnica de gradiente para otimização, ou seja, de derivada. Portanto, quando esses valores estão em escala pequena, como entre 0 e 1, esses modelos experimentam uma performance melhor. como todos os nossos pixels estão com valores entre 0 e 255. Nós podemos dividir as nossas matrizes por 255. Dessa maneira, o pixel com maior intensidade que é o de 255 será igual a 1. O pixel de menor intensidade que é 0, continuará sendo 0. E todos os valores intermediários estarão na escala entre 0 e 1. Assim, estamos utilizando um "MinMaxScaler" chamado explicitamente. Então, para isso, iremos utilizar:

``
train_images = train_images / 255.0

test_images = test_images / 255.0
``

Dessa maneira, estamos forçando o resultado ser um ponto flutuante e todos os valores, tanto das imagens de "train" quando das de "test" estarão entre 0 e 1. 

Com isso, teremos preparado o nosso conjunto de dados para utilizar a nossa rede reural. Esta construção, esta preparação do conjunto de dados é tão importante quanto a implementação do modelo. Uma vez que dados que não estejam correntamente alinhados ou preparados podem gerar modelos ruins. Ou modelos cuja avaliação não é confiável. Então, nós temos um modelo que é capaz de ser executado de uma maneira bem confiável. Uma vez que temos uma separação entre "train" e "test" para avaliação e estamos normalizando o nosso conjunto de dados. 


## Construção e Avaliação do Modelo TensorFlow


Nesta aula, iremos aprender a construir o nosso modelo e como avaliá-lo, de acordo com a métrica de acurácia.  Uma vez que estamos trabalhando com uma classificação.

Inicialmente, já tendo importado as bibliotecas Keras, tensorflow e NumPy. Nós iremos executar o código a seguir:

Mas iremos , primeiramente, definir a **arquitetura** do nosso modelo. Iremos colocar o seguinte comando:

``

model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation=tf.nn.relu),
    keras.layers.Dense(10, activation=tf.nn.softmax)
])
model.summary()

``

Entre as linhas 1 e 2, até aí, nós estamos construindo um modelo que é sequencial. Ou seja, cujas camadas são uma em sequência da outra, o resultado de uma vai pra a próxima. Nesta primeira camada que instruímos, estamos utilizando uma "layer", que é camada, o Keras, de "Flatten"; ou seja, então, estamos pegando nossa matriz que tem tamanho 28x28. E a traduzindo em um vetor de 28 vezes 28. Porque esse modelo de rede neural a qual estamos utilizando no momento, ela não é capaz de trabalhar com matrizes. Logo, nosso objetivo será transformar a nossa matriz em um vetor. Simplemente concatenando, as linhas dessa matriz. Essa função "**Flatten**" já faz isso para nós. E nós passamos o tamanho do vetor de entrada com o parâmetro: ``input_shape=(28, 28)``.
Após essas primeiras linhas, nós iremos colocar: 

``  
  keras.layers.Dense(128, activation=tf.nn.relu),
  keras.layers.Dense(10, activation=tf.nn.softmax)
``

Nessas duas últimas camadas que foram ditas aqui. Nós estamos aplicando duas camadas densas, as camadas comuns de rede neurais nas quais todos os neurônicos da camada anterior se ligam aos neurônios da camada atual. E utilizamos uma função de ativação para cada uma dessas camadas onde, na primeira, estamos utilizando a "ReLU" que ReLU é uma função com qual qualquer número negativo se torna 0 e se o número for positivo mantém-se o número. Ou seja, essa função evita números negativos. E, por fim, uma última camada densa de 10 neurônios com a ativação "**Softmax**" que é uma função boa para classificação. 

Se formos perceber, estamos usando na última camada densa, 10 neurônios. É a última camada, uma camada de saída.

Se notarmos, nós temos 10 clases no nosso conjunto de dados. Bate exatamente com o número de classes. Devemos sempre tomarmos esse cuidado com a última camada da nossa rede neural que deve bater com a quantidade de classes dos nosso conjunto de dados.

Após a construção desse modelo, podemos utilizar o seguinte comando: `` model.summary()`` Esse comando nos dirá quantos pesos nós temos na nossa rede neural e a estrtutura da mesma. 

Agora, iremos compilar nosso modelo com seguinte código:

``
model.compile(optimizer='adam', 
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])
``

Em seguida, iremos treinar nosso modelo:

``
model.fit(train_images, train_labels, epochs=5)
``

Essa função "**epochs**" significa época, ela defini a quantidade de interações nosso modelo terá. Essa quantidade pode varia de acordo com conjunto de dados. Para este conjunto de dados, só cinco epochs já bastam. Ao executar esse comado, veremos uma representação gráfica da execução de cada época sendo treinada, demonstração do valor de erros e de acurácia sendo identificada. 

Dessa maneira, nosso modelo tem 89,04% de acurácia para o conjunto de dados de "train". E essa quantidade de época foi escolhida pelo critério que podemos perceber na evolução das épocas: da primeira para segunda época, tivemos um aumento de 4% de acurácia. Ou seja, mais época poderia ocorrer um _overfitting_. Poderíamos ter uma métrica muito boa para treinamento e mas métricas não tão boas para teste.


Por fim, podemos avaliar o nosso conjunto de dados sobre os nossos dados de "test". Para isso, usaremos o seguinte comando:

``
test_loss, test_acc = model.evaluate(test_images, test_labels)

print('Test accuracy:', test_acc)
``

Com isto, iremos avaliar  "test_images" e "test_labels", ou seja, avaliar o conjunto de imagens e seus rótulos de teste. E irá guardar o valor de erro na variável "test_loss" e de acurácia na variável "test_acc".

Com isso,conseguimos treinar o nosso modelo, defini-lo e avaliá-lo de uma maneira simples. 

Se quisermos avaliar individualmente, podemos utilizar o método "predict":

``
predictions = model.predict(test_images)
``
Que irá criar uma predição para cada uma das imagens de "test". Depois, imprimir o primeiro vetor dessa predição com o seguinte comando: 

``
predictions[0]
``

Nós teremos uma _array_ com 10 elementos. Cada um deles com números em notação científica. Todos eles bem próximo a 0, são valores bem pequenos com exceção de um deles. A nossa classificação se dará pelo maior valor de predição que teremos dentro esses "predictions".

Ao invés de olhar para cada uma desses valores, poderemos utilizar o NumPy para verificar o índice cujo elemento é o máximo. Dessa maneira, nós saberemos qual foi a predição da rede neural. Então, iremos utilizar:


``
np.argmax(predictions[0])
``

Ao executar isso, iremos perceber que foi o elemento de índice 9 que é o mairo de todos. Ou seja, temos a classe 9. 

Se verificamos o nosso rótulo, veremos que é um elemento da classe 9.

De novo, iremos utilizar o NumPy para dimensionar nossa imagem em vetor:

``
img = (np.expand_dims(img,0))

print(img.shape)
``

In [1]:
import tensorflow as tf
from tensorflow import keras
import numpy as np

In [2]:
fashion_mnist = keras.datasets.fashion_mnist

In [None]:
(train_images, train_labels), (test_images, test_labels) = fashion_mnist.load_data()

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/train-images-idx3-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-labels-idx1-ubyte.gz
Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/t10k-images-idx3-ubyte.gz


In [None]:
train_images.shape

(60000, 28, 28)

In [None]:
len(train_labels)

60000

In [None]:
np.unique(train_labels)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8)

In [None]:
test_images.shape

(10000, 28, 28)

In [None]:
len(test_labels)

10000

In [None]:
np.unique(test_labels)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=uint8)

In [None]:
train_images = train_images / 255.0

test_images = test_images / 255.0


In [None]:
model = keras.Sequential([
    keras.layers.Flatten(input_shape=(28, 28)),
    keras.layers.Dense(128, activation=tf.nn.relu),
    keras.layers.Dense(10, activation=tf.nn.softmax)
])
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
flatten (Flatten)            (None, 784)               0         
_________________________________________________________________
dense (Dense)                (None, 128)               100480    
_________________________________________________________________
dense_1 (Dense)              (None, 10)                1290      
Total params: 101,770
Trainable params: 101,770
Non-trainable params: 0
_________________________________________________________________


In [None]:
model.compile(optimizer='adam', 
              loss='sparse_categorical_crossentropy',
              metrics=['accuracy'])

In [None]:
model.fit(train_images, train_labels, epochs=5)

Epoch 1/5
Epoch 2/5
Epoch 3/5
Epoch 4/5
Epoch 5/5


<tensorflow.python.keras.callbacks.History at 0x7fe4428c4dd0>

In [None]:
test_loss, test_acc = model.evaluate(test_images, test_labels)

print('Test accuracy:', test_acc)

Test accuracy: 0.8801000118255615


In [None]:
predictions = model.predict(test_images)

In [None]:
predictions[0]

array([5.1390575e-08, 5.4105616e-08, 3.6913949e-07, 5.0269651e-09,
       9.0455183e-07, 7.1448006e-02, 1.0816774e-07, 5.0263945e-02,
       1.5678692e-05, 8.7827080e-01], dtype=float32)

In [None]:
np.argmax(predictions[0])

9

In [None]:
test_labels[0]

9

In [None]:
img = test_images[0]

print(img.shape)

(28, 28)


In [None]:
img = (np.expand_dims(img,0))

print(img.shape)

(1, 28, 28)


In [None]:
predictions_single = model.predict(img)

print(predictions_single)

[[5.1390675e-08 5.4105715e-08 3.6913949e-07 5.0269557e-09 9.0455183e-07
  7.1448036e-02 1.0816754e-07 5.0263930e-02 1.5678705e-05 8.7827080e-01]]


In [None]:
np.argmax(predictions_single[0])


9