# Introdu√ß√£o ao aprendizado de m√°quina (*Machine Learning*) em Python üêç

O conte√∫do deste tutorial √© baseado neste **v√≠deo:** https://www.youtube.com/watch?v=_Z9TRANg4c0&list=PLOU2XLYxmsII9mzQ-Xxug4l2o04JBrkLV&index=1


## Bibliotecas

Existem diversas bibliotecas para a implementa√ß√£o de modelos de *aprendizado de m√°quina* em Python, dentre estas as bibliotecas `tensorflow` e `numpy`. Tais bibliotecas ser√°o utilizadas neste tutorial.

In [None]:
import tensorflow as tf
import numpy as np
from tensorflow import keras

## Perceptron: a estrutura b√°sica de uma rede neural

Um **perceptron** √© uma estrutura na forma $y = g(\omega_0 + \omega_1 x)$ que mapeia uma vari√°vel resposta $y$ √† uma vari√°vel preditora $x$ (*feature*) atrav√©s de uma fun√ß√£o de ativa√ß√£o $g(\cdot)$. O perceptron √© o similar ao neur√¥nio em uma rede neural.

Uma rede neural, no entanto, pode ser definida como uma *rede* de *perceptrons*:

* Se $\boldsymbol{x}$ √© um vetor $\boldsymbol{x} = \{ x_1, x_2, \ldots, x_m \}$ e $g_e(\cdot)$ √© uma fun√ß√£o $\mathbb{R}^m \to \mathbb{R}^n$ ent√£o os *perceptrons* $y_j = g_e \left(\omega_{j 0} + \sum_i \omega_{j i} x_i \right)$, $j = 1, 2, \ldots, n$, mapeiam $\{ x_1, x_2, \ldots, x_m \} \to \{ y_1, y_2, \ldots, y_n \}$.

* Se $\boldsymbol{y}$ √© um vetor $\boldsymbol{y} = \{ y_1, y_2, \ldots, y_n \}$ e $h(\cdot)$ √© uma fun√ß√£o $\mathbb{R}^n \to \mathbb{R}^p$ ent√£o os *perceptrons* $v_k = h \left(\tau_{k 0} + \sum_j \tau_{k j} y_j \right)$, $k = 1, 2, \ldots, p$, mapeiam $\{ y_1, y_2, \ldots, y_n \} \to \{ v_1, v_2, \ldots, v_p \}$.

* Se $\boldsymbol{v}$ √© um vetor $\boldsymbol{v} = \{ v_1, v_2, \ldots, v_p \}$ e $g_s(\cdot)$ √© uma fun√ß√£o $\mathbb{R}^p \to \mathbb{R}^q$ ent√£o os *perceptrons* $z_l = g_s \left(\phi_{l 0} + \sum_k \omega_{l k} v_k \right)$, $l = 1, 2, \ldots, q$, mapeiam $\{ v_1, v_2, \ldots, v_p \} \to \{ z_1, z_2, \ldots, z_q \}$.

* A *rede neural* pode ter quantas camadas quanto forem necess√°rias.

* Uma camada que liga todas as entradas com todas as sa√≠das √© chamada de uma *camada densa*.

* As camadas intermedi√°rias (como a que mapeia $\mathbb{y} \to \mathbb{v}$ s√£o chamadas *camadas ocultas* ou *hidden layers*.

## Defini√ß√£o do modelo de regress√£o linear simples

O modelo de regress√£o linear simples, definido por $y = \beta_0 + \beta_1 x$, pode ser definido como uma rede neural com uma √∫nica camada (√∫nico **perceptron**).

O comando abaixo define uma rede neural **densa** de 1 perceptron (`units= 1`) cuja entrada √© uma lista de 1 posi√ß√£o (`input_shape= [1]`).

In [None]:
model = tf.keras.Sequential([
    keras.layers.Input(shape=(1,)),
    keras.layers.Dense(units=1)
  ])

Fornecidos os vetores `y` e `x` o modelo ao ser treinado estimar√° os pesos $\omega_0$ e $\omega_1$ usando um **otimizador** e uma **fun√ß√£o de perda**.

Neste exemplo, ser√£o utilizados o *otimizador* **Stochastic Gradient Descend** e a fun√ß√£o de perda ser√° aquela que minimiza a **m√©dia dos erros quadr√°ticos**.

O otimizador **Stochastic Gradient Descend** √© semelhante ao algoritmo de Newton-Raphson; ser√° utilizado para minimizar a fun√ß√£o de perda.

In [None]:
model.compile(optimizer='sgd', loss='mean_squared_error')

### Fornecendo os dados

Para o modelo de exemplo, considere os vetores abaixo que mostram a convers√£o de temperaturas entre graus Celcius (vetor `xs`) para graus Fahrenheit (vetor `ys`). Os dados s√£o compostos de 6 valores inteiros descritos nos 2 vetores abaixo:

In [None]:
xs = np.array([-1.0, 0.0, 1.0, 2.0, 3.0, 4.0], dtype=float)
ys = np.array([-2.0, 1.0, 4.0, 7.0, 10.0, 13.0], dtype=float)

### Treinando a Rede Neural

O treinamento da rede neural consiste simplesmente no "ajuste" do modelo. Ao chamar o m√©todo `model.fit()` os pesos $\omega_0$ e $\omega_1$ ser√£o ajustados atrav√©s do otimizador de modo que a fun√ß√£o de perda seja minimizada. √â um processo iterativo, no qual a cada passo o modelo √© "refinado". A quantidade de passos no ajuste √© dado por `epochs`.

In [None]:
model.fit(xs, ys, epochs=500)

Ap√≥s ajustar o modelo, este pode ser utilizado para se fazer previs√µes. O modelo em quest√£o √© dado por $y = 1 + 3 x$. O valor predito para $x = 10$ deve ser $y = 31$.

In [None]:
print(model.predict(np.array([10.0])))

## Aplica√ß√£o: Vis√£o computacional

A refer√™ncia para este tutorial est√° no **v√≠deo:** https://www.youtube.com/watch?v=j-35y1M9rRU&list=PLOU2XLYxmsII9mzQ-Xxug4l2o04JBrkLV&index=2

Os problemas chamados de **vis√£o computacional** consistem na capacidade do computador avaliar imagens para identificar padr√µes, identificar objetos, etc.

Este exemplo usa uma base de dados implementada na biblioteca `tensorflow` que consiste em 70 mil imagens de vestu√°rio classificadas em 10 classes. O objetivo √© usar parte destas imagens para treinar o algoritmo a identificar os objetos e, posteriormente, utilizar o algoritmo para classificar os objetos n√£o utilizados no treinamento.

### Descri√ß√£o do exemplo

O primeiro passo consiste em carregar a biblioteca TensorFlow.

In [None]:
import tensorflow as tf
print(tf.__version__)

A rede neural ser√° treinada para reconhecer itens de vestu√°rio de um conjunto de dados chamado *Fashion MNIST*. Mais detalhes sobre este conjunto de dados podem ser obtidos [aqui](https://github.com/zalandoresearch/fashion-mnist).

Ele cont√©m 70.000 itens de vestimenta em 10 categorias diferentes. Cada item √© uma imagem 28x28 monocrom√°tica. Um exemplo dos itens pode ser visto aqui:

![alt text](https://github.com/zalandoresearch/fashion-mnist/raw/master/doc/img/fashion-mnist-sprite.png)

O conjunto de dados `Fashion MNIST` est√° dispon√≠vel em `tf.keras.datasets`.

In [None]:
mnist = tf.keras.datasets.fashion_mnist

Ao invocar `load_data()` neste objeto ser√£o obtidos 2 conjuntos com 2 listas: 2 listas de treinamento e 2 listas de teste.

In [None]:
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()

### Qual a apar√™ncia destes dados?

Cada um dos itens √© uma matriz 28 x 28 com os valores de cada pixel que comp√µe a respectiva imagem.

In [None]:
print(training_images[0])

Esta matriz pode ser visualizada como imagem:

In [None]:
import matplotlib.pyplot as plt
plt.imshow(training_images[0]);

Cada imagem possui um *label* composto por um n√∫mero de `0` a `9` que identifica o tipo de vestimenta. Este problema √©, portanto, um modelo de **aprendizado de m√°quina supervisionado** pois cada imagem j√° est√° previamente classificada.

In [None]:
print(training_labels[0])

Observe que cada imagem √© uma matriz de valores inteiros de `0` a `255` indicando uma escala monocrom√°tica para cada pixel. Para simplificar o modelo este valor ser√° convertido para um n√∫mero de ponto flutuante entre `0` e `1`. Este processo se chama '**normaliza√ß√£o**':

In [None]:
training_images  = training_images / 255.0
test_images = test_images / 255.0

O modelo √© composto por uma rede neural com 3 "camadas" definidas em `tf.keras.models.Sequential()`.

* A primeira camada **converte as matrizes 28 x 28** em um vetor com $28 \times 28 = 784$ posi√ß√µes. Isto √© feito com o m√©todo `tf.keras.layers.Flatten()`.
* A segunda camada recebe o vetor proveniente da camada anterior e aplica a transforma√ß√£o $\boldsymbol{z} = g_1(\omega_{0} + \omega_{1} \cdot x_{1} + \omega_{2} \cdot x_{2} + \cdots + \omega_{784} \cdot x_{784})$ resultando em um vetor de 128 respostas. A fun√ß√£o $g_1(\cdot)$ √© chamada de **relU** e √© definida como $g_1(z) = \max (0; z)$.
* A terceira camada recebe o vetor proveniente da chamada anterior e aplica a transforma√ß√£o $\boldsymbol{y} = g_2(\tau_0 + \tau_1 \cdot z_1 + \tau_2 \cdot z_2 + \cdots + \tau_{128} \cdot z_{128})$ resultando em um vetor de 10 posi√ß√µes. A fun√ß√£o $g_2(\cdot)$ √© chamda de **soft-max** e retorna um vetor com 10 posi√ß√µes em que aquela na qual $\boldsymbol{y}$ √© m√°ximo assume o valor `1` e as demais o valor `0`.

In [None]:
model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(128, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

O modelo ser√° ajustado usando o otimizador *Adam* e a fun√ß√£o de perda `sparse_categorical_crossentropy`.

O otimizador *Adam* √© um m√©todo do tipo *stochastic gradient descent* basedo na estima√ß√£o adaptativa dos momentos de primeira (m√©dia) e segunda ordem (vari√¢ncia).

A fun√ß√£o de perda *sparse categorical cross-entropy* minimiza a entropia com base na probabilidade de cada categoria e a classifica√ß√£o correta para cada item.

In [None]:
model.compile(optimizer = tf.keras.optimizers.Adam(),
              loss = 'sparse_categorical_crossentropy',
              metrics=['accuracy'])

model.fit(training_images, training_labels, epochs=5)

A acur√°cia aumenta conforme os passos do modelo s√£o ajustados. O valor final √© algo em torno de 90% com apenas 5 passos.

√â poss√≠vel verificar a acur√°cia do modelo para os dados n√£o utilizados no treinamento do modelo.

In [None]:
model.evaluate(test_images, test_labels)

## Explorando o modelo

O comando abaixo calcula as probabilidades de classifica√ß√£o entre as 10 categorias para cada imagem de teste.

In [None]:
classifications = model.predict(test_images)

print(classifications[0])
print(np.sum(classifications[0]))

O algoritmo n√£o classificou corretamente este objeto. Como se pode ver o objeto √© um cal√ßado.

In [None]:
print(test_labels[0])

In [None]:
plt.imshow(test_images[0])

O c√≥digo abaixo explora o resultado obtido ao aumentar o n√∫mero de perceptrons na camada intermedi√°ria de 128 para 1024.



In [None]:
import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.fashion_mnist

(training_images, training_labels) ,  (test_images, test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(1024, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

model.compile(optimizer = 'adam',
              loss = 'sparse_categorical_crossentropy')

model.fit(training_images, training_labels, epochs=5)

model.evaluate(test_images, test_labels)

classifications = model.predict(test_images)

print(classifications[0])
print(test_labels[0])

Tanto a entrada quanto a sa√≠da do modelo precisa ter as dimens√µes corretas dos objetos de entrada e os *labels*. Os dois exemplos abaixo demonstram isto.

In [None]:
import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.fashion_mnist

(training_images, training_labels) ,  (test_images, test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0


model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(64, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

# Esta vers√£o tem a camada 'flatten' removida. Substitua o c√≥digo acima para ver um erro.
#model = tf.keras.models.Sequential([tf.keras.layers.Dense(64, activation=tf.nn.relu),
#                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])


model.compile(optimizer = 'adam',
              loss = 'sparse_categorical_crossentropy')

model.fit(training_images, training_labels, epochs=5)

model.evaluate(test_images, test_labels)

classifications = model.predict(test_images)

print(classifications[0])
print(test_labels[0])

Mais um exemplo:

In [None]:
import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.fashion_mnist

(training_images, training_labels) ,  (test_images, test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(64, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

# Substitua a defini√ß√£o do modelo acima por este para uma rede com uma camada de sa√≠da com 5 n√≠veis
# e ter√° como resultado um erro!
# model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
#                                    tf.keras.layers.Dense(64, activation=tf.nn.relu),
#                                    tf.keras.layers.Dense(5, activation=tf.nn.softmax)])

model.compile(optimizer = 'adam',
              loss = 'sparse_categorical_crossentropy')

model.fit(training_images, training_labels, epochs=5)

model.evaluate(test_images, test_labels)

classifications = model.predict(test_images)

print(classifications[0])
print(f"A classe de maior probabilidade √© {np.argmax(classifications[0])}" \
       f" e deveria ser {test_labels[0]}.\n")

√â poss√≠vel aumentar a quantidade de *layers*. Neste exemplo n√£o faz muita diferen√ßa uma vez que os dados s√£o simples. Em imagens mais complexas se faz necess√°rio aumentar a quantidade de camadas.

In [None]:
import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.fashion_mnist

(training_images, training_labels) ,  (test_images, test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(512, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(256, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

model.compile(optimizer = 'adam',
              loss = 'sparse_categorical_crossentropy')

model.fit(training_images, training_labels, epochs=5)

model.evaluate(test_images, test_labels)

classifications = model.predict(test_images)

print(classifications[0])
print(f"A classe de maior probabilidade √© {np.argmax(classifications[0])}" \
       f" e deveria ser {test_labels[0]}.\n")

Aumentar a quantidade de passos na estima√ß√£o pode melhorar o ajuste, por√©m aumentar demasiadamente este valor causa um *overfitting* (o modelo fica viciado aos dados).

In [None]:
import tensorflow as tf
print(tf.__version__)

mnist = tf.keras.datasets.fashion_mnist

(training_images, training_labels) ,  (test_images, test_labels) = mnist.load_data()

training_images = training_images/255.0
test_images = test_images/255.0

model = tf.keras.models.Sequential([tf.keras.layers.Flatten(),
                                    tf.keras.layers.Dense(128, activation=tf.nn.relu),
                                    tf.keras.layers.Dense(10, activation=tf.nn.softmax)])

model.compile(optimizer = 'adam',
              loss = 'sparse_categorical_crossentropy')

model.fit(training_images, training_labels, epochs=30)

model.evaluate(test_images, test_labels)

classifications = model.predict(test_images)

print(classifications[34])
print(f"A classe de maior probabilidade √© {np.argmax(classifications[34])}" \
       f" e deveria ser {test_labels[34]}.\n")

### Qual o efeito da normaliza√ß√£o?

Os modelos de redes neurais podem ganhar acur√°cia se os valores de entrada forem normalizados para um intervalo com menor escala (em geral o intervalo `0` a `1`). O c√≥digo abaixo demonstra isso.

In [None]:
import tensorflow as tf
print(tf.__version__)
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
# Experimente remover a normaliza√ß√£o, comentando as 2 linhas seguintes.
training_images=training_images/255.0
test_images=test_images/255.0
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(512, activation=tf.nn.relu),
  tf.keras.layers.Dense(10, activation=tf.nn.softmax)
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy')
model.fit(training_images, training_labels, epochs=5)
model.evaluate(test_images, test_labels)
classifications = model.predict(test_images)
print(classifications[0])
print(f"A classe de maior probabilidade √© {np.argmax(classifications[0])}" \
       f" e deveria ser {test_labels[0]}.\n")

A rede pode ser treinada at√© atingir um determinado n√≠vel de acur√°cia. Isto √© feito com a defini√ß√£o de uma class **call-back** como demonstrado abaixo. Este recurso pode inibir o *overfitting* do modelo, uma vez que o ajuste √© interrompido antes do modelo *viciar* com os dados de treinamento.

In [None]:
import tensorflow as tf
print(tf.__version__)

class myCallback(tf.keras.callbacks.Callback):
  def on_epoch_end(self, epoch, logs={}):
    if(logs.get('accuracy')>0.9):
      print("\nReached 90% accuracy so cancelling training!")
      self.model.stop_training = True

callbacks = myCallback()
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
training_images=training_images/255.0
test_images=test_images/255.0
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(512, activation=tf.nn.relu),
  tf.keras.layers.Dense(10, activation=tf.nn.softmax)
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(training_images, training_labels, epochs=5, callbacks=[callbacks])




## Convolu√ß√£o

Este tutorial √© baseado no **v√≠deo:** https://www.youtube.com/watch?v=PCgLmzkRM38&list=PLOU2XLYxmsII9mzQ-Xxug4l2o04JBrkLV&index=3

As *convolu√ß√µes* junto com o *Pooling* s√£o usados para comprimir e simplificar as imagens enfatizando suas caracter√≠sticas.

### Limita√ß√µes do modelo DNN (*deep neural network*) anterior

No modelo anterior as imagens do conjunto de dados do MNIST eram imagens 28 x 28, monocrom√°ticas e com os objetos centralizados. Exemplos destas imagens eram
![Imagem de um sweater e uma bota](https://cdn-images-1.medium.com/max/1600/1*FekMt6abfFFAFzhQcnjxZg.png)

O DNN anterior aprendeu a distinguir em alguns pixeis um sweater de uma bota, mas como o modelo classificaria esta imagem?

![image of boots](https://cdn.pixabay.com/photo/2013/09/12/19/57/boots-181744_1280.jpg)

Para avaliar imagens mais complexas torna-se necess√°rio usar *convolu√ß√µes* para filtrar elementos da imagem e extrair caracter√≠sticas.



Inicialmente, carregue as bibliotecas necess√°rias.

In [None]:
import cv2
import numpy as np
import scipy
i = scipy.datasets.ascent()

A imagem que ser√° utilizada para o tutorial √© a seguinte:

In [None]:
import matplotlib.pyplot as plt
plt.grid(False)
plt.gray()
plt.axis('off')
plt.imshow(i)
plt.show()

√â a imagem de uma escadaria. Existem diversos atributos nesta imagem, sobretudo linhas horizontais e verticais. A convolu√ß√£o permite ressaltar estes elementos.

In [None]:
i_transformed = np.copy(i)
size_x = i_transformed.shape[0]
size_y = i_transformed.shape[1]

√â poss√≠vel definir um filtro como uma matrix 3 por 3.

In [None]:
# This filter detects edges nicely
# It creates a convolution that only passes through sharp edges and straight
# lines.

#Experiment with different values for fun effects.
#filter = [ [0, 1, 0], [1, -4, 1], [0, 1, 0]]

# A couple more filters to try for fun!
filter = [ [-1, -2, -1], [0, 0, 0], [1, 2, 1]]
#filter = [ [-1, 0, 1], [-2, 0, 2], [-1, 0, 1]]

# If all the digits in the filter don't add up to 0 or 1, you
# should probably do a weight to get it to do so
# so, for example, if your weights are 1,1,1 1,2,1 1,1,1
# They add up to 10, so you would set a weight of .1 if you want to normalize them
weight  = 1

Agora define-se a convolu√ß√£o; mantendo uma margem de 1 pixel, multiplique cada vizinho do pixel pela possi√ß√£o correspondente no filtro. Depois multiplica-se pelo peso e mant√©m-se o valor entre `0` e `255`.

In [None]:
for x in range(1,size_x-1):
  for y in range(1,size_y-1):
      convolution = 0.0
      convolution = convolution + (i[x - 1, y-1] * filter[0][0])
      convolution = convolution + (i[x, y-1] * filter[0][1])
      convolution = convolution + (i[x + 1, y-1] * filter[0][2])
      convolution = convolution + (i[x-1, y] * filter[1][0])
      convolution = convolution + (i[x, y] * filter[1][1])
      convolution = convolution + (i[x+1, y] * filter[1][2])
      convolution = convolution + (i[x-1, y+1] * filter[2][0])
      convolution = convolution + (i[x, y+1] * filter[2][1])
      convolution = convolution + (i[x+1, y+1] * filter[2][2])
      convolution = convolution * weight
      if(convolution<0):
        convolution=0
      if(convolution>255):
        convolution=255
      i_transformed[x, y] = convolution

A imagem transformada √© a seguinte:

In [None]:
# Plot the image. Note the size of the axes -- they are 512 by 512
plt.gray()
plt.grid(False)
plt.imshow(i_transformed)
#plt.axis('off')
plt.show()

## Pooling

Existem diferentes formas de *pooling*; em particular ser√° aplicada o *max-pooling*.

 A idea √© iterar sobre a imagem e, para cada pixel, tomar os valores √† direita, abaixo e diagonal √† direita. Tomando o maior valor entre estes resultando em uma imagem 1/4 menor que a original. As caracter√≠sticas da imagem se mant√©m apesar da compress√£o.

O c√≥digo mostra um *pooling* (2, 2) resultando em uma imagem 1/4 do tamanho original.

In [None]:
new_x = int(size_x/2)
new_y = int(size_y/2)
newImage = np.zeros((new_x, new_y))
for x in range(0, size_x, 2):
  for y in range(0, size_y, 2):
    pixels = []
    pixels.append(i_transformed[x, y])
    pixels.append(i_transformed[x+1, y])
    pixels.append(i_transformed[x, y+1])
    pixels.append(i_transformed[x+1, y+1])
    pixels.sort(reverse=True)
    newImage[int(x/2),int(y/2)] = pixels[0]

# Plot the image. Note the size of the axes -- now 256 pixels instead of 512
plt.gray()
plt.grid(False)
plt.imshow(newImage)
#plt.axis('off')
plt.show()

Esta t√©cnica √© utilizada para simplificar imagens em modelos mais complexos.

## Melhorando a acur√°cia da vis√£o computacional com convolu√ß√µes

Nos exemplos anteriores as imagens de vestimentas foram reconhecidas usando uma *Deep Neural Network* (DNN) com tr√™s camadas -- a camada de entrada (com o formato dos dados), a camada de sa√≠da (com o formato desejado para a sa√≠da) e uma camada ocultar.

In [None]:
import tensorflow as tf
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
training_images=training_images / 255.0
test_images=test_images / 255.0
model = tf.keras.models.Sequential([
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation=tf.nn.relu),
  tf.keras.layers.Dense(10, activation=tf.nn.softmax)
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(training_images, training_labels, epochs=5)

test_loss = model.evaluate(test_images, test_labels)

A acur√°cia √© algo em torno de 89% no treinamento e 87% na valida√ß√£o. √â poss√≠vel melhorar usando *convolu√ß√µes*. Trata-se de algo bastante similar com o processamento de imagens por filtros (como este: https://en.wikipedia.org/wiki/Kernel_(image_processing)).

O c√≥digo abaixo √© a mesma rede neural que antes, mas com camadas de convolu√ß√£o adicionadas. √â mais demorado para ajustar, mas a acur√°via deve ser maior:

In [None]:
import tensorflow as tf
print(tf.__version__)
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
training_images=training_images.reshape(60000, 28, 28, 1)
training_images=training_images / 255.0
test_images = test_images.reshape(10000, 28, 28, 1)
test_images=test_images/255.0
model = tf.keras.models.Sequential([
  tf.keras.layers.Input(shape=(28,28,1)),
  tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
  tf.keras.layers.MaxPooling2D(2, 2),
  tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
  tf.keras.layers.MaxPooling2D(2, 2),
  tf.keras.layers.Flatten(),
  tf.keras.layers.Dense(128, activation='relu'),
  tf.keras.layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.summary()
model.fit(training_images, training_labels, epochs=5)
test_loss = model.evaluate(test_images, test_labels)


A precis√£o deve estar em torno de 93% nos dados de treinamento e 91% nos dados de valida√ß√£o.

Observe o c√≥digo novamente, e veja, passo a passo como a convolu√ß√£o √© constru√≠da:

O **primeiro passo** √© a obten√ß√£o dos dados. H√° uma pequena mudan√ßa no formato dos dados de entrada. A convolu√ß√£o espera um √∫nico *tensor* (matriz multidimensional) contendo todos os dados, ao inv√©s de 60 mil itens 28 x 28 x 1 em uma lista, √© fornecida uma matriz que 4 dimens√µes 60.000 x 28 x 28 x 1 e o mesmo √© feito para as imagens de teste.

```
import tensorflow as tf
mnist = tf.keras.datasets.fashion_mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
training_images=training_images.reshape(60000, 28, 28, 1)
training_images=training_images / 255.0
test_images = test_images.reshape(10000, 28, 28, 1)
test_images=test_images/255.0
```

O **pr√≥ximo passo** √© definir o modelo. Ao inv√©s de uma camada de entrada no topo, adiciona-se uma convolu√ß√£o. Os par√¢metros s√£o:

1. O n√∫mero de convolu√ß√µes para gerar. Totalmente arbitr√°rio, mas uma boa estrat√©gia √© usar um m√∫ltiplo de 32.
2. O tamanho da convolu√ß√£o, neste caso uma matriz 3 x 3.
3. A fun√ß√£o de ativa√ß√£o para usar.
4. O formato dos dados de entrada.

A convolu√ß√£o √© seguida de uma camada *MaxPooling* usada para comprimir os dados, reduzindo a imagem em 25%.

Chamando `model.summary()` √© poss√≠vel ver o tamanho do modelo e observar que as camadas *MaxPooling* reduzem a dimens√£o para 1/4.

```
model = tf.keras.models.Sequential([
  tf.keras.layers.Conv2D(32, (3,3), activation='relu', input_shape=(28, 28, 1)),
  tf.keras.layers.MaxPooling2D(2, 2),
```

Uma segunda convolu√ß√£o

```
  tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
  tf.keras.layers.MaxPooling2D(2, 2),
```

Seguido de uma camada *Flatten* para transformar a imagem em um vetor.

```
  tf.keras.layers.Flatten(),
```



## Visualizando as convolu√ß√µes e o pooling

Este c√≥digo mostra as convolu√ß√µes em gr√°ficos. A vari√°vel (test_labels[;100]) cont√©m os labels das 100 imagens iniciais do conjunto de teste.



In [None]:
print(test_labels[:100])

In [None]:
import matplotlib.pyplot as plt
import tensorflow as tk
from keras import models

f, axarr = plt.subplots(3,4)
FIRST_IMAGE=0
SECOND_IMAGE=7
THIRD_IMAGE=26
CONVOLUTION_NUMBER=1

layer_outputs= [layer.output for layer in model.layers]
activation_model= models.Model(inputs= model.inputs, outputs= layer_outputs)

for x in range(4):
  f1= activation_model.predict(test_images[FIRST_IMAGE].reshape(1, 28, 28, 1))[x]
  axarr[0,x].imshow(f1[0, :, :, CONVOLUTION_NUMBER], cmap='inferno')
  axarr[0,x].grid(False)

  f2 = activation_model.predict(test_images[SECOND_IMAGE].reshape(1, 28, 28, 1))[x]
  axarr[1,x].imshow(f2[0, :, :, CONVOLUTION_NUMBER], cmap='inferno')
  axarr[1,x].grid(False)

  f3 = activation_model.predict(test_images[THIRD_IMAGE].reshape(1, 28, 28, 1))[x]
  axarr[2,x].imshow(f3[0, :, :, CONVOLUTION_NUMBER], cmap='inferno')
  axarr[2,x].grid(False)

In [None]:
import tensorflow as tf
print(tf.__version__)
mnist = tf.keras.datasets.mnist
(training_images, training_labels), (test_images, test_labels) = mnist.load_data()
training_images=training_images.reshape(60000, 28, 28, 1)
training_images=training_images / 255.0
test_images = test_images.reshape(10000, 28, 28, 1)
test_images=test_images/255.0
model = tf.keras.models.Sequential([
    tf.keras.layers.Input(shape=(28,28,1)),
    tf.keras.layers.Conv2D(32, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2, 2),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(128, activation='relu'),
    tf.keras.layers.Dense(10, activation='softmax')
])
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])
model.fit(training_images, training_labels, epochs=10)
test_loss, test_acc = model.evaluate(test_images, test_labels)
print(test_acc)

# Convolu√ß√µes com imagens complexas

**Refer√™ncia:** https://www.youtube.com/watch?v=0kYIZE8Gl90&list=PLOU2XLYxmsII9mzQ-Xxug4l2o04JBrkLV&index=5&t=838s

Exemplo de classifica√ß√£o entre humanos e cavalos. Obtendo os dados:

In [None]:
import tensorflow as tf
import tensorflow_datasets as tfds

train_image, train_label = tfds.as_numpy(tfds.load(
    'horses_or_humans',
    split= 'train',
    batch_size= -1,
    as_supervised= True
))

print(type(train_image), train_image.shape)
print(train_label)

test_image, test_label = tfds.as_numpy(tfds.load(
    'horses_or_humans',
    split= 'test',
    batch_size= -1,
    as_supervised= True
))

print(type(test_image), test_image.shape)
print(test_label)


Construindo o modelo:

In [None]:
import tensorflow as tf
print(tf.__version__)

In [None]:
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

# Parameters for our graph; we'll output images in a 4x4 configuration
nrows = 4
ncols = 4

# Index for iterating over images
pic_index = 0

# Set up matplotlib fig, and size it to fit 4x4 pics
fig = plt.gcf()
fig.set_size_inches(ncols * 4, nrows * 4)

pic_index += 8



#for i, img_path in enumerate(next_horse_pix+next_human_pix):
#  # Set up subplot; subplot indices start at 1
#  sp = plt.subplot(nrows, ncols, i + 1)
#  sp.axis('Off') # Don't show axes (or gridlines)
#
#  img = mpimg.imread(img_path)
#  plt.imshow(img)
#
#plt.show()

for i in range(16):
  sp = plt.subplot(nrows, ncols, i + 1)
  sp.axis('Off')
  plt.imshow(train_image[i])



Adiciona-se camadas de *convolu√ß√£o* e uma camada *flatten* ao resultado final para alimentar as camadas densamente conectadas.


In [None]:
model = tf.keras.models.Sequential([
    tk.keras.layers.Input(shape=(300,300,3)),
    tf.keras.layers.Conv2D(16, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2, 2),
    tf.keras.layers.Conv2D(32, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    tf.keras.layers.Conv2D(64, (3,3), activation='relu'),
    tf.keras.layers.MaxPooling2D(2,2),
    tf.keras.layers.Flatten(),
    tf.keras.layers.Dense(512, activation='relu'),
    tf.keras.layers.Dense(1, activation='sigmoid')
])

model.summary()

A coluna "output shape" mostra o tamanho das caracter√≠sticas em cada camada sucessiva. As camadas de convolu√ß√£o reduz o tamanho dos mapas de caracter√≠sticas devido ao deslocamento e a cada camada de *pooling* diminui a dimens√£o.

O modelo ser√° treinado usando a fun√ß√£o de perda `binary_crossentropy`, pois √© um problema de classifica√ß√£o bin√°ria e a ativa√ß√£o final √© uma sigm√≥ide. (Para relembrar as m√©tricas de fun√ß√µes de perda, veja [Machine Learning Crash Course](https://developers.google.com/machine-learning/crash-course/descending-into-ml/video-lecture).) Ser√° utilizado o otimizador `rmsprop` com uma taxa de aprendizagem de `0.001`. Durante o treinamento ser√° monitorada a acur√°cia da classifica√ß√£o.

**NOTA**: Neste caso, usando o [algoritmo de otimiza√ß√£o RMSprop](https://wikipedia.org/wiki/Stochastic_gradient_descent#RMSProp) √© prefer√≠vel ao [gradiente estoc√°stico descendente](https://developers.google.com/machine-learning/glossary/#SGD) (SGD), pois o RMSprop automatiza a taxa de aprendizagem. (Outros otimizadores, tais como o [Adam](https://wikipedia.org/wiki/Stochastic_gradient_descent#Adam) e o [Adagrad](https://developers.google.com/machine-learning/glossary/#AdaGrad), tamb√©m adapta autom√°ticamente a taxa de aprendizagem durante o treinamento.)

In [None]:
import tensorflow as tk

model.compile(loss='binary_crossentropy',
              optimizer=tk.keras.optimizers.RMSprop(learning_rate= 0.001),
              metrics=['accuracy'])

### Treinando o modelo

O modelo ser√° treinado em 15 *epochs*. A perda (*loss*) e a acur√°cia (*accuracy*) s√£o grandes indicadores do progresso do treinamento. O modelo prediz a classifica√ß√£o dos dados e, comparando √†s classes reais, calcula os resultados.

In [None]:
history = model.fit(
      train_image, train_label,
      validation_data = (test_image, test_label),
      epochs=1,
      steps_per_epoch=8,
      validation_steps=8,
      verbose=1)

## Executando o modelo

Ap√≥s ajustar os modelos √© poss√≠vel observar que a rede categoriza as imagens com diversos erros apesar da acur√°cia no treinamento ser superior a 99%.

Isto ocorre por algo chamado **overfitting**, que significa que a rede neural √© treinada com um conjunto de dados muito limitados -- existem apenas 500 imagens de cada classe. Assim o modelo se torna excelente para reconhecer as imagens do conjunto de treinamento mas falha ao avaliar imagens fora do conjunto.

Quanto mais dados s√£o usados no treinamento, melhor o modelo se torna. No entanto, existem dive
rsas t√©cnicas que podem ser usadas para melhorar o treinamento do modelo, apesar dos dados limitados, incluindo algo chamado de *Image Augmentation*.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

classes = model.predict(test_image, batch_size= 10)

# Parameters for our graph; we'll output images in a 4x4 configuration
nrows = 16
ncols = 16

# Index for iterating over images
pic_index = 0

# Set up matplotlib fig, and size it to fit 4x4 pics
fig = plt.gcf()
fig.set_size_inches(ncols * 2, nrows * 2)

pic_index += 8

for i in range(test_image.shape[0]):
  sp = plt.subplot(nrows, ncols, i + 1)
  sp.axis('Off')
  sp.title.set_text("Humano" if classes[i] > 0.5 else "Cavalo")
  plt.imshow(test_image[i])

plt.show()

## Visualizando representa√ß√µes intermediarias

In [None]:
import numpy as np
import tensorflow as tk
import random

from keras import models

images = np.concatenate((train_image, test_image), axis = 0)

# Let's define a new Model that will take an image as input, and will output
# intermediate representations for all layers in the previous model after
# the first.
successive_outputs = [layer.output for layer in model.layers[1:]]
#visualization_model = Model(img_input, successive_outputs)
visualization_model = models.Model(inputs = model.inputs, outputs = successive_outputs)
# Let's prepare a random input image from the training set.
#horse_img_files = [os.path.join(train_horse_dir, f) for f in train_horse_names]
#human_img_files = [os.path.join(train_human_dir, f) for f in train_human_names]
#img_path = random.choice(horse_img_files + human_img_files)

img = random.choice(range(images.shape[0]))

#img = load_img(img_path, target_size=(300, 300))  # this is a PIL image
x = images[img]  # Numpy array with shape (150, 150, 3)
x = x.reshape((1,) + x.shape)  # Numpy array with shape (1, 150, 150, 3)

print(np.any(x > 255))

# Rescale by 1/255
x = x / 255.0

# Let's run our image through our network, thus obtaining all
# intermediate representations for this image.
successive_feature_maps = visualization_model.predict(x)

# These are the names of the layers, so can have them as part of our plot
layer_names = [layer.name for layer in model.layers]

# Now let's display our representations
for layer_name, feature_map in zip(layer_names, successive_feature_maps):
  if len(feature_map.shape) == 4:
    # Just do this for the conv / maxpool layers, not the fully-connected layers
    n_features = feature_map.shape[-1]  # number of features in feature map
    # The feature map has shape (1, size, size, n_features)
    size = feature_map.shape[1]
    # We will tile our images in this matrix
    display_grid = np.zeros((size, size * n_features))
    for i in range(n_features):
      # Postprocess the feature to make it visually palatable
      x = feature_map[0, :, :, i]
      x -= x.mean()
      if np.any(x > 0):
        x /= x.std()
      x *= 64
      x += 128
      x = np.clip(x, 0, 255).astype('uint8')
      # We'll tile each filter into this big horizontal grid
      display_grid[:, i * size : (i + 1) * size] = x
    # Display the grid
    scale = 20. / n_features
    plt.figure(figsize=(scale * n_features, scale))
    plt.title(layer_name)
    plt.grid(False)
    plt.imshow(display_grid, aspect='auto', cmap='viridis')

Como se pode ver as imagens se tornam cada vez mais abstratas e compactas. As representa√ß√µes sinalizam as caracter√≠sticas que a rede identifica e mostram cada vez menos caracter√≠sticas sendo "ativadas"; muitas s√£o ajustadas em zero. Isto √© chamado de "esparticidade." A esparticidade da representa√ß√£o √© a caracter√≠stica chave para o *deep learning*.

Estas representa√ß√µes carregam cada vez menos informa√ß√µes sobre os pixeis originais da imagem, e cada vez mais informa√ß√µes refinadas sobre a classe da imagem. √â poss√≠vel pensar em uma `convnet` (ou uma rede neural em particular) como uma destilaria de informa√ß√µes.

