[adaptado de [Programa de cursos integrados Aprendizado de máquina](https://www.coursera.org/specializations/machine-learning-introduction) de [Andrew Ng](https://www.coursera.org/instructor/andrewng)  ([Stanford University](http://online.stanford.edu/), [DeepLearning.AI](https://www.deeplearning.ai/) ) ]

In [None]:
# Baixar arquivos adicionais
!wget https://github.com/fabiobento/dnn-course-2024-1/raw/main/00_course_folder/nn_adv/class_02/10%20-%20Atividade%20avaliativa%20-%20Redes%20neurais%20para%20classifica%C3%A7%C3%A3o%20multiclasse/lab_utils_ml_adv_assig_week_2.zip
      
!unzip -n -q lab_utils_ml_adv_assig_week_2.zip

In [None]:
# Testar se estamos no Google Colab
# Necessário para ativar widgets
try:
  import google.colab
  IN_COLAB = True
  from google.colab import output
  output.enable_custom_widget_manager()
except:
  IN_COLAB = False

# Laboratório prático: Redes Neurais para Reconhecimento de Dígitos Manuscritos, Multiclasse 

Nesta atividade avaliativa, você usará uma rede neural para reconhecer os dígitos escritos à mão de 0 a 9.


# Tópicos
- [ 1 - Pacotes ](#1)
- [ 2 - Ativação ReLU](#2)
- [ 3 - Função Softmax](#3)
  - [ Exercício 1](#ex01)
- [ 4 - Redes Neurais](#4)
  - [ 4.1 Definição do Problema](#4.1)
  - [ 4.2 Conjunto de Dados](#4.2)
  - [ 4.3 Representação de Modelo](#4.3)
  - [ 4.4 Implementação em Tensorflow](#4.4)
  - [ 4.5 Utilização do Softmax](#4.5)
    - [ Exercício 2](#ex02)


<a name="1"></a>
## 1 - Pacotes 

Primeiro, vamos executar a célula abaixo para importar todos os pacotes de que você precisará durante este trabalho.
- [numpy](https://numpy.org/) é o pacote fundamental para computação científica com Python.
- [matplotlib](http://matplotlib.org) é uma biblioteca popular para plotar gráficos em Python.
- [tensorflow](https://www.tensorflow.org/) é uma plataforma popular para aprendizado de máquina.

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.activations import linear, relu, sigmoid
%matplotlib widget
import matplotlib.pyplot as plt
plt.style.use('./deeplearning.mplstyle')

import logging
logging.getLogger("tensorflow").setLevel(logging.ERROR)
tf.autograph.set_verbosity(0)

from public_tests import * 

from autils import *
from lab_utils_softmax import plt_softmax
np.set_printoptions(precision=2)

<a name="2"></a>

## 2 - Ativação ReLU
Nesta semana, uma nova ativação foi introduzida, a Unidade Linear Retificada (ReLU). 

$$ a = max(0,z) \quad\quad\text{\# função ReLU} $$

In [None]:
plt_act_trio()

<img align="right" src="./images/C2_W2_ReLu.png"     style=" width:380px; padding: 10px 20px; " >

O exemplo da aula à direita mostra uma aplicação do ReLU. Nesse exemplo, o recurso derivado de "awareness" não é binário, mas tem uma faixa contínua de valores. O sigmoide é melhor para situações de ligado/desligado ou binárias. O ReLU fornece uma relação linear contínua. Além disso, ele tem um intervalo "desligado" em que a saída é zero.     
O recurso "off" torna o ReLU uma ativação não linear. Por que isso é necessário? Isso permite que várias unidades contribuam para a função resultante sem interferir. Isso será examinado com mais detalhes no laboratório opcional de suporte. 

<a name="3"></a>
## 3 - Função Softmax
Uma rede neural multiclasse gera N saídas.

Uma saída é selecionada como a resposta prevista.

Na camada de saída, um vetor $\mathbf{z}$ é gerado por uma função linear que é alimentada em uma função softmax.

A função softmax converte $\mathbf{z}$ em uma distribuição de probabilidade, conforme descrito abaixo.

Depois de aplicar a softmax, cada saída estará entre 0 e 1 e as saídas somarão 1. Elas podem ser interpretadas como probabilidades.

As entradas maiores para o softmax corresponderão a probabilidades de saída maiores.
<center>  <img  src="./images/C2_W2_NNSoftmax.PNG" width="600" />  

A função softmax pode ser escrita:
$$a_j = \frac{e^{z_j}}{ \sum_{k=0}^{N-1}{e^{z_k} }} \tag{1}$$

Onde $z = \mathbf{w} \cdot \mathbf{x} + b$ e N é o número de recursos/categorias na camada de saída.  

<a name="ex01"></a>
### Exercício 1
Vamos criar uma implementação do NumPy:

In [None]:
def my_softmax(z):  
    """ O Softmax converte um vetor de valores em uma distribuição de probabilidade.
    Args:
      z (ndarray (N,))  : dados de entrada, N recursos
    Returns:
      a (ndarray (N,))  : softmax of z
    """    
    ### INICIAR O CÓDIGO AQUI ### 
    
    
    
    
        
    
        
    
    
    ### FINALIZAR O CÓDIGO AQUI### 
    return a

In [None]:
z = np.array([1., 2., 3., 4.])
a = my_softmax(z)
atf = tf.nn.softmax(z)
print(f"my_softmax(z):         {a}")
print(f"tensorflow softmax(z): {atf}")

# COMEÇO DO TESTE DA UNIDADE
test_my_softmax(my_softmax)
# FIM DO TESTE DA UNIDADE

<details>
  <summary><font size="3" color="darkgreen"><b>Click para dicas</b></font></summary>
    Uma implementação usa o loop for para construir primeiro o denominador e, em seguida, um segundo loop para calcular cada saída.
    
```python
def my_softmax(z):  
    N = len(z)
    a =                     # inicializar a em zeros  
    ez_sum =                # inicializar a soma em zero
    for k in range(N):      # loop sobre o número de saídas           
        ez_sum +=           # soma exp(z[k]) para construir o denominador compartilhado      
    for j in range(N):      # loop over number of outputs again                
        a[j] =              # repetir o loop sobre o número de saídas novamente  
    return(a)
```
<details>
  <summary><font size="3" color="darkgreen"><b>Click para ver o código</b></font></summary>
   
```python
def my_softmax(z):  
    N = len(z)
    a = np.zeros(N)
    ez_sum = 0
    for k in range(N):                
        ez_sum += np.exp(z[k])       
    for j in range(N):                
        a[j] = np.exp(z[j])/ez_sum   
    return(a)

Ou uma implementação vetorial:

def my_softmax(z):  
    ez = np.exp(z)              
    a = ez/np.sum(ez)           
    return(a)

```


Abaixo, varie os valores das entradas `z`. Observe, em particular, como o exponencial no numerador amplia pequenas diferenças nos valores. Observe também que os valores de saída somam um.

In [None]:
plt.close("all")
plt_softmax(my_softmax)

<a name="4"></a>
## 4 - Redes Neurais

Na atividade avaliativa passada, você implementou uma rede neural para fazer a classificação binária. Nesta semana, você estenderá essa rede para a classificação multiclasse. Isso utilizará a ativação softmax.



<a name="4.1"></a>
### 4.1 Definição do Problema
Neste exercício, você usará uma rede neural para reconhecer dez dígitos escritos à mão, de 0 a 9. Essa é uma tarefa de classificação multiclasse em que uma das n opções é selecionada. O reconhecimento automatizado de dígitos manuscritos é amplamente utilizado atualmente, desde o reconhecimento de códigos postais em envelopes de correio até o reconhecimento de valores escritos em cheques bancários. 


<a name="4.2"></a>
### 4.2 Dataset

Você começará carregando o conjunto de dados para essa tarefa. 
- A função `load_data()` mostrada abaixo carrega os dados nas variáveis `X` e `y`


- O conjunto de dados contém 5.000 exemplos de treinamento de dígitos manuscritos $^1$.  

    - Cada exemplo de treinamento é uma imagem em escala de cinza de 20 pixels x 20 pixels do dígito. 
        - Cada pixel é representado por um número de ponto flutuante que indica a intensidade da escala de cinza naquele local. 
        - A grade de 20 por 20 pixels é "desenrolada" em um vetor de 400 dimensões. 
        - Each training examples becomes a single row in our data matrix `X`. 
        - Isso nos dá uma matriz 5000 x 400 `X` em que cada linha é um exemplo de treinamento de uma imagem de dígito manuscrito.

$$X = 
\left(\begin{array}{cc} 
--- (x^{(1)}) --- \\
--- (x^{(2)}) --- \\
\vdots \\ 
--- (x^{(m)}) --- 
\end{array}\right)$$ 

- A segunda parte do conjunto de treinamento é um vetor dimensional de 5000 x 1 `y` que contém rótulos para o conjunto de treinamento
    - `y = 0` se a imagem for do dígito `0`, `y = 4` se a imagem for do dígito `4` e assim por diante.

$^1$<sub> Esse é um subconjunto do conjunto de dados de dígitos manuscritos MNIST de [Yann Lecun](https://ai.meta.com/people/yann-lecun/)</sub>

In [None]:
# Carregar o conjunto de dados
X, y = load_data()

#### 4.2.1 Visualizar as variáveis
Vamos nos familiarizar mais com seu conjunto de dados.  
- Uma boa maneira de começar é imprimir cada variável e ver o que ela contém.

O código abaixo imprime o primeiro elemento nas variáveis `X` e `y`.

In [None]:
print ('O primeiro elemento de X é: ', X[0])

In [None]:
print ('O primeiro elemento de y é: ', y[0,0])
print ('O pultimo elemento de y é: ', y[-1,0])

#### 4.2.2 Verifique as dimensões de suas variáveis

Outra maneira de se familiarizar com seus dados é visualizar suas dimensões. Imprima a forma de `X` e `y` e veja quantos exemplos de treinamento você tem em seu conjunto de dados.

In [None]:
print ('O formato de X é: ' + str(X.shape))
print ('O formato de y é: ' + str(y.shape))

#### 4.2.3 Visualização dos dados

Você começará visualizando um subconjunto do conjunto de treinamento. 
- Na célula abaixo, o código seleciona aleatoriamente 64 linhas de `X`, mapeia cada linha de volta para uma imagem em escala de cinza de 20 pixels por 20 pixels e exibe as imagens juntas. 
- O rótulo de cada imagem é exibido acima da imagem 

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
# Não é necessário modificar nada nessa célula

m, n = X.shape

fig, axes = plt.subplots(8,8, figsize=(5,5))
fig.tight_layout(pad=0.13,rect=[0, 0.03, 1, 0.91]) #[esquerda, inferior, direita, superior]

#fig.tight_layout(pad=0.5)
widgvis(fig)
for i,ax in enumerate(axes.flat):
    # Selecionar índices aleatórios
    random_index = np.random.randint(m)
    
    # Selecionar as linhas correspondentes aos índices aleatórios e
    # remodelar a imagem
    X_random_reshaped = X[random_index].reshape((20,20)).T
    
    # Exibir a imagem
    ax.imshow(X_random_reshaped, cmap='gray')
    
    # Exibir o rótulo acima da imagem
    ax.set_title(y[random_index,0])
    ax.set_axis_off()
    fig.suptitle("Rótulo, imagem", fontsize=14)

<a name="4.3"></a>
### 4.3 Representação de Modelo

A rede neural que você usará nesta tarefa é mostrada na figura abaixo. 
- Ela tem duas camadas densas com ativações ReLU seguidas de uma camada de saída com ativação linear. 
    - Lembre-se de que nossas entradas são valores de pixel de imagens de dígitos.
    - Como as imagens são de tamanho $20\times20$, isso nos dá $400$ de entradas  
    
<img src="images/C2_W2_Assigment_NN.png" width="600" height="450">

- Os parâmetros têm dimensões que são dimensionadas para uma rede neural com $25$ unidades na camada 1, $15$ unidades na camada 2 e $10$ unidades de saída na camada 3, uma para cada dígito.

    - Lembre-se de que as dimensões desses parâmetros são determinadas da seguinte forma:
        - Se a rede tiver $s_{in}$ unidades em uma camada e $s_{out}$ unidades na camada seguinte, então 
            - $W$ terá uma dimensão de $s_{in} \times s_{out}$.
            - $b$ será um vetor com elementos $s_{out}$
  
    - Portanto, as formas de `W` e `b` são 
        - camada1: A forma de `W1` é (400, 25) e a forma de `b1` é (25,)
        - camada2: A forma de `W2` é (25, 15) e a forma de `b2` é: (15,)
        - camada3: A forma de `W3` é (15, 10) e a forma de `b3` é: (10,)
>**Nota:** O vetor de bias `b` pode ser representado como uma matriz 1-D (n,) ou 2-D (n,1). O Tensorflow utiliza uma representação 1-D e este laboratório manterá essa convenção: 
               

<a name="4.4"></a>
### 4.4 Implementação em Tensorflow


Os modelos do Tensorflow são criados camada por camada. As dimensões de entrada de uma camada ($s_{in}$ acima) são calculadas para você. Você especifica as *dimensões de saída* de uma camada e isso determina a dimensão de entrada da próxima camada. A dimensão de entrada da primeira camada é derivada do tamanho dos dados de entrada especificados na instrução `model.fit` abaixo. 
>**Nota:** Também é possível adicionar uma camada de entrada que especifique a dimensão de entrada da primeira camada. Por exemplo:  
`tf.keras.Input(shape=(400,)),    #specify input shape`  
Incluiremos isso aqui para ilustrar o dimensionamento de alguns modelos.

<a name="4.5"></a>
### 4.5 Utilização do Softmax
Conforme descrito na aula teórica e no laboratório opcional de softmax, a estabilidade numérica é aprimorada se o softmax for agrupado com a função de perda em vez da camada de saída durante o treinamento. Isso tem implicações ao *construir* o modelo e *usar* o modelo.  
Construção:  
* A camada Dense final deve usar uma ativação "linear". Na verdade, isso significa que não há ativação. 
* A instrução `model.compile` indicará isso ao incluir `from_logits=True`.
`loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True) `  
* Isso não afeta a forma do alvo. No caso do SparseCategorialCrossentropy, o alvo é o dígito esperado, 0-9.

Usando o modelo:
* Os resultados não são probabilidades. Se as probabilidades de saída forem desejadas, aplique uma função softmax.

<a name="ex02"></a>
### Exercício 2

Abaixo, use [Sequential model](https://keras.io/guides/sequential_model/) e [Dense Layer](https://keras.io/api/layers/core_layers/dense/) do Keras com uma ativação ReLU para construir a rede de três camadas descrita acima.

In [None]:
tf.random.set_seed(1234) # para resultados consistentes em diferentes execuções do código
model = Sequential(
    [               
    ### INICIAR O CÓDIGO AQUI ### 
    
    
    
    
        
    
        
    
    
    ### FINALIZAR O CÓDIGO AQUI### 
    ], name = "my_model" 
)

In [None]:
model.summary()

<details>
  <summary><font size="3" color="darkgreen"><b>Saída Esperada (Clique para expandir)</b></font></summary>
A função `model.summary()` exibe um resumo útil do modelo. Observe que os nomes das camadas podem variar, pois são gerados automaticamente, a menos que o nome seja especificado.    

    
```
Model: "my_model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
=================================================================
L1 (Dense)                   (None, 25)                10025     
_________________________________________________________________
L2 (Dense)                   (None, 15)                390       
_________________________________________________________________
L3 (Dense)                   (None, 10)                160       
=================================================================
Total params: 10,575
Trainable params: 10,575
Non-trainable params: 0
_________________________________________________________________
```

<details>
  <summary><font size="3" color="darkgreen"><b>Clique para Dicas</b></font></summary>
    
```python
tf.random.set_seed(1234)
model = Sequential(
    [               
        ### INICIAR O CÓDIGO AQUI ###  
        tf.keras.Input(shape=(400,)),     # @REPLACE 
        Dense(25, activation='relu', name = "L1"), # @REPLACE 
        Dense(15, activation='relu',  name = "L2"), # @REPLACE  
        Dense(10, activation='linear', name = "L3"),  # @REPLACE 
        ### FINALIZAR O CÓDIGO AQUI### 
    ], name = "my_model" 
)
``` 

In [None]:
# INICIAR TESTE DA UNIDADE     
test_model(model, 10, 400)
# FINALIZAR TESTE DA UNIDADE     

As contagens de parâmetros mostradas no resumo correspondem ao número de elementos nas matrizes de peso e polarização, conforme mostrado abaixo.

Vamos examinar mais detalhadamente os pesos para verificar se o tensorflow produziu as mesmas dimensões que calculamos acima.

In [None]:
[layer1, layer2, layer3] = model.layers

In [None]:
#### Examine o formato dos pesos
W1,b1 = layer1.get_weights()
W2,b2 = layer2.get_weights()
W3,b3 = layer3.get_weights()
print(f"Formato de W1 = {W1.shape}, Formato de b1 = {b1.shape}")
print(f"Formato de W2 = {W2.shape}, Formato de b2 = {b2.shape}")
print(f"Formato de W3 = {W3.shape}, Formato de b3 = {b3.shape}")

**Saída Esperada**
```
Formato de W1 = (400, 25), Formato de b1 = (25,)  
Formato de W2 = (25, 15), Formato de b2 = (15,)  
Formato de W3 = (15, 10), Formato de b3 = (10,)
```

O código a seguir:
* define uma função de perda, `SparseCategoricalCrossentropy` e indica que o softmax deve ser incluído no cálculo da perda adicionando `from_logits=True`)
* define um otimizador. Uma opção popular é o Adaptive Moment (Adam), que foi descrito na aula.

In [None]:
model.compile(
    loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
    optimizer=tf.keras.optimizers.Adam(learning_rate=0.001),
)

history = model.fit(
    X,y,
    epochs=40
)

#### Epochs e batches
Na instrução `fit` acima, o número de `epochs` foi definido como 40. Isso especifica que todo o conjunto de dados deve ser aplicado durante o treinamento 40 vezes.  Durante o treinamento, você verá uma saída descrevendo o progresso do treinamento que se parece com isto:
```
Época 1/40
157/157 [==============================] - 0s 1ms/passo - perda: 2,2770
```
A primeira linha, `Epoch 1/40`, descreve a época em que o modelo está sendo executado no momento. Para maior eficiência, o conjunto de dados de treinamento é dividido em "lotes"(_batches_). O tamanho padrão de um lote no Tensorflow é 32. Há 5.000 exemplos em nosso conjunto de dados, ou seja, aproximadamente 157 lotes. A notação na segunda linha `157/157 [====` está descrevendo qual lote foi executado.

#### Perda (custo)
Aprendemos anteriormente a acompanhar o progresso da descida do gradiente monitorando o custo. O ideal é que o custo diminua à medida que o número de iterações do algoritmo aumenta. O Tensorflow se refere ao custo como "perda"(_loss_). Acima, você viu a perda exibida a cada época enquanto o `model.fit` estava sendo executado. O método [.fit](https://www.tensorflow.org/api_docs/python/tf/keras/Model) retorna uma variedade de métricas, incluindo a perda. Isso é capturado na variável `history` acima. Isso pode ser usado para examinar a perda em um gráfico, conforme mostrado abaixo.

In [None]:
plot_loss_tf(history)

#### Previsão 
Para fazer uma previsão, use o Keras `predict`. Abaixo, X[1015] contém uma imagem de um dígito dois.

In [None]:
image_of_two = X[1015]
display_digit(image_of_two)

prediction = model.predict(image_of_two.reshape(1,400))  # prediction

print(f" predizendo um Dois: \n{prediction}")
print(f" Maior índice de previsão: {np.argmax(prediction)}")

A maior saída é prediction[2], indicando que o dígito previsto é um '2'. Se o problema exigir apenas uma seleção, isso é suficiente. Use NumPy [argmax](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html) para selecioná-la. Se o problema exigir uma probabilidade, será necessário um softmax:

In [None]:
prediction_p = tf.nn.softmax(prediction)

print(f" Prevendo um Dois. Vetor de probabilidade: \n{prediction_p}")
print(f"Total das predições: {np.sum(prediction_p):0.3f}")

Para retornar um número inteiro que represente o alvo previsto, você deseja o índice da maior probabilidade.Isso é feito com a função Numpy [argmax](https://numpy.org/doc/stable/reference/generated/numpy.argmax.html).

In [None]:
yhat = np.argmax(prediction_p)

print(f"np.argmax(prediction_p): {yhat}")

Vamos comparar as previsões com os rótulos de uma amostra aleatória de 64 dígitos.Isso demora um pouco para ser executado.

In [None]:
import warnings
warnings.simplefilter(action='ignore', category=FutureWarning)
# Não é necessário modificar nada nessa célula

m, n = X.shape

fig, axes = plt.subplots(8,8, figsize=(5,5))
fig.tight_layout(pad=0.13,rect=[0, 0.03, 1, 0.91]) #[esquerda, inferior, direita, superior]
widgvis(fig)
for i,ax in enumerate(axes.flat):
    # Selecione índices aleatórios
    random_index = np.random.randint(m)
    
    # Selecione as linhas correspondentes aos índices aleatórios e
    # remodelar a imagem
    X_random_reshaped = X[random_index].reshape((20,20)).T
    
    # Exibir a imagem
    ax.imshow(X_random_reshaped, cmap='gray')
    
    # Prever usando a rede neural
    prediction = model.predict(X[random_index].reshape(1,400))
    prediction_p = tf.nn.softmax(prediction)
    yhat = np.argmax(prediction_p)
    
    # Exibir o rótulo acima da imagem
    ax.set_title(f"{y[random_index,0]},{yhat}",fontsize=10)
    ax.set_axis_off()
fig.suptitle("Rótulo, yhat", fontsize=14)
plt.show()

Vamos dar uma olhada em alguns dos erros. 
>Observação: aumentar o número de épocas de treinamento pode eliminar os erros nesse conjunto de dados.

In [None]:
print( f"{display_errors(model,X,y)} erros em {len(X)} imagens")

### Parabéns!
Você construiu e utilizou com sucesso uma rede neural para fazer a classificação multiclasse.