# **HANDS-ON 3: Os Primeiros Neurônios e as Primeiras Camadas (Parte 2)**

Vimos no [HANDS-ON 3: Criando os Primeiros Neurônios (Parte 01)](../Unidade%201/Hands-On_03.ipynb) que um modelo simples de neurônios pode ser feito com a seguite arquitetura:

In [1]:
#Importanto Bibliotecas
import numpy as np

# Definindo os valores de entrada
inputs = [1.0, 2.0, 3.0, 2.5]

# Definindo os pesos
weights = [[0.12, 0.18, -0.15, 1.1],  
           [0.15, -0.91, 0.26, -0.15],
           [-0.26, -0.27, 0.17, 0.87]]

# Definindo valores de bias (Constantes)
biases = [1.0, 1.3, 1.5]

# Computando os valores de saída
layer_outputs = np.dot(weights, inputs) + biases

# Printando resultados
print(layer_outputs)

[3.78  0.035 3.385]


Contudo, quando estamos criando e normalizando os valores para que uma determinada rede neural opere, os valores geralmente são passado em **lotes (batches, em inglês)**. Nos exemplos que trabalhos anteriormente, os valores dos inputs estavam sendo fornecidos um por vez (um Array Unidimensional), mas e se os valores fossem fornecidos como uma série de inputs de diversas observações (matriz numpy), ao invés de apenas uma observação por vez? 

In [2]:
import numpy as np

# Modelo de Array Unidimensional. (modelos que estávamos usando):
array_1D = np.array([1, 2, 3])

# Modelo de Array Bidimensional.
array_2D = np.array([[1, 2, 3],
                     [4, 5, 6],
                     [7, 8, 9]])

# Modelo de Array Tridimensional.
array_3D = np.array([[[1, 2, 3],
                     [4, 5, 6],
                     [7, 8, 9]],
                     [[10, 11, 12],
                     [13, 14, 15],
                     [16, 17, 18]]])

# Dados do array Unidimensional
print(f'Quantos valores alocados: {array_1D.size}, e como estão alocados: {array_1D.shape}')
# Dados do array Bidimensional
print(f'Quantos valores alocados: {array_2D.size}, e como estão alocados: {array_2D.shape}')
# Dados do array Tridimensional
print(f'Quantos valores alocados: {array_3D.size}, e como estão alocados: {array_3D.shape}')

Quantos valores alocados: 3, e como estão alocados: (3,)
Quantos valores alocados: 9, e como estão alocados: (3, 3)
Quantos valores alocados: 18, e como estão alocados: (2, 3, 3)


É importante entendermos esses conceitos pois eles estão diretamente relacionados com os lotes que a rede neural irá receber. Comparando-se uma rede neural que recebe apenas um vetor unidimensional por vez e outra que recebe uma matriz dados por vez, é natural percebermos que a que recebe mais dados por vez tende a chegar ao equilibrio mais rapidamente. Em outras palavras, mais dados serão processados em paralelo, fazendo com que a rede consiga ter maior velocidade na hora do processamento. Uma observação importante a ser feita é que aumentar os valores dos lotes não implica em maior acurácia. Geralmente, o tempo de processamento diminui, mas, em compensação, a acurácia é afetada e pode diminuir.

Como Kevin Shen expõe em seu artigo intitulado em inglês ["Effect of batch size on training dynamics"](https://medium.com/mini-distill/effect-of-batch-size-on-training-dynamics-21c14f7a716e) (Efeito dos lotes em treinamento dinâmico, em português):

```{bibliography}
O tamanho do lote é um dos hiperparâmetros mais importantes para ajustar os sistemas modernos de aprendizado profundo. Os praticantes geralmente desejam usar um tamanho de lote maior para treinar seu modelo, pois permite acelerações computacionais do paralelismo das GPUs. No entanto, é sabido que um tamanho de lote muito grande levará a uma generalização ruim (embora atualmente não se saiba por que isso acontece). [...]
```

Veja abaixo como pode ser o efeito dos lotes de entradas:

In [3]:
import numpy as np

# Lote de várias ativações. Antes usávamos um por vez, agora iremos usar 8 de uma vez.
batch_inputs = np.array([[-0.05, -0.12, -0.03, 0.39],   # primeiros inputs
                         [-0.16, -0.4, 0.09, -0.26],    # segundos input
                         [-0.31, -0.28, 0.21, -0.14],   # terceiros input
                         [0.28, -0.11, -0.13, 0.4],     # quartos input
                         [-0.48, -0.02, 0.25, 0.43],    # quintos input
                         [-0.31, -0.41, 0.32, -0.38],   # sextos input
                         [-0.35, -0.48, -0.15, -0.09],  # sétimos input
                         [0.22, 0.25, 0.42, 0.15]])     # oitavos input


print(f'Ativação da primeira "visualização": {batch_inputs[0]}')
print(f'Ativação da segunda "visualização": {batch_inputs[1]}')
print(f'Ativação da terceira "visualização": {batch_inputs[2]}')
print(f'Ativação da quarta "visualização": {batch_inputs[3]}')
print(f'Ativação da quinta "visualização": {batch_inputs[4]}')
print(f'Ativação da sexta "visualização": {batch_inputs[5]}')
print(f'Ativação da sétima "visualização": {batch_inputs[6]}')
print(f'Ativação da oitava "visualização": {batch_inputs[7]}')

Ativação da primeira "visualização": [-0.05 -0.12 -0.03  0.39]
Ativação da segunda "visualização": [-0.16 -0.4   0.09 -0.26]
Ativação da terceira "visualização": [-0.31 -0.28  0.21 -0.14]
Ativação da quarta "visualização": [ 0.28 -0.11 -0.13  0.4 ]
Ativação da quinta "visualização": [-0.48 -0.02  0.25  0.43]
Ativação da sexta "visualização": [-0.31 -0.41  0.32 -0.38]
Ativação da sétima "visualização": [-0.35 -0.48 -0.15 -0.09]
Ativação da oitava "visualização": [0.22 0.25 0.42 0.15]


Inicialmente, como não estávemos utilizando lotes, as operações podiam ser moldadas com o produto escalar, contudo, quando incrementamos com uma matriz que contém uma série de inputs ("visualizações"), temos de achar um mecanismo que possibilite a multiplicação entre as matrizes. Na rede neural abaixo, temos um lote (matriz) contendo 4 entradas diferentes (arrays de ativação).

In [4]:
import numpy as np

# Lote de 4 "visualizaçõe" para 3 neurônios.
batch_inputs = np.array([[0.47, 0.42, 0.46],
                         [0.12, -0.15, -0.01],
                         [-0.08, -0.1, 0.14],
                         [-0.16, 0.13, -0.38]])

# Pesos para três neurônios.
weights = np.array([[0.42, -0.22, 0.45],
                    [-0.04, 0.03, -0.29],
                    [0.2, 0.34, -0.4]])

# Bias para três neurônios.
bias = np.array([0.1, 0.2, 0.3])

Como **NÂO PODEMOS** realizar a operação abaixo:

$$ \underbrace{\begin{bmatrix} \color{blue} 0.47 & \color{red} 0.42 & \color{green} 0.46 \\ \color{blue} 0.12 & \color{red} -0.15 & \color{green} -0.01 \\ \color{blue} -0.08 & \color{red} -0.1 & \color{green} 0.14 \\ \color{blue} -0.16 & \color{red} 0.13 & \color{green} -0.38 \end{bmatrix}}_{\text{Matriz Inputs (4,3)}} \cdot \underbrace{\begin{bmatrix} \color{teal}0.42 & \color{teal}-0.22 & \color{teal}0.45 \\ \color{olive}-0.04 & \color{olive}0.03 & \color{olive}-0.29 \\ \color{violet}0.2 & \color{violet}0.34 & \color{violet}-0.4 \end{bmatrix}}_{\text{Matriz com pesos (3,3)}} $$

As cores $\color{blue}Azul$, $\color{red}Vermelho$ e $\color{green} Verde$ da primeira matriz representam os valores de ativações em cada input. A primeira linha que contém essas cores representa a primeira entrada (ou "visualizações") de inputs, a segunda linha representa a segunda entrada (ou "visualizações") de inputs, a terceira linha representa a terceira entrada de inputs e assim sussecivamente.

As cores da segunda coluna representam os pesos de cada neurônio. A cor $\color{teal}Verde-azulado$ são os pesos do primeiro neurônio. A cor $\color{olive}Oliva$ são os pesos do segundo neurônio e a cor $\color{violet}Violeta$ são os pesos do terceiro neurônio.  Se fizessemos a multplicação acima, haveria um erro de lógica - pois estariamos multiplicando os valores de cada input por pesos que não pertenceriam a um determinado neurônio.

Outra forma de visualizarmos esse erro é fazendo um outro lote de 3 entradas para quatro neurônios. Note que a multiplicação de matrizes usual (linha da primeira matriz multiplicada pela coluna da segunda matriz) não é definida para esse caso:

$$ \underbrace{\begin{bmatrix} \color{blue} 0.47 & \color{red} 0.42 & \color{green} 0.46 & -0.16\\ \color{blue} 0.12 & \color{red} -0.15 & \color{green} -0.01 &  0.13 \\ \color{blue} -0.08 & \color{red} -0.1 & \color{green} 0.14 & -0.38 \end{bmatrix}}_{\text{Matriz Inputs (3,4)}} \cdot \underbrace{\begin{bmatrix} \color{teal}0.42 & \color{teal}-0.22 & \color{teal}0.45 & \color{teal}0.92 \\ \color{olive}-0.04 & \color{olive}0.03 & \color{olive}-0.29 & \color{olive}-0.99 \\ \color{violet}0.2 & \color{violet}0.34 & \color{violet}-0.4  & \color{violet} 0.25\end{bmatrix}}_{\text{Matriz com pesos (3,4)}} $$

Para corrigirmos esse problema, **utilizaremos a transposta da matriz com pesos**. Note que, para o primeiro caso, a multiplicação fica bem definida:

$$ \underbrace{\begin{bmatrix} \color{blue} 0.47 & \color{red} 0.42 & \color{green} 0.46 \\ \color{blue} 0.12 & \color{red} -0.15 & \color{green} -0.01 \\ \color{blue} -0.08 & \color{red} -0.1 & \color{green} 0.14 \\ \color{blue} -0.16 & \color{red} 0.13 & \color{green} -0.38 \end{bmatrix}}_{\text{Matriz Inputs (4,3)}} \cdot \underbrace{\begin{bmatrix} \color{teal}0.42 & \color{olive}-0.04 &  \color{violet}0.2 \\ \color{teal}-0.22 & \color{olive}0.03 & \color{violet}0.34 \\ \color{teal}0.45 & \color{olive}-0.29 & \color{violet}-0.4 \end{bmatrix}^{T}}_{\text{Matriz com pesos (3,3)}} $$

Para o segundo caso, ela também fica bem definida:

$$ \underbrace{\begin{bmatrix} \color{blue} 0.47 & \color{red} 0.42 & \color{green} 0.46 & -0.16\\ \color{blue} 0.12 & \color{red} -0.15 & \color{green} -0.01 &  0.13 \\ \color{blue} -0.08 & \color{red} -0.1 & \color{green} 0.14 & -0.38 \end{bmatrix}}_{\text{Matriz Inputs (3,4)}} \cdot \underbrace{\begin{bmatrix} \color{teal}0.42 & \color{olive}-0.04 & \color{violet}0.2 \\ \color{teal}-0.22 & \color{olive}0.03 & \color{violet}0.34 \\ \color{teal}0.45 & \color{olive}-0.29 & \color{violet}-0.4  \\ \color{teal}0.92 & \color{olive}-0.99 & \color{violet} 0.25 \end{bmatrix}^{T}}_{\text{Matriz com pesos (3,4)}} $$

Podemos realizar esse comando em Numpy com o seguinte código abaixo:

In [25]:
import numpy as np

# Lote de 4 "visualizaçõe" para 3 neurônios.
batch_inputs = np.array([[0.47, 0.42, 0.46],
                         [0.12, -0.15, -0.01],
                         [-0.08, -0.1, 0.14],
                         [-0.16, 0.13, -0.38]])

# Pesos para três neurônios.
weights = np.array([[0.42, -0.22, 0.45],
                    [-0.04, 0.03, -0.29],
                    [0.2, 0.34, -0.4]])

# Bias para três neurônios.
bias = np.array([0.1, 0.2, 0.3])

# Fanzendo a transposta dos pesos:
weights_T = weights.transpose()

# Computando a ativação
layer_outputs = np.dot(batch_inputs, weights_T) + bias

# Printando resultados
print(f'{layer_outputs[0]} -> saida da primeira ativação')
print(f'{layer_outputs[1]} -> saida da segunda ativação')
print(f'{layer_outputs[2]} -> saida da terceira ativação')
print(f'{layer_outputs[3]} -> saida da quarta ativação \n')

print(f'saida da matriz completa:\n {layer_outputs}')

[0.412  0.0604 0.3528] -> saida da primeira ativação
[0.1789 0.1936 0.277 ] -> saida da segunda ativação
[0.1514 0.1596 0.194 ] -> saida da terceira ativação
[-0.1668  0.3205  0.4642] -> saida da quarta ativação 

saida da matriz completa:
 [[ 0.412   0.0604  0.3528]
 [ 0.1789  0.1936  0.277 ]
 [ 0.1514  0.1596  0.194 ]
 [-0.1668  0.3205  0.4642]]


Agora que estamos conseguindo realizar os procedimentos para a nossa primeira camada de neurônios, podemos expandir nossa rede neural e criarmos uma segunda camada que recebe as saídas da primeira camada. As redes neurais tornam-se profundas quando possuem ao menos duas camadas ocultas. No
momento, temos apenas uma camada, que é efetivamente uma camada de saída. Normalmente os cientistas de dados adicionam uma série de camadas para extrair partes dos dados. Um exemplo abaixo:

![](../Imagens/Unidade%201/mnist_4.png)

Note que a primera camada faz uma "classificação" de padrões na imagem de input. A segunda camada, por sua vez, realiza outras operações de "classificações" de padrões nos dados da primeira camada. Com várias camadas, podemos detectar padrões nas imagens e realizar melhor predições - por isso são utilizadas redes neurais profundas.

Vamos abaixo criar nossa primeira rede com duas camadas:

In [28]:
import numpy as np

# Entrada de dados
batch_inputs = np.array([[0.33, 0.33, 0.3, 0.4],
                         [-0.18, 0.28, 0.36, 0.32],
                         [-0.34, -0.15, 0.48, -0.12]])


# Primeira camada de neurônios
# Pesos - Transposos
weights_layer_1 = np.array([[0.31, -0.31, -0.48, -0.27],
                            [-0.15, -0.29, -0.33, -0.08],
                            [0.16, -0.22, -0.33, 0.02]]).T
# Bias
bias_layer_1 = np.array([0.1, 0.2, 0.3])

# Segunda camada de neurônios
# Pesos - Transposos
weights_layer_2 = np.array([[0.19, 0.15, 0.04],
                            [-0.16, 0.46, 0.3],
                            [-0.37, 0.22, 0.49]]).T
# Bias
bias_layer_2 = np.array([0.47, 0.19, -0.28])

# Output da primeira camada
output_layer_1 = np.dot(batch_inputs, weights_layer_1) + bias_layer_1

# Output da segunda camada - note que ele utiliza como entrada a saida da primeira camada.
output_layer_2 = np.dot(output_layer_1, weights_layer_2) + bias_layer_2

print(f'Saida da primeira camada: \n{output_layer_1}\n')
print(f'Saida da segunda camada: \n{output_layer_2}')

Saida da primeira camada: 
[[-0.152  -0.0762  0.1892]
 [-0.3018  0.0014  0.0972]
 [-0.1569  0.1457  0.1178]]

Saida da segunda camada: 
[[ 0.437258  0.236028 -0.147816]
 [ 0.416756  0.268092 -0.120398]
 [ 0.466756  0.317466 -0.132171]]


Na prática, o que criamos pode ser visto como o seguinte diagrama:

![](../Imagens/Unidade%201/modelo_rede_neural.png)

Com essa parte, podemos finalizar o conteudo de **Os Primeiros Neurônios e as Primeiras Camadas**.

**RELATÓRIO 03:**

# **Referências Bibliográficas:**

1 - **Effect of batch size on training dynamics, Kevin Shen**. Disponível em: <https://medium.com/mini-distill/effect-of-batch-size-on-training-dynamics-21c14f7a716e>. Acessado em 11 de maio de 2022

4 - **Neural Nwtworks from Scratch in Python, Harrison Kinsley & Daniel Kukiela.**