## Neural Networks

Dessa vez teremos várias camadas, layers, então mudaremos um pouco a notação que usamos.
$$ z^{[1]} = W^{[1]}x + b^{[1]} \rightarrow a^{[1]} = \sigma(z^{[1]})$$

Esse índice sobreescrito representa qual camada da NN está sendo representada atualmente. Só que, dessa vez teremos diversas camadas, então esse $a^{[1]}$ servirá como entrada para a próxima camada, sendo o $x$ dessa camada.

$$z^{[2]} = W^{[2]}a^{[1]} + b^{[2]}$$


## Representação de Neural Networks

### Single Neuron NN

![image.png](attachment:bfcffee2-dd0b-4508-8a88-3eec169ef577.png)

Na Figura acima temos as variáveis $x_1, x_2$ e $x_3$ empilhadas verticalmente, essa camada se chama *Input Layer*, ou camada de entrada. 

Em seguida, temos 4 círculos empilhadas, a esta damos o nome de *Hidden Layer*, ou camada oculta. Quando temos um conjunto de dados para efetuar um treino supervisionado o que temos são os valores de x e seus correspondentes valores de y, não existem nesse dataset os parâmetros para as outras partes de nossa NN, por isso essa camada é chamada de *Hidden Layer* pois não vemos o que eles são no conjunto de dados.

Por fim, temos um único círculo só, que é chamado de *Output Layer*.

Até agora vimos que a notação para a entrada do sistema é um vetor com os valores denominado $x$, outra notação que encontraremos é $a^{[0]}$, onde $a$ vem de *activitations*. Como só temos uma *hidden layer* aqui teremos então apenas até $a^{[1]}$ e cada nó dessa camada será chamado como $a^{[1]}_1, a^{[1]}_2, a^{[1]}_3$ e $a^{[1]}_4$. Portanto $a^{[1]}$ será uma matriz 4x1 da seguinte forma:

$$ a^{[1]} = \begin{bmatrix}a^{[1]}_1 \\  a^{[1]}_2\\a^{[1]}_3  \\a^{[1]}_4  \end{bmatrix}$$


Por fim, a *output layer* gerará o valor estimado $\hat{y} = a^{[2]}$. Nosso sistema como um todo é chamado de *2 layer NN*, rede neural de 2 camadas, pois a camada de entrada não conta, é dita como camada $0$, contando apenas as camadas ocultas e a de saída.

## Random Initialization

Supondo uma NN com 2 entradas, $n^{[0]} = 2$, e uma *hidden layer* com dois nós, $n^{[1]} = 2$. Supondo que os pesos dessa camada sejam inicializados como zero, temos:

$$W^{[1]} = \begin{bmatrix}0 & 0\\0 & 0\end{bmatrix}$$ 

Inicializar o bias, $b$ , como zero não apresenta nenhum problema, no entanto para os pesos como zero teremos que $a^{[1]}_1 = a^{[1]}_2$ ou seja os dois nós teram resultados iguais pois os pesos são os mesmos. Dessa forma, por simetria, $dz^{[1]}_1 = dz^{[1]}_2$, portanto ambas iram calcular a mesma coisa durante o treinamento.

In [1]:
import numpy as np
A = np.random.randn(4,3)
B = np.sum(A, axis = 1, keepdims = True)

In [3]:
print(A)
print(B.shape)

[[ 0.27014883 -0.44461767  0.47187544]
 [-0.26516392  0.19908759 -0.93342378]
 [-0.3793963   1.64308376 -0.20023803]
 [ 1.17967681 -0.12370086 -1.21249824]]
(4, 1)


https://www.cs.ryerson.ca/~aharley/neural-networks/
https://cs231n.github.io/neural-networks-case-study/