<a href="https://colab.research.google.com/github/geocarvalho/python-ds/blob/main/math_4_ml/week3_calculos_nn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Simple Artificial Neural Networks

1. Uma rede neural simples:

![nn](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/JKIDlfihEeeAPQprC3K2Bg_66921c651e175da7cc8b805860da4225_simple.png?expiry=1623024000000&hmac=SRXuFKpl75w2u_LFt6LI9UvE1ZTimtrcg_nGBZc8tI0)

* Aqui temos apenas dois neuronios (ou nos) e eles estao sendo ligados por apenas uma aresta.

* A ativacao dos neuronios na ultima camada (1) e determinada pela ativacao de neuronios na camada previa (0).

$$a^{(1)} = \sigma(w^{(1)}a^{(0)} + b^{(1)})$$

Onde $w^{(1)}$ e o peso das conexoes entre neuronio (0) e neuronio (1). Ja $b^{(1)}$ e o vies (bias) do neuronio (1). Esses sao entao sujeitos a funcao de ativacao ($\sigma$) para a ativacao do neuronio (1).

* Nossa pequena rede neural nao sera capaz de muita coisa por ser muito simples, mas e interessante por alguns numeros de entrada para sentir como as coisas funcionam.

* Vamos assumir que queremos treinar a rede para dar uma funcao negativa, ou seja, quando pomos 1 ela retorna 0 e quando botamos 0 ela retorn 1.

* Para simplicidade, vamos usar $\sigma(z) = tanh(z)$ para nossa funcao de ativacao e iniciar de forma aleatoria nossos pesos e vieses com $w^{(1)} = 1.3$ e $b^{(1)} = -0.1$.

* Abaixo temos o codigo para ver quais valores de saida a rede neural retorna inicialmente para os dados de treinamento.

In [11]:
import numpy as np

# Primeiro organizamos as variaveis
sigma = np.tanh
w1 = 1.3
b1 = -0.1

# Entao definimos a funcao de ativacao do neuronio
def a1(a0):
  return sigma(w1 * a0 + b1)

# Agora podemos testar a rede
print(a1(1))
print(a1(0))

0.8336546070121552
-0.09966799462495582


* Nao e tao boa, mas nao foi treinada ainda. Vamos experimentar mudar os valores de peso e vies e ver no que da.

In [8]:
w1 = 0
b1 = 5

print(a1(1))
print(a1(0))

0.9999092042625951
0.9999092042625951


In [7]:
w1 = -10
b1 = 10

print(a1(1))
print(a1(0))

0.0
0.9999999958776927


2. Agora vamos estender nossa rede neural simples para ter mais neuronios.

![nn2](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/BmRF4RgTEei0zRLQ2V54Gg_f661933d95252c6e3d84e779bde7c119_moreNodes.png?expiry=1623024000000&hmac=kDXAJKXz0MyiyeElw6-Oy9jGvRktO0ybCRZh031kt2I)

* Agora nos mudamos ligeiramente as anotacoes. Os neuronios estao classificados de acordo com sua camada e sobrescrito com seu numero na camada, formando vetors $\mathbf{a}^{(0)}$ e $\mathbf{a}^{(1)}$.

* Os pesos agora formam uma matriz $\mathbf{W}^{(1)}$, onde cada elemento, $w^{(1)}_{ij}$ e a combinacao entre o neuronio $j$ na camada anterior e o neuronio $i$ na camada atual.

> Por exemplo, $w^{(1)}_{12}$ esta vinculando $a^{(0)}_{2}$ ao $a^{(1)}_{1}$.

* Os vieses formam um vetor $\mathbf{b}^{(1)}$ da mesma forma. Entao podemos atualizar a funcao de ativacao:

$$\mathbf{a}^{(1)} = \sigma(\mathbf{W}^{(1)}\mathbf{a}^{(0)}+\mathbf{b}^{(1)})$$

* Onde todas as variaveis de interesse foram transformadas em vetores ou matrizes e $\sigma$ age em cada elemento do vetor da soma dos pesos separadamente. 

* Vamos calcular $\mathbf{a}^{(1)}$, dado os valores das variaveis:


In [10]:
# Iniciando as variaveis
sigma = np.tanh
W = np.array([[-2, 4, -1], [6, 0, -3]])
b = np.array([0.1, -2.5])
x = np.array([0.3, 0.4, 0.1])

a1 = sigma(np.dot(W, x)+b)
print(a1)

[ 0.76159416 -0.76159416]


3. Agora vamos dar uma olhada numa rede com camada escondida.

![nn3](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/lO8V1vlhEeetIhICvTHYsg_3953370b0690ae02c046d9a903540998_moreBoth.png?expiry=1623024000000&hmac=jYFJVrOqfTcmffScbv-57VUEFoQhFH3UnOIUgxyLN-g)

* Os dados de entrada estao na camada (0), isso ativa os neuronios da camada (1) que criam os dados de entrada dos neuronios da camada (2).

* O numero de pesos na camada sera o produto do numero de neuronios de entrada e de saida na camada. Nesse cada temos 12 pesos na primeira camada e 6 pesos na segunda.

* Essa rede tem 5 vieses, no geral existem tantos vieses quanto neuronios de saide ou camada escondida.

$$\mathbf{a}^{(2)} = \sigma(\mathbf{W}^{(2)} \sigma(\mathbf{W}^{(1)}\mathbf{a}^{(0)} + \mathbf{b}^{(1)}) + \mathbf{b}^{(2)})$$

> Nessa forma a cima vemos a funcao inteira para a rede neural com as camadas ligadas. Sendo a mesma coisa que:

$$\mathbf{a}^{(2)} = \sigma(\mathbf{W}^{(2)}\mathbf{a}^{(1)} + \mathbf{b}^{(2)})$$

$$\mathbf{a}^{(1)} = \sigma(\mathbf{W}^{(1)}\mathbf{a}^{(0)} + \mathbf{b}^{(1)})$$

--- 

# Training Neural Networks

Agora vamos voltar a nossa rede neural simples para ver mais detalhes sobre *back-propagation* usando regra da cadeia para treinar nossa rede neural.

![nn00](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/f1Sg0vr6EeeuoQ4MK7iWlg_0cac092b955dd9547d8cf285c7acc6a4_simple.png?expiry=1623024000000&hmac=3scBq_mquOuxJ-cYWR5syvJoYO86-k86UPdrmhwKtCc)

* Para relembrarmos sobre a equacao de ativacao:

$$a^{(1)}=\sigma(z^{(1)})$$

$$z^{(1)}=w^{(1)}a^{(0)}+b^{(1)}$$

> Onde esse $z^{(1)}$ e a soma dos pesos da ativacao e dos vieses.

* Nos podemos formalizar quao bom (ou ruim) nossa rede neural e pegando o comportamento de interesse. Para uma determinada entrada $x$ e uma saida desajada $y$, podemos definir o **custo** especifico desse **treinamento exemplo** como o quadrado das diferencas entre as saidas da rede e a saida desejada:

$$ C_k = (a^{(1)} - y)^2$$

> Onde $k$ e o treinamento de exemplo e $a^{(1)}$ e assumido como a ativacao do neuronio de saida quando o neuronio de entrada $a^{(0)}$ e usado $x$.

* Vamos ver o detalhe de como aplicar isso em todo o dado de treinamento mais tarde, mas vamos ver um exemplo pequeno agora:

Lembra da nossa funcao negativa? Para uma entrada 1 a saida seria 0. Para comecar o peso e vies $w^{(1)}=1.3$ e $b^{(1)}=-0.1$, a rede tem como saida $a^{(1)}=0.834$. Se calcularmos o custo para esse exemplo temos:

$$C_1 = (0.834-0)^2 = 0.696$$

Vejamos o mesmo calculo para $x=0$ e saida $y=1$.

In [12]:
# Organizando as variaveis
sigma = np.tanh
w1 = 1.3
b1 = -0.1

# Definindo o neuronio de ativacao
def a1(a0):
  z = w1 * a0 + b1
  return sigma(z)

# Usando outros valores
x = 0
y = 1
a_1 = a1(x)
c0 = (a_1 - y)**2
c0

1.209269698402472

* Para melhorar a performance de uma rede neural num conjunto de treinamento podemos variar os pesos e os vieses. Conseguimos calcular a derivada do custo do exemplo com respeito a essas quantidades usando a regra da cadeia.

$$\frac{\partial C_k}{\partial w^{(1)}}=\frac{\partial C_k}{\partial a^{(1)}}\frac{\partial a^{(1)}}{\partial z^{(1)}}\frac{\partial z^{(1)}}{\partial w^{(1)}}$$

* Repetindo as equacoes por coviniencia

$$a^{(1)} = \sigma(z^{(1)})$$

$$z^{(1)} = w^{(1)}a^{(0)}+b^{(1)}$$

$$C_k = (a^{(1)} - y)**2$$

* Individualmente essas derivativas sao simples formulas:

$$\frac{\partial z^{(1)}}{\partial b^{(1)}} = 1$$

$$\frac{\partial C_k}{\partial a^{(1)}} = 2(a^{(1)}-y)$$

$$\frac{\partial a^{(1)}}{\partial z^{(1)}} = \sigma'(z^{(1)})$$

$$\frac{\partial z^{(1)}}{\partial w^{(1)}} = a^{(0)}$$

* E a derivativa da `tanh`:

$$\frac{d}{dz}tanh(z) = \frac{1}{cosh^2z}$$

Vamos implementar em codigo agora

In [13]:
# Definir a funcao sigma
sigma = np.tanh

# Definir a equacao feed-foward
def a1(w1, b1, a0):
  z = w1 * a0 + b1
  return sigma(z)

# Definir a equacao de custo
def C(w1, b1, x, y):
  return (a1(w1, b1, x) - y)**2

# Definir a funcao que retorna a derivativa da funcao custo em relacao
# aos pesos
def dCdw(w1, b1, x, y):
  z = w1 * x + b1
  # Derivativa do custo com ativacao
  dCd1 = 2*(a1(w1, b1, x) - y)
  # Derivativa da ativacao com os pesos
  dadz = 1/np.cosh(z)**2
  # Derivativa da soma dos pesos pelos pesos
  dzdw = x
  # Retornar a o produto da regra da cadeia
  return dCda * dadz * dzdw

# Definir a funcao que retorna a derivativa da funcao de custo com respeito
# aos vieses
def dCdb(w1, b1, x, y):
  z = w1 * x + b1
  dCda = 2 * (a1(w1, b1, x)- y)
  dadz = 1/np.cosh(z)**2
  dzdb = 1
  return dCda * dadz * dzdb

# Testes
w1 = 2.3
b1 = -1.2
x = 0
y = 1

# Saida de como o custo muda em proporcao a pequenas mudancas no vies
print(dCdb(w1, b1, x, y))

-1.1186026425530913


* Agora com mais neuronios na rede, nossas variaveis viram vetores e matrizes.

![n11](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/I3U0sfsYEeegOxLoounLjg_a86ba47587cd1990b57340f837644339_moreNodes.png?expiry=1623024000000&hmac=xZeNgoe_y5Z3blS-Iy-fbCJDj7DYJy4ys2hik9uScn8)

$$\mathbf{a}^{(1)} = \sigma(\mathbf{z}^{(1)})$$

$$\mathbf{a}^{(1)} = \mathbf{W}^{(1)}\mathbf{a}^{(0)} + \mathbf{b}^{(1)}$$

* A funcao de custo continua sendo um unico valor em vez de virar um vetor, os componentes sao somados para cada neuronio de saida.

$$C_k = \sum_i(a^{(1)}_i - y_i)^2$$

> As variaveis com $i$ classificam os neuronios de saida que sao somados, ja $k$ indica os dados de exemplo de treinamento.

* Os dados de treinamento se tornam vetores

> $x$ $\to$ $\mathbf{x}$ e tem o mesmo numero de elementos que neuronios de entrada.

> $y$ $\to$ $\mathbf{y}$ e tem o mesmo numero de elementos que neuronios de saida.

* Isso nos permite escrever a funcao de custo em forma de vetores usando o modulo ao quadrado.

$$C_k = |\mathbf{a}^{(1)}-\mathbf{y}^2|$$

Vamos trabalhar com o codigo agora:

In [14]:
# Definir a funcao de ativacao
sigma = np.tanh

# Vamos usar uma inicializacao aleatoria para pesos e vieses
W = np.array([[-0.94529712, -0.2667356 , -0.91219181],
              [ 2.05529992,  1.21797092,  0.22914497]])
b = np.array([ 0.61273249,  1.6422662 ])

# Definir a funcao de feed-foward
def a1(a0):
  # Usar multiplicacao de matrizes
  z = W @ a0 + b
  return sigma(z)

# Nossos dados de treinamento
x = np.array([0.1, 0.5, 0.6])
y = np.array([0.9, 0.6])#[0.25, 0.75])

# Funcao de custo
# Diferenca entre vetores de ativacao observada e esperada
d = a1(x) - y
# Valor absoluto do quadrado das diferencas
C = d @ d
print(C)

# Outro exemplo de entrada
x = np.array([0.7, 0.6, 0.2])
d = a1(x) - y
C = d @ d
print(C)


1.2771038883115056
1.7788340952508743


* Vamos falar de uma rede com camada escondida agora.

![n22](https://d3c33hcgiwev3.cloudfront.net/imageAssetProxy.v1/yAAKnP4aEeejaAo3LPV8uA_dcc184247e188ac1d8dc86a4255472aa_moreBoth.png?expiry=1623024000000&hmac=PSot7ksHV2etFT_PyId-KbxB_ASnRZVXYxYg0z8fpdw)

* Para treinar essa rede precisamos de **back-propagation**, porque comecamos na camada de saida e calculamos as derivadas de tras para frente ate a camada de entrada usando regra da cadeia.

* Se quisessemos calcular a derivada do custo em respeito aos pesos da ultima camada:

$$\frac{\partial C_k}{\partial \mathbf{W}^{(2)}}=\frac{\partial C_k}{\partial \mathbf{a}^{(2)}}\frac{\partial \mathbf{a}^{(2)}}{\partial \mathbf{z}^{(2)}}\frac{\partial \mathbf{z}^{(2)}}{\partial \mathbf{W}^{(2)}}$$

* Tambem podemos construir algo parecido para os vieses.

* Se quisermos calcular a derivada do custo em respeito aos pesos da camada anterior:

$$\frac{\partial C_k}{\partial \mathbf{W}^{(1)}}=\frac{\partial C_k}{\partial \mathbf{a}^{(2)}}\frac{\partial \mathbf{a}^{(2)}}{\partial \mathbf{a}^{(1)}}\frac{\partial \mathbf{a}^{(1)}}{\partial \mathbf{z}^{(1)}}\frac{\partial \mathbf{z}^{(1)}}{\partial \mathbf{W}^{(1)}}$$

> Onde $\frac{\partial \mathbf{a}^{(2)}}{\partial \mathbf{a}^{(1)}}$ pode ser expandido para:

$$\frac{\partial \mathbf{a}^{(2)}}{\partial \mathbf{a}^{(1)}} = \frac{\partial \mathbf{a}^{(2)}}{\partial \mathbf{z}^{(2)}}\frac{\partial \mathbf{z}^{(2)}}{\partial \mathbf{a}^{(1)}}$$

> Isso pode ser generalizado para qualquer camada:

$$\frac{\partial C_k}{\partial \mathbf{W}^{(i)}}=\frac{\partial C_k}{\partial \mathbf{a}^{(N)}}\frac{\partial \mathbf{a}^{(N)}}{\partial \mathbf{a}^{(N-1)}}\frac{\partial \mathbf{a}^{(N-1)}}{\partial \mathbf{a}^{(N-2)}}\dots\frac{\partial \mathbf{a}^{(i+1)}}{\partial \mathbf{a}^{(i)}}\frac{\partial \mathbf{a}^{(i)}}{\partial \mathbf{z}^{(i)}}\frac{\partial \mathbf{z}^{(i)}}{\partial \mathbf{W}^{(i)}}$$

* Um exemplo de derivativa, para a expressao $\frac{\partial \mathbf{a}^{(j)}}{\partial \mathbf{a}^{(j-1)}}$ e as equacoes de ativacao:

$$a^{(n)} = \sigma(z^{(n)})$$

$$z^{(n)} = w^{(n)}a^{(n-1)}+b^{(n)}$$

> A derivada parcial e $\sigma'(\mathbf{z}^{(j)})\mathbf{W}^{(j)}$

# Backpropagation

