<a href="https://colab.research.google.com/github/fpelogia/Optimization-and-Neural-Networks/blob/master/RedesNeurais05.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Redes Neurais
[Voltar](https://colab.research.google.com/drive/1zGxVatpjlZtdtECAikT1eKP7EQ50m-Ur)

#5 - Método do Gradiente

É um dos métodos mais clássicos no estudo de otimização. O método é iterativo e consiste em avançar, a partir de um ponto inicial, na direção oposta à do gradiente da função neste ponto, isto é, na direção de maior decrescimento. O tamanho do passo deve ser definido de modo que o ponto $x^{k+1}$ esteja mais próximo da solução (do mínimo global) do que $x^k$.

Basicamente:

$$\large x^{k+1} = x^k - t^k \nabla f(x^k)$$


![Image](https://drive.google.com/uc?id=1bEbFgkj1FNzb11nlx3uNMzpT1Q0dC5Wi)


In [0]:
import numpy as np
from numpy import linalg as la 

def func(x):
    return x[0]**2 +2.0*x[1]**2
def grad_func(x):
    return [ 2.0*x[0], 4.0*x[1]]

def metodo_gradiente(f, grad, x, t):
    # ||grad|| é o ERRO
    n_iter = 0
    while (np.log10(la.norm(grad(x))) > -6.0):
        x = x - np.multiply(t,grad(x))
        n_iter = n_iter + 1
    
    print('x',n_iter,' =', x)
    print('f = ',func(x))


metodo_gradiente(func,grad_func,[1,2],0.495)

x 787  = [ 0.00000000e+00 -2.48857977e-07]
f =  1.2386058502993438e-13


##5.1 -Método do Gradiente e Backpropagation

Seja uma rede neural de $p$ camadas com saída $o_i = f_p(w_pf_{p-1}(w_{p-1}f_{p-2}(\cdots))$ .

Sendo $y_i$ a saída esperada, podemos definir uma função $A(x,w)$ que representa o erro dessa saída da seguinte forma:
$$A(x,w) = \sum_{i=1}^{N}o_i - y_i$$

$$\implies A(x,w) = \sum_{i =1}^{N}f_p(w_pf_{p-1}(w_{p-1}f_{p-2}(\cdots)) - y_i)^2 $$

Pensando em aplicar o método do gradiente para otimizar cada peso $w$ da rede, temos algo do tipo:
$$w^{k+1} = w^{k} - t \nabla A(x,w)$$

Mas para calcular $\nabla A(x,w)$ precisamos utilizar a regra da cadeia para várias variáveis, tendo em vista que $A(x,w)$ é uma composição de funções.

Mais especificamente, para os pesos de cada camada:

$$\text{camada }p: w_p^{k+1} = w_p^{k} - t \frac{\partial A}{\partial w_p} $$

$$\text{camada }p-1:w_{p-1}^{k+1} = w_{p-1}^{k} - t \frac{\partial A}{\partial w_{p-1}} $$
$$\cdots$$
 
Onde, para a camada p:
$$\frac{\partial A(x,w)}{\partial w_p} = \sum_{i=1}^{N}2(f_p(w_p f_{p-1}(w_{p-1}f_{p-2}(\cdots)))-y_i)\cdot f_{p}^{'}(w_p f_{p-1}(\cdots))\cdot \color{red}{f_{p-1}(\cdots)}$$
e para a camada p-1:
$$\frac{\partial A(x,w)}{\partial w_p} = \sum_{i=1}^{N}2R_i\cdot f_{p}^{'}(w_p f_{p-1}(\cdots)) \cdot w_p \cdot f_{p-1}^{'}(\cdots)\cdot\color{red}{f_{p-2}(\cdots)}$$
$$\small \text{obs:  } R_i = o_i - y_i$$


Perceba que para calcular $\frac{\partial A(x,w)}{\partial w_k}$, utilizamos a saída da camada $k-1$.


Logo, uma maneira mais abstrata de se representar os passos da otimização dos pesos é:
$$w =  w + \Delta w$$
$$\text{onde } \Delta w = -2\cdot R_i \cdot f^{'}(wp\cdot o_{i,p-1})\cdot o_{i,p-1}$$