# Trabalho 6
**Para o conjunto de dados disponível no arquivo "Trabalho6dados.xlsx", utilizar
backpropagation por Levenberg-Marquardt para treinar os pesos da RNA criada no Trabalho 5, Parte 2. Testar diferentes condições iniciais e diferentes parâmetros da otimização visando o melhor resultado possível para função custo $\frac{1}{2} MSE$ Normalizar e desnormalizar os dados.**

## **Parte 1:**
**Montar uma rede neural artificial cuja saída seja $y$ e as entradas sejam $(x_1, x_2)$ de acordo com:**

$$y = \phi_2 (b_{2,1} + \sum^2_{i=1} w_{2,1,i}y_i')$$

$$y'_i = \phi_1 (b_{1,i} + \sum^2_{j=1} w_{1,i,j}x_j)$$

- Com $\phi_1$ tangente hiperbólica e $\phi_2$ linear.
- Os parâmetros $w$ e $b$ são quaisquer.
- A rede deve ser montada em um código executável e desenhado seu diagrama de blocos utilizando o diagrama do neurônio artificial e da rede feedforward.

#Backpropagation
O objetivo da retropropagação do erro é otimizar os pesos para que a rede neural possa aprender a mapear corretamente as entradas para as saídas.

Para qualquer problema de aprendizagem supervisionada é necessário encontrar um conjunto de pesos $W$ que minimize a saída de $E(W)$, onde $E(W)$ é a função de perda, ou o erro da rede.

Para realizar a retropropagação do erro é necessário utilizar o erro entre o conjunto de dados e a saída da rede neural para calcular o ajuste de parametros ($\Delta w$) para a otimização dos resultados utilizando Levenberg-Marquardt.

Primordialmente, convém definir o erro utilizado na avaliação do processo de treinamento. Dada uma amostra de treinamento:

$$  = \{ x(n), d(n)\}_{n=1}^N $$

O sinal de erro produzido como output do neurônio $j$ é:

$$e_j(n) = d_j(n) - y_j(n)$$

E portanto, a média quadrática do erro (MSE):

$$E(N) = \frac{1}{2N} \sum_{n=1}^N \sum_{j \in C}  e^2_{j}(n)$$

Onde:
- $d_j(n)$: n-ésimo elemento do vetor com as saidas desejadas
- $y_j(n)$: n-ésimo elemento do vetor com as saidas atuais
- $N$: número de amostras
- $C$: conjunto de neurônios na camada

Dado um neurônio $j$ sendo alimentado por um conjunto de sinais produzidos pela entrada da camada a sua esquerda, temos que o *induced local field*  $v_j(n)$ produzido na entrada da função de ativação associada ao neurônio $j$ é:

$$v_j(n) = \sum_{i=0}^m w_{ji}(n)x_i(n)$$

Onde $m$ corresponde a dimensão dos inputs do neurônio $j$. Assim, a saída $y_j(n)$ do neurônio $j$ na n-ésima iteração é dada por:

$$y_j(n) = \phi_j (v_j(n))$$

Assim como nos algoritmos de otimização vistos anteriormente, a retropropagação busca aplicar uma correção $\Delta w_{ji}(n)$ no peso sináptico $w_{ji}(n)$. Essa correção é proporcional a derivada parcial do erro em relação aos pesos $\frac{\partial E(n)}{\partial w_{ji}(n)}$ e pode ser obtida aplicando a regra da cadeia:

$$ \frac{\partial E(n)}{\partial w_{ji}(n)} = \frac{\partial E(n)}{\partial e_{j}(n)}\frac{ \partial e_j(n)}{\partial y_{j}(n)}\frac{ \partial y_{j}(n)}{\partial v_{j}(n)}\frac{\partial v_{j}(n)}{\partial w_{ji}(n)} $$

Essa derivada parcial representa um fator sensível capaz de determinar a direção de busca dos melhores pesos sinápticos. Seus termos quando expandidos resultam em:

$$ \frac{\partial E(n)}{\partial e_{j}(n)} = \frac{\partial \frac{1}{2}e_j^2(n)}{\partial e_{j}(n)} = e_j(n) $$

$$ \frac{\partial e_j(n)}{\partial y_{j}(n)} = \frac{\partial  d_j(n) - y_j(n)}{\partial y_{j}(n)} = -1$$

$$ \frac{\partial y_j(n)}{\partial v_{j}(n)} = \frac{\partial  \phi_j (v_j(n))}{\partial v_{j}(n)} = \phi_j' (v_j(n)) $$

$$ \frac{\partial v_j(n)}{\partial w_{ji}(n)} = \frac{\partial w_{ji}(n)x_i(n)}{\partial w_{ji}(n)} = x_i(n) $$

Associando as equações podemos obter o jacobiano para a implementação do algoritmo de levenberg-marquadt:

$$ J(W) = \begin{bmatrix}
\frac{\partial e_1(n)}{\partial w_{i1}(n)} & \cdots  & \frac{\partial e_1(n)}{\partial w_{iN}(n)} \\
 \vdots & \ddots  & \vdots  \\
\frac{\partial e_N(n)}{\partial w_{i1}(n)} & \cdots  & \frac{\partial e_N(n)}{\partial w_{iN}(n)} \\
\end{bmatrix} $$

sendo
$$ \frac{\partial e_j(n)}{\partial w^{(o)}_{ij}(n)} = -\phi'^{(o)}_{j}(v^{(o)}_{j}(n))x^{(o)}_{j}(n)$$

para camada de saida, e

$$ \frac{\partial e_j(n)}{\partial w^{(o)}_{ij}(n)} = -\phi'^{(o)}_{j}(v^{(o)}_{j}(n))w^{(o)}_{ij}(n)\phi'^{(h)}_{j}(v^{(h)}_{j}(n))x^{(h)}_{j}(n) $$

para as camadas ocultas.

Assim, os parâmetros (e o bias) podem ser atualizados por camada conforme:

$$\Delta W = - (J^T(W).J(W) + \eta I)^{-1} . J^T(W)E(W)$$
$$\Delta B = - (J^T(B).J(B) + \eta I)^{-1} . J^T(B)E(B)$$


aonde $E(w)$ é o vetor contendo os erros. Não obstante, se fornecermos a uma camada a derivada do erro em relação à sua saída $(∂E/∂Y)$, então ela deve ser capaz de fornecer a derivada do erro em relação à sua entrada $(∂E/∂X)$. É importante destacar que a saída de uma camada é a entrada da próxima camada. O que significa que $∂E/∂X$ para uma camada é $∂E/∂Y$ para a camada anterior. Assim, podemos usar novamente os resultados obtidos a partir da regra da cadeia para obter a entrada da camada oculta

$$ \frac{\partial E(n)}{\partial x_{i}(n)} = \frac{\partial E(n)}{\partial e_{j}(n)}\frac{ \partial e_j(n)}{\partial y_{j}(n)}\frac{ \partial y_{j}(n)}{\partial v_{j}(n)}\frac{\partial v_{j}(n)}{\partial x_{i}(n)}  =  -e_j(n)\phi_j' (v_j(n))w_{ji}(n)$$


In [7]:
import numpy as np

class Neuron():
    def __init__(self, input_dim, activation_function, index):
        self.index = index
        self.input_dim = input_dim
        self.weights = np.random.rand(input_dim)
        self.bias = np.array(np.random.random())
        self.activation_function = self.set_activation_function(activation_function)
        self.prime_activation = self.set_prime_activation(activation_function)

    def summing_junction(self):
        return(np.dot(self.weights, self.input) + self.bias)

    def process_output(self, input_signal):
      self.input = np.array(input_signal)
      self.vk = self.summing_junction()
      return (self.activation_function(self.vk))

    def set_activation_function(self, activation_function):
        if (activation_function == 'tanh'):
            return lambda x: np.tanh(x)
        if (activation_function == 'linear'):
            return lambda x: x

    def set_prime_activation(self, activation):
        if activation == 'tanh':
            return lambda x: 1 - np.tanh(x) ** 2
        elif activation == 'linear':
            return lambda x: 1    
    
    def set_delta_w(self, output_error, learning_rate, layer_error):
      J_w = np.array([(self.prime_activation(self.vk) * self.input.T * layer_error)])
      J_ww = np.dot(J_w.T,  J_w)
      grad = np.dot(J_w.T, output_error)
      return(np.dot(np.linalg.inv(J_ww + np.dot(learning_rate, np.eye(self.input_dim))), grad))

    def set_delta_b(self, output_error, learning_rate, layer_error):
        J_b = np.array([(self.prime_activation(self.vk) * layer_error[self.index])])
        J_bb = np.dot(J_b.T,  J_b)
        grad = np.dot(J_b.T, output_error)
        return(np.dot(np.linalg.inv(J_bb + np.dot(learning_rate, np.eye(1))), grad))

    def set_error_to_propag(self):
      return (self.prime_activation(self.vk) * self.weights.T)

    def backpropagation(self, output_error, learning_rate, layer_error):
        self.delta_w = self.set_delta_w(output_error, learning_rate, layer_error)
        self.delta_b = self.set_delta_b(output_error, learning_rate, layer_error)
        self.error_to_propag = self.set_error_to_propag()
        self.weights -= self.delta_w.flatten()
        self.bias -= self.delta_b[0]
        return (self.error_to_propag)

    def print_backpropagation_parameters(self):
        print ("ΔW.T = ", self.delta_w.T, " | ΔB = ", self.delta_b.T, "| φ'(vk).W = ", self.error_to_propag.T)



In [8]:
class DenseLayer():
    def __init__(self, index):
        self.neurons = []
        self.index = index

    def __init__(self, input_dim, output_dim, activation_function):
        self.neurons = [Neuron(input_dim, activation_function, i) for i in range(output_dim)]
   
    def forward_propagation(self, input_signal):
        outputs = []
        for neuron in self.neurons:
            output = neuron.process_output(input_signal)
            outputs.append(output)
        return outputs
    
    def backpropagation(self, output_error, learning_rate, layer_error):
        outputs = []
        for neuron in self.neurons:
            if (len(layer_error) > 1):
                output = neuron.backpropagation(output_error, learning_rate, layer_error[neuron.index])
            else:
                output = neuron.backpropagation(output_error, learning_rate, layer_error[0])
            outputs.append(output)
        return np.array(outputs)

    def set_weights(self, weights):
        for neuron, weight in zip(self.neurons, weights):
            neuron.weights = np.array(weight)

    def set_bias(self, bias):
        for neuron, b in zip(self.neurons, bias):
            neuron.bias = np.array(b)

    def get_weights(self):
        weights = [neuron.weights for neuron in self.neurons]
        return np.vstack(weights)

    def get_bias(self):
        bias = [neuron.bias for neuron in self.neurons]
        return np.vstack(bias)


In [9]:

class Network():
    def __init__(self):
        self.layers = []
        self.forward_outputs = []
        self.input_signal = None

    def add(self, input_dim, output_dim, activation_function):
        new_layer = DenseLayer(input_dim, output_dim, activation_function)
        self.layers.append(new_layer)
        return (new_layer)

    def forward_propagation(self, input_signal):
        self.input_signal = input_signal
        forward_outputs = []
        y = input_signal
        for layer in self.layers:
            y = layer.forward_propagation(y)
            forward_outputs.append(y)
        self.forward_outputs = forward_outputs
        self.y_pred = y

    def backpropagation(self, y_desired, learning_rate=0.01):
        output_error = np.array([self.y_pred - y_desired])
        layer_error = np.array([[1]])
        for layer in reversed(self.layers):
            layer_error = layer.backpropagation(output_error, learning_rate, layer_error)

    def print_forward_propagation(self):
        print ("--------------------Forward Propagation----------------------")
        tabs = "\t"
        print("[Input Signal] ---→ ", self.input_signal)
        for i, output in enumerate(self.forward_outputs):
            layer_name = "Output Layer" if i == len(self.forward_outputs) - 1 else f"Hidden Layer {i}"
            print(tabs, "|\n", tabs, f"↳[{layer_name}] ---→ ", output)
        tabs += "\t"

In [10]:
def launchExample():
  input_dim = 2
  output_dim = 2

  # index (i, j, k) == (layer, neuron, input_conection)
  input_signal = np.array([2, 4])           # [x1, x2]               --dim--> (1, 2)
  hidden_weights = np.array([[0.95, 0.96],  # neuron 11 [w111, w112] --dim--> (1, 2)
              [0.8, 0.85]])                 # neuron 12 [w121, w122] --dim--> (1, 2)
  hidden_bias = np.array([0.2 , 0.1])       # [b11, b12]             --dim--> (1, 2)  


  output_weights = np.array([[0.9, 0.8]])   # neuron 21 [w211, w212] --dim--> (1, 2)
  output_bias = np.array([0.3461])          # [b21]                  --dim--> (1, 1)

  network = Network()
  hidden_layer = network.add(input_dim, output_dim, 'tanh')
  output_layer = network.add(output_dim, 1, 'linear')

  hidden_layer.set_weights(hidden_weights)
  hidden_layer.set_bias(hidden_bias)
  output_layer.set_weights(output_weights)
  output_layer.set_bias(output_bias)

  network.forward_propagation(input_signal)
  network.print_forward_propagation()
  network.backpropagation(np.array([4]))
  network.forward_propagation(input_signal)
  network.print_forward_propagation()

In [11]:
launchExample()


--------------------Forward Propagation----------------------
[Input Signal] ---→  [2 4]
	 |
 	 ↳[Hidden Layer 0] ---→  [0.9999861449358144, 0.9999256621257941]
	 |
 	 ↳[Output Layer] ---→  [2.046028060142868]
--------------------Forward Propagation----------------------
[Input Signal] ---→  [2 4]
	 |
 	 ↳[Hidden Layer 0] ---→  [0.9999885118918928, 0.9999726323596576]
	 |
 	 ↳[Output Layer] ---→  [5.924991245629878]


In [12]:
def launchRandom():
  input_dim = 2
  output_dim = 2

  network = Network()
  network.add(input_dim, output_dim, 'tanh')
  network.add(output_dim, 1, 'linear')

  for _ in range(3):
    input_signal = np.random.rand(input_dim)
    network.forward_propagation(input_signal)
    network.print_forward_propagation()
    print()

launchRandom()

--------------------Forward Propagation----------------------
[Input Signal] ---→  [0.76244364 0.82542809]
	 |
 	 ↳[Hidden Layer 0] ---→  [0.9079212590848692, 0.6459849473479136]
	 |
 	 ↳[Output Layer] ---→  [1.4717069630347615]

--------------------Forward Propagation----------------------
[Input Signal] ---→  [0.96151023 0.60676564]
	 |
 	 ↳[Hidden Layer 0] ---→  [0.9069303671511225, 0.6050563611439682]
	 |
 	 ↳[Output Layer] ---→  [1.454276871438509]

--------------------Forward Propagation----------------------
[Input Signal] ---→  [0.01650391 0.7714687 ]
	 |
 	 ↳[Hidden Layer 0] ---→  [0.6587954554670112, 0.5978059358685591]
	 |
 	 ↳[Output Layer] ---→  [1.302565959116442]



# Referências bibliográficas

**[1]** HAYKIN, S. **Neural Networks and Learning Machines**. 3ed. Pearson, 2009