## Exemplo Numérico de *Backpropagation*

Prof. Daniel de Abreu Pereira Uhr




***Processo de Aprendizado (Backpropagation):***

*Backpropagation* é o algoritmo que calcula como cada peso e *bias* deve ser ajustado, com base no erro da predição em relação ao valor verdadeiro. Seguindo o processo:

* Forward Pass:
  * Calcula a saída da rede ($\hat{y}$), dado os inputs.
* Cálculo da perda (loss):
  * Compara $\hat{y}$ com o valor verdadeiro ($y$ real), usando uma função de perda.
* *Backward Pass* (*Backpropagation*):
  * Calcula o gradiente da função de perda em relação a cada peso e bias, usando a regra da cadeia da derivada.
* Atualização dos parâmetros:
  * Usa esses gradientes para atualizar os pesos, geralmente com algum algoritmo de otimização como Gradiente Descente, Adam (Adaptive Moment Estimation), etc.

***Lógica***
* Antes da atualização:
  * Você tem pesos aleatórios ou iniciais. Eles produzem uma predição ($\hat{y}$) que, no início, não é boa (ou seja, o erro é grande).
* Depois da atualização:
  * Os pesos são ajustados um pouquinho na direção que minimiza o erro (seguindo o gradiente da função de perda). Se você repetir isso várias vezes (ao longo de muitas épocas, com muitos exemplos de treino), os pesos convergem para valores que produzem predições melhores.
    * Uma época (epoch) é uma passagem completa por todo o conjunto de dados de treinamento.
    * Um Lote (Batch) é um subconjunto dos dados de treinamento usado para calcular os gradientes e atualizar os pesos. 
    * Iteração (iteration) é uma atualização dos pesos, geralmente após processar um lote (batch) de dados.
      * iterações totais = número de épocas * número de batches por época.


***Exemplo Numérico de Backpropagation:***

***Backpropagation manual***

Arquitetura:
* Inputs: $x_1 = 1$, $x_2 = 2$
* Pesos de entrada para o neurônio oculto: $w_1 = 0.1$, $w_2 = 0.2$
* Bias da camada oculta: $b_1 = 0.3$
* Peso da camada oculta para a saída: $v_1 = 0.4$
* Bias da saída: $b_2 = 0.5$
* Função de ativação: Identidade (ou seja, $g(z) = z$ e $g'(z) = 1$)
* Target (valor verdadeiro): $y = 1$

Saída da hidden layer:

$$
z_1 = (w_1 \cdot x_1) + (w_2 \cdot x_2) + b_1 \\
z_1 = (0.1 \times 1) + (0.2 \times 2) + 0.3 = 0.1 + 0.4 + 0.3 = 0.8
$$

Como a ativação é identidade:

$$
h_1 = z_1 = 0.8
$$

**Saída final:**

$$
\hat{y} = (v_1 \cdot h_1) + b_2 = (0.4 \times 0.8) + 0.5 = 0.32 + 0.5 = 0.82
$$

Cálculo da perda

Usando MSE (Erro Quadrático Médio):

$$
\text{Loss} = \frac{1}{2} (y - \hat{y})^2 = \frac{1}{2} (1 - 0.82)^2 = \frac{1}{2} \times 0.0324 = 0.0162
$$

Backward pass (gradientes)

**Gradiente da perda em relação a $\hat{y}$:**

$$
\frac{\partial \text{Loss}}{\partial \hat{y}} = -(y - \hat{y}) = -(1 - 0.82) = -0.18
$$

**Gradiente em relação a $v_1$ (peso da saída):**

$$
\frac{\partial \text{Loss}}{\partial v_1} = \frac{\partial \text{Loss}}{\partial \hat{y}} \times \frac{\partial \hat{y}}{\partial v_1} = -0.18 \times h_1 = -0.18 \times 0.8 = -0.144
$$

**Gradiente em relação ao bias da saída $b_2$:**

$$
\frac{\partial \text{Loss}}{\partial b_2} = \frac{\partial \text{Loss}}{\partial \hat{y}} \times 1 = -0.18
$$

**Gradiente em relação a $h_1$ (saída da camada oculta):**

$$
\frac{\partial \text{Loss}}{\partial h_1} = \frac{\partial \text{Loss}}{\partial \hat{y}} \times v_1 = -0.18 \times 0.4 = -0.072
$$

**Gradiente em relação a $w_1$ e $w_2$ (pesos da entrada):**

Como a ativação da hidden layer também é identidade:

Para $w_1$:

$$
\frac{\partial \text{Loss}}{\partial w_1} = \frac{\partial \text{Loss}}{\partial h_1} \times \frac{\partial h_1}{\partial w_1} = -0.072 \times x_1 = -0.072 \times 1 = -0.072
$$

Para $w_2$:

$$
\frac{\partial \text{Loss}}{\partial w_2} = -0.072 \times x_2 = -0.072 \times 2 = -0.144
$$

Bias da hidden:

$$
\frac{\partial \text{Loss}}{\partial b_1} = -0.072 \times 1 = -0.072
$$

Atualização dos pesos (exemplo com learning rate = 0.1)

Atualizando $v_1$:

$$
v_1^{\text{new}} = v_1 - 0.1 \times (-0.144) = 0.4 + 0.0144 = 0.4144
$$

O mesmo processo pode ser aplicado para os outros pesos e bias.
