# Algoritmo Geral

1. Alimentar a rede com os sinais de entrada (*input signals*)
2. Os dados devem fluir de camada para camada até que a saída seja obtida na *output layer*
3. O erro escalar deve ser calculado a partir da saída para uma função de custo (*loss function*)
4. Os parâmetros devem ser ajustados a partir da derivada do erro

# Requisições
- As derivadas devem ser calculadas independente da arquitetura da rede, das funções de ativação e da função de custo
- Cada camada deve ser implementada separadamente
- Cada camada deve ter **pelo menos** dados de entrada e saída
- A saída de uma camada é a entrada da próxima  (*feedforward*)
- O erro ($Y - \hat{Y}$) dever ser **minimizado** ajustando os parâmetros da rede
- A aproximação de segundo grau da série de Taylor deve ser utilizada para minimizar o erro

### Propagação direta
O valor da saída de cada neurônio pode ser calculado por:

$$y_j = b_j + \sum_i x_i w_{ij}$$

Usando matrizes:

$$X  = \begin{Bmatrix}
 x_1 & \cdots,  & x_i 
\end{Bmatrix} $$

$$ B  = \begin{Bmatrix}
 b_1 & \cdots,  & b_j 
\end{Bmatrix} $$

$$ \begin{bmatrix}
w_{11} & \cdots & w_{1j} \\ 
\vdots & \ddots & \vdots \\
w_{i1} & \cdots & w_{ij}
\end{bmatrix} $$

$$ Y = XW + B$$



### Propagação retroativa
Dada a **derivada do erro em relação à saída** $\frac{\partial E}{\partial Y}$, uma camada deve ser capaz de fornecer a **derivada do erro em relação à entrada** $\frac{\partial E}{\partial X}$


$$ \frac{\partial E}{\partial X} \leftarrow Layer \leftarrow \frac{\partial E}{\partial Y} $$

$$\frac{\partial E}{\partial X}  = \begin{Bmatrix}
 \frac{\partial E}{\partial X_1}, & \cdots,  & \frac{\partial E}{\partial X_i} 
\end{Bmatrix} $$

$$\frac{\partial E}{\partial Y}  = \begin{Bmatrix}
 \frac{\partial E}{\partial Y_1}, & \cdots,  & \frac{\partial E}{\partial Y_j} 
\end{Bmatrix}$$


A partir de $\frac{\partial E}{\partial Y}$, é possivel obter também, **a derivada do erro em relação aos parâmetros** $\frac{\partial E}{\partial W}$ com base na regra da cadeia:

$$ \frac{\partial E}{\partial w} =  \sum_{j=} \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial w}$$

 >  !!! Como a saída de uma camada é a entrada da próxima, $\frac{\partial E}{\partial X}$ de uma camada equivale a $\frac{\partial E}{\partial Y}$ da camada anterior. $$ \frac{\partial E}{\partial x_i} =  \sum_{j=} \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial x_i}$$ 

A matriz $\frac{\partial E}{\partial W}$ deve ter o mesmo tamanho que o próprio $W: i \times j$ onde $i$ é o número de neurônios de entrada e $j$ o número de neurônio de saída.

\begin{bmatrix}
\frac{\partial E}{\partial w_{11}} & \cdots & \frac{\partial E}{\partial w_{1j}} \\ 
\vdots & \ddots & \vdots \\
\frac{\partial E}{\partial w_{i1}} & \cdots & \frac{\partial E}{\partial w_{ij}}
\end{bmatrix}

Usando a regra da cadeia, podemos escrever:

$$ \frac{\partial E}{\partial w_{ij}} =  \frac{\partial E}{\partial y_1} \frac{\partial y_1}{\partial w_{ij}} + \cdots + \frac{\partial E}{\partial y_j} \frac{\partial y_j}{\partial w_{ij}} = \frac{\partial E}{\partial y_{j}} x_i$$