# Alimentación hacia adelante


<center>
<img src="./figuras/xor.png/">
</center>

La fórmula general vectorizada para calcular el valor de la capa siguiente se puede expresar como:
\begin{align*}
  A^{(l+1)} = g(A^{(l)} W^{(l)} + B^{(l)})
\end{align*}
donde:
* $A$ es la matriz de valores de activación, un ejemplar por cada renglón.
* $W$ es la matriz de pesos que conectan dos capas sucesivas.
* $B$ es el vector de sesgos (o los pesos conectados a $a_0$).

In [1]:
import numpy as np
import matplotlib.pyplot as plt

X = np.array([[0,0],
	          [0,1],
	          [1,0],
	          [1,1]])	

W1 = np.array([[1,-1],
               [1,-1]])

B = np.array([[-0.5],[1.5]])



In [2]:
# Z1 = np.dot(X, W1) + B
Z1 = X.dot(W1) + B.T

In [3]:
def sigmoid(z):
    return 1 / (1 + np.exp(-z))

In [4]:
A1 = sigmoid(Z1)

In [5]:
A1

array([[0.37754067, 0.81757448],
       [0.62245933, 0.62245933],
       [0.62245933, 0.62245933],
       [0.81757448, 0.37754067]])

In [6]:
W2 = np.array([[1],
               [1]])

B2 = np.array([[-1.5]])

In [7]:
Z2 = np.dot(A1, W2) + B2

A2 = sigmoid(Z2)

In [8]:
A2

array([[0.42436378],
       [0.43657321],
       [0.43657321],
       [0.42436378]])

# Cálculo del gradiente del error hacia atrás

Función de error:
\begin{align}
  J(\Theta) = - \frac{1}{m} \left[ \sum_{k=1}^{s_L} Y^T \log(A^{(L)})  + (1 - Y)^T \log(1 - A^{(L)})   \right]    
\end{align}

In [9]:
# Inserta tu código aquí
Y = np.array([[0],
              [1],
              [1],
              [0]])

In [10]:
# m = 4 ya que solo son 4 ejemplares de entrenamiento
J = -(np.dot(Y.T, np.log(A2)) + np.dot((1 - Y).T, np.log(1 - A2))) / 4

In [11]:
J

array([[0.69053929]])

In [12]:
J[0,0]

0.6905392895752118

* Error cometido por la última capa $L$
 \begin{align}
  \Delta^{(L)} &= Y - A^{(L)}
 \end{align}

In [13]:
# Inserta tu código aquí
# Delta^L
dL = Y - A2

In [14]:
dL

array([[-0.42436378],
       [ 0.56342679],
       [ 0.56342679],
       [-0.42436378]])

* Error cometido por cualquier capa $l-1$
 \begin{align}
  \Delta^{(l-1)} &= \Delta^{(l)}\left(W^{(l-1)}\right)^T \circ g'(Z^{(l-1)})
 \end{align}

* Para la función sigmoide: 
 \begin{align}
  g'(Z^{(l-1)}) &= A^{(l-1)} \circ (1-A^{(l-1)})
 \end{align}  

In [15]:
# Inserta tu código aquí
gpz = A1 * (1 - A1)
gpz

array([[0.23500371, 0.14914645],
       [0.23500371, 0.23500371],
       [0.23500371, 0.23500371],
       [0.14914645, 0.23500371]])

In [16]:
DLml = np.dot(dL, W2.T) * gpz
DLml

array([[-0.09972706, -0.06329235],
       [ 0.13240739,  0.13240739],
       [ 0.13240739,  0.13240739],
       [-0.06329235, -0.09972706]])

* Componentes del gradiente con respecto a los pesos en $W^{l-1}$
 \begin{align}
  \nabla^{(l-1)} &= -\frac{1}{m}\left(A^{(l-1)}\right)^T \Delta^{(l)}
 \end{align}

In [17]:
# Inserta tu código aquí