# PERCEPTRON MULTICAPA
## XOR - PROPAGACIÓN HACIA DELANTE

Para explicar el algoritmo se ha decidido hacer una prueba con los datos de la imagen, con lo cual se deja claro el funcionamiento de la red neuronal

<img src="Inicialización de la red.png">

In [149]:
from numpy import array, dot, random
X = array([1.76405235, 0.40015721])
W1 = array([[-0.67746455, 0.37769425,-0.07365253], [-0.53663519, 0.60920496,0.21149622]])
print (X)
print (W1)

[1.76405235 0.40015721]
[[-0.67746455  0.37769425 -0.07365253]
 [-0.53663519  0.60920496  0.21149622]]


In [150]:
Z1 = dot(X,W1)
Z1

array([-1.40982137,  0.91005019, -0.04529518])

Se escala esta suma z1 con una función Sigmoid para obtener valores de la primera capa escondida. Note que el vector original de 2D ha sido proyectado ahora a 3D.

In [151]:
import numpy as np
def sigmoid(x):
	return 1.0/(1.0 + np.exp(-x))

In [152]:
h1 = sigmoid(Z1)
h1

array([0.19626223, 0.71301043, 0.48867814])

Un proceso similar toma lugar para la segunda capa h2. Calculemos primero la suma z2 de la primera capa escondida, la cual es ahora un vector de entrada.

In [153]:
W2 = array([[-0.41491732, -0.30992816],[-0.31583913, -0.27706468],[-0.44701662, 0.15231059]])
W2

array([[-0.41491732, -0.30992816],
       [-0.31583913, -0.27706468],
       [-0.44701662,  0.15231059]])

In [154]:
Z2 = dot(h1,W2)
Z2

array([-0.52507644, -0.18394634])

Volvemos a calcular la función de activación

In [155]:
h2 = sigmoid(Z2)
h2

array([0.37166596, 0.45414264])

## Calculando el error
### El objetivo de la función de perdida es cuantificar la distancia entre el vector predecido (h2) y la etiqueta proveída
## XOR - PROPAGACIÓN HACIA ATRAS

<img src="Propagación hacia atras.png">

Para actualizar los pesos en la red debemos sacar las derivadas parciales de la función de perdida, con lo cual tenemos las ecuaciones de la imagen anterior, estas seran aplicadas y ayudaran actualizar los pesos de la red neuronal

<img src="Propagación hacia atras red.png">

Aplicando las funciones con los datos de prueba tenemos que:

In [156]:
Y = array([1, 0])
dL_dh2 = -(Y - h2)
dL_dh2

array([-0.62833404,  0.45414264])

In [157]:
dh2_dz2 = h2*(1-h2)
dh2_dz2

array([0.23353037, 0.2478971 ])

In [158]:
dz2_dw2 = [h1]
dz2_dw2

[array([0.19626223, 0.71301043, 0.48867814])]

In [159]:
# Trasponiendo una matriz
np.transpose(dz2_dw2)

array([[0.19626223],
       [0.71301043],
       [0.48867814]])

In [160]:
dLoss_Dw2=np.transpose(dz2_dw2)*dL_dh2*dh2_dz2
dLoss_Dw2

array([[-0.02879856,  0.02209533],
       [-0.10462365,  0.08027118],
       [-0.07170623,  0.0550157 ]])

### Ahora actualizamos los pesos W2

In [161]:
W2 = W2 - (0.001*dLoss_Dw2)
W2

array([[-0.41488852, -0.30995026],
       [-0.31573451, -0.27714495],
       [-0.44694491,  0.15225557]])

In [162]:
dL_dh2 = dL_dh2 * dh2_dz2
dl_dh1=np.transpose(dL_dh2).dot(np.transpose(W2))
dl_dh1

array([0.0259843 , 0.01512817, 0.08272353])

In [163]:
dh_dz = h1*(1-h1)
dh_dz

array([0.15774337, 0.20462656, 0.24987182])

In [164]:
dz_dw=[X]
dz_dw

[array([1.76405235, 0.40015721])]

In [167]:
dl_dw=np.transpose(dz_dw)*dl_dh1*dh_dz
dl_dw

array([[0.00723059, 0.00546085, 0.03646345],
       [0.00164018, 0.00123874, 0.00827136]])

### Ahora actualizamos los pesos W1

In [168]:
W1_n = W1 - (0.001*dl_dw)
W1_n

array([[-0.67747178,  0.37768879, -0.07368899],
       [-0.53663683,  0.60920372,  0.21148795]])

### Ahora la red neuronal esta aprendiendo
#### lo que sigue seria iterar sobre datos diferentes a los de prueba y comprobar el aprendizaje en un flujo de trabajo de python