In [1]:
import numpy as np

## Datos
Estos son los datos que estaremos usando para *entrenar* nuestra neurona

In [2]:
data_entrenamiento_x = np.array([
        [0, 0, 1],
        [1, 1, 1],
        [1, 0, 1],
        [0, 1, 1]
    ])
data_entrenamiento_y = np.array([
        [0],
        [1],
        [1],
        [0]
    ])

### Función de activación sigmoide

La función de activación sigmoide es la que medirá el error y aproximará los *pesos* de la neurona, la sigmoide es una función en forma de *S*.

In [3]:
def sigmoide(x):
    return 1 / (1 + np.exp(-x))

Aquí definimos la derivada de la sigmoide

In [4]:
def derivada_sigmoide(x):
    return 1 * (1 - x)

Iniciando Numeros aleatorios determinísticos

In [5]:
np.random.seed(1)

#sinapsis

sinapsis0 = 2*np.random.random((3,4)) - 1
sinapsis1 = 2*np.random.random((4,1)) - 1

#la función "random" únicamente nos da valores tipo float que van desde 0 a 1
#entonces para tener valores negativos y positivos que van de -1 a 1, 
#multiplicamos por 2 y restamos 1

In [6]:
#definimos la cantidad de iteraciones en las que entrenará nuestra red neuronal
iteraciones = 10000

for i in range(iteraciones):
    #La capa_0 corresponde a los datos con los que alimentamos a nuestra red neuronal
    capa_0 = data_entrenamiento_x
    
    #La capa_1 corresponde a la "operación sigmoide aplicada a cada 'peso'(sinapsis0) multiplicado por 
    #cada valor de la capa_0(capa de input de la red neuronal)"
    #notese que no estoy usando "sesgos" para cada una de las conexiones, ningun sesgo de hecho
    capa_1 = sigmoide(np.dot(capa_0, sinapsis0))
    
    #consecuentemente la capa_2 corresponde a la "operación sigmoide aplicada a peso * capa_1"
    #algo así capa_2[i] = sigmoide(sinapsis1[i] x capa_1[i])
    #se usa la multiplicación punto entre vectores para simplificar el proceso descrito en la linea anterior
    capa_2 = sigmoide(np.dot(capa_1, sinapsis1))
    
    #Ahora el error, definido por: (error = valor_real - valor_obtenido_por_el_modelo)
    capa_2_error = data_entrenamiento_y - capa_2
    
    #EL delta es la multiplicación de el error x derivada de  la sigmoide
    capa_2_delta = capa_2_error * derivada_sigmoide(capa_2)
    
    #Hacemos lo mismo para la capa 1 solo que con diferentes valores, usaremos los valores de la sinapsis 1 como
    #nuestro output y lo multiplicamos por el delta de la capa 2
    capa_1_error = np.dot(capa_2_delta, sinapsis1.T) #<---
    capa_1_delta = capa_1_error * derivada_sigmoide(capa_1)
    
    #Las derivadas de sigmoide que encontramos son en realidad los vectores gradiente, estos vectores 
    #son los que nos indican dirección(hacia donde está creciendo la función), al multiplicarlos por el error de
    #cada capa, lo que estamos haciendo es dar "pasos" con dirección para minimizar el error de nuestras funciones
    
    sinapsis1 += np.dot(capa_1.T, capa_2_delta)
    sinapsis0 += np.dot(capa_0.T, capa_1_delta)
    
    #Por razones de debugging y también para ver qué tanto va cambiando nuestra red en el tiempo, 
    #imprimiremos los errores cada 1000 iteraciones.
    if i % 1000 == 0:
        print("Error \n %s" %np.abs(capa_2_error))

print("Predicciones después de entrenamiento")
print(capa_2)

Error 
 [[0.47372957]
 [0.45529163]
 [0.45615914]
 [0.48895696]]
Error 
 [[9.03104406e-07]
 [1.13411539e-01]
 [6.34943668e-05]
 [1.54256257e-02]]
Error 
 [[7.75877198e-08]
 [7.91574829e-02]
 [9.75413692e-06]
 [7.45550467e-03]]
Error 
 [[1.89540807e-08]
 [6.41551478e-02]
 [3.33748284e-06]
 [4.88555260e-03]]
Error 
 [[7.04405642e-09]
 [5.52941759e-02]
 [1.57460755e-06]
 [3.62515253e-03]]
Error 
 [[3.28547314e-09]
 [4.92881991e-02]
 [8.83722822e-07]
 [2.87860928e-03]]
Error 
 [[1.76709087e-09]
 [4.48778193e-02]
 [5.52922810e-07]
 [2.38556517e-03]]
Error 
 [[1.04800408e-09]
 [4.14642220e-02]
 [3.72679753e-07]
 [2.03592427e-03]]
Error 
 [[6.67394168e-10]
 [3.87218823e-02]
 [2.65166517e-07]
 [1.77520238e-03]]
Error 
 [[4.48664197e-10]
 [3.64567697e-02]
 [1.96592671e-07]
 [1.57337881e-03]]
Predicciones después de entrenamiento
[[3.14846268e-10]
 [9.65453079e-01]
 [9.99999849e-01]
 [1.41270748e-03]]


# Conclusiones
El output real es **[[0],[1],[1],[0]]** Nuestra red demuestra acercarce bastante a estos valores:
+ 3.14846268e-10 = 0.0000000003...~ 0
+ 9.65453079e-01 = 0.965 ~ 1
+ 9.99999849e-01 = 0.999 ~ 1
+ 1.41270748e-03 = 0.001... ~ 1

Recursos de matemáticas:

+Derivada[Explicación español](https://www.youtube.com/watch?v=ia8L26ub_pc) - [3Blue1Brown - Lista de reproducción](https://www.youtube.com/watch?v=ia8L26ub_pc)

+Vector

+Gradiente / gradiente descendente [khan-academy 1](https://es.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/gradient-and-directional-derivatives/v/gradient) [khan-academy 1](https://es.khanacademy.org/math/multivariable-calculus/multivariable-derivatives/gradient-and-directional-derivatives/v/gradient-and-graphs)