In [None]:
# PACKAGE

import numpy as np
import matplotlib.pyplot as plt


# PACKAGE
# First load the worksheet dependencies. / Primero cargue las dependencias de la hoja de trabajo
# Here is the activation function and its derivative. / Aquí está la función de activación y su derivada

sigma = lambda z : 1 / (1 + np.exp(-z))
d_sigma = lambda z : np.cosh(z/2)**(-2) / 4


# This function initialises the network with it's structure, it also resets any training already done.
# Esta función inicializa la red con su estructura, también reinicia cualquier entrenamiento ya realizado.

def reset_network (n1 = 6, n2 = 7, random=np.random) :
    global W1, W2, W3, b1, b2, b3
    W1 = random.randn(n1, 1) / 2
    W2 = random.randn(n2, n1) / 2
    W3 = random.randn(2, n2) / 2
    b1 = random.randn(n1, 1) / 2
    b2 = random.randn(n2, 1) / 2
    b3 = random.randn(2, 1) / 2

    
# This function feeds forward each activation to the next layer. It returns all weighted sums and activations.
# Esta función avanza cada activación a la siguiente capa. Devuelve todas las sumas ponderadas y activaciones.

def network_function(a0) :
    z1 = W1 @ a0 + b1
    a1 = sigma(z1)
    z2 = W2 @ a1 + b2
    a2 = sigma(z2)
    z3 = W3 @ a2 + b3
    a3 = sigma(z3)
    return a0, z1, a1, z2, a2, z3, a3

# This is the cost function of a neural network with respect to a training set.
# Ésta es la función de costo de una red neuronal con respecto a un conjunto de entrenamiento.

def cost(x, y) :
    return np.linalg.norm(network_function(x)[-1] - y)**2 / x.size



# GRADED FUNCTION 
# FUNCIÓN GRADADA

# Jacobian for the third layer weights. There is no need to edit this function.
# Jacobian para los pesos de la tercera capa. No es necesario editar esta función.

def J_W3 (x, y) :
    
    # First get all the activations and weighted sums at each layer of the network.
    # Primero obtenga todas las activaciones y sumas ponderadas en cada capa de la red.
    
    
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    
    # We'll use the variable J to store parts of our result as we go along, updating it in each line.
    # Usaremos la variable J para almacenar partes de nuestro resultado a medida que avanzamos, actualizándolo en cada línea.
    
    
    # Firstly, we calculate dC/da3, using the expressions above.
    # En primer lugar, calculamos dC / da3, usando las expresiones anteriores.
    
    J = 2 * (a3 - y)
    
    # Next multiply the result we've calculated by the derivative of sigma, evaluated at z3.
    # Luego multiplique el resultado que hemos calculado por la derivada de sigma, evaluada en z3.
    
    J = J * d_sigma(z3)
    
    
    # Then we take the dot product (along the axis that holds the training examples) with the final partial derivative,
    # i.e. dz3/dW3 = a2
    # and divide by the number of training examples, for the average over all training examples.
    
    
    # Luego tomamos el producto escalar (a lo largo del eje que contiene los ejemplos de entrenamiento) con la derivada
    # parcial final, es decir, dz3 / dW3 = a2
    # y divida por el número de ejemplos de entrenamiento, para obtener el promedio de todos los ejemplos de entrenamiento.
    
    
    
    J = J @ a2.T / x.size
    
    
    # Finally return the result out of the function.
    # Finalmente devuelve el resultado de la función.
    
    return J






# In this function, you will implement the jacobian for the bias.
# As you will see from the partial derivatives, only the last partial derivative is different.
# The first two partial derivatives are the same as previously.
# ===YOU SHOULD EDIT THIS FUNCTION===



# En esta función, implementará el jacobiano para el sesgo.
# Como verá en las derivadas parciales, solo la última derivada parcial es diferente.
# Las dos primeras derivadas parciales son las mismas que antes.
# === DEBE EDITAR ESTA FUNCIÓN ===



def J_b3 (x, y) :
    
    # As last time, we'll first set up the activations.
    # Como la última vez, primero configuraremos las activaciones.
    
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    
    
    # Next you should implement the first two partial derivatives of the Jacobian.
    # ===COPY TWO LINES FROM THE PREVIOUS FUNCTION TO SET UP THE FIRST TWO JACOBIAN TERMS===
    
    # A continuación, debe implementar las dos primeras derivadas parciales del jacobiano.
    # === COPIAR DOS LÍNEAS DE LA FUNCIÓN ANTERIOR PARA CONFIGURAR LOS DOS PRIMEROS TÉRMINOS JACOBIANOS ===
    
    
    J = 2 * (a3 - y)
    J = J * d_sigma(z3)
    
    
    # For the final line, we don't need to multiply by dz3/db3, because that is multiplying by 1.
    # We still need to sum over all training examples however.
    # There is no need to edit this line.
    
    # Para la línea final, no necesitamos multiplicar por dz3 / db3, porque eso es multiplicar por 1.
    # Sin embargo, todavía tenemos que resumir todos los ejemplos de entrenamiento.
    # No es necesario editar esta línea.
    
    
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J




# GRADED FUNCTION

# Compare this function to J_W3 to see how it changes.
# There is no need to edit this function.

# Compare esta función con J_W3 para ver cómo cambia.
# No es necesario editar esta función.



def J_W2 (x, y) :
    
    #The first two lines are identical to in J_W3.
    # Las dos primeras líneas son idénticas a las de J_W3.
    
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)    
    J = 2 * (a3 - y)
    

    # the next two lines implement da3/da2, first σ' and then W3. 
    # las siguientes dos líneas implementan da3 / da2, primero σ 'y luego W3.
    
    J = J * d_sigma(z3)
    J = (J.T @ W3).T
    
    
    # then the final lines are the same as in J_W3 but with the layer number bumped down.
    # entonces las líneas finales son las mismas que en J_W3 pero con el número de capa bajado.
    
    J = J * d_sigma(z2)
    J = J @ a1.T / x.size
    return J


# As previously, fill in all the incomplete lines.
# ===YOU SHOULD EDIT THIS FUNCTION===

# Como anteriormente, complete todas las líneas incompletas. (aquí ya están completas, el comentario es el enunciado)


def J_b2 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = J * d_sigma(z3)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J


# GRADED FUNCTION

# Fill in all incomplete lines.
# ===YOU SHOULD EDIT THIS FUNCTION===  (resuelto)

def J_W1 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = J * d_sigma(z3)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)   # ∂a2 / ∂z2
    J = (J.T @ W2).T      # ∂z2 / ∂a1
    J = J * d_sigma(z1)   # ∂a1 / ∂z1
    J = J @ a0.T / x.size
    return J

# Fill in all incomplete lines.
# ===YOU SHOULD EDIT THIS FUNCTION===  (resuelto)


def J_b1 (x, y) :
    a0, z1, a1, z2, a2, z3, a3 = network_function(x)
    J = 2 * (a3 - y)
    J = J * d_sigma(z3)
    J = (J.T @ W3).T
    J = J * d_sigma(z2)   # ∂a2 / ∂z2
    J = (J.T @ W2).T      # ∂z2 / ∂a1
    J = J * d_sigma(z1)   # ∂a1 / ∂z1
    J = np.sum(J, axis=1, keepdims=True) / x.size
    return J