# CONSTRUIR UNA RED NEURONAL PASO A PASO

- EN ESTE NOTEBOOK IMPLEMENTREMOS TODAS LAS FUNCIONES REQUERIDAS PARA CONSTRUIR UNA RED NEURONAL PROFUNDA.
- EN EL SIGUIENTE EJERCICIO SE USARÁN ESTAS FUNCIONES PARA CONSTRUIR UNA RED NEURONAL PARA LA CLASIFICACIÓN DE IMÁGENES.

**APRENDERÁS A**:
- Usarás unidades no lineales como la función Relu para mejorar el modelo.
- Construir una red neuronal profunda con más de una capa oculta.
- Implementar una clase en python que permita construir una red neuronal facilmente.

**Notation**:
- El superíndice $[l]$ denota una cantidad asociada con la capa $l^{th}$. 
    - Ejemplo: $a^{[L]}$ es la capa de activación $L^{th}$. $W^{[L]}$ y $b^{[L]}$ sn los parámetros de la capa $L^{th}$.
- El superíndice $(i)$ denota una canrtidad asociada al ejemplo $i^{th}$. 
    - Ejemplo: $x^{(i)}$ es el ejemplo $i^{th}$.
- El subíndice $i$ denota la entrada $i^{th}$ de un vector.
    - Ejemplo: $a^{[l]}_i$ denota la entrada $i^{th}$ de las activaciones de la capa $l^{th}$.

## 1 - Paquetes

- [numpy](www.numpy.org).
- testCases casos para corroborar l funcionamiento de las funciones

In [3]:
import numpy as np
from testCases_v4a import *

%load_ext autoreload
%autoreload 2

np.random.seed(1)

## 2 - Ruta de implementación

Para construir tu red neuronal, implementarás varias "funciones de ayuda". Estas funciones serán usadas posteriormente para construir una red neuronal de dos o varias capas. La siguiente es una lista de las funciones a implementar:

- Inicializar los parámetros de una red neuronal de 2 a más capas.
- Implementar el módulo de "forward propagation".
     - Completa la parte LINEAL de cada capa (dando como resultado $Z^{[l]}$).
     - Implementar las funciones de activación(relu/sigmoid).
     - Combinar los dos pasos anteriores en una nueva función [LINEAR->ACTIVATION].
     - Apilar la función [LINEAR->RELU]  L-1 veces (para las capas 1 hasta L-1) y agregar una función [LINEAR->SIGMOID] al final (for the final layer $L$). esto nos dará el modelo para el "forward propagation".
- Calcular la pérdida o costo.
- Implementar el módulo de "backward propagation".
    - Completar la parte lineal de un paso del "backward propagation".
    - Implementar el gradiente de las funciones de activación (relu_backward/sigmoid_backward) 
    - Combinar los pasos anteriores en una función del gradiente [LINEAR->ACTIVATION] backward.
    - Apilar [LINEAR->RELU] backward L-1 veces y agregar [LINEAR->SIGMOID] backward para generar el modelo de "backward propagation"
- Finalmente actualizar los parámetros.

<img src="images/final outline.png" style="width:800px;height:500px;">
<caption><center> **Figure 1**</center></caption><br>


**Nota** para cada función "forward" existe una función correspondiente "backward". Por esta razón en cada paso del módulo "forward" es necesario guardar los valores en una "caché". Los valores guardados en la caché serán de utilidad para calcular los gradientes. En el módulo de "backpropagation" se usarán dichos valores para calcular los gradientes.

## 3 - Initialización

Escribiremos dos funciones de ayuda que inicializarán klos parámetros del modelo. La primera función será usada para inicializar los parámetros de un modelo de dos capas. La segunda función generalizará esta inicialización para $L$ capas.

### 3.1 - Red neuronal de 2 capas

**Ejercicio**: Crea e inicializa los parámetros para un modelos de dos capas.

**Instrucciones**:
- La estructura del modelo es: *LINEAR -> RELU -> LINEAR -> SIGMOID*. 
- Usar inicialización aleatoria para las matrices de pesos. Usar `np.random.randn(shape)*0.01` con la forma adecuada.
- Usar incialización en ceros para los vectores "b" (bias). Usar `np.zeros(shape)`.

In [4]:

def initialize_parameters(n_x, n_h, n_y):
    """
    Argumentos:
    n_x -- tamaño de la capa de entrada
    n_h -- tamaño de la capa oculta
    n_y -- tamaño de la capa de salida (predicción)
    
    Regresa:
    parameters -- Diccionario de python que contenga los parámetros:
                    W1 -- matriz de pesos de la forma (n_h, n_x)
                    b1 -- vector "bias" de la forma (n_h, 1)
                    W2 -- matriz de pesos de la forma (n_y, n_h)
                    b2 -- vector "bias" de la forma (n_y, 1)
    """
    
    np.random.seed(1)
    
    ### INICIO ###
    W1 = np.random.randn(n_h,n_x)*(0.01)
    b1 = np.zeros((n_h,1))

    W2 = np.random.randn(n_y,n_h) * (0.01)
    b2 = np.zeros((n_y,1))
  
    ### FINAL ###
    
    assert(W1.shape == (n_h, n_x))
    assert(b1.shape == (n_h, 1))
    assert(W2.shape == (n_y, n_h))
    assert(b2.shape == (n_y, 1))
    
    parameters = {"W1": W1,
                  "b1": b1,
                  "W2": W2,
                  "b2": b2}
    
    return parameters    

In [5]:
parameters = initialize_parameters(3,2,1)
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]]
b1 = [[0.]
 [0.]]
W2 = [[ 0.01744812 -0.00761207]]
b2 = [[0.]]


**Salida Esperada**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td> [[ 0.01624345 -0.00611756 -0.00528172]
 [-0.01072969  0.00865408 -0.02301539]] </td> 
  </tr>

  <tr>
    <td> **b1**</td>
    <td>[[ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2**</td>
    <td> [[ 0.01744812 -0.00761207]]</td>
  </tr>
  
  <tr>
    <td> **b2** </td>
    <td> [[ 0.]] </td> 
  </tr>
  
</table>

**Ejercicio**: Implementar la inicialización para una red neuronal de $ L $ capas. 

**Instrucciones**:
- La estructura del modelo es *[LINEAR -> RELU] $ \times$ (L-1) -> LINEAR -> SIGMOID*. es decir $L-1$ capas usando la función de activaxción ReLu, seguida por una capa de salida usando la función sigmoid.
- Usar inicialización aleatoria para las matrices de pesos. Usar `np.random.randn(shape)*0.01` con la forma adecuada.
- Usar incialización en ceros para los vectores "b" (bias). Usar `np.zeros(shape)`.
- Introduciremos $n^{[l]}$, el número de unidades en diferentes capas, en la variable tipo lista`layer_dims`.

In [6]:

def initialize_parameters_deep(layer_dims):
    """
    Argumentos:
    layer_dims -- Lista con las dimensiones de cada capa de la red neuronal
    
    Regresa:
    parameters -- Diccionario de python con los parámetros "W1", "b1", ..., "WL", "bL":
                    Wl -- matriz de pesos de la forma (layer_dims[l], layer_dims[l-1])
                    bl -- vector "bias" de la forma (layer_dims[l], 1)
    """
    
    np.random.seed(3)
    parameters = {}
    L = len(layer_dims)            # number of layers in the network
    
    for l in range(1, L):
        ### INICIO ###
        parameters['W'+ str(l)] = np.random.randn(layer_dims[l],layer_dims[l-1])* 0.01
        parameters['b' + str(l)] = np.zeros((layer_dims[l], 1))
       
        ### FIN ###

        assert(parameters['W' + str(l)].shape == (layer_dims[l], layer_dims[l-1]))
        assert(parameters['b' + str(l)].shape == (layer_dims[l], 1))

    return parameters

In [7]:
parameters = initialize_parameters_deep([5,4,3])
print("W1 = " + str(parameters["W1"]))
print("b1 = " + str(parameters["b1"]))
print("W2 = " + str(parameters["W2"]))
print("b2 = " + str(parameters["b2"]))

W1 = [[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]
b1 = [[0.]
 [0.]
 [0.]
 [0.]]
W2 = [[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]
b2 = [[0.]
 [0.]
 [0.]]


**Expected output**:
       
<table style="width:80%">
  <tr>
    <td> **W1** </td>
    <td>[[ 0.01788628  0.0043651   0.00096497 -0.01863493 -0.00277388]
 [-0.00354759 -0.00082741 -0.00627001 -0.00043818 -0.00477218]
 [-0.01313865  0.00884622  0.00881318  0.01709573  0.00050034]
 [-0.00404677 -0.0054536  -0.01546477  0.00982367 -0.01101068]]</td> 
  </tr>
  
  <tr>
    <td>**b1** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
  <tr>
    <td>**W2** </td>
    <td>[[-0.01185047 -0.0020565   0.01486148  0.00236716]
 [-0.01023785 -0.00712993  0.00625245 -0.00160513]
 [-0.00768836 -0.00230031  0.00745056  0.01976111]]</td> 
  </tr>
  
  <tr>
    <td>**b2** </td>
    <td>[[ 0.]
 [ 0.]
 [ 0.]]</td> 
  </tr>
  
</table>

## 4 - Módulo de propagación hacia adelante "forward"

### 4.1 - Linear Forward 
Implementar las siguientes funciones

- LINEAR
- LINEAR -> ACTIVATION donde ACTIVATION será ReLU o Sigmoid. 
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID (modelo completo)

El módulo de propagación hacia adelante (vectorizado sobre todos los ejemplos) calcula las siguientes ecuaciones:

$$Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}\tag{4}$$

donde $A^{[0]} = X$. 

**Ejercicio**: Construir la parte lineal de la propagación hacia adelante.

**Recordatorio**:
La representación matemática de esta unidad es $Z^{[l]} = W^{[l]}A^{[l-1]} +b^{[l]}$. Puedes usar `np.dot()`.

In [8]:

def linear_forward(A, W, b):
    """
    Implementar la parte lineal de la propagación hacia adelante.

    Argumentos:
    A -- activaciones de la capa anterior
    W -- matriz de pesos
    b -- vector "bias"

    Regresa:
    Z -- la entrada de la función de activación, también llamado parámetro de "preactivación".
    cache -- una variable tipo "tuple"  con "A", "W" and "b" ; guardada para calcular de manera más eficiente los gradientes en la propagación hacia atrás.
    """
    
    ### INICIO ###
    Z = W @ A + b
    Z = np.matmul(W, A)
    Z = np.dot(W, A) + b
    
    ### FIN ###
    
    assert(Z.shape == (W.shape[0], A.shape[1]))
    cache = (A, W, b)
    
    return Z, cache

In [9]:
A, W, b = linear_forward_test_case()

Z, linear_cache = linear_forward(A, W, b)
print("Z = " + str(Z))

Z = [[ 3.26295337 -1.23429987]]


**Expected output**:

<table style="width:35%">
  
  <tr>
    <td> **Z** </td>
    <td> [[ 3.26295337 -1.23429987]] </td> 
  </tr>
  
</table>

### 4.2 - Linear-Activation Forward

Usaremos dos posibles funciones de activación:

- **Sigmoid**: $\sigma(Z) = \sigma(W A + b) = \frac{1}{ 1 + e^{-(W A + b)}}$

- **ReLU**: la fórmula matemática de la función ReLu es $A = RELU(Z) = max(0, Z)$. 

In [10]:
def sigmoid(Z):
    
    A = 1/(1+np.exp(-Z))
    cache = Z
    
    return A, cache

In [11]:
def relu(Z):

    A = np.maximum(0,Z)
    
    assert(A.shape == Z.shape)
    
    cache = Z 
    return A, cache


Para mayor conveniencia agruparemos las dos funciones (Linear y Activation) en una función (LINEAR->ACTIVATION).

**Ejercicio**: Implementar la función de propagación *LINEAR->ACTIVATION*. Esto es: $A^{[l]} = g(Z^{[l]}) = g(W^{[l]}A^{[l-1]} +b^{[l]})$ en donde la función de activación puede ser sigmoid() or relu().

In [12]:


def linear_activation_forward(A_prev, W, b, activation):
    """
    Implementar la función de propagación *LINEAR->ACTIVATION*.

    Arguments:
    A_prev -- Activaciones de la capa anterior
    W -- Matriz de pesos de la capa actual
    b -- Vector de "bias" de la capa actual
    activation -- La activación que se usará en esta capa: "sigmoid" or "relu"

    Returns:
    A -- La salida de la función de activación
    cache -- una tupla de python que contenga "linear_cache" y "activation_cache";
             almacenados para calcular la propagación hacia atrás de manera más eficiente
    """
    Z, linear_cache = linear_forward(A_prev, W, b)
    if activation == "sigmoid":
        # Entradas: "A_prev, W, b". Salidas: "A, activation_cache".
        ### Inicio ###
        A, activation_cache = sigmoid(Z)
        
        ### FIN ###
    
    elif activation == "relu":
        # Entradas: "A_prev, W, b". Salidas: "A, activation_cache".
        ### INICIO ###
        A, activation_cache = relu(Z)
        
        ### FIN ###
    
    assert (A.shape == (W.shape[0], A_prev.shape[1]))
    cache = (linear_cache, activation_cache)

    return A, cache

In [13]:
A_prev, W, b = linear_activation_forward_test_case()

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "sigmoid")
print("Con sigmoid: A = " + str(A))

A, linear_activation_cache = linear_activation_forward(A_prev, W, b, activation = "relu")
print("Con ReLU: A = " + str(A))

Con sigmoid: A = [[0.96890023 0.11013289]]
Con ReLU: A = [[3.43896131 0.        ]]


**Salida Esperada**:
       
<table style="width:35%">
  <tr>
    <td> **With sigmoid: A ** </td>
    <td > [[ 0.96890023  0.11013289]]</td> 
  </tr>
  <tr>
    <td> **With ReLU: A ** </td>
    <td > [[ 3.43896131  0.        ]]</td> 
  </tr>
</table>


### d) L-Layer Model 

Para hacer aún más práctica la implementación de la rede neuronal de $L$-capas, se necesitará una función que replique la anterior (`linear_activation_forward` with RELU) $L-1$ veces, y luego aplique la función `linear_activation_forward` con la función SIGMOID para la salida (predicciones).

<img src="images/model_architecture_kiank.png" style="width:600px;height:300px;">
<caption><center> **Figure 2** : *[LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID* model</center></caption><br>

**Ejercicio**: Implementar la propagación hacia adelante del modelo.

**Instrucciones**: En el códigom la variable `AL` denotará $A^{[L]} = \sigma(Z^{[L]}) = \sigma(W^{[L]} A^{[L-1]} + b^{[L]})$.

**Tips**:
- Usa las funciones escritas anteriormente 
- Usa un bucle for con la función [LINEAR->RELU] (L-1) veces.
- No olvides mantener registro de las caches en la lista. Para agregar un nuevo valor `c` a una lista puedes utilizar `list.append(c)`.

In [14]:

def L_model_forward(X, parameters):
    """
    Implementar la propagación hacia adelante [LINEAR->RELU]*(L-1)->LINEAR->SIGMOID
    
    Argumentos:
    X -- datos, arreglo de la forma (tamalo de la entrada, número de ejemplos)
    parameters -- salida de la función initialize_parameters_deep()
    
    Regresa:
    AL -- Último valor de activación (capa L)
    caches -- Lista de caches con:
                todas las caches de la función linear_activation_forward() (hay L-1, indexadas de 0 a L-1)
    """

    caches = []
    A = X
    L = len(parameters) // 2                  # número de capas en la red neuronal
    
    # Implementar [LINEAR -> RELU]*(L-1). Agregar "cache" a la lista de "caches".
    for l in range(1, L):
        A_prev = A 
        ### INICIO ###
        W = parameters ['W'+str(l)]
        b = parameters ['b' + str(l)]
        A, cache = linear_activation_forward(A_prev, W, b, "relu")
        caches.append(cache)
        ### FIN ###
    
    # Implementar LINEAR -> SIGMOID. Agregar "cache" a la lista de "caches".
    ### INICIO ### (≈ 2 lines of code)
    AL, cache = linear_activation_forward(A, parameters ['W'+str(L)],parameters ['b' + str(L)],"sigmoid")
    caches.append(cache)
    
    ### FIN ###
    
    assert(AL.shape == (1,X.shape[1]))
            
    return AL, caches

In [15]:
X, parameters = L_model_forward_test_case_2hidden()
AL, caches = L_model_forward(X, parameters)
print("AL = " + str(AL))
print("Tamaño de la lista de caches = " + str(len(caches)))

AL = [[0.03921668 0.70498921 0.19734387 0.04728177]]
Tamaño de la lista de caches = 3


<table style="width:50%">
  <tr>
    <td> **AL** </td>
    <td > [[ 0.03921668  0.70498921  0.19734387  0.04728177]]</td> 
  </tr>
  <tr>
    <td> **Length of caches list ** </td>
    <td > 3 </td> 
  </tr>
</table>

## 5 - Función Costo

Ya que implementamos la propagación hacia adelante, necesitamos calcular el costo para conocer si el modelo está realmente "aprendiendo"

**Ejercicio**: Calcular el costo $J$, usando la siguiente fórmula: $$-\frac{1}{m} \sum\limits_{i = 1}^{m} (y^{(i)}\log\left(a^{[L] (i)}\right) + (1-y^{(i)})\log\left(1- a^{[L](i)}\right)) \tag{7}$$


In [16]:

def compute_cost(AL, Y):
    """
    Implementar la función de costo de la fórmula anterior.

    Argumentos:
    AL -- Matriz de probabilidades correspondiente a las predicciones de la forma (1, número de ejemplos)
    Y -- Matriz de etiquetas verdaderas de la forma (1, número de ejemplos)

    Regresa:
    cost -- el cálculo de la función costo
    """
    
    m = Y.shape[1]

    # Calcular la pérdida con aL and y.
    ### INICIO ###
    cost = (-1/m) * (np.dot(Y, np.log(AL).T) + np.dot((1 - Y), np.log(1 - AL).T))
    
    ### FIN ###
    
    cost = np.squeeze(cost)      # Se asegura que la forma del costo es lo que esperamos (ejemplo, convierte [[17]] en 17).
    assert(cost.shape == ())
    
    return cost

In [17]:
Y, AL = compute_cost_test_case()

print("cost = " + str(compute_cost(AL, Y)))

cost = 0.2797765635793422


**Expected Output**:
<table>
    <tr>
    <td>**cost** </td>
    <td> 0.2797765635793422</td> 
    </tr>
</table>

## 6 - Módulo de propagación hacia atrás

Así como implementamos el módulo de propagación hacia adelante, crearemos funciones de ayuda para la propagación hacia atrás que nos permitan calcular el gradiente de la función costo con respecto a los parámetros. 


Se puede usar la regla de la cadena para calcular la derivada de la pérdida $\mathcal{L}$ con respecto a $z^{[1]}$ en una red neuronal de 2 capas como sigue:

$$\frac{d \mathcal{L}(a^{[2]},y)}{{dz^{[1]}}} = \frac{d\mathcal{L}(a^{[2]},y)}{{da^{[2]}}}\frac{{da^{[2]}}}{{dz^{[2]}}}\frac{{dz^{[2]}}}{{da^{[1]}}}\frac{{da^{[1]}}}{{dz^{[1]}}} \tag{8} $$

Para calcular el gradiente $dW^{[1]} = \frac{\partial L}{\partial W^{[1]}}$, Se usará la regla de la cadena anteior y se calculará $dW^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial W^{[1]}}$. Durante la propagación hacia atrás, se multiplica el gradiente actual por el gradiente correspondiente a la capa específica que se desea.

De manera equivalente, para calcular el gradiente $db^{[1]} = \frac{\partial L}{\partial b^{[1]}}$, se usará la regla de la cadena anterior y se calcula $db^{[1]} = dz^{[1]} \times \frac{\partial z^{[1]} }{\partial b^{[1]}}$.

Ahora de manera similar a la propagación hacia adelante, se construirá la propagación hacia atrás en tres pasos:
- LINEAR backward
- LINEAR -> ACTIVATION backward donde ACTIVATION calcula la derivada de las funciones de activación ReLU o sigmoid según corresponda.
- [LINEAR -> RELU] $\times$ (L-1) -> LINEAR -> SIGMOID backward (modelo completo)

### 6.1 - Linear backward

Para la capa $l$, la parte lineal es: $Z^{[l]} = W^{[l]} A^{[l-1]} + b^{[l]}$ (seguida de una activación).

Supongamos que ya se ha calculado $dZ^{[l]} = \frac{\partial \mathcal{L} }{\partial Z^{[l]}}$. Se desea obtener $(dW^{[l]}, db^{[l]}, dA^{[l-1]})$.

<img src="images/linearback_kiank.png" style="width:250px;height:300px;">
<caption><center> **Figure 4** </center></caption>

Las tres salidas $(dW^{[l]}, db^{[l]}, dA^{[l-1]})$ se calculan usando la entrada $dZ^{[l]}$.Las fórmulas necesarias son:
$$ dW^{[l]} = \frac{\partial \mathcal{J} }{\partial W^{[l]}} = \frac{1}{m} dZ^{[l]} A^{[l-1] T} \tag{8}$$
$$ db^{[l]} = \frac{\partial \mathcal{J} }{\partial b^{[l]}} = \frac{1}{m} \sum_{i = 1}^{m} dZ^{[l](i)}\tag{9}$$
$$ dA^{[l-1]} = \frac{\partial \mathcal{L} }{\partial A^{[l-1]}} = W^{[l] T} dZ^{[l]} \tag{10}$$


**Exercise**: Usa las 3 fórmulas anteriores para implementar linear_backward().

In [18]:


def linear_backward(dZ, cache):
    # cache es "linear_cache" que contiene (A_prev, W, b) proveniente de la propagación hacia adelante en la capa actual.
    """
    Implementar la parte lineal de la propagación hacia atrás para una sola capa (capa l)

    Argumentos:
    dZ -- Gradiente del costo con respecto a la salida lineal (de la capa actual l)
    cache -- tupla de valores (A_prev, W, b) provenientes de la propagación hacia adelante en la capa actual.

    Regresa:
    dA_prev -- Gradiente del costo con respecto a la activación (de la capa anterior l-1) de la misma forma que A_prev
    dW -- Gradiente del costo con respecto a W (de la capa actual l), De la misma forma que W
    db -- Gradiente del costo con respecto a b (de la capa actual l), De la misma forma que b
    """
    A_prev, W, b = cache
    m = A_prev.shape[1]

    ### INICIO ### (≈ 3 lines of code)
    dW = (1/m) * dZ @ A_prev.T
    db = (1/m) * np.sum(dZ, axis = 1, keepdims = True)
    dA_prev = W . T @ dZ
    ### FIN ###
    
    assert (dA_prev.shape == A_prev.shape)
    assert (dW.shape == W.shape)
    assert (db.shape == b.shape)
    
    return dA_prev, dW, db

In [23]:
dZ, linear_cache = linear_backward_test_case()

dA_prev, dW, db = linear_backward(dZ, linear_cache)
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

dA_prev = [[-1.15171336  0.06718465 -0.3204696   2.09812712]
 [ 0.60345879 -3.72508701  5.81700741 -3.84326836]
 [-0.4319552  -1.30987417  1.72354705  0.05070578]
 [-0.38981415  0.60811244 -1.25938424  1.47191593]
 [-2.52214926  2.67882552 -0.67947465  1.48119548]]
dW = [[ 0.07313866 -0.0976715  -0.87585828  0.73763362  0.00785716]
 [ 0.85508818  0.37530413 -0.59912655  0.71278189 -0.58931808]
 [ 0.97913304 -0.24376494 -0.08839671  0.55151192 -0.10290907]]
db = [[-0.14713786]
 [-0.11313155]
 [-0.13209101]]


** Salida esperada **:
    
```
dA_prev = 
 [[-1.15171336  0.06718465 -0.3204696   2.09812712]
 [ 0.60345879 -3.72508701  5.81700741 -3.84326836]
 [-0.4319552  -1.30987417  1.72354705  0.05070578]
 [-0.38981415  0.60811244 -1.25938424  1.47191593]
 [-2.52214926  2.67882552 -0.67947465  1.48119548]]
dW = 
 [[ 0.07313866 -0.0976715  -0.87585828  0.73763362  0.00785716]
 [ 0.85508818  0.37530413 -0.59912655  0.71278189 -0.58931808]
 [ 0.97913304 -0.24376494 -0.08839671  0.55151192 -0.10290907]]
db = 
 [[-0.14713786]
 [-0.11313155]
 [-0.13209101]]
```

### 6.2 - Linear-Activation backward

A continuación crearemos una función que combine las dos funciones: **`linear_backward`** y el paso de propagación hacia atrás para la activación , a esta función le llamaremos **`linear_activation_backward`**. 

Para ayudar con la impementación de esta función se proveen dos funciones:
- **`sigmoid_backward`**: Implementa la propagación hacia atrás de la función sigmoid.
- **`relu_backward`**: Implementa la propagación hacia atrás de la función ReLu.

If $g(.)$ es la función de activación, 
`sigmoid_backward` y `relu_backward` calculan $$dZ^{[l]} = dA^{[l]} * g'(Z^{[l]}) \tag{11}$$.  

**Ejercicio**: Implementar la propagación hacia atrás para la función *LINEAR->ACTIVATION* de la capa actual.

In [20]:
def sigmoid_backward(dA, cache):

    Z = cache
    
    s = 1/(1+np.exp(-Z))
    dZ = dA * s * (1-s)
    
    assert (dZ.shape == Z.shape)
    
    return dZ

In [21]:
def relu_backward(dA, cache):

    Z = cache
    dZ = np.array(dA, copy=True) # se copia dA ya que la derivada de ReLu es 1 para valores mayores que 0.
    
    # Se ajusta el valor para los valores de Relu menores que 0. 
    dZ[Z <= 0] = 0
    
    assert (dZ.shape == Z.shape)
    
    return dZ

In [26]:
def linear_activation_backward(dA, cache, activation):
    """
    Implementar la propagación hacia atrás para la función *LINEAR->ACTIVATION* de la capa actual.
    
    Argumentos:
    dA -- gradiente de la función de activación para la capa actual
    cache -- tupla de valores (linear_cache, activation_cache) almacenados para realizar de manera eficiente el cálculo de l propagación hacia atrás.
    activation -- La activación a usar en esta capa en forma de cadena de texto: "sigmoid" or "relu"
    
    Regresa:
    dA_prev -- Gradiente del costo con respecto a la activación (de la capa anterior l-1), de la misma forma que A_prev
    dW -- Gradiente del costo con respecto a W (capa actual l), de la misma forma que W
    db -- Gradiente del costo con respecto a b (capa actual l), de la misma forma que b
    """
    linear_cache, activation_cache = cache
    
    if activation == "relu":
        ### INICIO ###
        dZ = relu_backward(dA, activation_cache) 
        
        ### FIN ###
        
    elif activation == "sigmoid":
        ### INICIO ###
        dZ = sigmoid_backward(dA, activation_cache)
        ### FIN ###
    
    ### INICIO ###
    dA_prev, dW, db = linear_backward(dZ, linear_cache)
    ### FIN ###
    
    return dA_prev, dW, db

In [27]:
dAL, linear_activation_cache = linear_activation_backward_test_case()

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "sigmoid")
print ("sigmoid:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db) + "\n")

dA_prev, dW, db = linear_activation_backward(dAL, linear_activation_cache, activation = "relu")
print ("relu:")
print ("dA_prev = "+ str(dA_prev))
print ("dW = " + str(dW))
print ("db = " + str(db))

sigmoid:
dA_prev = [[ 0.11017994  0.01105339]
 [ 0.09466817  0.00949723]
 [-0.05743092 -0.00576154]]
dW = [[ 0.10266786  0.09778551 -0.01968084]]
db = [[-0.05729622]]

relu:
dA_prev = [[ 0.44090989  0.        ]
 [ 0.37883606  0.        ]
 [-0.2298228   0.        ]]
dW = [[ 0.44513824  0.37371418 -0.10478989]]
db = [[-0.20837892]]


**Salida esperada con sigmoid:**

<table style="width:100%">
  <tr>
    <td>
        dA_prev
     </td> 
     <td>
         [[ 0.11017994  0.01105339]
         [ 0.09466817  0.00949723]
         [-0.05743092 -0.00576154]]
      </td> 
  </tr> 
    <tr>
        <td>
            dW
        </td> 
        <td>
            [[ 0.10266786  0.09778551 -0.01968084]]
        </td> 
  </tr> 
    <tr>
        <td>
        db
       </td> 
       <td >
           [[-0.05729622]]
        </td> 
  </tr> 
</table>

**Salida Esperada con RELU:**

<table style="width:100%">
  <tr>
    <td > dA_prev </td> 
           <td > [[ 0.44090989  0.        ]
 [ 0.37883606  0.        ]
 [-0.2298228   0.        ]] </td> 

  </tr> 
  
    <tr>
    <td > dW </td> 
           <td > [[ 0.44513824  0.37371418 -0.10478989]] </td> 
  </tr> 
  
    <tr>
    <td > db </td> 
           <td > [[-0.20837892]] </td> 
  </tr> 
</table>



### 6.3 - Modelo de propagación hacia atrás.

Ahora implementaresmos el modelo de la propagación haci atrás de la red neuronal completa. Recuerda que cuando se implementó la función `L_model_forward`, en cada iteración se guardó una caché que contiene (X,W,b, and z). En el módulo de propagación hacia atrás se usarán esos valores para calcular los gradientes. Por lo tanto en la función `L_model_backward` se iterará hacia atrás através de todas las capas comenzando desde la capa $L$. En cada paso se usarán los valores guardados de la capa $l$.

<img src="images/mn_backward.png" style="width:450px;height:300px;">
<caption><center>  **Figure 5** : Backward pass  </center></caption>

** Inicializar la propagación hacia atrás ** :
Para hacer la propagación hacia atrás através de la red, sabemos que la salida es,
$A^{[L]} = \sigma(Z^{[L]})$. El código debe calcular `dAL` $= \frac{\partial \mathcal{L}}{\partial A^{[L]}}$.
Para hacerlo usa la fórmula siguiente:
```python
dAL = - (np.divide(Y, AL) - np.divide(1 - Y, 1 - AL)) # Derivada del costo con respecto a AL
```

Podemos usar este gradiente `dAL` para seguir haciendo la propagación hacia atrás. Como se observa en la figura 5, ahora se puede introducir `dAL` en la función LINEAR->SIGMOID backward que se implementó antes(la cual usa los valores en caché guardados por el modelo de propagación hacia adelante). Posteriormente se deberá usar un ciclo `for` pára iterar através de todas las capas que usanr la función LINEAR->RELU backward. Deberás guardar cada dA, dW y db en el diccionario de gradientes usando la fórmula siguiente: 

$$grads["dW" + str(l)] = dW^{[l]}\tag{15} $$


**Ejercicio**: Implementar la propagación haca atrás para el modelo *[LINEAR->RELU] $\times$ (L-1) -> LINEAR -> SIGMOID*.

In [28]:

def L_model_backward(AL, Y, caches):
    """
    Implementar la propagación haca atrás para el modelo [LINEAR->RELU] * (L-1) -> LINEAR -> SIGMOID.
    
    Argumentos:
    AL -- Matriz de probabilidades arrojada por el modelo (L_model_forward())
    Y -- Vector de etiquetas verdaderas (1 o 0)
    caches -- Lista de caches que contenga:
                todas las cachés de las funciones linear_activation_forward() con "relu" (caches[l], for l in range(L-1) i.e l = 0...L-2)
                la caché de la función linear_activation_forward() con "sigmoid" (it's caches[L-1])
    
    Regresa:
    grads -- Un diccionario con los gradientes
             grads["dA" + str(l)] = ... 
             grads["dW" + str(l)] = ...
             grads["db" + str(l)] = ... 
    """
    grads = {}
    L = len(caches) # número de capas
    m = AL.shape[1] #el número de columnas AL corresponde al nùmero de ejemplos de entrenamiento
    Y = Y.reshape(AL.shape) # Nos aseguramos de que la forma de la variable de etiquetas verdaderas sea igual a la de la salida de la red (AL)
    
    # Inicializar la propagación hacia atrás
    ### INICIO ###
    dAL = -(np.divide(Y, AL)- np.divide(1-Y, 1-AL))

    
    ### FIN ###
    
    # Gradientes para para la capa L (SIGMOID -> LINEAR). entradas: "dAL, current_cache". Outputs: "grads["dAL-1"], grads["dWL"], grads["dbL"]
    ### INICIO ###
    current_cache = caches[L-1]
    dAtemp, dWtemp, dbtemp = linear_activation_backward(dAL, current_cache, "sigmoid")
    grads ["dA" + str(L - 1)] = dAtemp
    grads["dW"+ str(L)] = dWtemp
    grads["db" + str(L)] = dbtemp
    ### FIN ### 
    
    # bucle de l=L-2 to l=0
    for l in reversed(range(L-1)):
        # Gradientes (RELU -> LINEAR).
        # Entradas: "grads["dA" + str(l + 1)], current_cache". Salidas: "grads["dA" + str(l)] , grads["dW" + str(l + 1)] , grads["db" + str(l + 1)] 
        ### INICIO ###
        current_cache = caches[l]
        dA_prev = grads["dA" + str(l + 1)]
        dAtemp, dWtemp, dbtemp = linear_activation_backward(dA_prev, current_cache, "relu")
        grads ["dA" + str(l)] = dAtemp
        grads["dW"+ str(l+1)] = dWtemp
        grads["db" + str(l+1)] = dbtemp
        
        ### FIN ###

    return grads

In [29]:
AL, Y_assess, caches = L_model_backward_test_case()
grads = L_model_backward(AL, Y_assess, caches)
print_grads(grads)

dW1 = [[0.41010002 0.07807203 0.13798444 0.10502167]
 [0.         0.         0.         0.        ]
 [0.05283652 0.01005865 0.01777766 0.0135308 ]]
db1 = [[-0.22007063]
 [ 0.        ]
 [-0.02835349]]
dA1 = [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]]


**Expected Output**

<table style="width:60%">
  
  <tr>
    <td > dW1 </td> 
           <td > [[ 0.41010002  0.07807203  0.13798444  0.10502167]
 [ 0.          0.          0.          0.        ]
 [ 0.05283652  0.01005865  0.01777766  0.0135308 ]] </td> 
  </tr> 
  
    <tr>
    <td > db1 </td> 
           <td > [[-0.22007063]
 [ 0.        ]
 [-0.02835349]] </td> 
  </tr> 
  
  <tr>
  <td > dA1 </td> 
           <td > [[ 0.12913162 -0.44014127]
 [-0.14175655  0.48317296]
 [ 0.01663708 -0.05670698]] </td> 

  </tr> 
</table>



### 6.4 - Actualizar parámetros

En esta sección actualizaremos los parámetros del modelo usando descenso por gradiente.

$$ W^{[l]} = W^{[l]} - \alpha \text{ } dW^{[l]} \tag{16}$$
$$ b^{[l]} = b^{[l]} - \alpha \text{ } db^{[l]} \tag{17}$$

donde $\alpha$ es la tasa de aprendizaje. Después de calcular los parámetros actualizados, guardarlos en un diccionario de parámetros. 

**Ejercicio**: Implementar `update_parameters()` para actualizar los parámetros usando descenso en gradiente.

**Instrucciones**:
Actualizar los parámetros usando descenso por gradiente en cada $W^{[l]}$ and $b^{[l]}$ para $l = 1, 2, ..., L$. 


In [32]:

def update_parameters(parameters, grads, learning_rate):
    """
    Actualizar los parámetros usando descenso por gradiente
    
    Argumentos:
    parameters -- diccionario con los parámetros.
    grads -- diccionario con los gradientes provenientes de la función L_model_backward
    
    Regresa:
    parameters -- Diccionario de python con los parámetros actualizados. 
                  parameters["W" + str(l)] = ... 
                  parameters["b" + str(l)] = ...
    """
    
    L = len(parameters) // 2 # número de capas en la red neuronal

    # Regla de actualización para cada parámetro. Usa un bucle for.
    ### INICIO ###
    for l in range(L):
        parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * grads["dW"+str(l+1)]
        parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * grads["db"+str(l+1)]
        
    ### FIN ###
    return parameters

In [33]:
parameters, grads = update_parameters_test_case()
parameters = update_parameters(parameters, grads, 0.1)

print ("W1 = "+ str(parameters["W1"]))
print ("b1 = "+ str(parameters["b1"]))
print ("W2 = "+ str(parameters["W2"]))
print ("b2 = "+ str(parameters["b2"]))

W1 = [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]]
b1 = [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]]
W2 = [[-0.55569196  0.0354055   1.32964895]]
b2 = [[-0.84610769]]


**Expected Output**:

<table style="width:100%"> 
    <tr>
    <td > W1 </td> 
           <td > [[-0.59562069 -0.09991781 -2.14584584  1.82662008]
 [-1.76569676 -0.80627147  0.51115557 -1.18258802]
 [-1.0535704  -0.86128581  0.68284052  2.20374577]] </td> 
  </tr> 
  
    <tr>
    <td > b1 </td> 
           <td > [[-0.04659241]
 [-1.28888275]
 [ 0.53405496]] </td> 
  </tr> 
  <tr>
    <td > W2 </td> 
           <td > [[-0.55569196  0.0354055   1.32964895]]</td> 
  </tr> 
  
    <tr>
    <td > b2 </td> 
           <td > [[-0.84610769]] </td> 
  </tr> 
</table>
