# Building your Recurrent Neural Network - Step by Step

Welcome to Course 5's first assignment, where you'll be implementing key components of a Recurrent Neural Network, or RNN, in NumPy! 

By the end of this assignment, you'll be able to:

* Define notation for building sequence models
* Describe the architecture of a basic RNN
* Identify the main components of an LSTM
* Implement backpropagation through time for a basic RNN and an LSTM
* Give examples of several types of RNN 

Recurrent Neural Networks (RNN) are very effective for Natural Language Processing and other sequence tasks because they have "memory." They can read inputs $x^{\langle t \rangle}$ (such as words) one at a time, and remember some contextual information through the hidden layer activations that get passed from one time step to the next. This allows a unidirectional (one-way) RNN to take information from the past to process later inputs. A bidirectional (two-way) RNN can take context from both the past and the future, much like Marty McFly. 

**Notation**:
- Superscript $[l]$ denotes an object associated with the $l^{th}$ layer. 

- Superscript $(i)$ denotes an object associated with the $i^{th}$ example. 

- Superscript $\langle t \rangle$ denotes an object at the $t^{th}$ time 
step. 
    
- Subscript $i$ denotes the $i^{th}$ entry of a vector.

**Example**:  
- $a^{(2)[3]<4>}_5$ denotes the activation of the 2nd training example (2), 3rd layer [3], 4th time step <4>, and 5th entry in the vector.

<details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

Bienvenido a la primera tarea del Curso 5, en la que implementará los componentes clave de una Red Neuronal Recurrente, o RNN, en NumPy. 

Al final de esta tarea, serás capaz de:

* Definir la notación para construir modelos secuenciales
* Describir la arquitectura de una RNN básica
* Identificar los principales componentes de un LSTM
* Implementar la retropropagación en el tiempo para una RNN básica y una LSTM
* Dar ejemplos de varios tipos de RNN 

Las Redes Neuronales Recurrentes (RNN) son muy efectivas para el Procesamiento del Lenguaje Natural y otras tareas de secuencia porque tienen "memoria". Pueden leer entradas $x^{\langle t \rangle}$ (como palabras) de una en una, y recordar alguna información contextual a través de las activaciones de la capa oculta que se pasan de un paso de tiempo al siguiente. Esto permite a una RNN unidireccional (unidireccional) tomar información del pasado para procesar entradas posteriores. Una RNN bidireccional puede tomar el contexto del pasado y del futuro, como Marty McFly. 

**Nota**:
- El superíndice $[l]$ indica un objeto asociado a la capa $l^{th}$. 

- El superíndice $(i)$ indica un objeto asociado al ejemplo $i^{th}$. 

- El superíndice $\langle t \rangle$ denota un objeto en el paso de tiempo $t^{th}$. 
    
- El subíndice $i$ denota la entrada $i^{th}$ de un vector.

**Ejemplo**:  
- $a^{(2)[3]<4>}_5$ denota la activación del 2º ejemplo de entrenamiento (2), 3ª capa [3], 4º paso de tiempo <4>, y 5ª entrada en el vector.

</details>

#### Pre-requisites
* You should already be familiar with `numpy`
* To refresh your knowledge of numpy, you can review course 1 of the specialization "Neural Networks and Deep Learning":
    * Specifically, review the week 2's practice assignment ["Python Basics with Numpy (optional assignment)"](https://www.coursera.org/learn/neural-networks-deep-learning/programming/isoAV/python-basics-with-numpy)
    

    
#### Be careful when modifying the starter code!
* When working on graded functions, please remember to only modify the code that is between:

```Python
#### START CODE HERE
```
and:

```Python
#### END CODE HERE
```
* In particular, avoid modifying the first line of graded routines. These start with:
```Python
# GRADED FUNCTION: routine_name
```
The automatic grader (autograder) needs these to locate the function - so even a change in spacing will cause issues with the autograder, returning 'failed' if any of these are modified or missing. Now, let's get started!

    

## Important Note on Submission to the AutoGrader

Before submitting your assignment to the AutoGrader, please make sure you are not doing the following:

1. You have not added any _extra_ `print` statement(s) in the assignment.
2. You have not added any _extra_ code cell(s) in the assignment.
3. You have not changed any of the function parameters.
4. You are not using any global variables inside your graded exercises. Unless specifically instructed to do so, please refrain from it and use the local variables instead.
5. You are not changing the assignment code where it is not required, like creating _extra_ variables.

If you do any of the following, you will get something like, `Grader not found` (or similarly unexpected) error upon submitting your assignment. Before asking for help/debugging the errors in your assignment, check for these first. If this is the case, and you don't remember the changes you have made, you can get a fresh copy of the assignment by following these [instructions](https://www.coursera.org/learn/nlp-sequence-models/supplement/qHIve/h-ow-to-refresh-your-workspace).
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
 
#### Requisitos previos
* Deberías estar ya familiarizado con `numpy`.
* Para refrescar tus conocimientos de numpy, puedes revisar el curso 1 de la especialización "Redes neuronales y aprendizaje profundo":
    * En concreto, revisa la tarea práctica de la semana 2 ["Python Basics with Numpy (optional assignment)"](https://www.coursera.org/learn/neural-networks-deep-learning/programming/isoAV/python-basics-with-numpy)
    

    
#### ¡Tenga cuidado al modificar el código de inicio!
* Cuando trabajes con funciones calificadas, recuerda que sólo debes modificar el código que está entre:
```Python
#### CÓDIGO DE INICIO AQUÍ
```
y:
```Python
#### FINALIZAR CÓDIGO AQUÍ
```
* En particular, evita modificar la primera línea de las rutinas graduadas. Estas comienzan con:
```Python
# GRADED FUNCTION: nombre_de_la_rutina
```
El calificador automático (autograder) necesita esto para localizar la función - así que incluso un cambio en el espaciado causará problemas con el autograder, devolviendo 'fallido' si alguno de estos es modificado o falta. Ahora, ¡comencemos!

    

## Nota importante sobre el envío al AutoGrader

Antes de enviar su tarea al AutoGrader, por favor asegúrese de que no está haciendo lo siguiente:

1. 1. No ha añadido ninguna declaración _extra_ `print` en la tarea.
2. 2. No ha añadido ninguna celda de código _extra_ en la tarea.
3. No ha cambiado ningún parámetro de la función.
4. No ha utilizado ninguna variable global dentro de sus ejercicios calificados. A menos que se le indique específicamente que lo haga, por favor absténgase de hacerlo y utilice las variables locales en su lugar.
5. 5. No está cambiando el código de asignación donde no es necesario, como la creación de variables _extra_.

Si hace algo de lo siguiente, obtendrá un error como `Grader no encontrado` (o similarmente inesperado) al enviar su tarea. Antes de pedir ayuda/depurar los errores de su tarea, compruebe esto primero. Si este es el caso, y no recuerda los cambios que ha realizado, puede obtener una nueva copia de la tarea siguiendo estas [instrucciones](https://www.coursera.org/learn/nlp-sequence-models/supplement/qHIve/h-ow-to-refresh-your-workspace).

## Table of Content

- [Packages](#0)
- [1 - Forward Propagation for the Basic Recurrent Neural Network](#1)
    - [1.1 - RNN Cell](#1-1)
        - [Exercise 1 - rnn_cell_forward](#ex-1)
    - [1.2 - RNN Forward Pass](#1-2)
        - [Exercise 2 - rnn_forward](#ex-2)
- [2 - Long Short-Term Memory (LSTM) Network](#2)
    - [2.1 - LSTM Cell](#2-1)
        - [Exercise 3 - lstm_cell_forward](#ex-3)
    - [2.2 - Forward Pass for LSTM](#2-2)
        - [Exercise 4 - lstm_forward](#ex-4)
- [3 - Backpropagation in Recurrent Neural Networks (OPTIONAL / UNGRADED)](#3)
    - [3.1 - Basic RNN Backward Pass](#3-1)
        - [Exercise 5 - rnn_cell_backward](#ex-5)
        - [Exercise 6 - rnn_backward](#ex-6)
    - [3.2 - LSTM Backward Pass](#3-2)
        - [Exercise 7 - lstm_cell_backward](#ex-7)
    - [3.3 Backward Pass through the LSTM RNN](#3-3)
        - [Exercise 8 - lstm_backward](#ex-8)

<a name='0'></a>
## Packages

In [21]:
import numpy as np
from rnn_utils import *
from public_tests import *

<a name='1'></a>
## 1 - Forward Propagation for the Basic Recurrent Neural Network

Later this week, you'll get a chance to generate music using an RNN! The basic RNN that you'll implement has the following structure: 

In this example, $T_x = T_y$. 

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


## 1 - Propagación hacia adelante para la red neuronal recurrente básica

Esta semana tendrás la oportunidad de generar música utilizando una RNN. La RNN básica que implementarás tiene la siguiente estructura: 

En este ejemplo, $T_x = T_y$. 




<img src="images/RNN.png" style="width:500;height:300px;">
<caption><center><font color='purple'><b>Figure 1</b>: Basic RNN model </center></caption>

### Dimensions of input $x$

#### Input with $n_x$ number of units
* For a single time step of a single input example, $x^{(i) \langle t \rangle }$ is a one-dimensional input vector
* Using language as an example, a language with a 5000-word vocabulary could be one-hot encoded into a vector that has 5000 units.  So $x^{(i)\langle t \rangle}$ would have the shape (5000,)  
* The notation $n_x$ is used here to denote the number of units in a single time step of a single training example

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
### Dimensiones de la entrada $x$

#### Entrada con $n_x$ número de unidades
* Para un solo paso de tiempo de un solo ejemplo de entrada, $x^{(i) \langle t \rangle }$ es un vector de entrada unidimensional
* Usando el lenguaje como ejemplo, un lenguaje con un vocabulario de 5000 palabras podría ser codificado en un vector que tiene 5000 unidades.  Así que $x^{(i) \langle t \rangle}$ tendría la forma (5000,)  
* La notación $n_x$ se utiliza aquí para denotar el número de unidades en un solo paso de tiempo de un solo ejemplo de entrenamiento

#### Time steps of size $T_{x}$
* A recurrent neural network has multiple time steps, which you'll index with $t$.
* In the lessons, you saw a single training example $x^{(i)}$ consisting of multiple time steps $T_x$. In this notebook, $T_{x}$ will denote the number of timesteps in the longest sequence.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
#### Pasos de tiempo de tamaño $T_{x}$
* Una red neuronal recurrente tiene múltiples pasos de tiempo, que se indexarán con $t$.
* En las lecciones, ha visto un único ejemplo de entrenamiento $x^{(i)}$ que consta de múltiples pasos de tiempo $T_x$. En este cuaderno, $T_{x}$ denotará el número de pasos de tiempo en la secuencia más larga.

#### Batches of size $m$
* Let's say we have mini-batches, each with 20 training examples  
* To benefit from vectorization, you'll stack 20 columns of $x^{(i)}$ examples
* For example, this tensor has the shape (5000,20,10) 
* You'll use $m$ to denote the number of training examples  
* So, the shape of a mini-batch is $(n_x,m,T_x)$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
#### Lotes de tamaño $m$
* Digamos que tenemos mini-lotes, cada uno con 20 ejemplos de entrenamiento  
* Para beneficiarse de la vectorización, apilaremos 20 columnas de ejemplos $x^{(i)}$
* Por ejemplo, este tensor tiene la forma (5000,20,10) 
* Usará $m$ para denotar el número de ejemplos de entrenamiento  
* Así, la forma de un mini lote es $(n_x,m,T_x)$

#### 3D Tensor of shape $(n_{x},m,T_{x})$
* The 3-dimensional tensor $x$ of shape $(n_x,m,T_x)$ represents the input $x$ that is fed into the RNN

#### Taking a 2D slice for each time step: $x^{\langle t \rangle}$
* At each time step, you'll use a mini-batch of training examples (not just a single example)
* So, for each time step $t$, you'll use a 2D slice of shape $(n_x,m)$
* This 2D slice is referred to as $x^{\langle t \rangle}$.  The variable name in the code is `xt`.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
#### Tensor 3D de forma $(n_{x},m,T_{x})$
* El tensor tridimensional $x$ de forma $(n_x,m,T_x)$ representa la entrada $x$ que se introduce en la RNN

#### Tomando un corte 2D para cada paso de tiempo: $x^{\langle t \rangle}$
* En cada paso de tiempo, se utilizará un mini lote de ejemplos de entrenamiento (no un solo ejemplo)
* Por lo tanto, para cada paso de tiempo $t$, se utilizará una rebanada 2D de forma $(n_x,m)$
* Esta rebanada 2D se denomina $x^{\langle t \rangle}$.  El nombre de la variable en el código es `xt`.

### Definition of hidden state $a$

* The activation $a^{\langle t \rangle}$ that is passed to the RNN from one time step to another is called a "hidden state."

### Dimensions of hidden state $a$

* Similar to the input tensor $x$, the hidden state for a single training example is a vector of length $n_{a}$
* If you include a mini-batch of $m$ training examples, the shape of a mini-batch is $(n_{a},m)$
* When you include the time step dimension, the shape of the hidden state is $(n_{a}, m, T_x)$
* You'll loop through the time steps with index $t$, and work with a 2D slice of the 3D tensor  
* This 2D slice is referred to as $a^{\langle t \rangle}$
* In the code, the variable names used are either `a_prev` or `a_next`, depending on the function being implemented
* The shape of this 2D slice is $(n_{a}, m)$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
### Definición de estado oculto $a$

### La activación $a^{\langle t \rangle}$ que se pasa a la RNN de un paso de tiempo a otro se llama "estado oculto".

### Dimensiones del estado oculto $a$

* Al igual que el tensor de entrada $x$, el estado oculto para un solo ejemplo de entrenamiento es un vector de longitud $n_{a}$
* Si se incluye un minilote de $m$ ejemplos de entrenamiento, la forma de un minilote es $(n_{a},m)$
* Cuando se incluye la dimensión del paso de tiempo, la forma del estado oculto es $(n_{a}, m, T_x)$
* Se recorren los pasos de tiempo con el índice $t$, y se trabaja con una rebanada 2D del tensor 3D  
* Esta porción 2D se denomina $a^{\langle t \rangle}$.
* En el código, los nombres de las variables utilizadas son "a_prev" o "a_next", dependiendo de la función que se implementa
* La forma de este corte 2D es $(n_{a}, m)$.

### Dimensions of prediction $\hat{y}$
* Similar to the inputs and hidden states, $\hat{y}$ is a 3D tensor of shape $(n_{y}, m, T_{y})$
    * $n_{y}$: number of units in the vector representing the prediction
    * $m$: number of examples in a mini-batch
    * $T_{y}$: number of time steps in the prediction
* For a single time step $t$, a 2D slice $\hat{y}^{\langle t \rangle}$ has shape $(n_{y}, m)$
* In the code, the variable names are:
    - `y_pred`: $\hat{y}$ 
    - `yt_pred`: $\hat{y}^{\langle t \rangle}$
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
### Dimensiones de la predicción $\hat{y}$
* Al igual que las entradas y los estados ocultos, $\hat{y}$ es un tensor 3D de forma $(n_{y}, m, T_{y})$
    * $n_{y}$: número de unidades en el vector que representa la predicción
    * $m$: número de ejemplos en un minilote
    * $T_{y}$: número de pasos de tiempo en la predicción
* Para un único paso de tiempo $t$, a 2D slice $\hat{y}^{\langle t \rangle}$ tiene forma $(n_{y}, m)$
* En el código, los nombres de las variables son
    - `y_pred`: $\hat{y}$ 
    - `yt_pred`: $\hat{y}^{\langle t \rangle}$

Here's how you can implement an RNN: 

### Steps:
1. Implement the calculations needed for one time step of the RNN.
2. Implement a loop over $T_x$ time steps in order to process all the inputs, one at a time.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
Así es como puedes implementar una RNN: 

### Pasos:
1. Implementar los cálculos necesarios para un paso de tiempo de la RNN.
2. Implementar un bucle sobre $T_x$ pasos de tiempo con el fin de procesar todas las entradas, uno a la vez.

<a name='1-1'></a>
### 1.1 - RNN Cell

You can think of the recurrent neural network as the repeated use of a single cell. First, you'll implement the computations for a single time step. The following figure describes the operations for a single time step of an RNN cell: 

<img src="images/rnn_step_forward_figure2_v3a.png" style="width:700px;height:300px;">
<caption><center><font color='purple'><b>Figure 2</b>: Basic RNN cell. Takes as input $x^{\langle t \rangle}$ (current input) and $a^{\langle t - 1\rangle}$ (previous hidden state containing information from the past), and outputs $a^{\langle t \rangle}$ which is given to the next RNN cell and also used to predict $\hat{y}^{\langle t \rangle}$ 
</center></caption>

**`RNN cell` versus `RNN_cell_forward`**:
* Note that an RNN cell outputs the hidden state $a^{\langle t \rangle}$.  
    * `RNN cell` is shown in the figure as the inner box with solid lines  
* The function that you'll implement, `rnn_cell_forward`, also calculates the prediction $\hat{y}^{\langle t \rangle}$
    * `RNN_cell_forward` is shown in the figure as the outer box with dashed lines
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
Puedes pensar en la red neuronal recurrente como el uso repetido de una sola celda. Primero, implementará los cálculos para un solo paso de tiempo. La siguiente figura describe las operaciones para un solo paso de tiempo de una celda RNN: 
    
<img src="images/rnn_step_forward_figure2_v3a.png" style="width:700px;height:300px;">
<caption><center><font color='purple'><b>Figure 2</b>: Célula RNN básica. Toma como entrada $x^{\langle t \rangle}$ (current input) y $a^{\langle t - 1\rangle}$ (estado oculto anterior que contiene información del pasado),y salidas $a^{\langle t \rangle}$ que se da a la siguiente célula de la RNN y también se utiliza para predecir $\hat{y}^{\langle t \rangle}$ 
</center></caption>

**`Célula RNN` frente a `Celda RNN_forward`**:
* Nótese que una célula RNN da salida al estado oculto $a^{\langle t \rangle}$.  
    * La celda RNN se muestra en la figura como una caja interior con líneas sólidas.  
* La función que se implementará, `rnn_cell_forward`, también calcula la predicción $\hat{y}^{\langle t \rangle}$.
    * RNN_cell_forward` se muestra en la figura como el cuadro exterior con líneas discontinuas

<a name='ex-1'></a>
### Exercise 1 - rnn_cell_forward

Implement the RNN cell described in Figure 2.

**Instructions**:
1. Compute the hidden state with tanh activation: $a^{\langle t \rangle} = \tanh(W_{aa} a^{\langle t-1 \rangle} + W_{ax} x^{\langle t \rangle} + b_a)$
2. Using your new hidden state $a^{\langle t \rangle}$, compute the prediction $\hat{y}^{\langle t \rangle} = softmax(W_{ya} a^{\langle t \rangle} + b_y)$. (The function `softmax` is provided)
3. Store $(a^{\langle t \rangle}, a^{\langle t-1 \rangle}, x^{\langle t \rangle}, parameters)$ in a `cache`
4. Return $a^{\langle t \rangle}$ , $\hat{y}^{\langle t \rangle}$ and `cache`

#### Additional Hints
* A little more information on [numpy.tanh](https://numpy.org/devdocs/reference/generated/numpy.tanh.html)
* In this assignment, there's an existing `softmax` function for you to use.  It's located in the file 'rnn_utils.py' and has already been imported.
* For matrix multiplication, use [numpy.dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html)

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
Implementar la celda RNN descrita en la Figura 2.

**Instrucciones**:
1. Calcular el estado oculto con la activación tanh: $a^{\langle t \rangle} = \tanh(W_{aa} a^{\langle t-1 \rangle} + W_{ax} x^{\langle t \rangle} + b_a)$.
2. Utilizando su nuevo estado oculto $a^{\langle t \rangle}$, calcule la predicción $\hat{y}^{\langle t \rangle} = softmax(W_{ya} a^{\langle t \rangle} + b_y)$. (Se proporciona la función `softmax`)
3. Almacenar $(a^{\langle t \rangle}, a^{\langle t-1 \rangle}, x^{\langle t \rangle}, parameters)$ en una `cache`.
4. Devolver $a^{\langle t \rangle}$ , $\hat{y}^{\langle t \rangle}$ y `cache`.

#### Consejos adicionales
* Un poco más de información sobre [numpy.tanh](https://numpy.org/devdocs/reference/generated/numpy.tanh.html)
* En esta tarea, hay una función `softmax` existente para que la utilices.  Se encuentra en el archivo 'rnn_utils.py' y ya ha sido importada.
* Para la multiplicación de matrices, utiliza [numpy.dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html)



In [22]:
# UNQ_C1 (UNIQUE CELL IDENTIFIER, DO NOT EDIT)
# GRADED FUNCTION: rnn_cell_forward

def rnn_cell_forward(xt, a_prev, parameters):
    """
    Implements a single forward step of the RNN-cell as described in Figure (2)

    Arguments:
    xt -- your input data at timestep "t", numpy array of shape (n_x, m).
    a_prev -- Hidden state at timestep "t-1", numpy array of shape (n_a, m)
    parameters -- python dictionary containing:
                        Wax -- Weight matrix multiplying the input, numpy array of shape (n_a, n_x)
                        Waa -- Weight matrix multiplying the hidden state, numpy array of shape (n_a, n_a)
                        Wya -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        ba --  Bias, numpy array of shape (n_a, 1)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)
    Returns:
    a_next -- next hidden state, of shape (n_a, m)
    yt_pred -- prediction at timestep "t", numpy array of shape (n_y, m)
    cache -- tuple of values needed for the backward pass, contains (a_next, a_prev, xt, parameters)
    
    Implementa un único paso adelante de la célula RNN como se describe en la figura (2)

    Argumentos:
    xt -- sus datos de entrada en el paso de tiempo "t", matriz numpy de forma (n_x, m).
    a_prev -- Estado oculto en el paso de tiempo "t-1", matriz numpy de forma (n_a, m)
    parameters -- diccionario python que contiene:
            Wax -- Matriz de pesos que multiplica la entrada, matriz numpy de forma (n_a, n_x)
            Waa -- Matriz de pesos multiplicando el estado oculto, matriz numpy de forma (n_a, n_a)
            Wya -- Matriz de pesos que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, n_a)
             ba -- Bias, matriz numpy de forma (n_a, 1)
             by -- Sesgo que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, 1)
    Devuelve:
    a_next -- siguiente estado oculto, de forma (n_a, m)
    yt_pred -- predicción en el paso de tiempo "t", matriz numpy de forma (n_y, m)
    cache -- tupla de valores necesarios para el pase hacia atrás, contiene (a_next, a_prev, xt, parameters)
    """
    
    # Retrieve parameters from "parameters"
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba  = parameters["ba"]
    by  = parameters["by"]
    
    ### START CODE HERE ### (≈2 lines)
    # compute next activation state using the formula given above
    # omputar el siguiente estado de activación mediante la fórmula indicada anteriormente
    a_next = np.tanh( np.dot( Waa, a_prev) + np.dot (Wax, xt) + ba)
    # compute output of the current cell using the formula given above
    yt_pred = softmax(np.dot(Wya, a_next) + by)
    ### END CODE HERE ###
    
    # store values you need for backward propagation in cache
    cache = (a_next, a_prev, xt, parameters)
    
    return a_next, yt_pred, cache

In [23]:
np.random.seed(1)
xt_tmp = np.random.randn(3, 10)
a_prev_tmp = np.random.randn(5, 10)
parameters_tmp = {}
parameters_tmp['Waa'] = np.random.randn(5, 5)
parameters_tmp['Wax'] = np.random.randn(5, 3)
parameters_tmp['Wya'] = np.random.randn(2, 5)
parameters_tmp['ba'] = np.random.randn(5, 1)
parameters_tmp['by'] = np.random.randn(2, 1)

a_next_tmp, yt_pred_tmp, cache_tmp = rnn_cell_forward(xt_tmp, a_prev_tmp, parameters_tmp)
print("a_next[4] = \n", a_next_tmp[4])
print("a_next.shape = \n", a_next_tmp.shape)
print("yt_pred[1] =\n", yt_pred_tmp[1])
print("yt_pred.shape = \n", yt_pred_tmp.shape)

# UNIT TESTS
rnn_cell_forward_tests(rnn_cell_forward)

a_next[4] = 
 [ 0.59584544  0.18141802  0.61311866  0.99808218  0.85016201  0.99980978
 -0.18887155  0.99815551  0.6531151   0.82872037]
a_next.shape = 
 (5, 10)
yt_pred[1] =
 [0.9888161  0.01682021 0.21140899 0.36817467 0.98988387 0.88945212
 0.36920224 0.9966312  0.9982559  0.17746526]
yt_pred.shape = 
 (2, 10)
[92mAll tests passed


**Expected Output**: 
```Python
a_next[4] = 
 [ 0.59584544  0.18141802  0.61311866  0.99808218  0.85016201  0.99980978
 -0.18887155  0.99815551  0.6531151   0.82872037]
a_next.shape = 
 (5, 10)
yt_pred[1] =
 [ 0.9888161   0.01682021  0.21140899  0.36817467  0.98988387  0.88945212
  0.36920224  0.9966312   0.9982559   0.17746526]
yt_pred.shape = 
 (2, 10)

```

<a name='1-2'></a>
### 1.2 - RNN Forward Pass 

- A recurrent neural network (RNN) is a repetition of the RNN cell that you've just built. 
    - If your input sequence of data is 10 time steps long, then you will re-use the RNN cell 10 times 
- Each cell takes two inputs at each time step:
    - $a^{\langle t-1 \rangle}$: The hidden state from the previous cell
    - $x^{\langle t \rangle}$: The current time step's input data
- It has two outputs at each time step:
    - A hidden state ($a^{\langle t \rangle}$)
    - A prediction ($y^{\langle t \rangle}$)
- The weights and biases $(W_{aa}, b_{a}, W_{ax}, b_{x})$ are re-used each time step 
    - They are maintained between calls to `rnn_cell_forward` in the 'parameters' dictionary


<img src="images/rnn_forward_sequence_figure3_v3a.png" style="width:800px;height:180px;">
<caption><center><font color='purple'><b>Figure 3</b>: Basic RNN. The input sequence $x = (x^{\langle 1 \rangle}, x^{\langle 2 \rangle}, ..., x^{\langle T_x \rangle})$  is carried over $T_x$ time steps. The network outputs $y = (y^{\langle 1 \rangle}, y^{\langle 2 \rangle}, ..., y^{\langle T_x \rangle})$. </center></caption>
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

### 1.2 - Paso adelante de la RNN 

- Una red neuronal recurrente (RNN) es una repetición de la celda RNN que acaba de construir. 
    - Si su secuencia de datos de entrada tiene 10 pasos de tiempo, entonces reutilizará la celda RNN 10 veces 
- Cada celda toma dos entradas en cada paso de tiempo:
    - $a^{\langle t-1 \rangle}$: El estado oculto de la celda anterior
    - $x^{\langle t \rangle}$: Los datos de entrada del paso de tiempo actual
- Tiene dos salidas en cada paso de tiempo:
    - Un estado oculto ($a^{\langle t \rangle}$)
    - Una predicción ($y^{\langle t \rangle}$)
- Los pesos y sesgos $(W_{aa}, b_{a}, W_{ax}, b_{x})$ se reutilizan en cada paso de tiempo 
    - Se mantienen entre las llamadas a `rnn_cell_forward` en el diccionario de `parámetros

<img src="images/rnn_forward_sequence_figure3_v3a.png" style="width:800px;height:180px;">
<caption><center><font color='purple'><b>Figure 3</b>: Basic RNN. The input sequence $x = (x^{\langle 1 \rangle}, x^{\langle 2 \rangle}, ..., x^{\langle T_x \rangle})$  se traslada $T_x$ pasos de tiempo. Las salidas de la red $y = (y^{\langle 1 \rangle}, y^{\langle 2 \rangle}, ..., y^{\langle T_x \rangle})$. </center></caption>
    

<a name='ex-2'></a>
### Exercise 2 - rnn_forward

Implement the forward propagation of the RNN described in Figure 3.

**Instructions**:
* Create a 3D array of zeros, $a$ of shape $(n_{a}, m, T_{x})$ that will store all the hidden states computed by the RNN
* Create a 3D array of zeros, $\hat{y}$, of shape $(n_{y}, m, T_{x})$ that will store the predictions  
    - Note that in this case, $T_{y} = T_{x}$ (the prediction and input have the same number of time steps)
* Initialize the 2D hidden state `a_next` by setting it equal to the initial hidden state, $a_{0}$
* At each time step $t$:
    - Get $x^{\langle t \rangle}$, which is a 2D slice of $x$ for a single time step $t$
        - $x^{\langle t \rangle}$ has shape $(n_{x}, m)$
        - $x$ has shape $(n_{x}, m, T_{x})$
    - Update the 2D hidden state $a^{\langle t \rangle}$ (variable name `a_next`), the prediction $\hat{y}^{\langle t \rangle}$ and the cache by running `rnn_cell_forward`
        - $a^{\langle t \rangle}$ has shape $(n_{a}, m)$
    - Store the 2D hidden state in the 3D tensor $a$, at the $t^{th}$ position
        - $a$ has shape $(n_{a}, m, T_{x})$
    - Store the 2D $\hat{y}^{\langle t \rangle}$ prediction (variable name `yt_pred`) in the 3D tensor $\hat{y}_{pred}$ at the $t^{th}$ position
        - $\hat{y}^{\langle t \rangle}$ has shape $(n_{y}, m)$
        - $\hat{y}$ has shape $(n_{y}, m, T_x)$
    - Append the cache to the list of caches
* Return the 3D tensor $a$ and $\hat{y}$, as well as the list of caches

#### Additional Hints
- Some helpful documentation on [np.zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html)
- If you have a 3 dimensional numpy array and are indexing by its third dimension, you can use array slicing like this: `var_name[:,:,i]`

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
### Ejercicio 2 - rnn_forward

Implementar la propagación hacia adelante de la RNN descrita en la Figura 3.

**Instrucciones**:
* Crear una matriz 3D de ceros, $a$ de forma $(n_{a}, m, T_{x})$ que almacenará todos los estados ocultos calculados por la RNN
* Crear una matriz 3D de ceros, $\hat{y}$, de forma $(n_{y}, m, T_{x})$ que almacenará las predicciones  
    - Tenga en cuenta que en este caso, $T_{y} = T_{x}$ (la predicción y la entrada tienen el mismo número de pasos de tiempo)
    
* Inicializar el estado oculto 2D `a_next` estableciéndolo igual al estado oculto inicial, $a_{0}$
* En cada paso de tiempo $t$:
     - Obtener $x^{\langle t \rangle}$, que es una porción 2D de $x$ para un solo paso de tiempo $t$
        - $x^{\langle t \rangle}$ tiene forma $(n_{x}, m)$
        - $x$ tiene forma $(n_{x}, m, T_{x})$
    - Actualizar el estado oculto 2D $a^{\langle t \rangle}$ (variable con nombre `a_next`), la prediccion $\hat{y}^{\langle t \rangle}$ y el caché ejecutando `rnn_cell_forward`
        - $a^{\langle t \rangle}$ tiene forma $(n_{a}, m)$
    - Almacenar el estado oculto 2D en el tensor 3D $a$, en la posición $t^{th}$
        - $a$ tiene forma $(n_{a}, m, T_{x})$
    - Almacenar el 2D $\hat{y}^{\langle t \rangle}$ prediccion (variable con nombre `yt_pred`) en el tensor 3D $\hat{y}_{pred}$ en la posición $t^{th}$ 
        - $\hat{y}^{\langle t \rangle}$ tiene forma $(n_{y}, m)$
        - $\hat{y}$ tiene forma $(n_{y}, m, T_x)$
    - Añadir la caché a la lista de cachés
* Devuelve el tensor 3D $a$ y $\hat{y}$, así como la lista de cachés
    
#### Consejos adicionales
- Alguna documentación útil sobre [np.zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html)
- Si tienes un array numpy de 3 dimensiones y estás indexando por su tercera dimensión, puedes usar el corte del array así `nombre_de_var[:,:,i]`


In [24]:
# UNQ_C2 (UNIQUE CELL IDENTIFIER, DO NOT EDIT)
# GRADED FUNCTION: rnn_forward

def rnn_forward(x, a0, parameters):
    """
    Implement the forward propagation of the recurrent neural network described in Figure (3).

    Arguments:
    x -- Input data for every time-step, of shape (n_x, m, T_x).
    a0 -- Initial hidden state, of shape (n_a, m)
    parameters -- python dictionary containing:
                        Waa -- Weight matrix multiplying the hidden state, numpy array of shape (n_a, n_a)
                        Wax -- Weight matrix multiplying the input, numpy array of shape (n_a, n_x)
                        Wya -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        ba --  Bias numpy array of shape (n_a, 1)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)

    Returns:
    a -- Hidden states for every time-step, numpy array of shape (n_a, m, T_x)
    y_pred -- Predictions for every time-step, numpy array of shape (n_y, m, T_x)
    caches -- tuple of values needed for the backward pass, contains (list of caches, x)
    
    Implementa la propagación hacia delante de la red neuronal recurrente descrita en la figura (3).

    Argumentos:
    x -- Datos de entrada para cada paso de tiempo, de forma (n_x, m, T_x).
    a0 -- Estado oculto inicial, de forma (n_a, m)
    parameters -- Diccionario de python que contiene:
        Waa -- Matriz de pesos que multiplica el estado oculto, matriz numpy de forma (n_a, n_a)
        Wax -- Matriz de pesos multiplicando la entrada, array numpy de forma (n_a, n_x)
        Wya -- Matriz de pesos que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, n_a)
         ba -- Matriz numpy de forma (n_a, 1)
         by -- Sesgo que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, 1)

    Devuelve:
    a -- Estados ocultos para cada paso de tiempo, matriz numpy de forma (n_a, m, T_x)
    y_pred -- Predicciones para cada paso de tiempo, matriz numpy de forma (n_y, m, T_x)
    caches -- tupla de valores necesarios para el pase hacia atrás, contiene (lista de caches, x)

    """
    
    # Initialize "caches" which will contain the list of all caches
    caches = []
    
    # Retrieve dimensions from shapes of x and parameters["Wya"]
    n_x, m, T_x = x.shape
    n_y, n_a    = parameters["Wya"].shape
    
    ### START CODE HERE ###
    
    # initialize "a" and "y_pred" with zeros (≈2 lines)
    a      = np.zeros((n_a, m, T_x))
    y_pred = np.zeros((n_y, m, T_x))
    
    # Initialize a_next (≈1 line)
    a_next = a0
    
    # loop over all time-steps
    for t in range(T_x):
        # Update next hidden state, compute the prediction, get the cache (≈1 line)
        a_next, yt_pred, cache = rnn_cell_forward(x[:, :, t], a_next, parameters)
        # Save the value of the new "next" hidden state in a (≈1 line)
        a[:,:,t] = a_next
        # Save the value of the prediction in y (≈1 line)
        y_pred[:,:,t] = yt_pred
        # Append "cache" to "caches" (≈1 line)
        caches.append(cache)
    ### END CODE HERE ###
    
    # store values needed for backward propagation in cache
    caches = (caches, x)
    
    return a, y_pred, caches

In [25]:
np.random.seed(1)
x_tmp = np.random.randn(3, 10, 4)
a0_tmp = np.random.randn(5, 10)
parameters_tmp = {}
parameters_tmp['Waa'] = np.random.randn(5, 5)
parameters_tmp['Wax'] = np.random.randn(5, 3)
parameters_tmp['Wya'] = np.random.randn(2, 5)
parameters_tmp['ba'] = np.random.randn(5, 1)
parameters_tmp['by'] = np.random.randn(2, 1)

a_tmp, y_pred_tmp, caches_tmp = rnn_forward(x_tmp, a0_tmp, parameters_tmp)
print("a[4][1] = \n", a_tmp[4][1])
print("a.shape = \n", a_tmp.shape)
print("y_pred[1][3] =\n", y_pred_tmp[1][3])
print("y_pred.shape = \n", y_pred_tmp.shape)
print("caches[1][1][3] =\n", caches_tmp[1][1][3])
print("len(caches) = \n", len(caches_tmp))

#UNIT TEST    
rnn_forward_test(rnn_forward)

a[4][1] = 
 [-0.99999375  0.77911235 -0.99861469 -0.99833267]
a.shape = 
 (5, 10, 4)
y_pred[1][3] =
 [0.79560373 0.86224861 0.11118257 0.81515947]
y_pred.shape = 
 (2, 10, 4)
caches[1][1][3] =
 [-1.1425182  -0.34934272 -0.20889423  0.58662319]
len(caches) = 
 2
[92mAll tests passed


**Expected Output**:

```Python
a[4][1] = 
 [-0.99999375  0.77911235 -0.99861469 -0.99833267]
a.shape = 
 (5, 10, 4)
y_pred[1][3] =
 [ 0.79560373  0.86224861  0.11118257  0.81515947]
y_pred.shape = 
 (2, 10, 4)
caches[1][1][3] =
 [-1.1425182  -0.34934272 -0.20889423  0.58662319]
len(caches) = 
 2
```

### Congratulations! 

You've successfully built the forward propagation of a recurrent neural network from scratch. Nice work! 

#### Situations when this RNN will perform better:
- This will work well enough for some applications, but it suffers from vanishing gradients. 
- The RNN works best when each output $\hat{y}^{\langle t \rangle}$ can be estimated using "local" context.  
- "Local" context refers to information that is close to the prediction's time step $t$.
- More formally, local context refers to inputs $x^{\langle t' \rangle}$ and predictions $\hat{y}^{\langle t \rangle}$ where $t'$ is close to $t$.

<font color='blue'><b>What you should remember:</b>
* The recurrent neural network, or RNN, is essentially the repeated use of a single cell.
* A basic RNN reads inputs one at a time, and remembers information through the hidden layer activations (hidden states) that are passed from one time step to the next.
    * The time step dimension determines how many times to re-use the RNN cell
* Each cell takes two inputs at each time step:
    * The hidden state from the previous cell
    * The current time step's input data
* Each cell has two outputs at each time step:
    * A hidden state 
    * A prediction
</font>

In the next section, you'll build a more complex model, the LSTM, which is better at addressing vanishing gradients. The LSTM is better able to remember a piece of information and save it for many time steps.  

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

### ¡Enhorabuena! 

Has construido con éxito la propagación hacia delante de una red neuronal recurrente desde cero. Buen trabajo. 

#### Situaciones en las que esta RNN funcionará mejor:
- Esto funcionará lo suficientemente bien para algunas aplicaciones, pero sufre de gradientes de fuga. 
- La RNN funciona mejor cuando cada salida $\hat{y}^{\langle t \rangle}$ puede ser estimada utilizando el contexto "local".  
- El contexto "local" se refiere a la información que está cerca del paso de tiempo de la predicción $t$.
- Más formalmente, el contexto local se refiere a las entradas $x^{\langle t' \rangle}$ y a las predicciones $\hat{y}^{\langle t \rangle}$ donde $t'$ está cerca de $t$.

<font color='blue'><b>Lo que debes recordar:</b>
* La red neuronal recurrente, o RNN, es esencialmente el uso repetido de una sola cekda.
* Una RNN básica lee las entradas de una en una, y recuerda la información a través de las activaciones de la capa oculta (estados ocultos) que pasan de un paso de tiempo al siguiente.
    * La dimensión del paso de tiempo determina cuántas veces se reutiliza la celda de la RNN.
* Cada celda toma dos entradas en cada paso de tiempo:
    * El estado oculto de la célula anterior
    * Los datos de entrada del paso de tiempo actual
* Cada celda tiene dos salidas en cada paso de tiempo:
    * Un estado oculto 
    * Una predicción
</font>
En la siguiente sección, construirás un modelo más complejo, el LSTM, que es mejor para tratar los gradientes de fuga. El LSTM es más capaz de recordar una información y guardarla durante muchos pasos de tiempo.

<a name='2'></a>
## 2 - Long Short-Term Memory (LSTM) Network

The following figure shows the operations of an LSTM cell:

<img src="images/LSTM_figure4_v3a.png" style="width:500;height:400px;">
<caption><center><font color='purple'><b>Figure 4</b>: LSTM cell. This tracks and updates a "cell state," or memory variable $c^{\langle t \rangle}$ at every time step, which can be different from $a^{\langle t \rangle}$.  
Note, the $softmax^{}$ includes a dense layer and softmax.</center></caption>

Similar to the RNN example above, you'll begin by implementing the LSTM cell for a single time step. Then, you'll iteratively call it from inside a "for loop" to have it process an input with $T_x$ time steps. 

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

    
<img src="images/LSTM_figure4_v3a.png" style="width:500;height:400px;">
<caption><center><font color='purple'><b>Figure 4</b>: celda LSTM. Esto rastrea y actualiza un "estado de la celda", o variable de memoria $c^{\langle t \rangle}$ en cada paso de tiempo, que puede ser diferente de $a^{\langle t \rangle}$.  
Tenga en cuenta, el $softmax^{}$ incluye una capa densa y softmax.</center></caption>
    
Al igual que en el ejemplo de la RNN anterior, se comenzará implementando la célula LSTM para un único paso de tiempo. A continuación, se llamará iterativamente desde el interior de un "bucle for" para que procese una entrada con $T_x$ pasos de tiempo. 

### Overview of gates and states

#### Forget gate $\mathbf{\Gamma}_{f}$

* Let's assume you are reading words in a piece of text, and plan to use an LSTM to keep track of grammatical structures, such as whether the subject is singular ("puppy") or plural ("puppies"). 
* If the subject changes its state (from a singular word to a plural word), the memory of the previous state becomes outdated, so you'll "forget" that outdated state.
* The "forget gate" is a tensor containing values between 0 and 1.
    * If a unit in the forget gate has a value close to 0, the LSTM will "forget" the stored state in the corresponding unit of the previous cell state.
    * If a unit in the forget gate has a value close to 1, the LSTM will mostly remember the corresponding value in the stored state.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


* Supongamos que estás leyendo las palabras de un texto y planeas utilizar una LSTM para seguir las estructuras gramaticales, como por ejemplo si el sujeto es singular ("cachorro") o plural ("cachorros"). 
* Si el sujeto cambia de estado (de una palabra singular a una plural), la memoria del estado anterior queda obsoleta, por lo que "olvidará" ese estado obsoleto.
* La "puerta del olvido" es un tensor que contiene valores entre 0 y 1.
    * Si una unidad en la puerta del olvido tiene un valor cercano a 0, el LSTM "olvidará" el estado almacenado en la unidad correspondiente del estado anterior de la célula.
    * Si una unidad en la puerta del olvido tiene un valor cercano a 1, el LSTM recordará mayoritariamente el valor correspondiente en el estado almacenado.

</details>
    
##### Equation

$$\mathbf{\Gamma}_f^{\langle t \rangle} = \sigma(\mathbf{W}_f[\mathbf{a}^{\langle t-1 \rangle}, \mathbf{x}^{\langle t \rangle}] + \mathbf{b}_f)\tag{1} $$

##### Explanation of the equation:

* $\mathbf{W_{f}}$ contains weights that govern the forget gate's behavior. 
* The previous time step's hidden state $[a^{\langle t-1 \rangle}$ and current time step's input $x^{\langle t \rangle}]$ are concatenated together and multiplied by $\mathbf{W_{f}}$. 
* A sigmoid function is used to make each of the gate tensor's values $\mathbf{\Gamma}_f^{\langle t \rangle}$ range from 0 to 1.
* The forget gate  $\mathbf{\Gamma}_f^{\langle t \rangle}$ has the same dimensions as the previous cell state $c^{\langle t-1 \rangle}$. 
* This means that the two can be multiplied together, element-wise.
* Multiplying the tensors $\mathbf{\Gamma}_f^{\langle t \rangle} * \mathbf{c}^{\langle t-1 \rangle}$ is like applying a mask over the previous cell state.
* If a single value in $\mathbf{\Gamma}_f^{\langle t \rangle}$ is 0 or close to 0, then the product is close to 0.
    * This keeps the information stored in the corresponding unit in $\mathbf{c}^{\langle t-1 \rangle}$ from being remembered for the next time step.
* Similarly, if one value is close to 1, the product is close to the original value in the previous cell state.
    * The LSTM will keep the information from the corresponding unit of $\mathbf{c}^{\langle t-1 \rangle}$, to be used in the next time step.
 
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
* $\mathbf{W_{f}}$ contiene los pesos que rigen el comportamiento de la puerta del olvido. 
* El estado oculto del paso de tiempo anterior $[a^{\langle t-1 \rangle}$ y la entrada del paso de tiempo actual $x^{\langle t \rangle}]$ se concatenan y se multiplican por $\mathbf{W_{f}}$. 
* Se utiliza una función sigmoidea para hacer que cada uno de los valores del tensor de puerta $\mathbf{\Gamma}_f^{\langle t \rangle}$ van de 0 a 1.
* La puerta del olvido  $\mathbf{\Gamma}_f^{\langle t \rangle}$ tiene las mismas dimensiones que el estado de la celda anterior $c^{\langle t-1 \rangle}$. 
* Esto significa que los dos pueden multiplicarse juntos, por elementos.
* Multiplicación de los tensores $\mathbf{\Gamma}_f^{\langle t \rangle} * \mathbf{c}^{\langle t-1 \rangle}$ es como aplicar una máscara sobre el estado anterior de la celda.
* Si un solo valor en $\mathbf{\Gamma}_f^{\langle t \rangle}$ es 0 o cercano a 0, entonces el producto es cercano a 0.
    * Esto mantiene la información almacenada en la unidad correspondiente en $\mathbf{c}^{\langle t-1 \rangle}$ de ser recordado para el siguiente paso de tiempo.
* Del mismo modo, si un valor se acerca a 1, el producto se acerca al valor original en el estado de la celda anterior.
    * La LSTM guardará la información de la unidad correspondiente de $\mathbf{c}^{\langle t-1 \rangle}$, para utilizarla en el siguiente paso de tiempo.

</details>
    
##### Variable names in the code
The variable names in the code are similar to the equations, with slight differences.  
* `Wf`: forget gate weight $\mathbf{W}_{f}$
* `bf`: forget gate bias $\mathbf{b}_{f}$
* `ft`: forget gate $\Gamma_f^{\langle t \rangle}$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

##### Nombres de las variables en el código
Los nombres de las variables en el código son similares a las ecuaciones, con ligeras diferencias.  
* Wf: olvida el peso de la puerta $\mathbf{W}_{f}$.
* bf: olvida el sesgo de la puerta $\mathbf{b}_{f}$.
* `ft`: olvida la puerta $\Gamma_f^{langle t \rangle}$

#### Candidate value $\tilde{\mathbf{c}}^{\langle t \rangle}$
* The candidate value is a tensor containing information from the current time step that **may** be stored in the current cell state $\mathbf{c}^{\langle t \rangle}$.
* The parts of the candidate value that get passed on depend on the update gate.
* The candidate value is a tensor containing values that range from -1 to 1.
* The tilde "~" is used to differentiate the candidate $\tilde{\mathbf{c}}^{\langle t \rangle}$ from the cell state $\mathbf{c}^{\langle t \rangle}$.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

#### Valor candidato $\tilde{\mathbf{c}}^{\langle t \rangle}$.
* El valor candidato es un tensor que contiene información del paso de tiempo actual que **puede** ser almacenado en el estado de la celda actual $\mathbf{c}^{\langle t \rangle}$.
* Las partes del valor candidato que se pasan dependen de la puerta de actualización.
* El valor candidato es un tensor que contiene valores que van de -1 a 1.
* La tilde "~" se utiliza para diferenciar el candidato $\tilde{\mathbf{c}}^{\langle t \rangle}$ del estado de la celda $\mathbf{c}^{\langle t \rangle}$.

</details>    
    
    
##### Equation
$$\mathbf{\tilde{c}}^{\langle t \rangle} = \tanh\left( \mathbf{W}_{c} [\mathbf{a}^{\langle t - 1 \rangle}, \mathbf{x}^{\langle t \rangle}] + \mathbf{b}_{c} \right) \tag{3}$$

    
##### Explanation of the equation
* The *tanh* function produces values between -1 and 1.


##### Variable names in the code
* `cct`: candidate value $\mathbf{\tilde{c}}^{\langle t \rangle}$
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

##### Explicación de la ecuación
* La función *tanh* produce valores entre -1 y 1.


##### Nombres de variables en el código
* `cct`: valor candidato $\mathbf{\tilde{c}}^{\langle t \rangle}$

#### Update gate $\mathbf{\Gamma}_{i}$

* You use the update gate to decide what aspects of the candidate $\tilde{\mathbf{c}}^{\langle t \rangle}$ to add to the cell state $c^{\langle t \rangle}$.
* The update gate decides what parts of a "candidate" tensor  are passed onto the cell state $\mathbf{c}^{\langle t \rangle}$.
* The update gate is a tensor containing values between 0 and 1.
    * When a unit in the update gate is close to 1, it allows the value of the candidate $\tilde{\mathbf{c}}^{\langle t \rangle}$ to be passed onto the hidden state $\mathbf{c}^{\langle t \rangle}$
    * When a unit in the update gate is close to 0, it prevents the corresponding value in the candidate from being passed onto the hidden state.
* Notice that the subscript "i" is used and not "u", to follow the convention used in the literature.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


* Se utiliza la puerta de actualización para decidir qué aspectos del candidato $\tilde{\mathbf{c}}^{\langle t \rangle}$ se añaden al estado de la celda $c^{\langle t \rangle}$. 
* La puerta de actualización decide qué partes de un tensor "candidato" se pasan al estado de la celda $\mathbf{c}^{\langle t \rangle}$.
* La puerta de actualización es un tensor que contiene valores entre 0 y 1.
    * Cuando una unidad en la puerta de actualización se acerca a 1, permite que el valor del candidato $\tilde{\mathbf{c}}^{\langle t \rangle}$ se pase al estado oculto $\mathbf{c}^{\langle t \rangle}$.
    * Cuando una unidad en la puerta de actualización está cerca de 0, impide que el valor correspondiente en el candidato se pase al estado oculto.
* Nótese que se utiliza el subíndice "i" y no "u", para seguir la convención utilizada en la literatura.
   
</details>

##### Equation

$$\mathbf{\Gamma}_i^{\langle t \rangle} = \sigma(\mathbf{W}_i[a^{\langle t-1 \rangle}, \mathbf{x}^{\langle t \rangle}] + \mathbf{b}_i)\tag{2} $$ 

    
    
 
##### Explanation of the equation

* Similar to the forget gate, here $\mathbf{\Gamma}_i^{\langle t \rangle}$, the sigmoid produces values between 0 and 1.
* The update gate is multiplied element-wise with the candidate, and this product ($\mathbf{\Gamma}_{i}^{\langle t \rangle} * \tilde{c}^{\langle t \rangle}$) is used in determining the cell state $\mathbf{c}^{\langle t \rangle}$.

##### Variable names in code (Please note that they're different than the equations)
In the code, you'll use the variable names found in the academic literature.  These variables don't use "u" to denote "update".
* `Wi` is the update gate weight $\mathbf{W}_i$ (not "Wu") 
* `bi` is the update gate bias $\mathbf{b}_i$ (not "bu")
* `it` is the update gate $\mathbf{\Gamma}_i^{\langle t \rangle}$ (not "ut")
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

* Al igual que la puerta de olvido, aquí $\mathbf{\Gamma}_i^{\langle t \rangle}$, la sigmoide produce valores entre 0 y 1.
* La puerta de actualización se multiplica elemento a elemento con el candidato, y este producto ($\mathbf{\Gamma}_{i}^{\langle t \rangle} * \tilde{c}^{\langle t \rangle}$) se utiliza en la determinación del estado de la célula $\mathbf{c}^{\langle t \rangle}$..

##### Nombres de las variables en el código (Tenga en cuenta que son diferentes de las ecuaciones)
En el código, utilizarás los nombres de las variables que se encuentran en la literatura académica.  Estas variables no usan "u" para denotar "actualización".
* `Wi` es el peso de la puerta de actualización $\mathbf{W}_i$ (no "Wu") 
* `bi` es el sesgo de la puerta de actualización $\mathbf{b}_i$ (no "bu")
* `it` es la puerta de actualización $\mathbf{{Gamma}_i^{langle t \rangle}$ (no "ut")



#### Cell state $\mathbf{c}^{\langle t \rangle}$

* The cell state is the "memory" that gets passed onto future time steps.
* The new cell state $\mathbf{c}^{\langle t \rangle}$ is a combination of the previous cell state and the candidate value.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

* El estado de la celda es la "memoria" que se pasa a los futuros pasos de tiempo.
* El nuevo estado de la celda $\mathbf{c}^{\langle t \rangle}$ es una combinación del estado de la celda anterior y el valor candidato.
    
</details>
   
    
##### Equation

$$ \mathbf{c}^{\langle t \rangle} = \mathbf{\Gamma}_f^{\langle t \rangle}* \mathbf{c}^{\langle t-1 \rangle} + \mathbf{\Gamma}_{i}^{\langle t \rangle} *\mathbf{\tilde{c}}^{\langle t \rangle} \tag{4} $$

##### Explanation of equation
* The previous cell state $\mathbf{c}^{\langle t-1 \rangle}$ is adjusted (weighted) by the forget gate $\mathbf{\Gamma}_{f}^{\langle t \rangle}$
* and the candidate value $\tilde{\mathbf{c}}^{\langle t \rangle}$, adjusted (weighted) by the update gate $\mathbf{\Gamma}_{i}^{\langle t \rangle}$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
* El estado anterior de la célda $\mathbf{c}^{\langle t-1 \rangle}$ se ajusta (ponderado) por la puerta del olvido $\mathbf{\Gamma}_{f}^{\langle t \rangle}$  
* y el valor candidato $\tilde{\mathbf{c}}^{\langle t \rangle}$ ajustado (ponderado) por la puerta de $\mathbf{\Gamma}_{i}^{\langle t \rangle}$actualización

</details>
    
##### Variable names and shapes in the code
* `c`: cell state, including all time steps, $\mathbf{c}$ shape $(n_{a}, m, T_x)$
* `c_next`: new (next) cell state, $\mathbf{c}^{\langle t \rangle}$ shape $(n_{a}, m)$
* `c_prev`: previous cell state, $\mathbf{c}^{\langle t-1 \rangle}$, shape $(n_{a}, m)$
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

##### Nombres y formas de las variables en el código
* c: estado de la celda, incluyendo todos los pasos de tiempo, $\mathbf{c}$ forma $(n_{a}, m, T_x)$
* c_next`: nuevo (siguiente) estado de la celda, $\mathbf{c}^{\langle t \rangle}$ forma $(n_{a}, m)$
* c_prev`: estado de la celda anterior, $\mathbf{c}^{\langle t-1 \rangle}$, forma $(n_{a}, m)$


#### Output gate $\mathbf{\Gamma}_{o}$

* The output gate decides what gets sent as the prediction (output) of the time step.
* The output gate is like the other gates, in that it contains values that range from 0 to 1.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


* La puerta de salida decide lo que se envía como predicción (salida) del paso de tiempo.
* La puerta de salida es como las otras puertas, ya que contiene valores que van de 0 a 1.

</details>    

##### Equation

$$ \mathbf{\Gamma}_o^{\langle t \rangle}=  \sigma(\mathbf{W}_o[\mathbf{a}^{\langle t-1 \rangle}, \mathbf{x}^{\langle t \rangle}] + \mathbf{b}_{o})\tag{5}$$ 

##### Explanation of the equation
* The output gate is determined by the previous hidden state $\mathbf{a}^{\langle t-1 \rangle}$ and the current input $\mathbf{x}^{\langle t \rangle}$
* The sigmoid makes the gate range from 0 to 1.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
    
 La puerta de salida está determinada por el estado oculto anterior $\mathbf{a}^{\langle t-1 \rangle}$ y la entrada actual $\mathbf{x}^{\langle t \rangle}$
* El sigmoide hace que la puerta vaya de 0 a 1.

</details>    

##### Variable names in the code
* `Wo`: output gate weight, $\mathbf{W_o}$
* `bo`: output gate bias, $\mathbf{b_o}$
* `ot`: output gate, $\mathbf{\Gamma}_{o}^{\langle t \rangle}$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    

* `Wo`: peso de la puerta de salida, $\mathbf{W_o}$
* `Bo`: sesgo de la puerta de salida, $\mathbf{b_o}$.
* `ot`: puerta de salida, $\mathbf{{Gamma}_{o}^{\langle t \rangle}$

#### Hidden state $\mathbf{a}^{\langle t \rangle}$

* The hidden state gets passed to the LSTM cell's next time step.
* It is used to determine the three gates ($\mathbf{\Gamma}_{f}, \mathbf{\Gamma}_{u}, \mathbf{\Gamma}_{o}$) of the next time step.
* The hidden state is also used for the prediction $y^{\langle t \rangle}$.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

* El estado oculto se pasa al siguiente paso de tiempo de la celda LSTM.
* Se utiliza para determinar las tres puertas ($\mathbf{\Gamma}_{f}, \mathbf{\Gamma}_{u}, \mathbf{\Gamma}_{o}$) del siguiente paso de tiempo.
* El estado oculto también se utiliza para la predicción $y^{\langle t \rangle}$.

</details>    

##### Equation

$$ \mathbf{a}^{\langle t \rangle} = \mathbf{\Gamma}_o^{\langle t \rangle} * \tanh(\mathbf{c}^{\langle t \rangle})\tag{6} $$

##### Explanation of equation
* The hidden state $\mathbf{a}^{\langle t \rangle}$ is determined by the cell state $\mathbf{c}^{\langle t \rangle}$ in combination with the output gate $\mathbf{\Gamma}_{o}$.
* The cell state state is passed through the `tanh` function to rescale values between -1 and 1.
* The output gate acts like a "mask" that either preserves the values of $\tanh(\mathbf{c}^{\langle t \rangle})$ or keeps those values from being included in the hidden state $\mathbf{a}^{\langle t \rangle}$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

* El estado oculto $\mathbf{a}^{\langle t \rangle}$ está determinado por el estado de la celda $\mathbf{c}^{\langle t \rangle}$ en combinación con la puerta de salida $\mathbf{\Gamma}_{o}$.
* El estado de la célda se pasa a través de la función `tanh` para reescalar los valores entre -1 y 1.
* La puerta de salida actúa como una "máscara" que preserva los valores de $\tanh(\mathbf{c}^{\langle t \rangle})$ o evita que esos valores se incluyan en el estado oculto $\mathbf{a}^{\langle t \rangle}$.    
    
</details>    

##### Variable names  and shapes in the code
* `a`: hidden state, including time steps.  $\mathbf{a}$ has shape $(n_{a}, m, T_{x})$
* `a_prev`: hidden state from previous time step. $\mathbf{a}^{\langle t-1 \rangle}$ has shape $(n_{a}, m)$
* `a_next`: hidden state for next time step.  $\mathbf{a}^{\langle t \rangle}$ has shape $(n_{a}, m)$ 
    
<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
##### Nombres y formas en el código
* `a`: estado oculto, incluyendo los pasos de tiempo.  $\mathbf{a}$ tiene la forma $(n_{a}, m, T_{x})$
* `a_prev`: estado oculto del paso de tiempo anterior. $\mathbf{a}^{\langle t-1 \rangle}$ tiene forma $(n_{a}, m)$
* `a_next`: estado oculto para el siguiente paso de tiempo.  $\mathbf{a}^{\langle t \rangle}$ tiene forma $(n_{a}, m)$ 
    

#### Prediction $\mathbf{y}^{\langle t \rangle}_{pred}$
* The prediction in this use case is a classification, so you'll use a softmax.


The equation is:
$$\mathbf{y}^{\langle t \rangle}_{pred} = \textrm{softmax}(\mathbf{W}_{y} \mathbf{a}^{\langle t \rangle} + \mathbf{b}_{y})$$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


* La predicción en este caso de uso es una clasificación, por lo que se utilizará un softmax.

La ecuacion es:
$$\mathbf{y}^{\langle t \rangle}_{pred} = \textrm{softmax}(\mathbf{W}_{y} \mathbf{a}^{\langle t \rangle} + \mathbf{b}_{y})$$

</details>

##### Variable names and shapes in the code
* `y_pred`: prediction, including all time steps. $\mathbf{y}_{pred}$ has shape $(n_{y}, m, T_{x})$.  Note that $(T_{y} = T_{x})$ for this example.
* `yt_pred`: prediction for the current time step $t$. $\mathbf{y}^{\langle t \rangle}_{pred}$ has shape $(n_{y}, m)$

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


##### Nombres y formas de las variables en el código
* `y_pred`: predicción, incluyendo todos los pasos de tiempo. $\mathbf{y}_{pred}$ tiene la forma $(n_{y}, m, T_{x})$.  Tenga en cuenta que $(T_{y} = T_{x})$ para este ejemplo.
* `yt_pred`: predicción para el paso de tiempo actual $t$. $\mathbf{y}^{langle t \rangle}_{pred}$ tiene forma $(n_{y}, m)$

<a name='2-1'></a>
### 2.1 - LSTM Cell

<a name='ex-3'></a>
### Exercise 3 - lstm_cell_forward

Implement the LSTM cell described in Figure 4.

**Instructions**:
1. Concatenate the hidden state $a^{\langle t-1 \rangle}$ and input $x^{\langle t \rangle}$ into a single matrix:  

$$concat = \begin{bmatrix} a^{\langle t-1 \rangle} \\ x^{\langle t \rangle} \end{bmatrix}$$  

2. Compute all formulas (1 through 6) for the gates, hidden state, and cell state.
3. Compute the prediction $y^{\langle t \rangle}$.


<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


### Ejercicio 3 - lstm_cell_forward

Implementa la célula LSTM descrita en la Figura 4.

**Instrucciones**:
1. Concatenar el estado oculto $a^{\langle t-1 \rangle}$ y la entrada $x^{\langle t \rangle}$ en una sola matriz:  

$$concat = \begin{bmatrix} a^{\langle t-1 \rangle} \\ x^{\langle t \rangle} \end{bmatrix}$$  

2. Calcule todas las fórmulas (1 a 6) para las puertas, el estado oculto y el estado de la celda.
3. 3. Calcular la predicción $y^{\langle t \rangle}$.


#### Additional Hints
* You can use [numpy.concatenate](https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html).  Check which value to use for the `axis` parameter.
* The functions `sigmoid()` and `softmax` are imported from `rnn_utils.py`.
* Some docs for [numpy.tanh](https://docs.scipy.org/doc/numpy/reference/generated/numpy.tanh.html)
* Use [numpy.dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html) for matrix multiplication.
* Notice that the variable names `Wi`, `bi` refer to the weights and biases of the **update** gate.  There are no variables named "Wu" or "bu" in this function.

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


#### Consejos adicionales
* Puedes usar [numpy.concatenate](https://docs.scipy.org/doc/numpy/reference/generated/numpy.concatenate.html).  Comprueba qué valor usar para el parámetro `axis`.
* Las funciones `sigmoid()` y `softmax` son importadas de `rnn_utils.py`.
* Algunos documentos para [numpy.tanh](https://docs.scipy.org/doc/numpy/reference/generated/numpy.tanh.html)
* Usa [numpy.dot](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dot.html) para la multiplicación de matrices.
* Observa que los nombres de las variables `Wi`, `bi` se refieren a los pesos y sesgos de la puerta **actualizada**.  No hay variables llamadas "Wu" o "bu" en esta función.

In [26]:
# UNQ_C3 (UNIQUE CELL IDENTIFIER, DO NOT EDIT)
# GRADED FUNCTION: lstm_cell_forward

def lstm_cell_forward(xt, a_prev, c_prev, parameters):
    """
    Implement a single forward step of the LSTM-cell as described in Figure (4)

    Arguments:
    xt -- your input data at timestep "t", numpy array of shape (n_x, m).
    a_prev -- Hidden state at timestep "t-1", numpy array of shape (n_a, m)
    c_prev -- Memory state at timestep "t-1", numpy array of shape (n_a, m)
    parameters -- python dictionary containing:
                        Wf -- Weight matrix of the forget gate, numpy array of shape (n_a, n_a + n_x)
                        bf -- Bias of the forget gate, numpy array of shape (n_a, 1)
                        Wi -- Weight matrix of the update gate, numpy array of shape (n_a, n_a + n_x)
                        bi -- Bias of the update gate, numpy array of shape (n_a, 1)
                        Wc -- Weight matrix of the first "tanh", numpy array of shape (n_a, n_a + n_x)
                        bc --  Bias of the first "tanh", numpy array of shape (n_a, 1)
                        Wo -- Weight matrix of the output gate, numpy array of shape (n_a, n_a + n_x)
                        bo --  Bias of the output gate, numpy array of shape (n_a, 1)
                        Wy -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)
                        
    Returns:
    a_next -- next hidden state, of shape (n_a, m)
    c_next -- next memory state, of shape (n_a, m)
    yt_pred -- prediction at timestep "t", numpy array of shape (n_y, m)
    cache -- tuple of values needed for the backward pass, contains (a_next, c_next, a_prev, c_prev, xt, parameters)
    
    Note: ft/it/ot stand for the forget/update/output gates, cct stands for the candidate value (c tilde),
          c stands for the cell state (memory)
          
    Argumentos:
    xt -- tus datos de entrada en el paso de tiempo "t", array numpy de forma (n_x, m).
    a_prev -- Estado oculto en el paso de tiempo "t-1", matriz numpy de forma (n_a, m)
    c_prev -- Estado de la memoria en el paso de tiempo "t-1", matriz numpy de forma (n_a, m)
    parameters -- diccionario python que contiene
            Wf -- Matriz de pesos de la puerta de olvido, matriz numpy de forma (n_a, n_a + n_x)
            bf -- Bias de la puerta de olvido, matriz numpy de forma (n_a, 1)
            Wi -- Matriz de pesos de la puerta de actualización, matriz numpy de forma (n_a, n_a + n_x)
            bi -- Bias de la puerta de actualización, matriz numpy de forma (n_a, 1)
            Wc -- Matriz de pesos del primer "tanh", matriz numpy de forma (n_a, n_a + n_x)
            bc -- Bias del primer "tanh", matriz numpy de forma (n_a, 1)
            Wo -- Matriz de pesos de la puerta de salida, matriz numpy de forma (n_a, n_a + n_x)
            bo -- Bias de la puerta de salida, matriz numpy de forma (n_a, 1)
            Wy -- Matriz de pesos que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, n_a)
            by -- Sesgo que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, 1)
                        
    Devuelve:
    a_next -- siguiente estado oculto, de forma (n_a, m)
    c_next -- siguiente estado de memoria, de forma (n_a, m)
    yt_pred -- predicción en el paso de tiempo "t", matriz numpy de forma (n_y, m)
    cache -- tupla de valores necesarios para el paso hacia atrás, contiene (a_next, c_next, a_prev, c_prev, xt, parameters)
    
    Nota: ft/it/ot representan las puertas de olvido/actualización/salida, cct representa el valor candidato(c tilde),
          c significa el estado de la celda (memory)
    """

    # Retrieve parameters from "parameters"
    Wf = parameters["Wf"] # forget gate weight
    bf = parameters["bf"]
    Wi = parameters["Wi"] # update gate weight (notice the variable name)
    bi = parameters["bi"] # (notice the variable name)
    Wc = parameters["Wc"] # candidate value weight
    bc = parameters["bc"]
    Wo = parameters["Wo"] # output gate weight
    bo = parameters["bo"]
    Wy = parameters["Wy"] # prediction weight
    by = parameters["by"]
    
    # Retrieve dimensions from shapes of xt and Wy
    n_x, m   = xt.shape
    n_y, n_a = Wy.shape

    ### START CODE HERE ###
    # Concatenate a_prev and xt (≈1 line)
    concat = np.concatenate((a_prev, xt))

    # Compute values for ft, it, cct, c_next, ot, a_next using the formulas given figure (4) (≈6 lines)
    ft     = sigmoid( np.dot( Wf, concat) + bf)  # puerta se olvido
    it     = sigmoid( np.dot( Wi, concat) + bi)  # puerta de actualizacion
    cct    = np.tanh( np.dot( Wc, concat) + bc)  # valores candidato   
    c_next = ft * c_prev + it * cct              # Estdo de memoria siguiente  
    ot     = sigmoid( np.dot(Wo, concat)  + bo)  # puerta de salida
    a_next = ot * np.tanh(c_next)                # Activacion de estado oculto siguiente  
    
    # Compute prediction of the LSTM cell (≈1 line)
    yt_pred = softmax( np.dot(Wy, a_next) + by)  
    ### END CODE HERE ###

    # store values needed for backward propagation in cache
    cache = (a_next, c_next, a_prev, c_prev, ft, it, cct, ot, xt, parameters)

    return a_next, c_next, yt_pred, cache

In [27]:
np.random.seed(1)
xt_tmp = np.random.randn(3, 10)
a_prev_tmp = np.random.randn(5, 10)
c_prev_tmp = np.random.randn(5, 10)
parameters_tmp = {}
parameters_tmp['Wf'] = np.random.randn(5, 5 + 3)
parameters_tmp['bf'] = np.random.randn(5, 1)
parameters_tmp['Wi'] = np.random.randn(5, 5 + 3)
parameters_tmp['bi'] = np.random.randn(5, 1)
parameters_tmp['Wo'] = np.random.randn(5, 5 + 3)
parameters_tmp['bo'] = np.random.randn(5, 1)
parameters_tmp['Wc'] = np.random.randn(5, 5 + 3)
parameters_tmp['bc'] = np.random.randn(5, 1)
parameters_tmp['Wy'] = np.random.randn(2, 5)
parameters_tmp['by'] = np.random.randn(2, 1)

a_next_tmp, c_next_tmp, yt_tmp, cache_tmp = lstm_cell_forward(xt_tmp, a_prev_tmp, c_prev_tmp, parameters_tmp)

print("a_next[4] = \n", a_next_tmp[4])
print("a_next.shape = ", a_next_tmp.shape)
print("c_next[2] = \n", c_next_tmp[2])
print("c_next.shape = ", c_next_tmp.shape)
print("yt[1] =", yt_tmp[1])
print("yt.shape = ", yt_tmp.shape)
print("cache[1][3] =\n", cache_tmp[1][3])
print("len(cache) = ", len(cache_tmp))

# UNIT TEST
lstm_cell_forward_test(lstm_cell_forward)

a_next[4] = 
 [-0.66408471  0.0036921   0.02088357  0.22834167 -0.85575339  0.00138482
  0.76566531  0.34631421 -0.00215674  0.43827275]
a_next.shape =  (5, 10)
c_next[2] = 
 [ 0.63267805  1.00570849  0.35504474  0.20690913 -1.64566718  0.11832942
  0.76449811 -0.0981561  -0.74348425 -0.26810932]
c_next.shape =  (5, 10)
yt[1] = [0.79913913 0.15986619 0.22412122 0.15606108 0.97057211 0.31146381
 0.00943007 0.12666353 0.39380172 0.07828381]
yt.shape =  (2, 10)
cache[1][3] =
 [-0.16263996  1.03729328  0.72938082 -0.54101719  0.02752074 -0.30821874
  0.07651101 -1.03752894  1.41219977 -0.37647422]
len(cache) =  10
[92mAll tests passed


**Expected Output**:

```Python
a_next[4] = 
 [-0.66408471  0.0036921   0.02088357  0.22834167 -0.85575339  0.00138482
  0.76566531  0.34631421 -0.00215674  0.43827275]
a_next.shape =  (5, 10)
c_next[2] = 
 [ 0.63267805  1.00570849  0.35504474  0.20690913 -1.64566718  0.11832942
  0.76449811 -0.0981561  -0.74348425 -0.26810932]
c_next.shape =  (5, 10)
yt[1] = [ 0.79913913  0.15986619  0.22412122  0.15606108  0.97057211  0.31146381
  0.00943007  0.12666353  0.39380172  0.07828381]
yt.shape =  (2, 10)
cache[1][3] =
 [-0.16263996  1.03729328  0.72938082 -0.54101719  0.02752074 -0.30821874
  0.07651101 -1.03752894  1.41219977 -0.37647422]
len(cache) =  10
```

<a name='2-2'></a>
### 2.2 - Forward Pass for LSTM

Now that you have implemented one step of an LSTM, you can iterate this over it using a for loop to process a sequence of $T_x$ inputs. 

<img src="images/LSTM_rnn.png" style="width:500;height:300px;">
<caption><center><font color='purple'><b>Figure 5</b>: LSTM over multiple time steps. </center></caption>

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>
    
Ahora que has implementado un paso de un LSTM, puedes iterar sobre él utilizando un bucle for para procesar una secuencia de entradas $T_x$. Ahora que has implementado un paso de un LSTM, puedes iterar sobre él usando un bucle for para procesar una secuencia de entradas $T_x$.
    
<img src="images/LSTM_rnn.png" style="width:500;height:300px;">
<caption><center><font color='purple'><b>Figure 5</b>: LSTM a lo largo de varios pasos de tiempo. </center></caption>
</details>

<a name='ex-4'></a>    
### Exercise 4 - lstm_forward
    
Implement `lstm_forward()` to run an LSTM over $T_x$ time steps. 

**Instructions**
* Get the dimensions $n_x, n_a, n_y, m, T_x$ from the shape of the variables: `x` and `parameters`
* Initialize the 3D tensors $a$, $c$ and $y$
    - $a$: hidden state, shape $(n_{a}, m, T_{x})$
    - $c$: cell state, shape $(n_{a}, m, T_{x})$
    - $y$: prediction, shape $(n_{y}, m, T_{x})$ (Note that $T_{y} = T_{x}$ in this example)
    - **Note** Setting one variable equal to the other is a "copy by reference".  In other words, don't do `c = a', otherwise both these variables point to the same underlying variable.
* Initialize the 2D tensor $a^{\langle t \rangle}$ 
    - $a^{\langle t \rangle}$ stores the hidden state for time step $t$.  The variable name is `a_next`.
    - $a^{\langle 0 \rangle}$, the initial hidden state at time step 0, is passed in when calling the function. The variable name is `a0`.
    - $a^{\langle t \rangle}$ and $a^{\langle 0 \rangle}$ represent a single time step, so they both have the shape  $(n_{a}, m)$ 
    - Initialize $a^{\langle t \rangle}$ by setting it to the initial hidden state ($a^{\langle 0 \rangle}$) that is passed into the function.
* Initialize $c^{\langle t \rangle}$ with zeros. 
    - The variable name is `c_next`
    - $c^{\langle t \rangle}$ represents a single time step, so its shape is $(n_{a}, m)$
    - **Note**: create `c_next` as its own variable with its own location in memory.  Do not initialize it as a slice of the 3D tensor $c$.  In other words, **don't** do `c_next = c[:,:,0]`.
* For each time step, do the following:
    - From the 3D tensor $x$, get a 2D slice $x^{\langle t \rangle}$ at time step $t$
    - Call the `lstm_cell_forward` function that you defined previously, to get the hidden state, cell state, prediction, and cache
    - Store the hidden state, cell state and prediction (the 2D tensors) inside the 3D tensors
    - Append the cache to the list of caches

<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>

    
Implementar `lstm_forward()` para ejecutar un LSTM sobre $T_x$ pasos de tiempo. 
     
**Instrucciones**
* Obtener las dimensiones $n_x, n_a, n_y, m, T_x$ a partir de la forma de las variables: `x` y `parámetros`.

* Inicializar los tensores 3D $a$, $c$ y $y$
    - $a$: estado oculto, forma $(n_{a}, m, T_{x})$
    - $c$: estado de la celda, forma $(n_{a}, m, T_{x})$
    - $y$: predicción, forma $(n_{y}, m, T_{x})$ (Nótese que $T_{y} = T_{x}$ en este ejemplo)
    - **Nota** Establecer una variable igual a la otra es una "copia por referencia".  En otras palabras, no hagas `c = a', de lo contrario estas dos variables apuntan a la misma variable subyacente.

* Inicializar el tensor 2D $a^{\langle t \rangle}$ 
    - $a^{\langle t \rangle}$ almacena el estado oculto para el paso de tiempo $t$.  El nombre de la variable es `a_next`.
    - $a^{\langle 0 \rangle}$, el estado oculto inicial en el paso de tiempo 0, se pasa al llamar a la función. El nombre de la variable es `a0`..
    - $a^{\langle t \rangle}$ y $a^{\langle 0 \rangle}$ representan un único paso de tiempo, por lo que ambos tienen la forma $(n_{a}, m)$ 
    - IInicializar $a^{\langle t \rangle}$ estableciéndolo en el estado oculto inicial ($a^{\langle 0 \rangle}$) que se pasa a la función.
    
* Inicializa $c^{\langle t \rangle}$ con ceros. 
    - El nombre de la variable es `c_next`
    - $c^{\langle t \rangle}$ representa un solo paso de tiempo, por lo que su forma es $(n_{a}, m)$
    - **Nota**: crea `c_next` como su propia variable con su propia ubicación en la memoria.  No la inicialice como una porción del tensor 3D $c$.  En otras palabras, **no** haga `c_next = c[:,:,0]`.
    
* Para cada paso de tiempo, hacer lo siguiente:
    - A partir del tensor 3D $x$, obtener un corte 2D $x^{\langle t \rangle}$ en el paso de tiempo $t$
    - Llamar a la función `lstm_cell_forward` que se definió anteriormente, para obtener el estado oculto, el estado de la célula, la predicción, y la caché
    - Almacena el estado oculto, el estado de la celda y la predicción (los tensores 2D) dentro de los tensores 3D
    - Añade la caché a la lista de cachés

In [28]:
# UNQ_C4 (UNIQUE CELL IDENTIFIER, DO NOT EDIT)
# GRADED FUNCTION: lstm_forward

def lstm_forward(x, a0, parameters):
    """
    Implement the forward propagation of the recurrent neural network using an LSTM-cell described in Figure (4).

    Arguments:
    x -- Input data for every time-step, of shape (n_x, m, T_x).
    a0 -- Initial hidden state, of shape (n_a, m)
    parameters -- python dictionary containing:
                        Wf -- Weight matrix of the forget gate, numpy array of shape (n_a, n_a + n_x)
                        bf -- Bias of the forget gate, numpy array of shape (n_a, 1)
                        Wi -- Weight matrix of the update gate, numpy array of shape (n_a, n_a + n_x)
                        bi -- Bias of the update gate, numpy array of shape (n_a, 1)
                        Wc -- Weight matrix of the first "tanh", numpy array of shape (n_a, n_a + n_x)
                        bc -- Bias of the first "tanh", numpy array of shape (n_a, 1)
                        Wo -- Weight matrix of the output gate, numpy array of shape (n_a, n_a + n_x)
                        bo -- Bias of the output gate, numpy array of shape (n_a, 1)
                        Wy -- Weight matrix relating the hidden-state to the output, numpy array of shape (n_y, n_a)
                        by -- Bias relating the hidden-state to the output, numpy array of shape (n_y, 1)
                        
    Returns:
    a -- Hidden states for every time-step, numpy array of shape (n_a, m, T_x)
    y -- Predictions for every time-step, numpy array of shape (n_y, m, T_x)
    c -- The value of the cell state, numpy array of shape (n_a, m, T_x)
    caches -- tuple of values needed for the backward pass, contains (list of all the caches, x)
    
    Implementa la propagación hacia delante de la red neuronal recurrente utilizando una célula LSTM descrita en la figura (4).

    Argumentos:
    x -- Datos de entrada para cada paso de tiempo, de forma (n_x, m, T_x).
    a0 -- Estado oculto inicial, de forma (n_a, m)
    parameters -- Diccionario de python que contiene:
            Wf -- Matriz de pesos de la puerta de olvido, matriz numpy de forma (n_a, n_a + n_x)
            bf -- Bias de la puerta de olvido, matriz numpy de forma (n_a, 1)
            Wi -- Matriz de pesos de la puerta de actualización, matriz numpy de forma (n_a, n_a + n_x)
            bi -- Bias de la puerta de actualización, matriz numpy de forma (n_a, 1)
            Wc -- Matriz de pesos del primer "tanh", matriz numpy de forma (n_a, n_a + n_x)
            bc -- Bias del primer "tanh", matriz numpy de forma (n_a, 1)
            Wo -- Matriz de pesos de la puerta de salida, matriz numpy de forma (n_a, n_a + n_x)
            bo -- Bias de la puerta de salida, matriz numpy de forma (n_a, 1)
            Wy -- Matriz de pesos que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, n_a)
            by -- Sesgo que relaciona el estado oculto con la salida, matriz numpy de forma (n_y, 1)
                        
    Devuelve:
    a -- Estados ocultos para cada paso de tiempo, matriz numpy de forma (n_a, m, T_x)
    y -- Predicciones para cada paso de tiempo, matriz numpy de forma (n_y, m, T_x)
    c -- El valor del estado de la celda, matriz numpy de forma (n_a, m, T_x)
    cachés -- tupla de valores necesarios para el pase hacia atrás, contiene (lista de todos los cachés, x)
    """

    # Initialize "caches", which will track the list of all the caches
    caches = []
    
    ### START CODE HERE ###
    Wy = parameters['Wy'] # saving parameters['Wy'] in a local variable in case students use Wy instead of parameters['Wy']
    # Retrieve dimensions from shapes of x and parameters['Wy'] (≈2 lines)
    n_x, m, T_x = x.shape
    n_y, n_a    = Wy.shape
    
    # initialize "a", "c" and "y" with zeros (≈3 lines)
    a = np.zeros((n_a, m, T_x))
    c = np.zeros((n_a, m, T_x))
    y = np.zeros((n_y, m, T_x))
    
    # Initialize a_next and c_next (≈2 lines)
    a_next = a0.copy()
    c_next = np.zeros((n_a, m))
    
    # loop over all time-steps
    for t in range(T_x):
        # Get the 2D slice 'xt' from the 3D input 'x' at time step 't'
        xt = x[:,:,t]
        # Update next hidden state, next memory state, compute the prediction, get the cache (≈1 line)
        a_next, c_next, yt, cache = lstm_cell_forward(xt, a_next, c_next, parameters)
        # Save the value of the new "next" hidden state in a (≈1 line)
        a[:,:,t]  = a_next
        # Save the value of the next cell state (≈1 line)
        c[:,:,t]  = c_next
        # Save the value of the prediction in y (≈1 line)
        y[:,:,t]  = yt
        # Append the cache into caches (≈1 line)
        caches.append(cache)
        
    ### END CODE HERE ###
    
    # store values needed for backward propagation in cache
    caches = (caches, x)

    return a, y, c, caches

In [29]:
np.random.seed(1)
x_tmp = np.random.randn(3, 10, 7)
a0_tmp = np.random.randn(5, 10)
parameters_tmp = {}
parameters_tmp['Wf'] = np.random.randn(5, 5 + 3)
parameters_tmp['bf'] = np.random.randn(5, 1)
parameters_tmp['Wi'] = np.random.randn(5, 5 + 3)
parameters_tmp['bi'] = np.random.randn(5, 1)
parameters_tmp['Wo'] = np.random.randn(5, 5 + 3)
parameters_tmp['bo'] = np.random.randn(5, 1)
parameters_tmp['Wc'] = np.random.randn(5, 5 + 3)
parameters_tmp['bc'] = np.random.randn(5, 1)
parameters_tmp['Wy'] = np.random.randn(2, 5)
parameters_tmp['by'] = np.random.randn(2, 1)

a_tmp, y_tmp, c_tmp, caches_tmp = lstm_forward(x_tmp, a0_tmp, parameters_tmp)
print("a[4][3][6] = ", a_tmp[4][3][6])
print("a.shape = ", a_tmp.shape)
print("y[1][4][3] =", y_tmp[1][4][3])
print("y.shape = ", y_tmp.shape)
print("caches[1][1][1] =\n", caches_tmp[1][1][1])
print("c[1][2][1]", c_tmp[1][2][1])
print("len(caches) = ", len(caches_tmp))

# UNIT TEST    
lstm_forward_test(lstm_forward)

a[4][3][6] =  0.17211776753291672
a.shape =  (5, 10, 7)
y[1][4][3] = 0.9508734618501101
y.shape =  (2, 10, 7)
caches[1][1][1] =
 [ 0.82797464  0.23009474  0.76201118 -0.22232814 -0.20075807  0.18656139
  0.41005165]
c[1][2][1] -0.8555449167181981
len(caches) =  2
[92mAll tests passed


**Expected Output**:

```Python
a[4][3][6] =  0.172117767533
a.shape =  (5, 10, 7)
y[1][4][3] = 0.95087346185
y.shape =  (2, 10, 7)
caches[1][1][1] =
 [ 0.82797464  0.23009474  0.76201118 -0.22232814 -0.20075807  0.18656139
  0.41005165]
c[1][2][1] -0.855544916718
len(caches) =  2
```

### Congratulations! 

You have now implemented the forward passes for both the basic RNN and the LSTM. When using a deep learning framework, implementing the forward pass is sufficient to build systems that achieve great performance. The framework will take care of the rest. 

<font color='blue'><b>What you should remember</b>:
 
* An LSTM is similar to an RNN in that they both use hidden states to pass along information, but an LSTM also uses a cell state, which is like a long-term memory, to help deal with the issue of vanishing gradients
* An LSTM cell consists of a cell state, or long-term memory, a hidden state, or short-term memory, along with 3 gates that constantly update the relevancy of its inputs:
    * A <b>forget</b> gate, which decides which input units should be remembered and passed along. It's a tensor with values between 0 and 1. 
        * If a unit has a value close to 0, the LSTM will "forget" the stored state in the previous cell state.
        * If it has a value close to 1, the LSTM will mostly remember the corresponding value.
    * An <b>update</b> gate, again a tensor containing values between 0 and 1. It decides on what information to throw away, and what new information to add.
        * When a unit in the update gate is close to 1, the value of its candidate is passed on to the hidden state.
        * When a unit in the update gate is close to 0, it's prevented from being passed onto the hidden state.
    * And an <b>output</b> gate, which decides what gets sent as the output of the time step
</font> 

Let's recap all you've accomplished so far. You have: 

* Used notation for building sequence models
* Become familiar with the architecture of a basic RNN and an LSTM, and can describe their components

The rest of this notebook is optional, and will not be graded, but as always, you are encouraged to push your own understanding! Good luck and have fun. 


<br><details><summary><font size="2" color="green"><b>Traduccion en español</b></font></summary>


Ahora has implementado los pases hacia adelante tanto para la RNN básica como para la LSTM. Cuando se utiliza un marco de aprendizaje profundo, la implementación del pase hacia adelante es suficiente para construir sistemas que logren un gran rendimiento. El marco de trabajo se encargará del resto.

<font color='blue'><b>PARA RECORDAR</b>:
    
- Una LSTM es similar a una RNN en el sentido de que ambas utilizan estados ocultos para transmitir información, pero una LSTM también utiliza un estado de celda, que es como una memoria a largo plazo, para ayudar a resolver el problema de los gradientes que desaparecen
    
- Una celda LSTM consta de un estado celular, o memoria a largo plazo, un estado oculto, o memoria a corto plazo, junto con 3 puertas que actualizan constantemente la relevancia de sus entradas:
    - Una **puerta de olvido** , que decide qué unidades de entrada deben ser recordadas y pasadas. Es un tensor con valores entre 0 y 1. 
        * Si una unidad tiene un valor cercano a 0, el LSTM "olvidará" el estado almacenado en la celda anterior.
        * Si tiene un valor cercano a 1, el LSTM recordará mayoritariamente el valor correspondiente.  
    - Una **puerta de actualización** , de nuevo un tensor que contiene valores entre 0 y 1. Decide qué información tirar y qué información nueva añadir.
        * Cuando una unidad en la puerta de actualización está cerca de 1, el valor de su candidato se pasa al estado oculto.
        * Cuando una unidad en la puerta de actualización está cerca de 0, se impide que pase al estado oculto.  
    - Y una **puerta de salida**, que decide lo que se envía como salida del paso de tiempo en cada paso de tiempo.


<a name='3'></a>    
## 3 - Backpropagation in Recurrent Neural Networks (OPTIONAL / UNGRADED)

En los marcos modernos de aprendizaje profundo, sólo tienes que implementar el pase hacia adelante, y el marco se encarga del pase hacia atrás, por lo que la mayoría de los ingenieros de aprendizaje profundo no necesitan molestarse con los detalles del pase hacia atrás. Sin embargo, si eres un experto en cálculo (o simplemente tienes curiosidad) y quieres ver los detalles del backprop en las RNN, puedes trabajar en esta parte opcional del cuaderno. 

Cuando en un [curso] anterior (https://www.coursera.org/learn/neural-networks-deep-learning/lecture/0VSHe/derivatives-with-a-computation-graph) implementaste una red neuronal simple (totalmente conectada), utilizaste la retropropagación para calcular las derivadas con respecto al coste para actualizar los parámetros. De forma similar, en las redes neuronales recurrentes puedes calcular las derivadas con respecto al coste para actualizar los parámetros. Las ecuaciones de backprop son bastante complicadas, por lo que no se derivan en la clase. Sin embargo, se presentan brevemente para su visualización a continuación.

Nótese que este cuaderno no implementa el camino hacia atrás desde la Pérdida 'J' hacia 'a'. Esto habría incluido la capa densa y el softmax, que son una parte del camino hacia adelante. Se asume que esto se calcula en otra parte y el resultado se pasa a `rnn_backward` en 'da'. Se asume además que la pérdida se ha ajustado para el tamaño del lote (m) y la división por el número de ejemplos no es necesaria aquí.

Esta sección es opcional y no se califica, porque es más difícil y tiene menos detalles en cuanto a su implementación. Ten en cuenta que esta sección sólo implementa elementos clave de la ruta completa. 

Adelante, valiente: 

<a name='3-1'></a>    
### 3.1 - Basic RNN  Backward Pass

Comience por calcular el paso hacia atrás para la celda básica de la RNN. Luego, en las siguientes secciones, iterar a través de las células.
    
<img src="images/rnn_backward_overview_3a_1.png" style="width:500;height:300px;"> <br>
<caption><center><font color='purple'><b>Figure 6</b>: El paso hacia atrás de la célula RNN. Al igual que en una red neuronal totalmente conectada, la derivada de la función de coste $J$ se propaga hacia atrás a través de los pasos de tiempo de la RNN siguiendo la regla de la cadena del cálculo. Dentro de la célula, la regla de la cadena también se utiliza para calcular $(\frac{\partial J}{\partial W_{ax}},\frac{\partial J}{\partial W_{aa}},\frac{\partial J}{\partial b})$ para actualizar los parámetros $(W_{ax}, W_{aa}, b_a)$. La operación puede utilizar los resultados almacenados en caché de la ruta de avance. </center></caption>

Recordemos de la clase que la abreviatura de la derivada parcial del costo con respecto a una variable es `dVariable`. Por ejemplo, $\frac{\partial J}{\partial W_{ax}}$ es $dW_{ax}$. Esto se utilizará a lo largo de las secciones restantes.


<img src="images/rnn_cell_backward_3a_c.png" style="width:800;height:500px;"> <br>
<caption><center><font color='purple'><b>Figure 7</b>: Esta implementación de `rnn_cell_backward` **no incluye** la capa densa de salida y el softmax que están incluidos en `rnn_cell_forward`.  

$da_{next}$ is $\frac{\partial{J}}{\partial a^{\langle t \rangle}}$ y incluye la pérdida de las etapas anteriores y la lógica de salida de la etapa actual. La adición mostrada en verde será parte de su implementación de `rnn_backward`.  </center></caption>

##### Equations
Para calcular `rnn_cell_backward`, puede utilizar las siguientes ecuaciones. Es un buen ejercicio derivarlas a mano. Aquí, $*$ denota la multiplicación por elementos, mientras que la ausencia de un símbolo indica la multiplicación matricial.

\begin{align}
\displaystyle a^{\langle t \rangle} &= \tanh(W_{ax} x^{\langle t \rangle} + W_{aa} a^{\langle t-1 \rangle} + b_{a})\tag{-} \\[8pt]
\displaystyle \frac{\partial \tanh(x)} {\partial x} &= 1 - \tanh^2(x) \tag{-} \\[8pt]
\displaystyle {dtanh} &= da_{next} * ( 1 - \tanh^2(W_{ax}x^{\langle t \rangle}+W_{aa} a^{\langle t-1 \rangle} + b_{a})) \tag{0} \\[8pt]
\displaystyle  {dW_{ax}} &= dtanh \cdot x^{\langle t \rangle T}\tag{1} \\[8pt]
\displaystyle dW_{aa} &= dtanh \cdot a^{\langle t-1 \rangle T}\tag{2} \\[8pt]
\displaystyle db_a& = \sum_{batch}dtanh\tag{3} \\[8pt]
\displaystyle dx^{\langle t \rangle} &= { W_{ax}}^T \cdot dtanh\tag{4} \\[8pt]
\displaystyle da_{prev} &= { W_{aa}}^T \cdot dtanh\tag{5}
\end{align}



<a name='ex-5'></a>
### Exercise 5 - rnn_cell_backward

Implementing `rnn_cell_backward`.

Los resultados pueden calcularse directamente aplicando las ecuaciones anteriores. Sin embargo, tienes la opción de simplificarlos calculando 'dz' y utilizando la regla de la cadena.

Esto puede simplificarse aún más si se observa que $\tanh(W_{ax}x^{\langle t \rangle}+W_{aa} a^{\langle t-1 \rangle} + b_{a})$ se calculó y guardó como `a_next` en el pase de avance.

Para calcular `dba`, el `lote` anterior es una suma a través de todos los ejemplos `m` (eje= 1). Tenga en cuenta que debe utilizar la opción `keepdims = True`.

Puede valer la pena repasar el curso 1 [Derivadas con un gráfico de cálculo](https://www.coursera.org/learn/neural-networks-deep-learning/lecture/0VSHe/derivatives-with-a-computation-graph) hasta [Intuición de retropropagación](https://www.coursera.org/learn/neural-networks-deep-learning/lecture/6dDj7/backpropagation-intuition-optional), que descomponen el cálculo en pasos utilizando la regla de la cadena.  
Las derivadas vectoriales matriciales se describen [aquí](http://cs231n.stanford.edu/vecDerivs.pdf), aunque las ecuaciones anteriores incorporan las transformaciones necesarias.

**Nota**: `rnn_cell_backward` no **incluye** el cálculo de la pérdida de $y \langle t \rangle$. Esto se incorpora en la entrada `da_next`. Esto es un ligero desajuste con `rnn_cell_forward`, que incluye una capa densa y softmax. 

**Note on the code**: 
  
$\displaystyle dx^{\langle t \rangle}$ es representado por dxt,   
$\displaystyle d W_{ax}$ es representado por dWax,   
$\displaystyle da_{prev}$ es representado por da_prev,    
$\displaystyle dW_{aa}$ es representado por dWaa,   
$\displaystyle db_{a}$ es representado por dba,   
`dz` no se deriva arriba, pero puede ser derivado opcionalmente por los estudiantes para simplificar los cálculos repetidos.



In [30]:
# UNGRADED FUNCTION: rnn_cell_backward

def rnn_cell_backward(da_next, cache):
    """
    Implementa el pase hacia atrás para la célula RNN (un solo paso de tiempo).

    Argumentos:
    da_next -- Gradiente de pérdida con respecto al siguiente estado oculto.
    cache -- diccionario python que contiene valores útiles (salida de rnn_cell_forward())

    Devuelve:
    gradientes -- diccionario de python que contiene:
                        dx -- Gradientes de los datos de entrada, de forma (n_x, m)
                        da_prev -- Gradientes del estado oculto anterior, de forma (n_a, m)
                        dWax -- Gradientes de los pesos de entrada a la ocultación, de forma (n_a, n_x)
                        dWaa -- Gradientes de los pesos ocultos, de forma (n_a, n_a)
                        dba -- Gradientes del vector de sesgo, de forma (n_a, 1)
    """
    
    # Retrieve values from cache
    (a_next, a_prev, xt, parameters) = cache
    
    # Retrieve values from parameters
    Wax = parameters["Wax"]
    Waa = parameters["Waa"]
    Wya = parameters["Wya"]
    ba  = parameters["ba"]
    by  = parameters["by"]

    ### START CODE HERE ###
    # compute the gradient of dtanh term using a_next and da_next (≈1 line)
    dtanh = (1 - a_next ** 2) * da_next

    # compute the gradient of the loss with respect to Wax (≈2 lines)
    dxt = np.dot(Wax.T, dtanh) 
    dWax = np.dot(dtanh, xt.T)

    # compute the gradient with respect to Waa (≈2 lines)
    da_prev = np.dot(Waa.T, dtanh)
    dWaa    = np.dot(dtanh, a_prev.T)

    # compute the gradient with respect to b (≈1 line)
    dba = np.sum(dtanh, axis = 1,keepdims=1)

    ### END CODE HERE ###

    # Store the gradients in a python dictionary
    gradients = {"dxt": dxt, "da_prev": da_prev, "dWax": dWax, "dWaa": dWaa, "dba": dba}
    
    return gradients

In [31]:
np.random.seed(1)
xt_tmp = np.random.randn(3,10)
a_prev_tmp = np.random.randn(5,10)
parameters_tmp = {}
parameters_tmp['Wax'] = np.random.randn(5,3)
parameters_tmp['Waa'] = np.random.randn(5,5)
parameters_tmp['Wya'] = np.random.randn(2,5)
parameters_tmp['ba'] = np.random.randn(5,1)
parameters_tmp['by'] = np.random.randn(2,1)

a_next_tmp, yt_tmp, cache_tmp = rnn_cell_forward(xt_tmp, a_prev_tmp, parameters_tmp)

da_next_tmp = np.random.randn(5,10)
gradients_tmp = rnn_cell_backward(da_next_tmp, cache_tmp)
print("gradients[\"dxt\"][1][2] =", gradients_tmp["dxt"][1][2])
print("gradients[\"dxt\"].shape =", gradients_tmp["dxt"].shape)
print("gradients[\"da_prev\"][2][3] =", gradients_tmp["da_prev"][2][3])
print("gradients[\"da_prev\"].shape =", gradients_tmp["da_prev"].shape)
print("gradients[\"dWax\"][3][1] =", gradients_tmp["dWax"][3][1])
print("gradients[\"dWax\"].shape =", gradients_tmp["dWax"].shape)
print("gradients[\"dWaa\"][1][2] =", gradients_tmp["dWaa"][1][2])
print("gradients[\"dWaa\"].shape =", gradients_tmp["dWaa"].shape)
print("gradients[\"dba\"][4] =", gradients_tmp["dba"][4])
print("gradients[\"dba\"].shape =", gradients_tmp["dba"].shape)

gradients["dxt"][1][2] = -1.3872130506020925
gradients["dxt"].shape = (3, 10)
gradients["da_prev"][2][3] = -0.15239949377395495
gradients["da_prev"].shape = (5, 10)
gradients["dWax"][3][1] = 0.4107728249354584
gradients["dWax"].shape = (5, 3)
gradients["dWaa"][1][2] = 1.1503450668497135
gradients["dWaa"].shape = (5, 5)
gradients["dba"][4] = [0.20023491]
gradients["dba"].shape = (5, 1)


**Expected Output**:

<table>
    <tr>
        <td>
            <b>gradients["dxt"][1][2]</b> =
        </td>
        <td>
           -1.3872130506
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dxt"].shape</b> =
        </td>
        <td>
           (3, 10)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da_prev"][2][3]</b> =
        </td>
        <td>
           -0.152399493774
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da_prev"].shape</b> =
        </td>
        <td>
           (5, 10)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWax"][3][1]</b> =
        </td>
        <td>
           0.410772824935
        </td>
    </tr>
            <tr>
        <td>
            <b>gradients["dWax"].shape</b> =
        </td>
        <td>
           (5, 3)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWaa"][1][2]</b> = 
        </td>
        <td>
           1.15034506685
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWaa"].shape</b> =
        </td>
        <td>
           (5, 5)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dba"][4]</b> = 
        </td>
        <td>
           [ 0.20023491]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dba"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
</table>

<a name='ex-6'></a>
### Exercise 6 - rnn_backward

El cálculo de los gradientes del coste con respecto a $a^{\langle t \rangle}$ en cada paso de tiempo $t$ es útil porque es lo que ayuda a que el gradiente se retropropague a la célula RNN anterior. Para ello, es necesario iterar a través de todos los pasos de tiempo comenzando por el final, y en cada paso, se incrementa el global $db_a$, $dW_{aa}$, $dW_{ax}$ y se almacena $dx$.

**Instrucciones:**

Implementar la función `rnn_backward`. Inicialice las variables de retorno con ceros primero, y luego haga un bucle a través de todos los pasos de tiempo mientras llama a `rnn_cell_backward` en cada paso de tiempo, actualizando las otras variables en consecuencia.

* Nótese que este cuaderno no implementa el camino hacia atrás desde la Pérdida 'J' hacia atrás hasta 'a'. 
    * Esto habría incluido la capa densa y el softmax que son una parte de la ruta hacia adelante. 
    * Se supone que esto se calcula en otra parte y el resultado se pasa a `rnn_backward` en 'da'. 
    * Hay que combinar esto con la pérdida de las etapas anteriores cuando se llama a `rnn_cell_backward` (ver figura 7 arriba).
* Se supone además que la pérdida se ha ajustado al tamaño del lote (m).
    * Por lo tanto, la división por el número de ejemplos no es necesaria aquí.

In [32]:
# UNGRADED FUNCTION: rnn_backward

def rnn_backward(da, caches):
    """
    Implement the backward pass for a RNN over an entire sequence of input data.

    Arguments:
    da -- Upstream gradients of all hidden states, of shape (n_a, m, T_x)
    caches -- tuple containing information from the forward pass (rnn_forward)
    
    Returns:
    gradients -- python dictionary containing:
                        dx -- Gradient w.r.t. the input data, numpy-array of shape (n_x, m, T_x)
                        da0 -- Gradient w.r.t the initial hidden state, numpy-array of shape (n_a, m)
                        dWax -- Gradient w.r.t the input's weight matrix, numpy-array of shape (n_a, n_x)
                        dWaa -- Gradient w.r.t the hidden state's weight matrix, numpy-arrayof shape (n_a, n_a)
                        dba -- Gradient w.r.t the bias, of shape (n_a, 1)
                        
    Implementa el pase hacia atrás para una RNN sobre una secuencia completa de datos de entrada.

    Argumentos:
    da -- gradientes ascendentes de todos los estados ocultos, de forma (n_a, m, T_x)
    caches -- tupla que contiene información del pase hacia adelante (rnn_forward)
    
    Devuelve
    gradientes -- diccionario python que contiene:
                        dx -- Gradiente con respecto a los datos de entrada, matriz numpy de forma (n_x, m, T_x)
                        da0 -- Gradiente con respecto al estado oculto inicial, matriz numpy de forma (n_a, m)
                        dWax -- Gradiente respecto a la matriz de pesos de entrada, matriz numpy de forma (n_a, n_x)
                        dWaa -- Gradiente respecto a la matriz de pesos del estado oculto, matriz numpy de shape (n_a, n_a)
                        dba -- Gradiente respecto al sesgo, de forma (n_a, 1)
    """
        
    ### START CODE HERE ###
    
    # Recupera los valores de la primera caché (t=1) de las cachés (≈2 líneas)
    (caches, x) = caches
    (a1, a0, x1, parameters) = caches[0]
    
    # Recuperar las dimensiones de las formas de da y x1 (≈2 líneas)
    n_a, m, T_x = da.shape
    n_x, m      = x1.shape 
    
    # inicializar los gradientes con los tamaños adecuados (≈6 líneas)
    dx       = np.zeros((n_x , m , T_x))
    dWax     = np.zeros((n_a , n_x))
    dWaa     = np.zeros((n_a , n_a))
    dba      = np.zeros((n_a , 1))
    da0      = np.zeros((n_a , m))
    da_prevt = np.zeros((n_a , m))
    
    # Recorrer todos los pasos de tiempo
    for t in reversed(range(T_x)):
        # Computar los gradientes en el paso de tiempo t. 
        # Elegir sabiamente el "da_next" y el "cache" a utilizar en el paso de propagación hacia atrás. (≈1 línea)
        gradients = rnn_cell_backward( da[:,:,t] + da_prevt, caches[t])
        # Recuperar las derivadas de los gradientes (≈ 1 línea)
        dxt      = gradients["dxt"]
        da_prevt = gradients["da_prev"]
        dWaxt    = gradients["dWax"] 
        dWaat    = gradients["dWaa"] 
        dbat     = gradients["dba"]
        # Incrementa las derivadas globales respecto a los parámetros añadiendo su derivada en el paso de tiempo t (≈4 líneas)
        dx[:, :, t] = dxt  
        dWax       += dWaxt
        dWaa       += dWaat
        dba        += dbat  
        
    # Establece da0 al gradiente de a que ha sido retropropagado a través de todos los pasos de tiempo (línea ≈1) 
    da0 = da_prevt
    ### END CODE HERE ###

    # Store the gradients in a python dictionary
    gradients = {"dx": dx, "da0": da0, "dWax": dWax, "dWaa": dWaa,"dba": dba}
    
    return gradients

In [33]:
np.random.seed(1)
x_tmp = np.random.randn(3,10,4)
a0_tmp = np.random.randn(5,10)
parameters_tmp = {}
parameters_tmp['Wax'] = np.random.randn(5,3)
parameters_tmp['Waa'] = np.random.randn(5,5)
parameters_tmp['Wya'] = np.random.randn(2,5)
parameters_tmp['ba'] = np.random.randn(5,1)
parameters_tmp['by'] = np.random.randn(2,1)

a_tmp, y_tmp, caches_tmp = rnn_forward(x_tmp, a0_tmp, parameters_tmp)
da_tmp = np.random.randn(5, 10, 4)
gradients_tmp = rnn_backward(da_tmp, caches_tmp)

print("gradients[\"dx\"][1][2] =", gradients_tmp["dx"][1][2])
print("gradients[\"dx\"].shape =", gradients_tmp["dx"].shape)
print("gradients[\"da0\"][2][3] =", gradients_tmp["da0"][2][3])
print("gradients[\"da0\"].shape =", gradients_tmp["da0"].shape)
print("gradients[\"dWax\"][3][1] =", gradients_tmp["dWax"][3][1])
print("gradients[\"dWax\"].shape =", gradients_tmp["dWax"].shape)
print("gradients[\"dWaa\"][1][2] =", gradients_tmp["dWaa"][1][2])
print("gradients[\"dWaa\"].shape =", gradients_tmp["dWaa"].shape)
print("gradients[\"dba\"][4] =", gradients_tmp["dba"][4])
print("gradients[\"dba\"].shape =", gradients_tmp["dba"].shape)

gradients["dx"][1][2] = [-2.07101689 -0.59255627  0.02466855  0.01483317]
gradients["dx"].shape = (3, 10, 4)
gradients["da0"][2][3] = -0.31494237512664996
gradients["da0"].shape = (5, 10)
gradients["dWax"][3][1] = 11.264104496527777
gradients["dWax"].shape = (5, 3)
gradients["dWaa"][1][2] = 2.303333126579893
gradients["dWaa"].shape = (5, 5)
gradients["dba"][4] = [-0.74747722]
gradients["dba"].shape = (5, 1)


**Expected Output**:

<table>
    <tr>
        <td>
            <b>gradients["dx"][1][2]</b> =
        </td>
        <td>
           [-2.07101689 -0.59255627  0.02466855  0.01483317]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dx"].shape</b> =
        </td>
        <td>
           (3, 10, 4)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da0"][2][3]</b> =
        </td>
        <td>
           -0.314942375127
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da0"].shape</b> =
        </td>
        <td>
           (5, 10)
        </td>
    </tr>
         <tr>
        <td>
            <b>gradients["dWax"][3][1]</b> =
        </td>
        <td>
           11.2641044965
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWax"].shape</b> =
        </td>
        <td>
           (5, 3)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWaa"][1][2]</b> = 
        </td>
        <td>
           2.30333312658
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWaa"].shape</b> =
        </td>
        <td>
           (5, 5)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dba"][4]</b> = 
        </td>
        <td>
           [-0.74747722]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dba"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
</table>

<a name='3-2'></a>
### 3.2 - LSTM Backward Pass

#### 1. One Step Backward
El pase hacia atrás de LSTM es ligeramente más complicado que el pase hacia delante.

<img src="images/LSTM_cell_backward_rev3a_c2.png" style="width:500;height:400px;"> <br>
<caption><center><font color='purple'><b>Figure 8</b>: Celda LSTM hacia atrás. Tenga en cuenta que las funciones de salida, aunque forman parte de `lstm_cell_forward`, no se incluyen en `lstm_cell_backward`. </center></caption>

A continuación se presentan las ecuaciones para el paso hacia atrás del LSTM. (Si te gustan los ejercicios de cálculo, no dudes en intentar derivarlas tú mismo).

#### 2. Gate Derivatives
Nótese la ubicación de las derivadas de la puerta ($\Gamma$..) entre la capa densa y la función de activación (ver gráfico anterior). Esto es conveniente para calcular las derivadas de los parámetros en el siguiente paso.   

\begin{align}
d\gamma_o^{\langle t \rangle} &= da_{next}*\tanh(c_{next}) * \Gamma_o^{\langle t \rangle}*\left(1-\Gamma_o^{\langle t \rangle}\right)\tag{7} \\[8pt]
dp\widetilde{c}^{\langle t \rangle} &= \left(dc_{next}*\Gamma_u^{\langle t \rangle}+ \Gamma_o^{\langle t \rangle}* (1-\tanh^2(c_{next})) * \Gamma_u^{\langle t \rangle} * da_{next} \right) * \left(1-\left(\widetilde c^{\langle t \rangle}\right)^2\right) \tag{8} \\[8pt]
d\gamma_u^{\langle t \rangle} &= \left(dc_{next}*\widetilde{c}^{\langle t \rangle} + \Gamma_o^{\langle t \rangle}* (1-\tanh^2(c_{next})) * \widetilde{c}^{\langle t \rangle} * da_{next}\right)*\Gamma_u^{\langle t \rangle}*\left(1-\Gamma_u^{\langle t \rangle}\right)\tag{9} \\[8pt]
d\gamma_f^{\langle t \rangle} &= \left(dc_{next}* c_{prev} + \Gamma_o^{\langle t \rangle} * (1-\tanh^2(c_{next})) * c_{prev} * da_{next}\right)*\Gamma_f^{\langle t \rangle}*\left(1-\Gamma_f^{\langle t \rangle}\right)\tag{10}
\end{align}

#### 3. Parameter Derivatives 

$ dW_f = d\gamma_f^{\langle t \rangle} \begin{bmatrix} a_{prev} \\ x_t\end{bmatrix}^T \tag{11} $
$ dW_u = d\gamma_u^{\langle t \rangle} \begin{bmatrix} a_{prev} \\ x_t\end{bmatrix}^T \tag{12} $
$ dW_c = dp\widetilde c^{\langle t \rangle} \begin{bmatrix} a_{prev} \\ x_t\end{bmatrix}^T \tag{13} $
$ dW_o = d\gamma_o^{\langle t \rangle} \begin{bmatrix} a_{prev} \\ x_t\end{bmatrix}^T \tag{14}$

Para calcular $db_f, db_u, db_c, db_o$ sólo hay que sumar todos los ejemplos 'm' (eje= 1) en $d\gamma_f^{\langle t \rangle}, d\gamma_u^{\langle t \rangle}, dp\widetilde c^{\langle t \rangle}, d\gamma_o^{\langle t \rangle}$ respectivamente. Tenga en cuenta que debe tener la opción `keepdims = True`.

$\displaystyle db_f = \sum_{batch}d\gamma_f^{\langle t \rangle}\tag{15}$
$\displaystyle db_u = \sum_{batch}d\gamma_u^{\langle t \rangle}\tag{16}$
$\displaystyle db_c = \sum_{batch}d\gamma_c^{\langle t \rangle}\tag{17}$
$\displaystyle db_o = \sum_{batch}d\gamma_o^{\langle t \rangle}\tag{18}$

Por último, calculará la derivada con respecto al estado oculto anterior, el estado de memoria anterior y la entrada.

$ da_{prev} = W_f^T d\gamma_f^{\langle t \rangle} + W_u^T   d\gamma_u^{\langle t \rangle}+ W_c^T dp\widetilde c^{\langle t \rangle} + W_o^T d\gamma_o^{\langle t \rangle} \tag{19}$

Aquí, para tener en cuenta la concatenación, los pesos de las ecuaciones 19 son los primeros n_a, (es decir, $W_f = W_f[:,:n_a]$ etc...)

$ dc_{prev} = dc_{next}*\Gamma_f^{\langle t \rangle} + \Gamma_o^{\langle t \rangle} * (1- \tanh^2(c_{next}))*\Gamma_f^{\langle t \rangle}*da_{next} \tag{20}$

$ dx^{\langle t \rangle} = W_f^T d\gamma_f^{\langle t \rangle} + W_u^T  d\gamma_u^{\langle t \rangle}+ W_c^T dp\widetilde c^{\langle t \rangle} + W_o^T d\gamma_o^{\langle t \rangle}\tag{21} $

donde los pesos de la ecuación 21 son desde n_a hasta el final, (es decir, $W_f = W_f[:,n_a:]$ etc...)

<a name='ex-7'></a>
### Exercise 7 - lstm_cell_backward

Implement `lstm_cell_backward` by implementing equations $7-21$ below. 
  
    
**Note**: 

In the code:

$d\gamma_o^{\langle t \rangle}$ es representado por  `dot`,    
$dp\widetilde{c}^{\langle t \rangle}$ ies representado por  `dcct`,  
$d\gamma_u^{\langle t \rangle}$ es representado por  `dit`,  
$d\gamma_f^{\langle t \rangle}$ es representado por  `dft`

In [38]:
# UNGRADED FUNCTION: lstm_cell_backward

def lstm_cell_backward(da_next, dc_next, cache):
    """
    Implement the backward pass for the LSTM-cell (single time-step).

    Arguments:
    da_next -- Gradients of next hidden state, of shape (n_a, m)
    dc_next -- Gradients of next cell state, of shape (n_a, m)
    cache -- cache storing information from the forward pass

    Returns:
    gradients -- python dictionary containing:
                        dxt -- Gradient of input data at time-step t, of shape (n_x, m)
                        da_prev -- Gradient w.r.t. the previous hidden state, numpy array of shape (n_a, m)
                        dc_prev -- Gradient w.r.t. the previous memory state, of shape (n_a, m, T_x)
                        dWf -- Gradient w.r.t. the weight matrix of the forget gate, numpy array of shape (n_a, n_a + n_x)
                        dWi -- Gradient w.r.t. the weight matrix of the update gate, numpy array of shape (n_a, n_a + n_x)
                        dWc -- Gradient w.r.t. the weight matrix of the memory gate, numpy array of shape (n_a, n_a + n_x)
                        dWo -- Gradient w.r.t. the weight matrix of the output gate, numpy array of shape (n_a, n_a + n_x)
                        dbf -- Gradient w.r.t. biases of the forget gate, of shape (n_a, 1)
                        dbi -- Gradient w.r.t. biases of the update gate, of shape (n_a, 1)
                        dbc -- Gradient w.r.t. biases of the memory gate, of shape (n_a, 1)
                        dbo -- Gradient w.r.t. biases of the output gate, of shape (n_a, 1)
    Implementa el pase hacia atrás para la célula LSTM (un solo paso de tiempo).

    Argumentos:
    da_next -- Gradientes del siguiente estado oculto, de forma (n_a, m)
    dc_next -- Gradientes del siguiente estado de la celda, de forma (n_a, m)
    cache -- caché que almacena la información del pase anterior

    Devuelve:
    gradientes -- diccionario python que contiene:
                        dxt -- Gradiente de los datos de entrada en el paso de tiempo t, de forma (n_x, m)
                        da_prev -- Gradiente con respecto al estado oculto anterior, matriz numpy de forma (n_a, m)
                        dc_prev -- Gradiente respecto al estado anterior de la memoria, de forma (n_a, m, T_x)
                        dWf -- Gradiente respecto a la matriz de pesos de la puerta de olvido, matriz numpy de forma (n_a, n_a + n_x)
                        dWi -- Gradiente respecto a la matriz de pesos de la puerta de actualización, matriz numpy de forma (n_a, n_a + n_x)
                        dWc -- Gradiente respecto a la matriz de pesos de la puerta de memoria, matriz numpy de forma (n_a, n_a + n_x)
                        dWo -- Gradiente respecto a la matriz de pesos de la puerta de salida, matriz numpy de forma (n_a, n_a + n_x)
                        dbf -- Gradiente respecto a los sesgos de la puerta de olvido, de forma (n_a, 1)
                        dbi -- Gradiente con respecto a los sesgos de la puerta de actualización, de forma (n_a, 1)
                        dbc -- Gradiente en función de los sesgos de la puerta de memoria, de forma (n_a, 1)
                        dbo -- Gradiente en función de los sesgos de la puerta de salida, de forma (n_a, 1)
    """

    # Retrieve information from "cache"
    (a_next, c_next, a_prev, c_prev, ft, it, cct, ot, xt, parameters) = cache
    
    ### START CODE HERE ###
    # Retrieve dimensions from xt's and a_next's shape (≈2 lines)
    n_x, m = xt.shape
    n_a, m = a_next.shape
    
    # Compute gates related derivatives. Their values can be found by looking carefully at equations (7) to (10) (≈4 lines)
    dot  = da_next * np.tanh(c_next) * ot * (1 - ot)
    dcct = ( dc_next * it + ot     * (1 - np.square( np.tanh( c_next ))) * it     * da_next) * (1 - cct ** 2)
    dit  = ( dc_next * cct + ot    * (1 - np.square( np.tanh( c_next ))) * cct    * da_next) * it * (1 - it)
    dft  = ( dc_next * c_prev + ot * (1 - np.square( np.tanh( c_next ))) * c_prev * da_next) * ft * (1 - ft)
    
    # Compute parameters related derivatives. Use equations (11)-(18) (≈8 lines)
    dWf = np.dot(dft  , np.concatenate((a_prev, xt)).T)
    dWi = np.dot(dit  , np.concatenate((a_prev, xt)).T)
    dWc = np.dot(dcct , np.concatenate((a_prev, xt)).T)
    dWo = np.dot(dot  , np.concatenate((a_prev, xt)).T)
    dbf = np.sum(dft  , axis = 1, keepdims = True)
    dbi = np.sum(dit  , axis = 1, keepdims = True)
    dbc = np.sum(dcct , axis = 1, keepdims = True)
    dbo = np.sum(dot  , axis = 1, keepdims = True)

    # Compute derivatives w.r.t previous hidden state, previous memory state and input. Use equations (19)-(21). (≈3 lines)
    da_prev = np.dot( parameters['Wf'][:, :n_a].T , dft )  + \
              np.dot( parameters['Wi'][:, :n_a].T , dit )  + \
              np.dot( parameters['Wc'][:, :n_a].T , dcct)  + \
              np.dot( parameters['Wo'][:, :n_a].T , dot )
    
    dc_prev = dc_next * ft + ot * (1 - np.tanh(c_next) ** 2) * ft * da_next
    
    dxt     = np.dot( parameters['Wf'][:, n_a:].T , dft)  + \
              np.dot( parameters['Wi'][:, n_a:].T , dit)  + \
              np.dot( parameters['Wc'][:, n_a:].T , dcct) + \
              np.dot( parameters['Wo'][:, n_a:].T , dot)
    ### END CODE HERE ###
    
    
    
    # Save gradients in dictionary
    gradients = {"dxt": dxt, "da_prev": da_prev, "dc_prev": dc_prev, "dWf": dWf,"dbf": dbf, "dWi": dWi,"dbi": dbi,
                "dWc": dWc,"dbc": dbc, "dWo": dWo,"dbo": dbo}

    return gradients

In [39]:
np.random.seed(1)
xt_tmp = np.random.randn(3,10)
a_prev_tmp = np.random.randn(5,10)
c_prev_tmp = np.random.randn(5,10)
parameters_tmp = {}
parameters_tmp['Wf'] = np.random.randn(5, 5+3)
parameters_tmp['bf'] = np.random.randn(5,1)
parameters_tmp['Wi'] = np.random.randn(5, 5+3)
parameters_tmp['bi'] = np.random.randn(5,1)
parameters_tmp['Wo'] = np.random.randn(5, 5+3)
parameters_tmp['bo'] = np.random.randn(5,1)
parameters_tmp['Wc'] = np.random.randn(5, 5+3)
parameters_tmp['bc'] = np.random.randn(5,1)
parameters_tmp['Wy'] = np.random.randn(2,5)
parameters_tmp['by'] = np.random.randn(2,1)

a_next_tmp, c_next_tmp, yt_tmp, cache_tmp = lstm_cell_forward(xt_tmp, a_prev_tmp, c_prev_tmp, parameters_tmp)

da_next_tmp = np.random.randn(5,10)
dc_next_tmp = np.random.randn(5,10)
gradients_tmp = lstm_cell_backward(da_next_tmp, dc_next_tmp, cache_tmp)
print("gradients[\"dxt\"][1][2] =", gradients_tmp["dxt"][1][2])
print("gradients[\"dxt\"].shape =", gradients_tmp["dxt"].shape)
print("gradients[\"da_prev\"][2][3] =", gradients_tmp["da_prev"][2][3])
print("gradients[\"da_prev\"].shape =", gradients_tmp["da_prev"].shape)
print("gradients[\"dc_prev\"][2][3] =", gradients_tmp["dc_prev"][2][3])
print("gradients[\"dc_prev\"].shape =", gradients_tmp["dc_prev"].shape)
print("gradients[\"dWf\"][3][1] =", gradients_tmp["dWf"][3][1])
print("gradients[\"dWf\"].shape =", gradients_tmp["dWf"].shape)
print("gradients[\"dWi\"][1][2] =", gradients_tmp["dWi"][1][2])
print("gradients[\"dWi\"].shape =", gradients_tmp["dWi"].shape)
print("gradients[\"dWc\"][3][1] =", gradients_tmp["dWc"][3][1])
print("gradients[\"dWc\"].shape =", gradients_tmp["dWc"].shape)
print("gradients[\"dWo\"][1][2] =", gradients_tmp["dWo"][1][2])
print("gradients[\"dWo\"].shape =", gradients_tmp["dWo"].shape)
print("gradients[\"dbf\"][4] =", gradients_tmp["dbf"][4])
print("gradients[\"dbf\"].shape =", gradients_tmp["dbf"].shape)
print("gradients[\"dbi\"][4] =", gradients_tmp["dbi"][4])
print("gradients[\"dbi\"].shape =", gradients_tmp["dbi"].shape)
print("gradients[\"dbc\"][4] =", gradients_tmp["dbc"][4])
print("gradients[\"dbc\"].shape =", gradients_tmp["dbc"].shape)
print("gradients[\"dbo\"][4] =", gradients_tmp["dbo"][4])
print("gradients[\"dbo\"].shape =", gradients_tmp["dbo"].shape)

gradients["dxt"][1][2] = 3.2305591151091875
gradients["dxt"].shape = (3, 10)
gradients["da_prev"][2][3] = -0.06396214197109236
gradients["da_prev"].shape = (5, 10)
gradients["dc_prev"][2][3] = 0.7975220387970015
gradients["dc_prev"].shape = (5, 10)
gradients["dWf"][3][1] = -0.1479548381644968
gradients["dWf"].shape = (5, 8)
gradients["dWi"][1][2] = 1.0574980552259903
gradients["dWi"].shape = (5, 8)
gradients["dWc"][3][1] = 2.3045621636876668
gradients["dWc"].shape = (5, 8)
gradients["dWo"][1][2] = 0.3313115952892109
gradients["dWo"].shape = (5, 8)
gradients["dbf"][4] = [0.18864637]
gradients["dbf"].shape = (5, 1)
gradients["dbi"][4] = [-0.40142491]
gradients["dbi"].shape = (5, 1)
gradients["dbc"][4] = [0.25587763]
gradients["dbc"].shape = (5, 1)
gradients["dbo"][4] = [0.13893342]
gradients["dbo"].shape = (5, 1)


**Expected Output**:

<table>
    <tr>
        <td>
            <b>gradients["dxt"][1][2]</b> =
        </td>
        <td>
           3.23055911511
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dxt"].shape</b> =
        </td>
        <td>
           (3, 10)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da_prev"][2][3]</b> =
        </td>
        <td>
           -0.0639621419711
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da_prev"].shape</b> =
        </td>
        <td>
           (5, 10)
        </td>
    </tr>
         <tr>
        <td>
            <b>gradients["dc_prev"][2][3]</b> =
        </td>
        <td>
           0.797522038797
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dc_prev"].shape</b> =
        </td>
        <td>
           (5, 10)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWf"][3][1]</b> = 
        </td>
        <td>
           -0.147954838164
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWf"].shape</b> =
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWi"][1][2]</b> = 
        </td>
        <td>
           1.05749805523
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWi"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dWc"][3][1]</b> = 
        </td>
        <td>
           2.30456216369
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWc"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dWo"][1][2]</b> = 
        </td>
        <td>
           0.331311595289
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWo"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dbf"][4]</b> = 
        </td>
        <td>
           [ 0.18864637]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbf"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dbi"][4]</b> = 
        </td>
        <td>
           [-0.40142491]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbi"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbc"][4]</b> = 
        </td>
        <td>
           [ 0.25587763]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbc"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbo"][4]</b> = 
        </td>
        <td>
           [ 0.13893342]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbo"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
</table>

<a name='3-3'></a>
### 3.3 Backward Pass through the LSTM RNN

Esta parte es muy similar a la función `rnn_backward` que implementó anteriormente. Primero creará variables de la misma dimensión que sus variables de retorno. Luego iterarás sobre todos los pasos de tiempo comenzando por el final y llamarás a la función de un paso que implementaste para LSTM en cada iteración. A continuación, actualizará los parámetros sumándolos individualmente. Finalmente devolverá un diccionario con los nuevos gradientes. 

<a name='ex-8'></a>
### Exercise 8 - lstm_backward

Implementar la función `lstm_backward`.

**Instrucciones**: Crear un bucle for que comience en $T_x$ y vaya hacia atrás. Para cada paso, llame a `lstm_cell_backward` y actualice sus viejos gradientes añadiendo los nuevos gradientes a ellos. Tenga en cuenta que `dxt` no se actualiza, pero se almacena.

In [42]:
# UNGRADED FUNCTION: lstm_backward

def lstm_backward(da, caches):
    
    """
    Implement the backward pass for the RNN with LSTM-cell (over a whole sequence).

    Arguments:
    da -- Gradients w.r.t the hidden states, numpy-array of shape (n_a, m, T_x)
    caches -- cache storing information from the forward pass (lstm_forward)

    Returns:
    gradients -- python dictionary containing:
                        dx -- Gradient of inputs, of shape (n_x, m, T_x)
                        da0 -- Gradient w.r.t. the previous hidden state, numpy array of shape (n_a, m)
                        dWf -- Gradient w.r.t. the weight matrix of the forget gate, numpy array of shape (n_a, n_a + n_x)
                        dWi -- Gradient w.r.t. the weight matrix of the update gate, numpy array of shape (n_a, n_a + n_x)
                        dWc -- Gradient w.r.t. the weight matrix of the memory gate, numpy array of shape (n_a, n_a + n_x)
                        dWo -- Gradient w.r.t. the weight matrix of the output gate, numpy array of shape (n_a, n_a + n_x)
                        dbf -- Gradient w.r.t. biases of the forget gate, of shape (n_a, 1)
                        dbi -- Gradient w.r.t. biases of the update gate, of shape (n_a, 1)
                        dbc -- Gradient w.r.t. biases of the memory gate, of shape (n_a, 1)
                        dbo -- Gradient w.r.t. biases of the output gate, of shape (n_a, 1)
    
    mplementar el pase hacia atrás para la RNN con celdas LSTM (sobre una secuencia completa).

    Argumentos:
    da -- Gradientes con respecto a los estados ocultos, numpy-array de forma (n_a, m, T_x)
    caches -- caché que almacena la información de la pasada hacia adelante (lstm_forward)

    Devuelve:
    gradientes -- diccionario python que contiene:
        dx  -- Gradiente de las entradas, de forma                                                         (n_x, m, T_x)
        da0 -- Gradiente con respecto al estado oculto anterior, matriz numpy de forma                     (n_a, m)
        dWf -- Gradiente respecto a la matriz de pesos de la puerta de olvido, matriz numpy de forma       (n_a, n_a + n_x)
        dWi -- Gradiente respecto a la matriz de pesos de la puerta de actualización, matriz numpy de forma(n_a, n_a + n_x)
        dWc -- Gradiente respecto a la matriz de pesos de la puerta de memoria, matriz numpy de forma      (n_a, n_a + n_x)
        dWo -- Gradiente respecto a la matriz de pesos de la puerta de salida, matriz numpy de forma       (n_a, n_a + n_x)
        dbf -- Gradiente respecto a los sesgos de la puerta de olvido, de forma                            (n_a, 1)
        dbi -- Gradiente con respecto a los sesgos de la puerta de actualización, de forma                 (n_a, 1)
        dbc -- Gradiente en función de los sesgos de la puerta de memoria, de forma                        (n_a, 1)
        dbo -- Gradiente en función de los sesgos de la puerta de salida, de forma                         (n_a, 1)
    """

    # Recupera los valores de la primera caché (t=1) de las cachés.
    (caches, x) = caches
    (a1, c1, a0, c0, f1, i1, cc1, o1, x1, parameters) = caches[0]
    
    ### START CODE HERE ###
    # Retrieve dimensions from da's and x1's shapes (≈2 lines)
    n_a, m, T_x = da.shape
    n_x, m      = x1.shape
    
    # initialize the gradients with the right sizes (≈12 lines)
    dx       = np.zeros((n_x, m, T_x))
    da0      = np.zeros((n_a, m))
    da_prevt = np.zeros((n_a, m))
    dc_prevt = np.zeros((n_a, m))
    dWf      = np.zeros((n_a, n_a + n_x))
    dWi      = np.zeros((n_a, n_a + n_x))
    dWc      = np.zeros((n_a, n_a + n_x))
    dWo      = np.zeros((n_a, n_a + n_x))
    dbf      = np.zeros((n_a, 1))
    dbi      = np.zeros((n_a, 1))
    dbc      = np.zeros((n_a, 1))
    dbo      = np.zeros((n_a, 1))
    
    # loop back over the whole sequence
    for t in reversed(range(T_x)):
        # Calcule todos los gradientes utilizando lstm_cell_backward. 
        # Elija sabiamente el "da_next" (lo mismo que se hizo para el Ex 6).
        gradients = lstm_cell_backward( da[:, :, t] + da_prevt , dc_prevt , caches[t] )
        # Store or add the gradient to the parameters' previous step's gradient
        da_prevt  =  gradients["da_prev"]
        dc_prevt  =  gradients["dc_prev"]
        dx[:,:,t] =  gradients["dxt"]
        dWf       += gradients["dWf"]
        dWi       += gradients["dWi"]
        dWc       += gradients["dWc"]
        dWo       += gradients["dWo"]
        dbf       += gradients["dbf"]
        dbi       += gradients["dbi"]
        dbc       += gradients["dbc"]
        dbo       += gradients["dbo"]
    # Set the first activation's gradient to the backpropagated gradient da_prev.
    da0 = gradients["da_prev"]
    
    ### END CODE HERE ###

    # Store the gradients in a python dictionary
    gradients = {"dx": dx, "da0": da0, "dWf": dWf,"dbf": dbf, "dWi": dWi,"dbi": dbi,
                "dWc": dWc,"dbc": dbc, "dWo": dWo,"dbo": dbo}
    
    return gradients

In [43]:
np.random.seed(1)
x_tmp = np.random.randn(3,10,7)
a0_tmp = np.random.randn(5,10)

parameters_tmp = {}
parameters_tmp['Wf'] = np.random.randn(5, 5+3)
parameters_tmp['bf'] = np.random.randn(5,1)
parameters_tmp['Wi'] = np.random.randn(5, 5+3)
parameters_tmp['bi'] = np.random.randn(5,1)
parameters_tmp['Wo'] = np.random.randn(5, 5+3)
parameters_tmp['bo'] = np.random.randn(5,1)
parameters_tmp['Wc'] = np.random.randn(5, 5+3)
parameters_tmp['bc'] = np.random.randn(5,1)
parameters_tmp['Wy'] = np.zeros((2,5))       # unused, but needed for lstm_forward
parameters_tmp['by'] = np.zeros((2,1))       # unused, but needed for lstm_forward

a_tmp, y_tmp, c_tmp, caches_tmp = lstm_forward(x_tmp, a0_tmp, parameters_tmp)

da_tmp = np.random.randn(5, 10, 4)
gradients_tmp = lstm_backward(da_tmp, caches_tmp)

print("gradients[\"dx\"][1][2] =", gradients_tmp["dx"][1][2])
print("gradients[\"dx\"].shape =", gradients_tmp["dx"].shape)
print("gradients[\"da0\"][2][3] =", gradients_tmp["da0"][2][3])
print("gradients[\"da0\"].shape =", gradients_tmp["da0"].shape)
print("gradients[\"dWf\"][3][1] =", gradients_tmp["dWf"][3][1])
print("gradients[\"dWf\"].shape =", gradients_tmp["dWf"].shape)
print("gradients[\"dWi\"][1][2] =", gradients_tmp["dWi"][1][2])
print("gradients[\"dWi\"].shape =", gradients_tmp["dWi"].shape)
print("gradients[\"dWc\"][3][1] =", gradients_tmp["dWc"][3][1])
print("gradients[\"dWc\"].shape =", gradients_tmp["dWc"].shape)
print("gradients[\"dWo\"][1][2] =", gradients_tmp["dWo"][1][2])
print("gradients[\"dWo\"].shape =", gradients_tmp["dWo"].shape)
print("gradients[\"dbf\"][4] =", gradients_tmp["dbf"][4])
print("gradients[\"dbf\"].shape =", gradients_tmp["dbf"].shape)
print("gradients[\"dbi\"][4] =", gradients_tmp["dbi"][4])
print("gradients[\"dbi\"].shape =", gradients_tmp["dbi"].shape)
print("gradients[\"dbc\"][4] =", gradients_tmp["dbc"][4])
print("gradients[\"dbc\"].shape =", gradients_tmp["dbc"].shape)
print("gradients[\"dbo\"][4] =", gradients_tmp["dbo"][4])
print("gradients[\"dbo\"].shape =", gradients_tmp["dbo"].shape)

gradients["dx"][1][2] = [ 0.00218254  0.28205375 -0.48292508 -0.43281115]
gradients["dx"].shape = (3, 10, 4)
gradients["da0"][2][3] = 0.3127703102572603
gradients["da0"].shape = (5, 10)
gradients["dWf"][3][1] = -0.08098023109383466
gradients["dWf"].shape = (5, 8)
gradients["dWi"][1][2] = 0.4051243309298186
gradients["dWi"].shape = (5, 8)
gradients["dWc"][3][1] = -0.07937467355121491
gradients["dWc"].shape = (5, 8)
gradients["dWo"][1][2] = 0.03894877576298697
gradients["dWo"].shape = (5, 8)
gradients["dbf"][4] = [-0.15745657]
gradients["dbf"].shape = (5, 1)
gradients["dbi"][4] = [-0.50848333]
gradients["dbi"].shape = (5, 1)
gradients["dbc"][4] = [-0.42510818]
gradients["dbc"].shape = (5, 1)
gradients["dbo"][4] = [-0.17958196]
gradients["dbo"].shape = (5, 1)


**Expected Output**:

<table>
    <tr>
        <td>
            <b>gradients["dx"][1][2]</b> =
        </td>
        <td>
           [0.00218254  0.28205375 -0.48292508 -0.43281115]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dx"].shape</b> =
        </td>
        <td>
           (3, 10, 4)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da0"][2][3]</b> =
        </td>
        <td>
           0.312770310257
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["da0"].shape</b> =
        </td>
        <td>
           (5, 10)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWf"][3][1]</b> = 
        </td>
        <td>
           -0.0809802310938
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWf"].shape</b> =
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWi"][1][2]</b> = 
        </td>
        <td>
           0.40512433093
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWi"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dWc"][3][1]</b> = 
        </td>
        <td>
           -0.0793746735512
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWc"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dWo"][1][2]</b> = 
        </td>
        <td>
           0.038948775763
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dWo"].shape</b> = 
        </td>
        <td>
           (5, 8)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dbf"][4]</b> = 
        </td>
        <td>
           [-0.15745657]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbf"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
    <tr>
        <td>
            <b>gradients["dbi"][4]</b> = 
        </td>
        <td>
           [-0.50848333]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbi"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbc"][4]</b> = 
        </td>
        <td>
           [-0.42510818]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbc"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbo"][4]</b> = 
        </td>
        <td>
           [ -0.17958196]
        </td>
    </tr>
        <tr>
        <td>
            <b>gradients["dbo"].shape</b> = 
        </td>
        <td>
           (5, 1)
        </td>
    </tr>
</table>

### Congratulations on completing this assignment! 

You now understand how recurrent neural networks work! In the next exercise, you'll use an RNN to build a character-level language model. See you there! 