# Modelos de Secuencias

Los modelos de secuencias han impactado en:

- Reconocimiento de voz
- Generación de música
- Clasificación de Sentimientos
- Secuencias de ADN
- Machine Translation
- Reconocimiento de actividades en video
- Reconocimiento de nombres de entidades

## Week 1

### Notación

Para representar las posiciones de nuestro X input, usamos la siguiente notación:

- $X^{<1>}$: Para el primer ejemplo. En este caso, en un modelo de secuencias, buscamos que cada uno esté en un espacio -temporal- por ello, denotamos cualquier posición con la letra $t$ -> $X^{<T>}$

Para el caso particular de las secuencias de palabras, es posibles utilizar en el caso de NLP un One-Hot encoding

### ¿Por qué no usar una red neuronal estándar?

Que pasa si hacemos un feeding de cada vector en One Hot encoding a una red neuronal estándar?

En este caso tendríamos un problema y es que cada input y cada output puede ser de diferentes tamaños. Adicional, no comparte características aprendidas en cada diferente posición de texto.

Entonces, ¿Qué hace una red neuronal recurrente?

Una red neuronal recurrente, lo que hace es que lee cada vector en -One Hot Encoding- en cada paso y adicional, toma como referencia el valor de la activación en el paso anterior. 

Es decir, si le ingreso $X^{<1>} \to \hat{y}^{<1>}$ y luego, usa este resultado, en paso siguiente $[X^{<1>} \to \hat{y}^{<1>}] \to [X^{<2>} \to \hat{y}^{<2>}]$ y así en cada uno hasta llegar al Tth ejemplo. 

Usando como activación inicial, lo más común, un vector de ceros. Escanea todo los datos desde la izquierda hasta la derecha

Una debilidad de esto, es que utiliza para hacer su predicción, los time_steps que estén más tempranos o cercanos al valor a predecir, esta es una desventaja ya que no utiliza nada del futuro cercano.

Una versión de cómo puede verse la red neuronal es de esta forma:

<img src = 'NN_12.png'>

Ahora bien, nótese que los pesos de cada paso en la red neuronal, van a ser los mismos durante toda la recurrencia, esto es ya que conserva información del pasado sin tener en cuenta el futuro cercano

Entonces, en cada iteración, tendríamos las siguientes fórmulas en una red recurrente:

- $a^{<t>} = g(W_{aa}a^{<t-1>}+(W_{ax}x^{<t>}+b_a)$

- $\hat{y}^{<t>} = g(W_{ya}a^{<t>}+b_y)$

### Tipos de RNN

Hay un tipo en el que queremos, por ejemplo, tener un resultado particular en nuestra red neuronal. Ejemplo de esto, es que queremos generar una clasificación basada en varios inputs, en este caso, estaríamos hablando de una relación Many-To-One o muchos a uno.

También podemos tener un One-To-Many, este siendo uno que relaciona uno a muchos. Un ejemplo es en generación de música a partir de una nota en particular. 

Hay un ejemplo particular en el que tenemos un Many-To-Many o muchos a muchos, entonces en estos casos, la entrada y la salida pueden tener diferentes tamaños en cuánto a vectores, entonces, en ejemplos anteriores vemos que todos deben tener al menos el mismo tamaño.

Una forma de solucionarlo, es que tenemos en una primera parte el Encoder, el cual primero a va leer todo el input y luego el Decoder, que sólo va a generar la salida con un tamaño diferente. 

<img src = 'NN_13.png'>

### Language Modeling

Lo que hace la red neuronal al modelar lenguajes, es simplemente cálcular la probabilidad de ser una sentencia u otra, tomando la que mejor probabilidad tenga de ser lo que escribimos o decimos. 

Para el modelamiento, necesitamos que nuestro Training set tenga un gran cuerpo de texto, ya sea en inglés o español.


Lo primero que se hace, es tokenizar las palabras, cómo vimos en la lectura pasada, lo que busca es hacer One-Hot Encoding en nuestro corpus de tal manera que genera un vector con cada palabra

Qué realiza nuestra red recurrente en este caso? En general, empieza a calcular las probabilidades de tener una palabra detrás de otra, dándo a cada paso adelante, la posibilidad de aprender con la sentencia, cual sería la palabra más probable para seguir hasta terminar con la oración. Es decir, cálcula probabilidades condicionales, dado el pasado.

En este caso, como al final estamos tratando con probabilidades, lo que buscamos es que nuestra función de costo sea una logística.

#### Sampling Sentences

Entonces, una vez modelado el lenguaje y entrenado, para hacer el sampling, lo que hacemos es que se toma una palabra teniendo en cuenta la distribución de probabilidades. En el siguiente paso, se toma como salida, la palabra con mayor probabilidad, pasándose por cada uno de los pasos

Entonces, ¿cómo sabemos cuando acabará el sampling?. En este caso simplemente podemos generar un token de EOS. Adicional, es posible que la red genere tokens de UNK. Lo mejor para esta situación es indicar que se rechace siempre un UNK y luego se mantenga haciendo resampling

Ahora bien, hasta ahora hemos estado viendo cómo sería un modelado a nivel de palabras, pero también podemos hacerlo a nivel de caracteres, se añaden estos a un vocabulario ya tokenizado, pero sería muy costoso de entrenar y las oraciones serían mucho más largas.

#### Vanishing gradients Problem With RNN's

En las RNN es posible que nos encontremos que, sentencias muy largas cuyos pequeños cambios se presentan temprano en la secuencia, pueden afectar al resultado final de la secuencia, ejemplo de esto, es cuando armamos una oración que empieza en plural o singular, es decir, si decimos The cats.... were full o The cat.... was full, siendo los puntos entre cada oración largas cadenas de texto. 

Toma bastante tiempo volver atrás en la secuencia de RNN lo que ocasiona el problema del título.

Debido a esto, muchos modelos tienen influencias locales, quiere decir que cada una de las salidas u outputs, se ve influenciado por sus más cercanos.

Esto va a ocasionar Exploding Gradients también como Vanishing, ya que el error se va a propagar más lento y no va a poder realizar los cálculos necesarios. 

#### GRU o Gated Recurrent Unit

Una célda GRU es una celda que guarda en memoria o "recuerda" por así decirlo, si, en el ejemplo de los gatos, si la oración es en plural o singular