<div style="font-size: 3em; font-weight: bold; text-align: center;">Recurrent Neural Networks</div>
<div style="text-align: right; font-size: 24px; margin-right: 10px;">Guillermo Díaz Aguado</div>

In [1]:
from tensorflow import keras

# Introducción
NLP es un subcampo de la lingüística, informática e inteligencia artificial que se ocupa de las **interacciones entre las computadoras y los lenguajes humanos(naturales)**. 

La diferencia entre el lenguaje natural (el usado en los idiomas) y los lenguajes de programación es que en estos últimos, primero se diseñan las reglas y después se usan estos programas, pero con el lenguaje natural pasa lo contrario.

### Aplicaciones populares.
* **Análisis de Sentimientos**: clasifica publicaciones como positivas o negativas. 
* **Extracción de información**: Creación de datos estructurados a partir de documentos no extructurados, realciones en textos largos (noticicas).
* **Traducción de textos**:  Textos es un idioma que son traducidos a otro idioma.
* **Respuesta a preguntas**: Ademas de reconocer el texto, también buscan y dan respuestas. 
* **Resumen de texto**: Pueden resumir textos largos 

# 1. Inicio -> Prepararación de los datos.
Como sabemos de la teoría, nosotros solo podemos procesar tensores númericos. Debemos **Vectorizar el texto**: transformar el texto en tensores númericos.

Hay muchas formas de **Vectorizar texto** pero la mayoría sigue la siguiente estructura:
* *Estandarizamos* el texto para hacerlo fácil de procesar.
* Dividimos el texto en *unidades/tokens*
* Convertimos cada token en vectores númericos. Para poder hacerlo ya deberíamos haber *indexado* todos los tokens presentes en los datos.

## 1.1 Estandarización del texto.
Realmente esto es una forma básica de *feature engineering* que evita codificar elementos que no quieres que tu modelo deba entender.

Algunos puntos importantes serían:
* Convertir todo en minusculas.
* Quitar los simbolos de puntuación.
* Transformar los carácteres especiales en sus formas estandars
* *Stemming*: convertir diferentes variaciones de un término en una representación compartida.

Con estas estandarizaciones, el modelo conseguirá de forma más sencilla llegar a generalizaciones. También hay que tener en cuenta que se pierde algo de información al estandarizar el texto.

## 1.2 Tokenization: Text splitting.
Ahora necesitamos que el texto se divida en unidades (*tokens*) para que se pueda vectorizar, se puede hacer de las siguientes maneras:
* **Word level tokenization**. Donde cada token está separado por espacios. una variante sería dividir cada palabra en subpalabra: staring->stare+ing, called->call+ed.
* **N-gram tokenization**. Donde cada token es un grupo de N palabras consecutivas.
* **Character-level tokenization**. Donde cada caracter es un token.

Suele haber dos tipos de modelos de procesamiento de texto:
* **Sequence models** -> Aquellos a los que le importa el *orden* de las palabras. -> Usar word-level tokenization
* **bag-of-words models** -> Aquellos que tratan las palabras sin tener en cuenta el orden. -> usar N-gram tokenization



## 1.3 Indexado del vocabulario.
Una vez tenemos dividido el texto ya podemos **encode** o codificar cada token a un valor númerico.

### 1.3.1 Mediante un diccionario.
Simplemente usaremos un diccionario que para cada token le tendremos asignado un valor númerico. Esto sería inviable para textos muy largos, por lo que tendremos 2 valores especiales.
* 1-> "Out Of Vocabulary". Para palabras que no han sido registradas
* 0-> "Mask token". Para cuando queramos decir que un token está vacío. Esto es útil cuando usamos bathces de texto donde cada batch no tiene por que tener el mismo número de tokens.

### 1.3.2 Mediante `TextVectorization`
Esta capa lo que realiza es:
* Realiza un indexado de las palabras del texto.
* Encoder:
    * Estandarizado de texto.
    * Tokenización de texto.
    * Indexa el texto.
* Decoder:
    * Desindexa los tokens.

##### Uso de la capa 


In [3]:
keras.layers.TextVectorization(
    max_tokens=None,
    standardize="lower_and_strip_punctuation",
    split="whitespace",
    ngrams=None,
    output_mode="int",
    output_sequence_length=None,
    pad_to_max_tokens=False,
    vocabulary=None,
    idf_weights=None,
    sparse=False,
    ragged=False,
    encoding="utf-8",
    name=None,
)

<TextVectorization name=text_vectorization, built=False>


* `max_tokens`: Tamaño máximo del vocabulario.
    * Solo se debería especificar cuando `pad_to_max_tokens=True`
    * Contiene el token **OOV**, por lo que el tamaño efectivo siempre será $\text{max\_tokens}-1$
* `standarize`: Estadarización que se la va a aplicar al texto de entrada.
    * `None`: Sin estandarizar.
    * `"lower_and_strip_puntuation"`(por defecto): En minusculas y sin signos de puntuación.
    * `"lower"`: En minusculas
    * `"strip_punctuation"`: Sin signos de puntuación.
    * "callable": Se le puede pasar una función para estandarizar.
* `split`: Tokenización del texto.
    * `None`: Sin dividir.
    * `"whitespace"`: Dividir en los espacios.
    * `"character"`: Dividir en cada caracter de unicode.
    * "callable": Se le puede pasar una función para dividir.
* `ngrams`:
* `output_mode`: 