# Modelos del lenguaje con RNNs

En esta parte, vamos a entrenar un modelo del lenguaje basado en caracteres con Recurrent Neural Networks. Asimismo, utilizará el modelo para generar texto. En particular,su modelo tiene obras de la literatura clásica en castellano para obtener una red neuronal que sea capaz de "escribir" fragmentos literarios.

Los entrenamientos para obtener un modelo de calidad podrían tomar cierto tiempo (5-10 minutos por epoch), tener presente que GPU no funciona tan bien con LSTM, por tanto el modelo se debe generar con tiempo.

El dataset a utilizar contiene un archivo de texto con el contenido del castellano antiguo de **El Ingenioso Hidalgo Don Quijote de la Mancha**, disponible de manera libre en la página de [Project Gutenberg](https://www.gutenberg.org). Asimismo, usted podrá utilizar otras clases de texto

[El ingenioso hidalgo Don Quijote de la Mancha (Miguel de Cervantes)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219424&authkey=AH0gb-qSo5Xd7Io)

[Compilación de obras teatrales (Calderón de la Barca)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219433&authkey=AKvGD6DC3IRBqmc)

[Trafalgar (Benito Pérez Galdós)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219434&authkey=AErPCAtMKOI5tYQ)

verifique los datos antes de comenzar

## 1. Carga y procesado del texto

Primero, descargue el libro e inspeccionar los datos. El fichero a descargar es una versión en .txt del libro de Don Quijote, a la cual se le han borrado introducciones, licencias y otras secciones para dejarlo con el contenido real de la novela.

In [None]:
import numpy as np
import keras
import matplotlib.pyplot as plt
from keras.callbacks import LambdaCallback
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
import sys
import random
import io

path = keras.utils.get_file(
    fname="don_quijote.txt",
    origin="https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219424&authkey=AH0gb-qSo5Xd7Io"
)

Cundo lea el documento trate de colocar en minuscula el texto para que sea más facil de elaborar.

**1.1.** Leer todo el contenido del texto en una única variable ***text*** y convertir el string a minúsculas

In [None]:
with open(path, encoding="utf8") as f:
  text = f.read().lower()

In [None]:
len(text)

2071198

Puede comprobar que se ha realizado la variación y que el texto se encuentra en minuscula.

In [None]:
print("Longitud del texto: {}".format(len(text)))
print(text[0:500])

Longitud del texto: 2071198
capítulo primero. que trata de la condición y ejercicio del famoso hidalgo
don quijote de la mancha


en un lugar de la mancha, de cuyo nombre no quiero acordarme, no ha mucho
tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,
rocín flaco y galgo corredor. una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura los domingos, consumían las tres
partes de su hacienda. el resto della co


## 2. Procesado de los datos

Una de las grandes ventajas de trabajar con modelos que utilizan caracteres en vez de palabras es que no necesita tokenizar el texto (partirlo palabra a palabra). Su modelo funcionará directamente con los caracteres en el texto, incluyendo espacios, saltos de línea, etc.

Antes de hacer el ejercicio, debe procesar el texto en entradas y salidas compatibles el modelo. Como sabe, un modelo del lenguaje con RNNs acepta una serie de caracteres y predice el siguiente carácter en la secuencia.

* "*El ingenioso don Qui*" -> predicción: **j**
* "*El ingenioso don Quij*" -> predicción: **o**

De modo que la entrada y la salida de su modelo necesita ser algo parecido a este esquema. En este punto, podría usar dos formas de preparar los datos para este modelo.

1. **Secuencia a secuencia**. La entrada del modelo sería una secuencia y la salida sería esa secuencia trasladada un caracter a la derecha, de modo que en cada instante de tiempo la RNN tiene que predecir el carácter siguiente. Por ejemplo:

>* *Input*:   El ingenioso don Quijot
>* *Output*: l ingenioso don Quijote

2. **Secuencia a carácter**. En este variante, pasa una secuencia de caracteres por la RNN y, al llegar al final de la secuencia, se predice el siguiente carácter.

>* *Input*:   El ingenioso don Quijot
>* *Output*: e

En este trabajo, por simplicidad, se utilizará la segunda variante.
Utilice secuencias de tamaño *SEQ_LENGTH* caracteres (y elija el hiperparámetro ).



#### 2.1. Obtención de los caracteres y mapas de caracteres

Antes que nada, necesita saber qué caracteres aparecen en el texto, ya que tiene que diferenciarlos mediante un índice de 0 a *num_chars* - 1 en el modelo. Obtener:


1.   Número de caracteres únicos que aparecen en el texto.
2.   Diccionario que asocia char a índice único entre 0 y *num_chars* - 1. Por ejemplo, {'a': 0, 'b': 1, ...}
3.   Diccionario reverso de índices a caracteres: {0: 'a', 1: 'b', ...}


In [None]:
chars=sorted(list(set(text)))
char_indices = dict((c,i) for i, c in enumerate(chars))
indice_char = dict((i, c) for i, c in enumerate(chars))

In [None]:
#indice_char
char_indices
#len(chars) # se obtienen 61 caracteres

{'\n': 0,
 ' ': 1,
 '!': 2,
 '"': 3,
 "'": 4,
 '(': 5,
 ')': 6,
 ',': 7,
 '-': 8,
 '.': 9,
 '0': 10,
 '1': 11,
 '2': 12,
 '3': 13,
 '4': 14,
 '5': 15,
 '6': 16,
 '7': 17,
 ':': 18,
 ';': 19,
 '?': 20,
 ']': 21,
 'a': 22,
 'b': 23,
 'c': 24,
 'd': 25,
 'e': 26,
 'f': 27,
 'g': 28,
 'h': 29,
 'i': 30,
 'j': 31,
 'l': 32,
 'm': 33,
 'n': 34,
 'o': 35,
 'p': 36,
 'q': 37,
 'r': 38,
 's': 39,
 't': 40,
 'u': 41,
 'v': 42,
 'w': 43,
 'x': 44,
 'y': 45,
 'z': 46,
 '¡': 47,
 '«': 48,
 '»': 49,
 '¿': 50,
 'à': 51,
 'á': 52,
 'é': 53,
 'í': 54,
 'ï': 55,
 'ñ': 56,
 'ó': 57,
 'ù': 58,
 'ú': 59,
 'ü': 60}

#### 2.2. Obtención de secuencias de entrada y carácter a predecir

Ahora, obtenga la secuencias de entrada en formato texto y los correspondientes caracteres a predecir. Para ello, recorra el texto completo leído anteriormente, obteniendo una secuencia de SEQ_LENGTH caracteres y el siguiente caracter a predecir. Una vez hecho, mueva un carácter a la izquierda y hacer lo mismo para obtener una nueva secuencia y predicción. Guarde las secuencias en una variable ***sequences*** y los caracteres a predecir en una variable ***next_chars***.

Por ejemplo, si el texto fuera "Don Quijote" y SEQ_LENGTH fuese 5, tendríamos

* *sequences* = ["Don Q", "on Qu", "n Qui", " Quij", "Quijo", "uijot"]
* *next_chars* = ['u', 'i', 'j', 'o', 't', 'e']

In [None]:
# Definia el tamaño de las secuencias. Puede dejar este valor por defecto.
SEQ_LENGTH = 35
step=3
rawX = []
rawy = []

for i in range(0, len(text) - SEQ_LENGTH, step):
    rawX.append(text[i: i+SEQ_LENGTH])
    rawy.append(text[i+SEQ_LENGTH])

Indicar el tamaño del training set que acabamos de generar.

In [None]:
## SU CÓDIGO AQUÍ
#n_sentences=len(rawX)
#n_sentences

Como el Quijote es muy largo y tiene muchas secuencias, puede encontrar problemas de memoria. Por ello, elegija un número máximo de ellas. Si estás corriendo esto localmente y tienes problemas de memoria, puedes reducir el tamaño aún más, pero tenga cuidado porque, a menos datos, peor calidad del modelo.

In [None]:
MAX_SEQUENCES = 200000

perm = np.random.permutation(len(rawX)) #Permutar aleatoriamente una secuencia, o devolver un rango permutado.
rawX, rawy = np.array(rawX), np.array(rawy)
rawX, rawy = rawX[perm], rawy[perm]
rawX, rawy = list(rawX[:MAX_SEQUENCES]), list(rawy[:MAX_SEQUENCES])

print(len(rawX))

200000


#### 2.3. Obtención de input X y output y para el modelo

Finalmente, a partir de los datos de entrenamiento que hemos generado vamos a cree los arrays de datos X e y que pasará a su modelo.

Para ello, utilice *one-hot encoding* para el caracteres. Por ejemplo, si sólo tiene 4 caracteres (a, b, c, d), las representaciones serían: (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0) y (0, 0, 0, 1).

De este modo, **X** tendrá shape *(num_sequences, seq_length, num_chars)* e **y** tendrá shape *(num_sequences, num_chars)*.



In [None]:
X = np.zeros((len(rawX), SEQ_LENGTH , len(chars)))
y = np.zeros((len(rawX), len(chars)))

In [None]:
for i, sentence in enumerate(rawX):
    for t, char in enumerate(sentence):
        X[i, t, char_indices[char]] = 1
    y[i, char_indices[rawy[i]]] = 1

## 3. Definición del modelo y entrenamiento

Una vez tiene todo,  defina el modelo. Defina un modelo que utilice una **LSTM** con **128 unidades internas**. Si bien el modelo puede definirse de una manera más compleja, para empezar debería bastar con una LSTM más una capa Dense con el *softmax* que predice el siguiente caracter a producir. Adam puede ser una buena elección de optimizador.

Una vez el modelo esté definido, entrénelo un poco para asegurarse de que la loss es decreciente.

In [None]:
model= Sequential()
model.add(LSTM(256, input_shape=(SEQ_LENGTH, len(chars))))
model.add(Dense(len(chars), activation= "softmax"))
model.summary()

Model: "sequential_2"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm_2 (LSTM)               (None, 128)               97280     
                                                                 
 dense_2 (Dense)             (None, 61)                7869      
                                                                 
Total params: 105149 (410.74 KB)
Trainable params: 105149 (410.74 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

In [None]:
#model.fit(X, y, batch_size=128, epochs=20, verbose=0)

Para ver cómo evoluciona SU modelo del lenguaje,  genere texto según va entrenando. Para ello, programe una función que, utilizando el modelo en su estado actual, genere texto, con la idea de ver cómo se va generando texto al entrenar cada epoch.

En el código de abajo puede ver una función auxiliar para obtener valores de una distribución multinomial. Esta función se usará para muestrear el siguiente carácter a utilizar según las probabilidades de la salida de softmax (en vez de tomar directamente el valor con la máxima probabilidad, obtiene un valor aleatorio según la distribución de probabilidad dada por softmax, de modo que los resultados serán más diversos, pero seguirán teniendo "sentido" ya que el modelo tenderá a seleccionar valores con más probabilidad).



In [None]:
def sample(probs, temperature=1.0):
    """Nos da el índice del elemento a elegir según la distribución
    de probabilidad dada por probs.

    Args:
      probs es la salida dada por una capa softmax:
        probs = model.predict(x_to_predict)[0]

      temperature es un parámetro que nos permite obtener mayor
        "diversidad" a la hora de obtener resultados.

        temperature = 1 nos da la distribución normal de softmax
        0 < temperature < 1 hace que el sampling sea más conservador,
          de modo que sampleamos cosas de las que estamos más seguros
        temperature > 1 hace que los samplings sean más atrevidos,
          eligiendo en más ocasiones clases con baja probabilidad.
          Con esto, tenemos mayor diversidad pero se cometen más
          errores.
    """
    # Cast a float64 por motivos numéricos
    probs = np.asarray(probs).astype('float64')

    # logaritmo de probabilidades y aplicamos reducción
    # por temperatura.
    probs = np.log(probs) / temperature

    # Volvemos a aplicar exponencial y normalizamos de nuevo
    exp_probs = np.exp(probs)
    probs = exp_probs / np.sum(exp_probs)

    # Hacemos el sampling dadas las nuevas probabilidades
    # de salida (ver doc. de np.random.multinomial)
    samples = np.random.multinomial(1, probs, 1)
    return np.argmax(samples)


Utilizando la función anterior y el modelo entrenado, añadir un callback a al modelo para que, según vaya entrenando, se vean los valores que resultan de generar textos con distintas temperaturas al acabar cada epoch.

Para ello, abajo tienedisponible el callback *on_epoch_end*. Esta función elige una secuencia de texto al azar en el texto disponible en la variable
text y genera textos de longitud *GENERATED_TEXT_LENGTH* según las temperaturas en *TEMPERATURES_TO_TRY*, utilizando para ello la función *generate_text*.

Complete la función *generate_text* de modo que utilice el modelo y la función sample para generar texto.

NOTA: Cuando haga model.predict, es aconsejable usar verbose=0 como argumento para evitar que la función imprima valores de salida.

In [None]:
TEMPERATURES_TO_TRY = [0.2] #, 0.5, 1.0, 1.2]
GENERATED_TEXT_LENGTH = 300

def generate_text(seed_text, model, length=300, temperature=1, max_length=30):
    """Genera una secuencia de texto a partir de seed_text utilizando model.

    La secuencia tiene longitud length y el sampling se hace con la temperature
    definida.
    """

    # Aquí guardaremos nuestro texto generado, que incluirá el
    # texto origen
    generated = seed_text

    # Utilizar el modelo en un bucle de manera que generemos
    # carácter a carácter. Habrá que construir los valores de
    # X_pred de manera similar a como hemos hecho arriba, salvo que
    # aquí sólo se necesita una oración
    # Nótese que el x que utilicemos tiene que irse actualizando con
    # los caracteres que se van generando. La secuencia de entrada al
    # modelo tiene que ser una secuencia de tamaño SEQ_LENGTH que
    # incluya el último caracter predicho.

    ### TU CÓDIGO AQUÍ
    prediction = []

        #textReturn
    textReturn = ""

    for i in range(length):
        # Make numpy array to hold seed
        X = np.zeros((1, len(generated), len(chars) ))

        # Set one-hot vectors for seed sequence
        for t, char in enumerate(seed_text):
            X[0, t, char_indices[char]] = 1

        # Generate prediction for next character
        preds = model.predict(X, verbose=0)[0]
        # Choose a character from the prediction probabilities
        next_index = sample(preds,0.2)
        next_char = indice_char[next_index]

        prediction.append(next_char)
        textReturn = textReturn+next_char
        # Add the predicted character to the seed sequence so the next prediction
        # includes this character in it's seed.
        #generated += next_char
        seed_text = seed_text[1:] + next_char

        print(next_char, end= " ");
        # Flush so we can see the prediction as it's generated
        sys.stdout.flush()

    prediction = ''.join(prediction)
    sys.stdout.flush()

    ### FIN DE TU CÓDIGO
    return textReturn


def on_epoch_end(epoch, logs):
  print("\n\n\n")

  # Primero, seleccionamos una secuencia al azar para empezar a predecir
  # a partir de ella
  start_pos = random.randint(0, len(text) - SEQ_LENGTH - 1)
  seed_text = text[start_pos:start_pos + SEQ_LENGTH]
  for temperature in TEMPERATURES_TO_TRY:
    print("------> Epoch: {} - Generando texto con temperature {}".format(
        epoch + 1, temperature))

    generated_text = generate_text(seed_text, model,
                                   GENERATED_TEXT_LENGTH, temperature)
    print("Seed: {}".format(seed_text))
    print("Texto generado: {}".format(generated_text))


generation_callback = LambdaCallback(on_epoch_end=on_epoch_end)

Entrene ahora su modelo. No se olvides de añadir *generation_callback* a la lista de callbacks utilizados en fit(). Ya que las métricas de clasificación no son tan críticas aquí (no nos importa tanto acertar el carácter exacto, sino obtener una distribución de probabilidad adecuada), no es necesario monitorizar la accuracy ni usar validation data, si bien puedes añadirlos para asegurarte de que todo está en orden.


In [None]:
print(rawX[0])

uve hasta el último trance de la vi


In [None]:
def on_epoch_end(epoch, logs):
  # Print training loss and accuracy
  print("\nEpoch: {}, Loss: {:.4f}, Accuracy: {:.2f}%".format(
      epoch + 1, logs['loss'], logs['accuracy'] * 100))
  start_pos = random.randint(0, len(text) - SEQ_LENGTH - 1)
  seed_text = text[start_pos:start_pos + SEQ_LENGTH]
  # Generate text with a specific temperature
  temperature = 0.2
  #seed_text = rawX[0]
  generated_text = generate_text(seed_text, model, length=300, temperature=temperature)
  print("\n Text Send Text: \n", seed_text)
  print("\n Generated Text: \n", generated_text)

In [None]:
generation_callback = LambdaCallback(on_epoch_end=on_epoch_end)


In [None]:
history = model.fit(X, y, batch_size=128, epochs=40, verbose=0, callbacks=[generation_callback],validation_split=0.2)
history.history['accuracy']


Epoch: 1, Loss: 2.5060, Accuracy: 27.67%
e   m e n t i e n t e   d e   l a   l a   p o n t a   d e   d e   d e   l a   c u e n t e   d e   d e   c o n t o   d e   d e   d e   l a   d i e n t o   d e   c o r a   d e   l a   c o n t a   d e   l a   l o   c e r o s   d e   l a   l a   l a   d e   l o   d e   d e   d e   d e   d e   t e n t a   d e   l a   l a   l a   l a   p o r a   d e   c o n t e   d e   l a   d e   d e   l a   l a   d i e n t a   d e   h a   s u n t o   d e   d e   d e   d e   d e   t e n t a   d e   l a   d e   d e   t e   d e   c e n t a   d e   l o   c o n t a   d e   p o n   d e   l a   m e n t e s   l a   s u n 
 Text Send Text: 
 ncuentros firme bien merece llamars

 Generated Text: 
 e mentiente de la la ponta de de de la cuente de de conto de de de la diento de cora de la conta de la lo ceros de la la la de lo de de de de de tenta de la la la la pora de conte de la de de la la dienta de ha sunto de de de de de tenta de la de de te de centa de lo conta de pon d

KeyboardInterrupt: 

In [None]:
model.save('model57%.h5')

In [None]:
val = generate_text(rawX[0], model)
print(val)

In [None]:
print(rawX[0])

## Entregable

Complete los apartados anteriores para entrenar modelos del lenguaje que sean capaces de generar texto con cierto sentido. Comentar los resultados obtenidos y cómo el modelo va mejorando época a época. Comentar las diferencias apreciadas al utilizar diferentes valores de temperatura. Entregar al menos la salida de un entrenamiento completo con los textos generados época a época.

El objetivo no es conseguir generar pasajes literarios con coherencia, sino obtener lenguaje que se asemeje en cierta manera a lo visto en el texto original y donde las palabras sean reconocibles como construcciones en castellano. Como ejemplo de lo que se puede conseguir, este es el resultado de generar texto después de 10 epochs y con temperature 0.2:


```
-----> Epoch: 10 - Generando texto con temperature 0.2
Seed: o le cautivaron y rindieron el
Texto generado: o le cautivaron y rindieron el caballero de la caballería de la mano de la caballería del cual se le dijo:

-¿quién es el verdad de la caballería de la caballería de la caballería de la caballería de la caballería, y me ha de habían de la mano que el caballero de la mano de la caballería. y que no se le habían de la mano de la c

```


