# Modelos del lenguaje con RNNs

En esta parte, vamos a entrenar un modelo del lenguaje basado en caracteres con Recurrent Neural Networks. Asimismo, utilizará el modelo para generar texto. En particular,su modelo tiene obras de la literatura clásica en castellano para obtener una red neuronal que sea capaz de "escribir" fragmentos literarios.

Los entrenamientos para obtener un modelo de calidad podrían tomar cierto tiempo (5-10 minutos por epoch), tener presente que GPU no funciona tan bien con LSTM, por tanto el modelo se debe generar con tiempo.

El dataset a utilizar contiene un archivo de texto con el contenido del castellano antiguo de **El Ingenioso Hidalgo Don Quijote de la Mancha**, disponible de manera libre en la página de [Project Gutenberg](https://www.gutenberg.org). Asimismo, usted podrá utilizar otras clases de texto

[El ingenioso hidalgo Don Quijote de la Mancha (Miguel de Cervantes)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219424&authkey=AH0gb-qSo5Xd7Io)

[Compilación de obras teatrales (Calderón de la Barca)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219433&authkey=AKvGD6DC3IRBqmc)

[Trafalgar (Benito Pérez Galdós)](https://onedrive.live.com/download?cid=C506CF0A4F373B0F&resid=C506CF0A4F373B0F%219434&authkey=AErPCAtMKOI5tYQ)

verifique los datos antes de comenzar

## 1. Carga y procesado del texto

Primero, descargue el libro e inspeccionar los datos. El fichero a descargar es una versión en .txt del libro de Don Quijote, a la cual se le han borrado introducciones, licencias y otras secciones para dejarlo con el contenido real de la novela.

In [None]:
import numpy as np
import keras
import matplotlib.pyplot as plt
from keras.callbacks import LambdaCallback
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
import sys
import random
import io

In [None]:

# Con la función open de Python se cargará el texto codificado en formato utf8
with open('voragine.txt', encoding='utf8') as file:
    # Se define variable para cargar el texto "text" con la función .read y se especifica que lo haga en minúsculas
    text = file.read(5000).lower()



Cundo lea el documento trate de colocar en minuscula el texto para que sea más facil de elaborar.

**1.1.** Leer todo el contenido del texto en una única variable ***text*** y convertir el string a minúsculas

Puede comprobar que se ha realizado la variación y que el texto se encuentra en minuscula.

In [None]:
# Mostrar primeros 5000 caracteres del texto para su comprobación
print('longitud del texto', len(text))
print(text[0:5000])

longitud del texto 5000
antes que me hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe de los deliquios embriagadores, ni de la confidencia sentimental ni de la zozobra de las miradas cobardes. más que el enamorado, fui siempre el dominador cuyos labios no conocieron la súplica. con todo, ambicionaba el don divino del amor ideal, que me encendiera espiritualmente, para que mi alma destellara sobre mi cuerpo como la llama sobre el leño que la alimenta.

cuando los ojos de alicia me trajeron la desventura, había renunciado ya a la esperanza de sentir un afecto puro. en vano mis brazos -tediosos de su libertad- se tendieron ante muchas mujeres implorando para ellos una cadena. nadie adivinaba mi ensueño. seguía el silencio en mi corazón.

alicia fue un amorío fácil: se me entregó sin vacilaciones, esperanzada en el amor que buscaba en mí. ni siquiera pensó casarse conmigo en aquellos días en que sus parientes fraguaron la conspiración de s

## 2. Procesado de los datos

Una de las grandes ventajas de trabajar con modelos que utilizan caracteres en vez de palabras es que no necesita tokenizar el texto (partirlo palabra a palabra). Su modelo funcionará directamente con los caracteres en el texto, incluyendo espacios, saltos de línea, etc.

Antes de hacer el ejercicio, debe procesar el texto en entradas y salidas compatibles el modelo. Como sabe, un modelo del lenguaje con RNNs acepta una serie de caracteres y predice el siguiente carácter en la secuencia.

* "*El ingenioso don Qui*" -> predicción: **j**
* "*El ingenioso don Quij*" -> predicción: **o**

De modo que la entrada y la salida de su modelo necesita ser algo parecido a este esquema. En este punto, podría usar dos formas de preparar los datos para este modelo.

1. **Secuencia a secuencia**. La entrada del modelo sería una secuencia y la salida sería esa secuencia trasladada un caracter a la derecha, de modo que en cada instante de tiempo la RNN tiene que predecir el carácter siguiente. Por ejemplo:

>* *Input*:   El ingenioso don Quijot
>* *Output*: l ingenioso don Quijote

2. **Secuencia a carácter**. En este variante, pasa una secuencia de caracteres por la RNN y, al llegar al final de la secuencia, se predice el siguiente carácter.

>* *Input*:   El ingenioso don Quijot
>* *Output*: e

En este trabajo, por simplicidad, se utilizará la segunda variante.
Utilice secuencias de tamaño *SEQ_LENGTH* caracteres (y elija el hiperparámetro ).



#### 2.1. Obtención de los caracteres y mapas de caracteres

Antes que nada, necesita saber qué caracteres aparecen en el texto, ya que tiene que diferenciarlos mediante un índice de 0 a *num_chars* - 1 en el modelo. Obtener:


1.   Número de caracteres únicos que aparecen en el texto.
2.   Diccionario que asocia char a índice único entre 0 y *num_chars* - 1. Por ejemplo, {'a': 0, 'b': 1, ...}
3.   Diccionario reverso de índices a caracteres: {0: 'a', 1: 'b', ...}


In [None]:
chars=sorted(list(set(text)))
char_indices = dict((c,i) for i, c in enumerate(chars))
indice_char = dict((i, c) for i, c in enumerate(chars))

In [None]:
len(chars)

44

In [None]:
chars[:]

['\n',
 ' ',
 '!',
 '*',
 ',',
 '-',
 '.',
 ':',
 ';',
 '?',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'x',
 'y',
 'z',
 '¡',
 '«',
 '»',
 '¿',
 'á',
 'é',
 'í',
 'ñ',
 'ó',
 'ú']

In [None]:
#indice_char
char_indices
#len(chars) # se obtienen 61 caracteres

{'\n': 0,
 ' ': 1,
 '!': 2,
 '*': 3,
 ',': 4,
 '-': 5,
 '.': 6,
 ':': 7,
 ';': 8,
 '?': 9,
 'a': 10,
 'b': 11,
 'c': 12,
 'd': 13,
 'e': 14,
 'f': 15,
 'g': 16,
 'h': 17,
 'i': 18,
 'j': 19,
 'l': 20,
 'm': 21,
 'n': 22,
 'o': 23,
 'p': 24,
 'q': 25,
 'r': 26,
 's': 27,
 't': 28,
 'u': 29,
 'v': 30,
 'x': 31,
 'y': 32,
 'z': 33,
 '¡': 34,
 '«': 35,
 '»': 36,
 '¿': 37,
 'á': 38,
 'é': 39,
 'í': 40,
 'ñ': 41,
 'ó': 42,
 'ú': 43}

#### 2.2. Obtención de secuencias de entrada y carácter a predecir

Ahora, obtenga la secuencias de entrada en formato texto y los correspondientes caracteres a predecir. Para ello, recorra el texto completo leído anteriormente, obteniendo una secuencia de SEQ_LENGTH caracteres y el siguiente caracter a predecir. Una vez hecho, mueva un carácter a la izquierda y hacer lo mismo para obtener una nueva secuencia y predicción. Guarde las secuencias en una variable ***sequences*** y los caracteres a predecir en una variable ***next_chars***.

Por ejemplo, si el texto fuera "Don Quijote" y SEQ_LENGTH fuese 5, tendríamos

* *sequences* = ["Don Q", "on Qu", "n Qui", " Quij", "Quijo", "uijot"]
* *next_chars* = ['u', 'i', 'j', 'o', 't', 'e']

In [None]:
# Definia el tamaño de las secuencias. Puede dejar este valor por defecto.
SEQ_LENGTH = 100
step=3
rawX = []
rawy = []

for i in range(0, len(text) - SEQ_LENGTH, step):
    rawX.append(text[i: i+SEQ_LENGTH])
    rawy.append(text[i+SEQ_LENGTH])

Indicar el tamaño del training set que acabamos de generar.

In [None]:
rawX

['antes que me hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violenci',
 'es que me hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. ',
 'que me hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nad',
 ' me hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada s',
 ' hubiera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe',
 'biera apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe de',
 'ra apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe de lo',
 'apasionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe de los d',
 'sionado por mujer alguna, jugué mi corazón al azar, y me lo ganó la violencia. nada supe de los deli',
 'nado por mujer alguna, jugué mi corazón al azar, y me

In [None]:
rawy

['a',
 'n',
 'a',
 'u',
 ' ',
 ' ',
 's',
 'e',
 'q',
 'o',
 'e',
 'r',
 'g',
 'o',
 's',
 'n',
 'd',
 'l',
 'c',
 'f',
 'e',
 'i',
 's',
 't',
 'e',
 'a',
 'n',
 'd',
 'l',
 'z',
 'o',
 'a',
 'e',
 'a',
 'm',
 'a',
 's',
 'o',
 'r',
 's',
 'm',
 ' ',
 'e',
 'l',
 'n',
 'o',
 'd',
 ' ',
 'i',
 'i',
 'p',
 ' ',
 ' ',
 'm',
 'a',
 'r',
 'u',
 's',
 'a',
 'o',
 'n',
 'c',
 'o',
 'e',
 'n',
 'a',
 'ú',
 'i',
 '.',
 'o',
 't',
 'o',
 'a',
 'i',
 'o',
 'b',
 'e',
 'd',
 ' ',
 'v',
 'o',
 'e',
 'a',
 'r',
 'd',
 'l',
 'q',
 ' ',
 ' ',
 'c',
 'd',
 'r',
 'e',
 'i',
 't',
 'l',
 'n',
 ',',
 'a',
 ' ',
 'e',
 'i',
 'l',
 ' ',
 's',
 'l',
 'r',
 's',
 'r',
 'm',
 'c',
 'r',
 ' ',
 'm',
 'l',
 'l',
 'm',
 's',
 'r',
 'e',
 'l',
 'o',
 'u',
 'l',
 'a',
 'm',
 't',
 '\n',
 'u',
 'd',
 'l',
 ' ',
 'o',
 'd',
 'a',
 'c',
 ' ',
 ' ',
 'a',
 'r',
 ' ',
 ' ',
 's',
 'n',
 'r',
 ' ',
 'b',
 ' ',
 'n',
 'c',
 'd',
 'y',
 'a',
 'a',
 's',
 'r',
 'z',
 'd',
 's',
 't',
 ' ',
 ' ',
 'e',
 'o',
 'u',
 '.',
 'n

In [None]:
n_sentences=len(rawX)
n_sentences

1634

Como el Quijote es muy largo y tiene muchas secuencias, puede encontrar problemas de memoria. Por ello, elegija un número máximo de ellas. Si estás corriendo esto localmente y tienes problemas de memoria, puedes reducir el tamaño aún más, pero tenga cuidado porque, a menos datos, peor calidad del modelo.

In [None]:
MAX_SEQUENCES = 300000

perm = np.random.permutation(len(rawX)) #Permutar aleatoriamente una secuencia, o devolver un rango permutado.
rawX, rawy = np.array(rawX), np.array(rawy)
rawX, rawy = rawX[perm], rawy[perm]
rawX, rawy = list(rawX[:MAX_SEQUENCES]), list(rawy[:MAX_SEQUENCES])

print(len(rawX))

1634


#### 2.3. Obtención de input X y output y para el modelo

Finalmente, a partir de los datos de entrenamiento que hemos generado vamos a cree los arrays de datos X e y que pasará a su modelo.

Para ello, utilice *one-hot encoding* para el caracteres. Por ejemplo, si sólo tiene 4 caracteres (a, b, c, d), las representaciones serían: (1, 0, 0, 0), (0, 1, 0, 0), (0, 0, 1, 0) y (0, 0, 0, 1).

De este modo, **X** tendrá shape *(num_sequences, seq_length, num_chars)* e **y** tendrá shape *(num_sequences, num_chars)*.



In [None]:
X = np.zeros((len(rawX), SEQ_LENGTH , len(chars)))
y = np.zeros((len(rawX), len(chars)))

In [None]:
for i, sentence in enumerate(rawX):
    for t, char in enumerate(sentence):
        X[i, t, char_indices[char]] = 1
    y[i, char_indices[rawy[i]]] = 1

In [None]:
X[:1]

array([[[0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        ...,
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.],
        [0., 0., 0., ..., 0., 0., 0.]]])

In [None]:
y[:1]

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

## 3. Definición del modelo y entrenamiento

Una vez tiene todo,  defina el modelo. Defina un modelo que utilice una **LSTM** con **128 unidades internas**. Si bien el modelo puede definirse de una manera más compleja, para empezar debería bastar con una LSTM más una capa Dense con el *softmax* que predice el siguiente caracter a producir. Adam puede ser una buena elección de optimizador.

Una vez el modelo esté definido, entrénelo un poco para asegurarse de que la loss es decreciente.

In [None]:
model= Sequential()
model.add(LSTM(128, input_shape=(SEQ_LENGTH, len(chars))))
model.add(Dropout(0.2))
model.add(Dense(len(chars), activation= "softmax"))
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 lstm (LSTM)                 (None, 128)               88576     
                                                                 
 dropout (Dropout)           (None, 128)               0         
                                                                 
 dense (Dense)               (None, 44)                5676      
                                                                 
Total params: 94252 (368.17 KB)
Trainable params: 94252 (368.17 KB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])

In [None]:
model.fit(X, y, batch_size=128, epochs=100, verbose=1)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.src.callbacks.History at 0x789adc2dad10>

Para ver cómo evoluciona SU modelo del lenguaje,  genere texto según va entrenando. Para ello, programe una función que, utilizando el modelo en su estado actual, genere texto, con la idea de ver cómo se va generando texto al entrenar cada epoch.

En el código de abajo puede ver una función auxiliar para obtener valores de una distribución multinomial. Esta función se usará para muestrear el siguiente carácter a utilizar según las probabilidades de la salida de softmax (en vez de tomar directamente el valor con la máxima probabilidad, obtiene un valor aleatorio según la distribución de probabilidad dada por softmax, de modo que los resultados serán más diversos, pero seguirán teniendo "sentido" ya que el modelo tenderá a seleccionar valores con más probabilidad).



In [None]:
def sample(probs, temperature=1.0):
    """Nos da el índice del elemento a elegir según la distribución
    de probabilidad dada por probs.

    Args:
      probs es la salida dada por una capa softmax:
        probs = model.predict(x_to_predict)[0]

      temperature es un parámetro que nos permite obtener mayor
        "diversidad" a la hora de obtener resultados.

        temperature = 1 nos da la distribución normal de softmax
        0 < temperature < 1 hace que el sampling sea más conservador,
          de modo que sampleamos cosas de las que estamos más seguros
        temperature > 1 hace que los samplings sean más atrevidos,
          eligiendo en más ocasiones clases con baja probabilidad.
          Con esto, tenemos mayor diversidad pero se cometen más
          errores.
    """
    # Cast a float64 por motivos numéricos
    probs = np.asarray(probs).astype('float64')

    # logaritmo de probabilidades y aplicamos reducción
    # por temperatura.
    probs = np.log(probs) / temperature

    # Volvemos a aplicar exponencial y normalizamos de nuevo
    exp_probs = np.exp(probs)
    probs = exp_probs / np.sum(exp_probs)

    # Hacemos el sampling dadas las nuevas probabilidades
    # de salida (ver doc. de np.random.multinomial)
    samples = np.random.multinomial(1, probs, 1)
    return np.argmax(samples)


Utilizando la función anterior y el modelo entrenado, añadir un callback a al modelo para que, según vaya entrenando, se vean los valores que resultan de generar textos con distintas temperaturas al acabar cada epoch.

Para ello, abajo tienedisponible el callback *on_epoch_end*. Esta función elige una secuencia de texto al azar en el texto disponible en la variable
text y genera textos de longitud *GENERATED_TEXT_LENGTH* según las temperaturas en *TEMPERATURES_TO_TRY*, utilizando para ello la función *generate_text*.

Complete la función *generate_text* de modo que utilice el modelo y la función sample para generar texto.

NOTA: Cuando haga model.predict, es aconsejable usar verbose=0 como argumento para evitar que la función imprima valores de salida.

In [None]:
TEMPERATURES_TO_TRY = [1.0] #, 0.5, 1.0, 1.2]
GENERATED_TEXT_LENGTH = 300

def generate_text(seed_text, model, length=300, temperature=1, max_length=30):
    """Genera una secuencia de texto a partir de seed_text utilizando model.

    La secuencia tiene longitud length y el sampling se hace con la temperature
    definida.
    """

    # Aquí guardaremos nuestro texto generado, que incluirá el
    # texto origen
    generated = seed_text

    # Utilizar el modelo en un bucle de manera que generemos
    # carácter a carácter. Habrá que construir los valores de
    # X_pred de manera similar a como hemos hecho arriba, salvo que
    # aquí sólo se necesita una oración
    # Nótese que el x que utilicemos tiene que irse actualizando con
    # los caracteres que se van generando. La secuencia de entrada al
    # modelo tiene que ser una secuencia de tamaño SEQ_LENGTH que
    # incluya el último caracter predicho.

    ### TU CÓDIGO AQUÍ
    prediction = []

    for i in range(length):
        # Make numpy array to hold seed
        X = np.zeros((1, len(generated), len(chars) ))

        # Set one-hot vectors for seed sequence
        for t, char in enumerate(seed_text):
            X[0, t, char_indices[char]] = 1

        # Generate prediction for next character
        preds = model.predict(X, verbose=0)[0]
        # Choose a character from the prediction probabilities
        next_index = sample(preds,0.2)
        next_char = indice_char[next_index]

        prediction.append(next_char)
        # Add the predicted character to the seed sequence so the next prediction
        # includes this character in it's seed.
        #generated += next_char
        seed_text = seed_text[1:] + next_char

        print(next_char, end= " ");
        # Flush so we can see the prediction as it's generated
        sys.stdout.flush()

    prediction = ''.join(prediction)
    sys.stdout.flush()

    ### FIN DE TU CÓDIGO
    return generated


def on_epoch_end(epoch, logs):
  print("\n\n\n")

  # Primero, seleccionamos una secuencia al azar para empezar a predecir
  # a partir de ella
  start_pos = random.randint(0, len(text) - SEQ_LENGTH - 1)
  seed_text = text[start_pos:start_pos + SEQ_LENGTH]
  for temperature in TEMPERATURES_TO_TRY:
    print("------> Epoch: {} - Generando texto con temperature {}".format(
        epoch + 1, temperature))

    generated_text = generate_text(seed_text, model,
                                   GENERATED_TEXT_LENGTH, temperature)
    print("Seed: {}".format(seed_text))
    print("Texto generado: {}".format(generated_text))


generation_callback = LambdaCallback(on_epoch_end=on_epoch_end)

Entrene ahora su modelo. No se olvides de añadir *generation_callback* a la lista de callbacks utilizados en fit(). Ya que las métricas de clasificación no son tan críticas aquí (no nos importa tanto acertar el carácter exacto, sino obtener una distribución de probabilidad adecuada), no es necesario monitorizar la accuracy ni usar validation data, si bien puedes añadirlos para asegurarte de que todo está en orden.


In [None]:
## TU CÓDIGO AQUÍ

model.fit(X, y, batch_size=128, epochs=10, callbacks=generation_callback)

Epoch 1/10



------> Epoch: 1 - Generando texto con temperature 1.0
d e s   p e n t o   n n t t o   d e   l a s   a n t o   d e   l i   c u e s   s i i c a n a   c u e   l o     a n t o j o r e l   a n t o c t e l   l o   t n t o   d e   l a s   a n t o   d e   l i   c u e s   s i   c e n o   y e   a s   a n t e r a s   e l   p a c i e   l a   a n t o   d e   l a   c a m a   y e   l o   m e n t o   d e   l i   c u e s     e n t i m í a     e r   c e n t u r a r o   p e n t o   c e l a s o r a n   d e   l a s   a n a d e s   s u s i m a s s   e n t e s s s e n t e s t e s   p a m o r o r a l l a m o s   d e s   l a   c e m o s   e l o   s e l o   m e s   s e r Seed: ¿por qué va llorando la niña?

era preciso pasar de noche por cáqueza, en previsión de que las autor
Texto generado: ¿por qué va llorando la niña?

era preciso pasar de noche por cáqueza, en previsión de que las autor
Epoch 2/10



------> Epoch: 2 - Generando texto con temperature 1.0
  a b r a r a c a d e l a m e n t e n 

<keras.src.callbacks.History at 0x789ad00f8e20>