![Texto alternativo](https://laserud.co/wp-content/uploads/2020/05/cropped-LOGOLASER-1.jpg "Grupo LASER")
# Modelo Lingüistico a Nivel de Palabras y Generación de Texto
Un modelo de lenguaje puede predecir la probabilidad de la siguiente palabra en una secuencia, basado en las palabras ya observadas de la secuencia.

Un modelo de lenguaje estadístico asigna una probabilidad a una secuencia de $ m $ palabras $ P(w_1, w_2, … , w_m) $ mediante una distribución de probabilidad. Para muchas aplicaciones de NLP es importante tener una forma de estimar la verosimilitud de una frase dentro de una oración. Dentro de las aplicaciones se puede destacar el reconocimiento de voz, traducción automática, etiquetado del discurso, reconocimiento de escritura, entre otras.

La escasez de datos es un problema importante para la construcción de modelos de lenguaje estadísticos. La mayoría de las posibles secuencias de palabras no serán observadas durante el proceso de entrenamiento. Por lo cual se hace la hipótesis de que la probabilidad de una palabra solo depende de las $ n $ palabras anteriores. Esto se conoce como un modelo de N-grama.

Los modelos de redes neuronales son los métodos preferidos para desarrollar modelos estadísticos de lenguaje porque pueden utilizar una representación distribuida en la que diferentes palabras con resultados similares tienen una representación similar y porque pueden utilizar un amplio contexto de palabras recientemente observadas al hacer predicciones.

Empezaremos cargando los modulos necesarios para llevar a cabo el ejemplo de hoy. Junto con la función definida, a lo largo del tutorial se utilizarán y se explicará su funcionamiento.

In [1]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential, load_model
from tensorflow.keras.layers import Dense, LSTM, Embedding

import numpy as np
import string
from pickle import dump, load

from random import randint

In [2]:
# generate a sequence from a language model
def generate_seq(model, tokenizer, seq_length, seed_text, n_words):
    result = list()
    in_text = seed_text
    # generate a fixed number of words
    for _ in range(n_words):
        # encode the text as integer
        encoded = tokenizer.texts_to_sequences([in_text])[0]
        # truncate sequences to a fixed length
        encoded = pad_sequences([encoded], maxlen=seq_length, truncating='pre')
        # predict probabilities for each word
        yhat = np.argmax(model.predict(encoded), axis=-1)
        # map predicted word index to word
        out_word = ''
        for word, index in tokenizer.word_index.items():
            if index == yhat:
                out_word = word
                break
        # append to input
        in_text += ' ' + out_word
        result.append(out_word)
    return ' '.join(result)

Primero, para este ejercicio elegimos un texto simple, Platero y yo, escrito por el poeta Español Juan Ramón Jiménez en 1914. Hemos decidido utilizar este texto para el ejemplo de hoy, pues es una obra simple, corta y el texto crudo puede ser descargado desde el proyecto Gutenberg en: https://www.gutenberg.org/ebooks/39209.

Al descargar el archivo de texto, podemos darnos cuenta que el archivo elegido contiene encabezado y pie de página, y no estamos interesados en esta información. Así que abrimos el archivo y borramos esta pequeña sección del archivo.

El primer paso necesario es cargar el texto en memoria. Como mencionamos anteriormente, se eligió un texto corto, de tal manera que no tendremos dificultades para el manejo del texto.

In [3]:
import requests

url = "https://github.com/LASER-UD/machinelearning/blob/main/NLP/WordLevelModel/platero.txt?raw=true"
text = requests.get(url).text

### Limpiar el Texto
Necesitamos transformar el texto crudo en una secuencia de tokens o palabras que podamos usar como fuente para entrenar el modelo. Basados en la revisión del texto anteriormente mencionada vamos a ejecutar algunas operaciones para dejar el texto en el formato deseado.
-	Dividir el texto en palabras basados en los espacios en blanco.
-	Eliminar toda la puntuación del texto.
-	Eliminar todas las palabras que no sean alfabéticas para asegurarnos que no queden signos de puntuación aislados.
-	Normalizar todas las palabras a minúsculas para reducir el tamaño del vocabulario.

El tamaño del vocabulario es un factor importante en el modelado del lenguaje. Un vocabulario más pequeño da lugar a un modelo más pequeño que se entrena más rápido.

Vamos a ejecutar las operaciones de procesamiento mencionadas anteriormente. Primero dividimos manualmente el texto en palabras:


In [4]:
filters = string.punctuation+ '¿¡'
tokens = doc.split()
print(tokens[:20])

['\ufeffADVERTENCIA', 'Á', 'LOS', 'HOMBRES', 'QUE', 'LEAN', 'ESTE', 'LIBRO', 'PARA', 'NIÑOS', 'Este', 'breve', 'libro,', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena']


Eliminamos la puntuación del texto, agregando al filtro los signos '¿¡', que como ya hemos visto no son utilizados en el idioma inglés.

In [5]:
table = str.maketrans('', '', filters)
tokens = [w.translate(table) for w in tokens]

Normalizamos el texto a minúsculas y verificamos que todos los tokens sean alfabéticos:

In [6]:
tokens = [word.lower() for word in tokens if word.isalpha()]

print(tokens[:20])
print('Total Tokens: %d' % len(tokens))
print('Unique Tokens: %d' % len(set(tokens)))

['á', 'los', 'hombres', 'que', 'lean', 'este', 'libro', 'para', 'niños', 'este', 'breve', 'libro', 'en', 'donde', 'la', 'alegría', 'y', 'la', 'pena', 'son']
Total Tokens: 12120
Unique Tokens: 3277


Podemos ver que tenemos un total cercano a 12100 palabras en el texto y un vocabulario de  aproximadamente 3200 palabras. Este es un vocabulario manejable para ajustar nuestro modelo.

### Organizar el Texto

Ahora debemos organizar los tokens disponibles de acuerdo con el tamaño de entrada elegido. En este caso se tomarán secuencias de ¿50? palabras y una salida. Para organizar los tokens, separaremos cada uno de ellos mediante espacios:


In [7]:
IN_WORDS = 50

#organizar en secuencias de tokens
length = IN_WORDS + 1
lines = list()
for i in range(length, len(tokens)):
    # select sequence of tokens
    seq = tokens[i-length:i]
    # convert into a line
    line = ' '.join(seq)
    # store
    lines.append(line)
print('Total Sequences: %d' % len(lines))

Total Sequences: 12069


### Modelo de Lenguaje

La topología a entrenar es un modelo neural de lenguaje. Podemos destacar algunas de sus características:
-	Utiliza una representación distribuida para las palabras, de modo que diferentes palabras con significados similares tendrán una representación similar.
-	Aprende la representación al mismo tiempo que aprende el modelo
-	Aprende a predecir la probabilidad de la siguiente palabra utilizando el contexto de las palabras anteriores.

Para esta tarea utilizaremos una capa “Embedding” para aprender la representación de palabras y una capa recurrente LSTM para aprender a predecir las palabras basado en su contexto.

### Codificación de Secuencias
La capa Word Embedding espera que las secuencias de entrada estén compuestas por números enteros. Podemos asignar cada palabra de nuestro vocabulario a un número entero único y codificar nuestras secuencias de entrada. Más adelante, cuando hagamos predicciones, podemos convertir la predicción en números y buscar sus palabras asociadas en el mismo mapeo.

Para realizar esta codificación, utilizaremos la clase Tokenizer de Keras. Primero el Tokenizer debe ser entrenado en el conjunto de datos de entrenamiento, lo cual significa que encuentra todas las palabras únicas en los datos y asigna a cada una un número entero único.

A continuación, podemos utilizar el Tokenizer ajustado para codificar todas las secuencias de entrenamiento, convirtiendo cada secuencia de una lista de palabras a una lista de enteros.

Podemos acceder al mapeo de palabras a enteros como un atributo del diccionario llamado Word_index en el objeto Tokenizer.

Necesitamos saber el tamaño del vocabulario para definir la capa Embedding. Podemos determinar el tamaño del vocabulario calculando el tamaño del diccionario codificado.

A las palabras se les asigna valores desde 1 hasta el número total de palabras. La capa Embedding necesita asignar una representación vectorial para cada palabra de este vocabulario desde el índice 1 hasta el índice más grande y como la indexación de los arrays es 0, es necesario que el array tenga una longitud de: [número total de palabras + 1].

Por lo tanto, al especificar el tamaño del vocabulario a la capa Embedding, lo especificamos como 1 mayor que el vocabulario real.

In [8]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)

VOCAB_SIZE = len(tokenizer.word_index) + 1

### Entrada y Salida de la Secuencia
Ya hemos codificado las secuencias de texto, necesitamos separarlas en entrada (X) y salida (y). Esto lo haremos dividiendo el array.

Después de que tengamos la salida, necesitamos aplicarle codificación one hot. Esto significa convertir de un número entero a un vector de ceros, uno por cada palabra del vocabulario, con un 1 para indicar la palabra especifica en el índice del valor entero de las palabras.

Esto es para que el modelo aprenda a predecir la distribución de probabilidad para la siguiente palabra; la salida a partir de la cual se aprende es 0 para todas las palabras excepto la palabra que viene a continuación.

Haciendo uso de la función to_categorical() de Keras, tendremos nuestra salida codificada con one hot.

In [9]:
sequences = np.array(sequences)
X, y = sequences[:,:-1], sequences[:,-1]
y = to_categorical(y, num_classes=VOCAB_SIZE)
seq_length = X.shape[1]

### Definición y Entrenamiento del Modelo
Ahora es tiempo de definir y entrenar el modelo de lenguaje con los datos de entrenamiento.

La capa Embedding necesita conocer el tamaño del vocabulario y la longitud de la secuencia de entrada. También tiene un parámetro para especificar cuantas dimensiones se utilizarán para representar cada palabra. Es decir, el tamaño del espacio vectorial embebido. Valores comunes son 50, 100. Usaremos 50, pero este parámetro también debe ser ajustado con base a pruebas.

Usaremos dos capas LSTM cada una con 100 unidades de memoria. Más unidades de memoria y una red más profunda puede mejorar los resultados, pero también se debe someter a pruebas cada topología especificada.

Agregamos una capa totalmente conectada con 100 unidades para interpretar las características extraídas de las secuencias por las capas LSTM. Finalmente, la capa de salida predice la siguiente palabra como un único vector del tamaño del vocabulario con una probabilidad para cada palabra del mismo. Como función de activación usamos Softmax, con lo cual aseguramos que las salidas tienen las características de probabilidades normalizadas.


In [10]:
#Define the model
model = Sequential()
model.add(Embedding(VOCAB_SIZE, 50, input_length=seq_length))
model.add(LSTM(100, return_sequences=True))
model.add(LSTM(100))
model.add(Dense(100, activation='relu'))
model.add(Dense(VOCAB_SIZE, activation='softmax'))
print(model.summary())

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 50, 50)            163850    
_________________________________________________________________
lstm (LSTM)                  (None, 50, 100)           60400     
_________________________________________________________________
lstm_1 (LSTM)                (None, 100)               80400     
_________________________________________________________________
dense (Dense)                (None, 100)               10100     
_________________________________________________________________
dense_1 (Dense)              (None, 3277)              330977    
Total params: 645,727
Trainable params: 645,727
Non-trainable params: 0
_________________________________________________________________
None


Especificamos cuantas épocas de entrenamiento utilizaremos y el tamaño del batch. En este caso entrenaremos 100 veces y con un tamaño de batch de 128.

A continuación, el modelo es compilado especificando que la función de optimización deseada es entropía cruzada categórica (categorical cross entropy). Técnicamente nuestro modelo esta aprendiendo una clasificación multi clase y esta es la función de optimización adecuada para este tipo de problemas. Adicionalmente, especificaremos que utilizaremos como optimizador la implementación del algoritmo Adam y que nos interesa evaluar la precisión del modelo.

In [11]:
EPOCHS = 10
BATCH = 128

# compile model
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

# fit model
model.fit(X, y, batch_size=BATCH, epochs=EPOCHS)

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<tensorflow.python.keras.callbacks.History at 0x1a82e35b288>

### Guardar el Modelo
Una vez ajustado el modelo, vamos a guardarlo para su uso posterior. Igualmente, necesitamos tener el mapeo de palabras a enteros. Esto está en el objeto Tokenizer, lo guardaremos usando Pickle

In [12]:
# save the model to file
model.save('model.h5')

# save the tokenizer
dump(tokenizer, open('tokenizer.pkl', 'wb'))

Si en algún momento deseamos cargar un modelo entrenado previamente, utilizamos la función load_model() de Keras. En esta función solo debemos indicar el nombre el archivo .h5 que deseamos utilizar.

Adicionalmente, es necesario cargar el Tokenizer que hemos utilizado previamente para codificar el documento. Este objeto lo necesitamos para mapear de número a token cuando se realice la clasificación.

In [13]:
# cargar un modelo guardado
model = load_model('model-prueba.h5')

# cargar el tokenizer
tokenizer = load(open('tokenizer-prueba.pkl', 'rb'))

### Usando el Modelo de Lenguaje
Ahora que tenemos entrenado un modelo de lenguaje podemos usarlo. En este caso, lo utilizaremos para generar nuevas secuencias de texto que tengan las mimas propiedades estadísticas que el texto de origen.

El primer paso para generar texto es preparar una entrada semilla. En este caso elegiremos una línea aleatoria para generar el texto.

Dentro de la función generate_seq, la semilla es codificada a enteros con el mismo objeto Tokenizer que usamos cuando entrenamos el modelo. El modelo puede realizar la predicción de la siguiente palabra usando model.predict() que nos devolverá el índice de la palabra con la mayor probabilidad.

Entonces, podemos buscar el índice en el mapeo del Tokenizer para obtener la palabra asociada. Adjuntamos esta palabra a la semilla y continuar el proceso de generación de texto.

Debido a que la secuencia de entrada va a ser demasiado larga, podemos truncarla a la longitud deseada después de que la secuencia de entrada haya sido codificada a enteros. El truncamiento lo podemos realizar con la función pad_sequences()  de Keras.


In [14]:
seq_length = len(lines[0].split()) - 1

seed_text = lines[randint(0,len(lines))]
print(seed_text + '\n')

generated = generate_seq(model, tokenizer, seq_length, seed_text, 50)
print(generated)

no le queda muela ni diente y casi sólo come migajón de pan que amasa primero en la mano hace una bola y á la boca roja allí la tiene revolviéndola una hora luego otra bola y otra masca con las encías y la barba le llega á la aguileña nariz

digo que tibio igual del espacio y en la puerta cantaba un pájaro de la fuente de estopa sola platero y terrestres y el campo que trae el atajo isí eran macizos aéreos de esos carboneros que removió almorzando pasado las orejas se ve que ya la vara de oro


## Conclusión
Con esta primera aproximación hemos podido generar texto automáticamente. En ocasiones parece no ser del todo coherente, se presentan errores de sintaxis, etc. Sin embargo, se debe tener en cuenta la sencilles del modelo, donde utilizamos una base de datos realmente pequeña, una topología de red neuronal bastante reducida y además no optimizada.

Con fines de demostración el ejemplo planteado, junto con el modelo resultante, son aceptables. Sin lugar a dudas hay varios puntos a mejorar, desde la base de datos elegida, hasta la topología de la red neuronal utilizada. Sigamos aprendiendo y mejorando nuestros modelos, no es una tarea sencilla, ni mucho menos veloz o económica, pero es posible.