## Ejercicio

Utilizar otro dataset y poner en práctica la predicción de próxima palabra.

In [8]:
pip uninstall tensorflow-datasets

In [None]:
pip install tfds-nightly

In [7]:
import tensorflow_datasets as tfds

ImportError: cannot import name 'core' from partially initialized module 'tensorflow_datasets' (most likely due to a circular import) (c:\Users\karen\AppData\Local\Programs\Python\Python311\Lib\site-packages\tensorflow_datasets\__init__.py)

In [None]:
import random
import io
import pickle
import os

import numpy as np
import pandas as pd

from tensorflow import keras
from tensorflow.keras import layers
from keras.utils import to_categorical
from keras.models import Sequential
from keras.layers import Dense, LSTM, Embedding, Dropout, Bidirectional, GRU

In [None]:
dataset = tfds.load('wikipedia/20200301.en', split='train')

for example in dataset.take(10):  # Toma solo los primeros 10 ejemplos
    text = example['text']
    print(text)

Datos
Utilizaremos como dataset canciones de bandas de habla inglés.

In [None]:
# Descargar la carpeta de dataset
import platform
if os.access('./songs_dataset', os.F_OK) is False:
    if os.access('songs_dataset.zip', os.F_OK) is False:
        if platform.system() == 'Windows':
            !curl https://raw.githubusercontent.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/main/datasets/songs_dataset.zip -o songs_dataset.zip
        else:
            !wget songs_dataset.zip https://github.com/FIUBA-Posgrado-Inteligencia-Artificial/procesamiento_lenguaje_natural/raw/main/datasets/songs_dataset.zip
    !unzip -q songs_dataset.zip
else:
    print("El dataset ya se encuentra descargado")

In [None]:
os.listdir("./songs_dataset/")

In [None]:
# Armar el dataset utilizando salto de línea para separar las oraciones/docs
# text_files = os.listdir("./songs_dataset/")
text_files = ['al-green.txt']
df = pd.DataFrame()
for text in text_files:
    path = "./songs_dataset/" + text
    df_i = pd.read_csv(path, sep='/n', header=None, engine='python')
    df = pd.concat([df,df_i], ignore_index=True)
df.head()

In [None]:
print("Cantidad de documentos:", df.shape[0])

2 - Preprocesamiento completo
Debemos realizar los mismos pasos que en el ejemplo anterior, pero antes de eso debemos transformar ese dataset de filas de oraciones en un texto completo continuo para poder extraer el vocabulario.



In [None]:
from keras.preprocessing.text import Tokenizer # equivalente a ltokenizer de nltk
from keras.preprocessing.text import text_to_word_sequence # equivalente a word_tokenize de nltk
from keras.utils import pad_sequences # se utilizará para padding

# largo de la secuencia, incluye seq input + word output
train_len = 6 # Cambie el train_len de 4 a 6 para aumentar la cantidad de palabra para el entrenamiento

tok = Tokenizer()

# El tokenizer "aprende" las palabras que se usaran
# Se construye (fit) una vez por proyecto, se aplica N veces (tal cual un encoder)

In [None]:
# Vistazo a las primeras filas
df.loc[:15,0]

In [None]:
# Concatenamos todos los rows en un solo valor
corpus = df.apply(lambda row: ' '.join(row.values.astype(str)), axis=0)[0]
corpus

In [None]:
# Transformar el corpus a tokens
tokens=text_to_word_sequence(corpus)
# Vistazo general de los primeros tokens
tokens[:20]

In [None]:
print("Cantidad de tokens en el corpus:", len(tokens))

In [None]:
# Código para hacer el desfasaje de las palabras
# según el train_len
text_sequences = []
for i in range(train_len, len(tokens)):
  seq = tokens[i-train_len:i]
  text_sequences.append(seq)

In [None]:
# Demos un vistazo a nuestros vectores para entrenar el modelo
text_sequences[:20]

In [None]:
# Proceso de tokenización
tok = Tokenizer()
tok.fit_on_texts(text_sequences)

# Convertimos las palabras a números
# entran palabras -> salen números
sequences = tok.texts_to_sequences(text_sequences)

# Damos un vistazo
sequences[:20]

In [None]:
print("Cantidad de rows del dataset:", len(sequences))

3 - Input y target

In [None]:
arr_sequences = np.array(sequences)
x_data = arr_sequences[:,:-1]
y_data_int = arr_sequences[:,-1] # aún falta el oneHotEncoder

print(x_data.shape)
print(y_data_int.shape)

In [None]:
# Palabras del vocabulario
tok.index_word

In [None]:
# Cantidad de palabras en el vocabulario
vocab_size = len(tok.word_counts)
vocab_size

In [None]:
# En el caso anterior explota porque y_data_int comienza en "1" en vez de "0"
# valor minimo:
min(y_data_int)

In [None]:
y_data_int_offset = y_data_int - 1
y_data = to_categorical(y_data_int_offset, num_classes=vocab_size)
y_data.shape

Entrenar el modelo

In [None]:
# largo de la secuencia de entrada
input_seq_len = x_data.shape[1]
input_seq_len

In [None]:
# Largo del vector de salida --> vocab_size
output_size = vocab_size
output_size

In [None]:
model = Sequential()

# Embedding:
# input_seq_len = 5 --> ingreso 5 palabras
# input_dim = vocab_size --> 1204 palabras distintas
# output_dim = 13 --> crear embeddings de tamaño 5 (tamaño variable y ajustable) - (Surd[1204,4]= 5.9)
model.add(Embedding(input_dim=vocab_size+1, output_dim=5, input_length=input_seq_len))

model.add(Bidirectional(GRU(128, return_sequences=True)))
model.add(Dropout(0.2))
model.add(Bidirectional(GRU(128))) # La última capa LSTM no lleva return_sequences
model.add(Dense(64, activation='relu'))
#model.add(Dense(64, activation='relu'))

# Predicción de clasificación con softmax
# La salida vuelve al espacio de 30459 palabras posibles
model.add(Dense(vocab_size, activation='softmax'))

# Clasificación multiple categórica --> loss = categorical_crossentropy
model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy'])

model.summary()

In [None]:
hist = model.fit(x_data, y_data, epochs=70, validation_split=0.2)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Entrenamiento
epoch_count = range(1, len(hist.history['accuracy']) + 1)
sns.lineplot(x=epoch_count,  y=hist.history['accuracy'], label='train')
sns.lineplot(x=epoch_count,  y=hist.history['val_accuracy'], label='valid')
plt.show()

Generación de secuencias nuevas

In [None]:
def generate_seq(model, tokenizer, seed_text, max_length, n_words):
    """
        Exec model sequence prediction

        Args:
            model (keras): modelo entrenado
            tokenizer (keras tokenizer): tonenizer utilizado en el preprocesamiento
            seed_text (string): texto de entrada (input_seq)
            max_length (int): máxima longitud de la sequencia de entrada
            n_words (int): números de palabras a agregar a la sequencia de entrada
        returns:
            output_text (string): sentencia con las "n_words" agregadas
    """
    output_text = seed_text
	# generate a fixed number of words
    for _ in range(n_words):
		# Encodeamos
        encoded = tokenizer.texts_to_sequences([output_text])[0]
		# Si tienen distinto largo
        encoded = pad_sequences([encoded], maxlen=max_length, padding='pre')

		# Predicción softmax
        y_hat = model.predict(encoded).argmax(axis=-1)
		# Vamos concatenando las predicciones
        out_word = ''

        # Debemos buscar en el vocabulario la palabra
        # que corresopnde al indice (y_hat) predicho por le modelo
        for word, index in tokenizer.word_index.items():
            if index == y_hat:
                out_word = word
                break

		# Agrego las palabras a la frase predicha
        output_text += ' ' + out_word
    return output_text

In [None]:
input_text='I\'m so in love with'

generate_seq(model, tok, input_text, max_length=5, n_words=2)

Beam search y muestreo aleatorio

In [None]:
# funcionalidades para hacer encoding y decoding

def encode(text,max_length=5):

    encoded = tok.texts_to_sequences([text])[0]
    encoded = pad_sequences([encoded], maxlen=max_length, padding='pre')

    return encoded

def decode(seq):
    return tok.sequences_to_texts([seq])

In [None]:
from scipy.special import softmax

# función que selecciona candidatos para el beam search
def select_candidates(pred,num_beams,vocab_size,history_probs,history_tokens,temp=1):

  # colectar todas las probabilidades para la siguiente búsqueda
  pred_large = []

  for idx,pp in enumerate(pred):
    pred_large.extend(np.log(pp+1E-10)+history_probs[idx])

  pred_large = np.array(pred_large)

  # criterio de selección
  # idx_select = np.argsort(pred_large)[::-1][:num_beams] # beam search determinista
  idx_select = np.random.choice(np.arange(pred_large.shape[0]), num_beams, p=softmax(pred_large/temp)) # beam search con muestreo

  # traducir a índices de token en el vocabulario
  new_history_tokens = np.concatenate((np.array(history_tokens)[idx_select//vocab_size],
                        np.array([idx_select%vocab_size]).T),
                      axis=1)

  # devolver el producto de las probabilidades (log) y la secuencia de tokens seleccionados
  return pred_large[idx_select.astype(int)], new_history_tokens.astype(int)


def beam_search(model,num_beams,num_words,input):

    # first iteration

    # encode
    encoded = encode(input)

    # first prediction
    y_hat = np.squeeze(model.predict(encoded))

    # get vocabulary size
    vocab_size = y_hat.shape[0]

    # initialize history
    history_probs = [0]*num_beams
    history_tokens = [encoded[0]]*num_beams

    # select num_beams candidates
    history_probs, history_tokens = select_candidates([y_hat],
                                        num_beams,
                                        vocab_size,
                                        history_probs,
                                        history_tokens)

    # beam search loop
    for i in range(num_words-1):

      preds = []

      for hist in history_tokens:

        # actualizar secuencia de tokens
        input_update = np.array([hist[i+1:]]).copy()

        # predicción
        y_hat = np.squeeze(model.predict(input_update))

        preds.append(y_hat)

      history_probs, history_tokens = select_candidates(preds,
                                                        num_beams,
                                                        vocab_size,
                                                        history_probs,
                                                        history_tokens)

    return history_tokens

In [None]:
# predicción con beam search
salidas = beam_search(model,num_beams=10,num_words=6,input="Whether times are good")

In [None]:
# veamos las salidas
decode(salidas[0])

#### Conclusiones

El modelo entrenado tuvo un muy mail desempeño en el entrenamiento además de overfitting. Cuestiones que podrían mejorarse:

Agregar más capas o neuronaes
Incrementar la cantidad de épocas
Agregar BRNN
Es importante destacar que en este ejemplo estamos entrenando nuestro propios Embeddings, y para ello se requiere mucha data. En los ejemplos que realizaremos de aquí en más utilizaremos más datos, embeddings pre-enternados o modelos pre-entrenados.

Cambios que realice para mejorar el desempeño:

Cambio en el dataset: Intente usar todas las canciones del dataset pero no pude correrlo en colab por el uso de la memoria, tambien intente usar los libros de "Lord of the Ring" pero tammbien el consumo de memoria ram supero el maximo en el mometo del entrenamiento. Encontre que con el artista 'al-green.txt' que el resultado de acuracy en la validacion fue un poco mejor pero todavia es baja y hay overfitting.
Aumentar el train_len de 4 a 6
Agregar bidireccionalidad
Utilizar capaz GRU en lugar de LSTM
Aumentar la cantidad de neuronas de 64 a 128
Luego de entrenar el modelo agregando mas neuronas pude lograr una mejora en accuracy. Tambien probe agregando capaz pero no mejoro.

A Difirencia del ejemplo visto en clase el acurracy en este caso fue de 20% peor todavia hay overfitting. Seria interesante ver que pasa con la totalidad de las camciones pero no lo puede entrenar.

Tambien intente usar mas cantidad de artistas pero el accuracy nunca supero el 10%