# Proyecto II: Shakespear-Matic

Debido a la falta de producción literaria de calidad (subjetivamente medida por el profesor Alexander), el profesor  Alexander ha decidio explorar la generación automatica de texto, para ver si de esa forma se puede lograr mejores obras contemporaneas. Debido a que los estudiantes del curso de NLP (Natural Language Processing) ya son expertos en la generación automatica de texto, el profesor ha decidio generar el siguiente reto para evaluar sus conocimientos y la calidad de estas herramientas  en la producción literaria.

Para esta tarea el profesor quiere que los estudiantes entrenen diferentes sistemas para la generación de tres estilos literarios diferentes, ente los estilos que se desean observar los estudiantes pueden escoger entre: Novelas clásicas, cuentos de niños, poesia, letras de canciones (por favor NO regueton), obras de realismo mágico, entre otras.

Para el desarrollo de esta tarea el profesor Alexander pide que se diseñen sistemas de generación automatica basada en palabras, para lo cual deben implementar en el pipeline:

1. Adquisición de datos.
2. Generación de vectors de palabras usando word2vec.
3. Entrenamiento de los sistemas para los estilos literarios escogidos.
4. Predicción del texto:
    * Si la codificación se hizo con onehot encoding para la salida, el sistema produce de salida la siguiente palabra a generar.
    * Si la codificación de salida se hizo con word2vec se debe implementar una busqueda de la palbra más cercana a la codificación generada por la salida de la red.
      
Tengan en cuenta que la relación entre la longitud del corpus y las palabras del vocabulario debe ser adecuada, para poder tener buenos resultados. El texto generado debe tener tambien en cuenta la puntuación.

AL finalizar el proyecto, el profesor Alexander quiere que los estudiantes contesten las siguientes preguntas:

1. ¿Qué pueden observar de los resusltados de los sistemas de generacion automatica para los tres estilos literarios diferentes? ¿Porqué considera que los resultados son de está forma?

2. ¿Qué tamaño de N escogierón para la codificación de las palabras en vectores? ¿?Qué sucede si escogen un valor diferente de N?

3. ¿Qué sucede si se cambia el número de palbras anteriores utilizados para predecir la palabra siguiiente en el modelo?

4. ¿Qué ventajas y desventajas tienen las diferentes formas de codificar la salida - one hot encoding y word2vec?

5. ¿Qué forma de codificación de la salida escogierón al final? ¿Porqué?

6. ¿Qué pueden concluir del proyecto? ¿Cómo se pueden mejorar los resultados?

Por favor al desarrollar el proyecto comentar cada bloque de codigo con un analisis de lo que esperan lograr y un análisis de los resultados preliminares. El proyecto se debe entregar a más tardar el **Domingo 2 de Mayo del 2021 a las 11:59 p.m. hora Bogotá**.

In [1]:
import re 
import numpy as np

from sklearn.model_selection import train_test_split
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, Dropout

In [2]:
# Función para leer y procesar el archivo en texto plano.

def get_file_data(fname,file = True, stop_word_removal='no'):
    file_contents = []
    if file:
        with open(fname) as f:
            file_contents = f.read()
    text = []
    for val in file_contents.split('.'):
        val = re.sub(r'[,¡!¿?;-]+','.',val)
        val = re.sub(r'á','a',val)
        val = re.sub(r'é','e',val)
        val = re.sub(r'í','i',val)
        val = re.sub(r'ó','o',val)
        val = re.sub(r'ú','u',val)
        val = re.sub(r'Á','A',val)
        val = re.sub(r'É','E',val)
        val = re.sub(r'Í','I',val)
        val = re.sub(r'Ó','O',val)
        val = re.sub(r'Ú','U',val)
        val = re.sub(r'ñ','n',val)
        val = re.sub(r'Ñ','N',val)
        val = re.sub(r'[^a-zA-Z0-9 .]','',val)
        #val = re.sub('[0-9]+',"numero",val)
        val = re.sub('[0-9]+',"",val)
        #sent = re.findall("[A-Za-z]+", val)
        sent = re.findall("[A-Za-z ]+", val)
        line = ''
        
        #print(sent)
        
        for words in sent:
            #print(list(words))
            #print(words)
            
            if stop_word_removal == 'yes': 
                if len(words) > 1 and words not in stop_words:
                    line = line + ' ' + words
            else:
                
                if len(words) > 1 :
                    line = line + ' ' + words
                    text.append(line.lower())

    return text

# Función para obtener un Vocabulario en función del texto procesado

def generate_dictionary_data(text):
    word_to_index= dict()
    index_to_word = dict()
    corpus = []
    count = 0
    vocab_size = 0
    
    for row in text:
        word = row.lower()
        corpus.append(word)
        if word_to_index.get(word) == None:
            word_to_index.update ( {word : count})
            index_to_word.update ( {count : word })
            count  += 1
    vocab_size = len(word_to_index)
    length_of_corpus = len(corpus)
    
    return word_to_index,index_to_word,corpus,vocab_size,length_of_corpus

# Función para generar representaciones one hot de los vectores target y del corpus

def get_one_hot_vectors(target_word,context_words,vocab_size,word_to_index,window_size):
    
    #Create an array of size = vocab_size filled with zeros
    trgt_word_vector = np.zeros(vocab_size)
    
    #Get the index of the target_word according to the dictionary word_to_index. 
    index_of_word_dictionary = word_to_index.get(target_word) 
    
    #Set the index to 1
    trgt_word_vector[index_of_word_dictionary] = 1
    
    #Repeat same steps for context_words but in a loop
    ctxt_word_vector = np.zeros((window_size,vocab_size))
    
    
    row = 0
    for word in context_words:
        index_of_word_dictionary = word_to_index.get(word) 
        ctxt_word_vector[row,index_of_word_dictionary] = 1
        row = row + 1
    
        
#     print(" HOT ENCODING ")
#     print("word \n",trgt_word_vector)
#     print("context \n",ctxt_word_vector)
    return trgt_word_vector,ctxt_word_vector

# Función para generar los datos de entrenamiento para la red neuronal que representa el modelo word2vec

def generate_training_data(corpus,window_size,vocab_size,word_to_index,length_of_corpus,sample=None):

    training_X = [] 
    training_y = []
    
    training_sample_words =  []
    for i,word in enumerate(corpus):

        index_target_word = i
        target_word = word
        context_words = []
        
#         print("i ---> ",i)
#         print("word ---> ",word)
        
        if i >= window_size:
            
            before_target_word_index = index_target_word - 1
            for x in range(before_target_word_index, before_target_word_index - window_size , -1):
                if x >=0:
                    context_words.extend([corpus[x]])
            
            context_words.reverse()
            #print("context \n", context_words)
            
            trgt_word_vector,ctxt_word_vector = get_one_hot_vectors(target_word,context_words,vocab_size,word_to_index,window_size)
#             print('tgt ',trgt_word_vector.shape)
#             print('ctxt ',ctxt_word_vector.shape)
            
            training_X.append(ctxt_word_vector)
            
            training_y.append(trgt_word_vector)
#         print(" ") 
        
        if sample is not None:
            training_sample_words.append([target_word,context_words])   
        
    return np.array(training_X),np.array(training_y),training_sample_words