In [1]:
import numpy as np
import re
from IPython.display import clear_output

from keras.layers import Dense, LSTM, Input, Embedding, Dropout
from keras.utils import np_utils
from keras.models import Model, load_model
from keras.optimizers import Adam, RMSprop
from keras.preprocessing.sequence import pad_sequences
from keras.preprocessing.text import Tokenizer
from keras.callbacks import LambdaCallback

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [3]:
load_saved_model = False
train_model = True

In [4]:
token_type = 'word'

In [5]:
with open ('/content/val.txt', encoding='utf-8-sig') as f:
  text = f.read()
seq_length = 20
text = text[:int(len(text)/1.5)]

In [6]:
start_story = '| ' * seq_length
    
text = start_story + text
#text = text.lower()
#text = text.replace('\n\n\n\n\n', start_story)
#text = text.replace('\n', ' ')
#text = re.sub('   +', '. ', text).strip()
#text = text.replace('..', '.')

#text = re.sub('([!"#$%&()*+,-./:;<=>?@[\]^_`{|}~])', r' \1 ', text)
#text = re.sub('\s{2,}', ' ', text)

In [7]:
len(text)

782606

In [8]:
if token_type == 'word':
    tokenizer = Tokenizer(char_level = False, filters = '', lower = False )
else:
    tokenizer = Tokenizer(char_level = True, filters = '', lower = False)
    
    
tokenizer.fit_on_texts([text])

total_words = len(tokenizer.word_index) + 1

token_list = tokenizer.texts_to_sequences([text])[0]


In [9]:
def generate_sequences(token_list, step):
    
    X = []
    y = []

    for i in range(0, len(token_list) - seq_length, step):
        X.append(token_list[i: i + seq_length])
        y.append(token_list[i + seq_length])
    

    y = np_utils.to_categorical(y, num_classes = total_words)
    
    num_seq = len(X)
    print('Number of sequences:', num_seq, "\n")
    
    return X, y, num_seq

step = 1
seq_length = 20

X, y, num_seq = generate_sequences(token_list, step)

#X = np.array(X)
#y = np.array(y)


Number of sequences: 130280 



In [10]:
X = np.array(X)
#y = np.array(y)

In [11]:
y = np.array(y)

## Define the LSTM model

In [12]:
if load_saved_model:
    # model = load_model('./saved_models/lstm_aesop_1.h5')
    model = load_model('./saved_models/aesop_dropout_100.h5')

else:

    n_units = 256 #Dimensionalidad del espacio de salida
    embedding_size = 100

    text_in = Input(shape = (None,))
    embedding = Embedding(total_words, embedding_size)
    x = embedding(text_in)
    x = LSTM(n_units, return_sequences = True)(x)
    x = Dropout(0.2)(x)
    x = LSTM(n_units, return_sequences = True)(x)
    x = Dropout(0.2)(x)
    x = LSTM(n_units)(x)
    x = Dropout(0.2)(x)
    text_out = Dense(total_words, activation = 'softmax')(x)

    model = Model(text_in, text_out)

    #opti = RMSprop(lr = 0.001)
    model.compile(loss='categorical_crossentropy', optimizer='adam')

In [13]:
model.summary()

Model: "model"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
input_1 (InputLayer)         [(None, None)]            0         
_________________________________________________________________
embedding (Embedding)        (None, None, 100)         1937100   
_________________________________________________________________
lstm (LSTM)                  (None, None, 256)         365568    
_________________________________________________________________
dropout (Dropout)            (None, None, 256)         0         
_________________________________________________________________
lstm_1 (LSTM)                (None, None, 256)         525312    
_________________________________________________________________
dropout_1 (Dropout)          (None, None, 256)         0         
_________________________________________________________________
lstm_2 (LSTM)                (None, 256)               525312

In [14]:
def sample_with_temp(preds, temperature=1.0):
    # helper function to sample an index from a probability array
    preds = np.asarray(preds).astype('float64')
    preds = np.log(preds) / temperature
    exp_preds = np.exp(preds)
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    return np.argmax(probas)



def generate_text(seed_text, next_words, model, max_sequence_len, temp):
    output_text = seed_text
    
    seed_text = start_story + seed_text
    
    for _ in range(next_words):
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = token_list[-max_sequence_len:]
        token_list = np.reshape(token_list, (1, max_sequence_len))
        
        probs = model.predict(token_list, verbose=0)[0]
        y_class = sample_with_temp(probs, temperature = temp)
        
        if y_class == 0:
            output_word = ''
        else:
            output_word = tokenizer.index_word[y_class]
            
        if output_word == "|":
            break
            
        if token_type == 'word':
            output_text += output_word + ' '
            seed_text += output_word + ' '
        else:
            output_text += output_word + ' '
            seed_text += output_word + ' '
            
            
    return output_text

In [15]:
def on_epoch_end(epoch, logs):
    seed_text = ""
    gen_words = 500

    print('Temp 0.2')
    print (generate_text(seed_text, gen_words, model, seq_length, temp = 0.2))
    #print('Temp 0.33')
    #print (generate_text(seed_text, gen_words, model, seq_length, temp = 0.33))
    #print('Temp 0.5')
    #print (generate_text(seed_text, gen_words, model, seq_length, temp = 0.5))
    #print('Temp 1.0')
    #print (generate_text(seed_text, gen_words, model, seq_length, temp = 1))

    
    
if train_model:
    epochs = 50
    batch_size = 32
    num_batches = int(len(X) / batch_size)
    callback = LambdaCallback(on_epoch_end=on_epoch_end)
    model.fit(X, y, epochs=epochs, batch_size=batch_size, callbacks = [callback], shuffle = True)




Epoch 1/50
Temp 0.2

Epoch 2/50
Temp 0.2

Epoch 3/50
Temp 0.2

Epoch 4/50
Temp 0.2
Las que se de el que en el año en el país de la que de la que se ha que es el país de los que se ha la que se ha sido de la que se ha que la que de la que se de la que se ha la que se ha la que que que la que en el tema de la que que que se de la que que la que y el crecimiento de la que de la que se ha que de la economía de la que de la que que el país de los que de la que que se ha que de la que que que en el país de la que de la que que se ha que no se ha la que de la que en la economía de la que que el país de los que se ha de la que y la que se de la que se encuentra que se han que que la que se ha que la que se ha de los de las que que la que se ha que se se de la que en el país de la que de la que que se ha la que de la que de la que se encuentra que se ha que se ha que que la que que el país de la que de la que la que se ha que se ha que el país y la que se ha que en la que se ha la que se ha que

  after removing the cwd from sys.path.


La semana pasada se le atribuye a cabo los datos de la economía mexicana. Los candidatos ganan que los problemas de la prueba PISA que se han llevado a cabo lo que se le había hecho en el lugar de régimen de 100 mil millones de pesos en el mundo, pero el presidente Peña Nieto Peña Nieto del partido y que se han llevado a cabo lo que se le había hecho más de lo que se presupuestó ocurren miles de millones de pesos en el año anterior. Los datos de la economía mexicana en el sector informal. En este sentido, se refiere a la desigualdad de producir de la economía mexicana. Los datos de crecimiento de la deuda de la Ciudad de México es que el país ha sido homogéneo, se ha vuelto el tema de Egresos de la gasolina en la que se determina un sistema educativo de la deuda de la deuda soberana de recibir un año se ha llevado a cabo la idea de la deuda mexicana y decreció ligeramente una economía de acuerdo a los mercados financieros que se ha ido estable, establemente vez en el gasto público que 

In [None]:
model.summary()

In [64]:
seed_text = "El secretario de Hacienda afirmó "
gen_words = 500
temp = 0.2

print (generate_text(seed_text, gen_words, model, seq_length, temp))

  after removing the cwd from sys.path.


El secretario de Hacienda afirmó que el presidente de Estados Unidos era el segundo de días de Egresos . La desaceleración de México es enorme . La productividad es la demanda de la economía mexicana –y en consecuencia , de las mujeres , en algunos casos , de fomentar la industria de servicios que requieren servicios públicos –se roba la luz , no tengo ninguna circunstancia podemos esperar . Una vez que alguien logra la excepción es sólo más allá de la reforma energética . La inflación tiene varios indicadores : el trabajo de negociación de política social de haber sido destinados a infraestructura , de construir impacto inflacionario por poder crecer . El tema económico de la corrupción es un problema que hacen de los logros de la prueba PISA , de la intención de almacenamiento , se expropiaron las promesas , pero probablemente se han llevado a cabo algunas propuestas , tanto que se le notó sobre ensayada . Jaime Rodríguez se mostró que pensar que algunas cosas se logran así . 


In [None]:
def generate_human_led_text(model, max_sequence_len):
    
    output_text = ''
    seed_text = start_story
    
    while 1:
        token_list = tokenizer.texts_to_sequences([seed_text])[0]
        token_list = token_list[-max_sequence_len:]
        token_list = np.reshape(token_list, (1, max_sequence_len))
        
        probs = model.predict(token_list, verbose=0)[0]

        top_10_idx = np.flip(np.argsort(probs)[-10:])
        top_10_probs = [probs[x] for x in top_10_idx]
        top_10_words = tokenizer.sequences_to_texts([[x] for x in top_10_idx])
        
        for prob, word in zip(top_10_probs, top_10_words):
            print('{:<6.1%} : {}'.format(prob, word))

        chosen_word = input()
                
        if chosen_word == '|':
            break
            
        
        seed_text += chosen_word + ' '
        output_text += chosen_word + ' '
        
        clear_output()

        print (output_text)
            
    
    

In [None]:

generate_human_led_text(model, 20)

washed teeth crisis event teach own hide spectators dine sharp backed mortified blood lion heaven length timid woodman east revive elephant speed rows holes 
0.0%   : last
0.0%   : holes
0.0%   : weeping
0.0%   : struggle
0.0%   : years
0.0%   : earthenware
0.0%   : swam
0.0%   : rest
0.0%   : attacks
0.0%   : procurable


KeyboardInterrupt: ignored

In [16]:
model.save('./saved_models/three_lstm_adam_wordtoken.h5')