In [3]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Embedding, SimpleRNN, Dense
import numpy as np


# Datos de entrada (Cambiamos para que sea el inicio del quijote)
text = """Juana comía unos tamales,\
cuando la Muerte la llamó,\
le dijo: “Deja esos males”,\
y Juana ni caso le prestó.\

La flaca con gran paciencia,\
esperó otro ratito,\
pero viendo su insistencia,\
¡le quitó hasta el atolito!\

Estaba Luisa poniendo\
las de System of a Down\
cuando llegó una catrina\
malhumorada y humeante\
pues esa noche flamante\
nada se pudo llevar.\

Luisita dijo sonriendo:\
¡baila calaca éste rock!,\
préndete, goza, alucina,\
contágiate, arma el slam\
¡no me lleves catrinita!\
¡mejor vamos a bailar!\

La delgada palidez\
respondió sus peticiones\
e hizo música infernal,\
pa’l amor de sus amores.\

Hoy la Wicha es productora,\
de discos de la catrina,\
quien sacó talento y ganas\
de abajo y del más allá.\

¿Quién diría que ésta niña,\
se salvaría de su suerte\
y en vez de eso haría a la muerte\
gran diva y musical?\
"""

# Tokenizar el texto
tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
encoded = tokenizer.texts_to_sequences([text])[0]


# Preparar datos
vocab_size = len(tokenizer.word_index) + 1
sequences = []
for i in range(1, len(encoded)):
    sequence = encoded[:i+1]
    sequences.append(sequence)
sequences = pad_sequences(sequences, maxlen=max(len(seq) for seq in sequences), padding='pre')
X, y = sequences[:,:-1], sequences[:,-1]
y = to_categorical(y, num_classes=vocab_size)


# Crear el modelo RNN

model = Sequential()
model.add(Embedding(vocab_size, 16, input_length=X.shape[1]))
model.add(SimpleRNN(64, activation='relu'))
model.add(tf.keras.layers.Lambda(lambda x: tf.expand_dims(x, axis = -1))) # incrementamos dimensiones para poder agregar mas capas recurrentes
model.add(SimpleRNN(64, activation='relu'))
model.add(Dense(vocab_size, activation='softmax'))


model.compile(optimizer='adam',
              loss='categorical_crossentropy',
              metrics=['accuracy'])


# Entrenar el modelo
model.fit(X, y, epochs=500, verbose=0)


# Generar texto
def generate_text(model, tokenizer, seed_text, n_words):
    result = seed_text
    for _ in range(n_words):
        encoded = tokenizer.texts_to_sequences([seed_text])[0]
        encoded = pad_sequences([encoded], maxlen=X.shape[1], padding='pre')
        y_pred = np.argmax(model.predict(encoded), axis=-1)
        word = tokenizer.index_word[y_pred[0]]
        seed_text += ' ' + word
        result += ' ' + word
    return result


# Texto generado
print(generate_text(model, tokenizer, 'esta es', 1000))



[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 261ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 29ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 23ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 23ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 27ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 26ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 24ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 25ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 2