<a href="https://colab.research.google.com/github/japerego/DroidCafe/blob/master/practica9_3.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Práctica 9 Parte 3: Desarrollando un modelo de lenguaje para generar texto

Un modelo de lenguaje puede predecir la siguiente palabra de una secuencia basándose en palabras observadas anteriormente. Las redes neuronales son el método más utilizado para desarrollar este tipo de modelos porque pueden usar una representación donde palabras con significados similares tienen representaciones similares. 

En esta parte de la práctica vamos a ver cómo generar uno de esos modelos. 

Este notebook está basado en el libro Deep Learning for Natural Language Processing de Jason Brownlee. 

Es importante que tengas activado el uso de **GPU** en el notebook de colab (menú Edit -> Notebook Settings -> Hardware accelerator).

## La República de Platón

Nuestro modelo de lenguaje va a estar basado en la república de Platón. Este libro está estructurado en forma de una conversación que trata el tema del orden y la justicia dentro de una ciudad. El texto completo está disponible para el dominio público dentro del [proyecto Gutenberg](http://www.gutenberg.org/).

Este libro de Platón está disponible en varios formatos en el [proyecto Gutenberg](http://www.gutenberg.org/cache/epub/1497/pg1497.txt). La versión que nos interesa a nosotros es la versión ASCII del libro. Con la siguiente instrucción puedes descargar el libro donde se han eliminado la portada y la contraportada. 

In [1]:
!wget https://raw.githubusercontent.com/ts1819/datasets/master/practica5/republic.txt -O republic.txt

--2022-05-28 15:14:40--  https://raw.githubusercontent.com/ts1819/datasets/master/practica5/republic.txt
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.109.133, 185.199.110.133, 185.199.108.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.109.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 657826 (642K) [text/plain]
Saving to: ‘republic.txt’


2022-05-28 15:14:42 (184 MB/s) - ‘republic.txt’ saved [657826/657826]



## Preparación de los datos

Vamos a preparar los datos para construir nuestro modelo. 

### Revisando el texto

Vamos a comenzar revisando parte del texto.

In [2]:
!head -30 republic.txt

BOOK I.

I went down yesterday to the Piraeus with Glaucon the son of Ariston,
that I might offer up my prayers to the goddess (Bendis, the Thracian
Artemis.); and also because I wanted to see in what manner they would
celebrate the festival, which was a new thing. I was delighted with the
procession of the inhabitants; but that of the Thracians was equally,
if not more, beautiful. When we had finished our prayers and viewed the
spectacle, we turned in the direction of the city; and at that instant
Polemarchus the son of Cephalus chanced to catch sight of us from a
distance as we were starting on our way home, and told his servant to
run and bid us wait for him. The servant took hold of me by the cloak
behind, and said: Polemarchus desires you to wait.

I turned round, and asked him where his master was.

There he is, said the youth, coming after you, if you will only wait.

Certainly we will, said Glaucon; and in a few minutes Polemarchus
appeared, and with him Adei

A partir de un rápido vistazo al fragmento de texto anterior podemos ver ciertas cuestiones que tendremos que procesar:
- Las cabeceras de los capítulos.
- Muchos signos de puntuación.
- Nombres extraños.
- Algunos monólogos muy largos. 

### Cargando el texto

El primer paso consiste en cargar el texto en memoria. Podemos desarrollar una pequeña función que se encargue de esto. 

In [6]:
def load_doc(filename):
  # Abrimos el fichero en modo lectura
  file = open(filename,'r')
  # Leemos el texto completo
  text = file.read()
  # Cerramos el fichero
  file.close()
  return text

Usando dicha función podemos cargar nuestro fichero del siguiente modo.

In [4]:
in_filename = 'republic.txt'
doc = load_doc(in_filename)

Ahora podemos mostrar parte de dicho texto.

In [5]:
print(doc[:200])

BOOK I.

I went down yesterday to the Piraeus with Glaucon the son of Ariston,
that I might offer up my prayers to the goddess (Bendis, the Thracian
Artemis.); and also because I wanted to see in what


### Limpiando el texto

Ahora necesitamos transformar el texto en bruto a una secuencia de tokens (o palabras) que podamos usar para entrenar nuestro modelo. 

Vamos a aplicar las siguientes operaciones para limpiar nuestro texto:
- Reemplazar todas las ocurrencias de '-' con un espacio en blanco de manera que podamos partir mejor las palabras.
- Partir las palabras basándonos en espacios en blanco.
- Eliminar todos los símbolos de puntuación.
- Eliminar todas las palabras que no son alfabéticas. 
- Normalizar todas las palabras a minúsculas.

La mayoría de estas transformaciones tienen como objetivo reducir el tamaño del vocabulario. Un tamaño de vocabulario excesivamente grande es un problema cuando se intenta crear modelos de lenguaje. Vocabularios pequeños producen modelos más pequeños que se entrenan más rápidos.

Vamos a implementar todas las operaciones de limpieza en la siguiente función.

In [5]:
import string
import re

def clean_doc(doc):
  # Reemplazar '--' con un espacio en blanco ' '
  doc = doc.replace('--',' ')
  # Partir palabras basándonos en espacios en blanco
  tokens = doc.split()
  # Vamos a escapar las palabras para poder filtrarlas por caracteres
  re_punc = re.compile('[%s]' % re.escape(string.punctuation))
  # Eliminamos los símbolos de puntuación
  tokens = [re_punc.sub('',w) for w in tokens]
  # Eliminamos elementos que nos son alfabéticos
  tokens = [word for word in tokens if word.isalpha()]
  # Convertimos a minúsculas
  tokens = [word.lower() for word in tokens]
  return tokens
  

Procedemos a limpiar nuestro documento y a continuación mostramos algunas estadísticas sobre nuestro vocabulario.

In [7]:
tokens = clean_doc(doc)
print(tokens[:200])

['book', 'i', 'i', 'went', 'down', 'yesterday', 'to', 'the', 'piraeus', 'with', 'glaucon', 'the', 'son', 'of', 'ariston', 'that', 'i', 'might', 'offer', 'up', 'my', 'prayers', 'to', 'the', 'goddess', 'bendis', 'the', 'thracian', 'artemis', 'and', 'also', 'because', 'i', 'wanted', 'to', 'see', 'in', 'what', 'manner', 'they', 'would', 'celebrate', 'the', 'festival', 'which', 'was', 'a', 'new', 'thing', 'i', 'was', 'delighted', 'with', 'the', 'procession', 'of', 'the', 'inhabitants', 'but', 'that', 'of', 'the', 'thracians', 'was', 'equally', 'if', 'not', 'more', 'beautiful', 'when', 'we', 'had', 'finished', 'our', 'prayers', 'and', 'viewed', 'the', 'spectacle', 'we', 'turned', 'in', 'the', 'direction', 'of', 'the', 'city', 'and', 'at', 'that', 'instant', 'polemarchus', 'the', 'son', 'of', 'cephalus', 'chanced', 'to', 'catch', 'sight', 'of', 'us', 'from', 'a', 'distance', 'as', 'we', 'were', 'starting', 'on', 'our', 'way', 'home', 'and', 'told', 'his', 'servant', 'to', 'run', 'and', 'bid',

In [8]:
print('Total Tokens: %d' % len(tokens))
print('Unique Tokens: %d' %len(set(tokens)))

Total Tokens: 118684
Unique Tokens: 7409


Es decir, nuestro modelo consta de una 7500 palabras. Este tamaño de vocabulario es pequeño y va a ser manejable.

### Guardando el texto limpio

Vamos a organizar la larga lista de tokens en secuencias de 50 palabras de entrada y 1 palabra de salida (esto servirá para luego entrenar nuestro modelo). 

Este proceso lo implementamos con la siguiente función.

In [4]:
def organize_tokens(tokens,input_len=50,output_len=1):
  length = input_len + output_len
  sequences = list()
  for i in range(length,len(tokens)):
    # Elegimos la secuencia de tokens
    seq = tokens[i-length:i]
    # Convertimos la secuencia en una línea
    line = ' '.join(seq)
    # Almacenamos el resultado
    sequences.append(line)
  return sequences

Organizamos nuestros tokens. 

In [10]:
lines = organize_tokens(tokens)

Ahora vamos a guardar las secuencias en un nuevo fichero para poder cargarlo en el futuro. Para ello nos definimos la siguiente función que guardará cada elemento de la secuencia en una línea del fichero. 

In [3]:
def save_doc(lines,filename):
  data = '\n'.join(lines)
  file = open(filename,'w')
  file.write(data)
  file.close()

Podemos llamar a la función anterior para guardar nuestro fichero.

In [12]:
out_filename = 'republic_sequences.txt'
save_doc(lines,out_filename)

Podemos ver parte de dicho fichero.

In [13]:
!head -5 republic_sequences.txt

book i i went down yesterday to the piraeus with glaucon the son of ariston that i might offer up my prayers to the goddess bendis the thracian artemis and also because i wanted to see in what manner they would celebrate the festival which was a new thing i was
i i went down yesterday to the piraeus with glaucon the son of ariston that i might offer up my prayers to the goddess bendis the thracian artemis and also because i wanted to see in what manner they would celebrate the festival which was a new thing i was delighted
i went down yesterday to the piraeus with glaucon the son of ariston that i might offer up my prayers to the goddess bendis the thracian artemis and also because i wanted to see in what manner they would celebrate the festival which was a new thing i was delighted with
went down yesterday to the piraeus with glaucon the son of ariston that i might offer up my prayers to the goddess bendis the thracian artemis and also because i wanted to see in what manner they would

## Entrenando el modelo de lenguaje

Vamosa  entrenar ahora nuestro modelo a partir de los datos que hemos preparado. Dicho modelo tendrá ciertas características:
- Usará una representación para las palabras de manera que palabras diferentes con significados similares tendrán una representación similar.
- La representación será aprendida al mismo tiempo que se aprende el modelo.
- Aprenderá a predecir la probabilidad de la siguiente palabra a partir del contexto de las últimas 100 palabras.

En concreto para implementar este modelo vamos a usar una capa de Embedding para aprender la representación de las palabras, y una red neuronal recurrente con capas LSTM para predecir nuevas palabras basándonos en el contexto. 

### Cargando las secuencias

Podemos comenzar cargando las secuencias que hemos guardado anteriormente. En este caso este paso no sería necesario ya que el proceso de generación de las secuencias es bastante rápido, pero si estamos trabajando con un dataset más grande sí que puede ser conveniente. 


In [14]:
in_filename = 'republic_sequences.txt'
doc = load_doc(in_filename)
lines = doc.split('\n')

### Codificando las secuencias

Las capas de Embedding esperan que las secuencias de entrada estén compuestas de vectores de enteros. Para ello vamos a identificar cada palabra de nuestro vocabulario con un entero único y codificarlo en una secuencia de entrada. En el futuro cuando vayamos a realizar las predicciones tendremos que realizar el proceso inverso.

Para llevar a cabo este proceso de tokenización vamos a usar la API de Keras del siguiente modo. 

In [19]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer

In [16]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)

Ahora podemos acceder a los identificadores de cada palabra usando el atributo ``word_index`` del objeto ``Tokenizer`` que hemos creado. 

Además debemos determinar el tamaño de nuestro vocabulario para definir la capa de embedding. En concreto, a las palabras de nuestro vocabulario se les han asignado valores entre 1 y el número total de palabras de nuestro vocabulario. 

In [17]:
vocab_size = len(tokenizer.word_index) + 1 

### Secuencias de entrada y salida

Una vez que tenemos codificadas nuestras secuencias tenemos que separarlas en elementos de entrada ($X$) y de salida ($y$). Después de realizar la separación debemos codificar cada palabra usando el método one-hot. Este proceso lo llevaremos a cabo mediante la función ``to_categorical()`` de Keras.
Finalmente necesitamos especificar cómo de largas serán las secuencias de entrada. 

In [18]:
from tensorflow.keras.utils import to_categorical
from numpy import array 

sequences = array(sequences)
X,y=sequences[:,:-1], sequences[:,-1]
y = to_categorical(y,num_classes=vocab_size)
seq_length = X.shape[1]

### Entrenando el modelo

Ahora podemos definir nuestro modelo que constará de una capa de Embedding, seguida de dos capas LSTM y terminando con una red completamente conectada. 

In [2]:
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, LSTM, Embedding
from tensorflow.keras.optimizers import Adam

def define_model(vocab_size,seq_length):
  model = Sequential()
  model.add(Embedding(vocab_size,50,input_length=seq_length))
  model.add(LSTM(100,return_sequences=True))
  model.add(LSTM(100))
  model.add(Dense(100,activation='relu'))
  model.add(Dense(vocab_size,activation='softmax'))
  model.compile(loss='categorical_crossentropy',optimizer=Adam(),metrics=['accuracy'])
  return model

Pasamos a entrenar nuestro modelo. Como este proceso es bastante costoso (incluso usando GPUs) en la siguiente sección se proporcionan los ficheros necesarios para usar el modelo. 

In [20]:
model = define_model(vocab_size,seq_length)
model.fit(X,y,batch_size=128,epochs=100)

Una vez entrenado podemos guardar los pesos del modelo y el tokenizador. 

In [20]:
model.save_weights('./model.h5', overwrite=True)

In [20]:
from pickle import dump
dump(tokenizer, open('tokenizer.pkl','wb'))

## Usando el modelo

Como has podido ver en el paso anterior, el proceso de entrenar este tipo de modelos es muy costoso, por lo que puedes descargar los ficheros necesarios para usar el modelo desde el siguiente enlace. 

In [21]:
!wget https://raw.githubusercontent.com/ts1819/datasets/master/practica5/tpu_model.h5 -O model.h5
!wget https://raw.githubusercontent.com/ts1819/datasets/master/practica5/tokenizer.pkl -O tokenizer.pkl

--2022-05-28 15:27:48--  https://raw.githubusercontent.com/ts1819/datasets/master/practica5/tpu_model.h5
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5101248 (4.9M) [application/octet-stream]
Saving to: ‘model.h5’


2022-05-28 15:27:49 (193 MB/s) - ‘model.h5’ saved [5101248/5101248]

--2022-05-28 15:27:49--  https://raw.githubusercontent.com/ts1819/datasets/master/practica5/tokenizer.pkl
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 353379 (345K) [application/octet-stream]
Saving to: ‘tokenizer.pkl’


2022-05-28 15:27:49 (26.

### Cargando los datos

Comenzamos cargando nuestros datos al igual que antes. 

In [22]:
in_filename = 'republic_sequences.txt'
doc = load_doc(in_filename)
lines = doc.split('\n')

Necesitamos este texto para elegir una secuencia de inicio que será la entrada para nuestro modelo. 

In [23]:
seq_length = len(lines[0].split())-1

### Cargando el modelo

Vamos a cargar el modelo y a fijar los pesos. Notar que para este paso ya no necesitamos el uso de TPU, y que el modelo podría ser usado en cualquier ordenador.

In [24]:
model = define_model(vocab_size,seq_length)
model.load_weights('./model.h5')

También necesitamos cargar el tokenizador.

In [25]:
from pickle import load
tokenizer = load(open('tokenizer.pkl','rb'))

### Generando texto

El primer paso para generar el texto consiste en preparar una entrada, para lo cual elegiremos una línea aleatoria del texto. 

In [26]:
from random import randint
seed_text = lines[randint(0,len(lines))]
print(seed_text + '\n')

best he said and now that we know what they are like there is no difficulty in tracing out the sort of life which awaits either of them this i will proceed to describe but as you may think the description a little too coarse i ask you to suppose socrates



A continuación podemos generar nuevas palabras una por una. Primero, el texto debe codificarse usando el tokenizer que hemos cargado anteriormente. Ahora el modelo puede predecir nuevas palabras usando el método ``predict_classes()`` que devuelve el índice de la palabra con probabilidad más alta. 

Esta palabra se añade a nuestro texto inicial y se repite el proceso. Notar que esta secuencia va a ir creciendo por lo que tendremos que truncarla, para lo que utilizamos la función ``pad_sequences()`` de Keras. Todo este proceso se puede implementar con la siguiente función. 

In [7]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

def generate_seq(model,tokenizer,seq_length,seed_text,n_words):
  result = list()
  in_text = seed_text
  for _ in range(n_words):
    encoded = tokenizer.texts_to_sequences([in_text])[0]
    encoded = pad_sequences([encoded],maxlen=seq_length,truncating='pre')
    yhat = model.predict(encoded,verbose=0)
    yhat=np.argmax(yhat,axis=1)
    out_word = ''
    for word,index in tokenizer.word_index.items():
      if index == yhat:
        out_word = word
        break
    in_text += ' ' + out_word
    result.append(out_word)
  return ' '.join(result)

Ahora podemos generar una nueva secuencia usando el siguiente código. Cada vez que lo ejecutemos obtendremos un resultado distinto.

In [28]:
seed_text = lines[randint(0,len(lines))]
print(seed_text + '\n')
generated = generate_seq(model,tokenizer,seq_length,seed_text,50)
print(generated)

can tell the use of them still these studies force their way by their natural charm and very likely if they had the help of the state they would some day emerge into light yes he said there is a remarkable charm in them but i do not clearly understand the

question is the way of the soul and the other rascalities which is the ordering of the soul and the other allurements of the soul and the other principle of a state and the other rascalities which fills him with lyes and will meddle with laughter and prove a restraint


## Ejercicio

Elige tu propio libro del proyecto Gutenberg (es posible usar libros en [español](https://www.gutenberg.org/browse/languages/es)) y crea tu propio modelo de lenguaje. 

In [20]:
from random import randint
from pickle import load
from pickle import dump
from tensorflow.keras.utils import to_categorical
from numpy import array 

In [8]:
!wget https://www.gutenberg.org/cache/epub/29640/pg29640.txt -o Gutenberg.txt

In [9]:
!head -30 pg29640.txt

﻿The Project Gutenberg EBook of Germana, by Edmond About

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use it under the terms of the Project Gutenberg License included
with this eBook or online at www.gutenberg.org


Title: Germana

Author: Edmond About

Translator: Tomás Orts-Ramos

Release Date: August 8, 2009 [EBook #29640]

Language: Spanish


*** START OF THIS PROJECT GUTENBERG EBOOK GERMANA ***




Produced by Chuck Greif and the Online Distributed
Proofreading Team at https://www.pgdp.net






In [10]:
in_filename = 'pg29640.txt'
doc = load_doc(in_filename)

In [11]:
print(doc[:200])

﻿The Project Gutenberg EBook of Germana, by Edmond About

This eBook is for the use of anyone anywhere at no cost and with
almost no restrictions whatsoever.  You may copy it, give it away or
re-use i


In [12]:
tokens = clean_doc(doc)
print(tokens[:200])

['project', 'gutenberg', 'ebook', 'of', 'germana', 'by', 'edmond', 'about', 'this', 'ebook', 'is', 'for', 'the', 'use', 'of', 'anyone', 'anywhere', 'at', 'no', 'cost', 'and', 'with', 'almost', 'no', 'restrictions', 'whatsoever', 'you', 'may', 'copy', 'it', 'give', 'it', 'away', 'or', 'reuse', 'it', 'under', 'the', 'terms', 'of', 'the', 'project', 'gutenberg', 'license', 'included', 'with', 'this', 'ebook', 'or', 'online', 'at', 'wwwgutenbergorg', 'title', 'germana', 'author', 'edmond', 'about', 'translator', 'tomás', 'ortsramos', 'release', 'date', 'august', 'ebook', 'language', 'spanish', 'start', 'of', 'this', 'project', 'gutenberg', 'ebook', 'germana', 'produced', 'by', 'chuck', 'greif', 'and', 'the', 'online', 'distributed', 'proofreading', 'team', 'at', 'httpswwwpgdpnet', 'biblioteca', 'de', 'la', 'nación', 'edmundo', 'about', 'germana', 'traducción', 'de', 't', 'ortsramos', 'buenos', 'aires', 'derechos', 'reservados', 'imp', 'de', 'la', 'nación', 'buenos', 'aires', 'indice', 'i',

In [13]:
print('Total Tokens: %d' % len(tokens))
print('Unique Tokens: %d' %len(set(tokens)))

Total Tokens: 70327
Unique Tokens: 10123


In [14]:
lines = organize_tokens(tokens)

In [15]:
out_filename = 'pg29640_sequences.txt'
save_doc(lines,out_filename)

In [16]:
!head -5 pg29640_sequences.txt

project gutenberg ebook of germana by edmond about this ebook is for the use of anyone anywhere at no cost and with almost no restrictions whatsoever you may copy it give it away or reuse it under the terms of the project gutenberg license included with this ebook or online at
gutenberg ebook of germana by edmond about this ebook is for the use of anyone anywhere at no cost and with almost no restrictions whatsoever you may copy it give it away or reuse it under the terms of the project gutenberg license included with this ebook or online at wwwgutenbergorg
ebook of germana by edmond about this ebook is for the use of anyone anywhere at no cost and with almost no restrictions whatsoever you may copy it give it away or reuse it under the terms of the project gutenberg license included with this ebook or online at wwwgutenbergorg title
of germana by edmond about this ebook is for the use of anyone anywhere at no cost and with almost no restrictions whatsoever you may copy it give it away

In [17]:
in_filename = 'pg29640_sequences.txt'
doc = load_doc(in_filename)
lines = doc.split('\n')

In [21]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(lines)
sequences = tokenizer.texts_to_sequences(lines)

In [22]:
vocab_size = len(tokenizer.word_index) + 1 

In [23]:
from tensorflow.keras.utils import to_categorical
from numpy import array 

sequences = array(sequences)
X,y=sequences[:,:-1], sequences[:,-1]
y = to_categorical(y,num_classes=vocab_size)
seq_length = X.shape[1]

##Entrenamos el modelo

In [24]:
model = define_model(vocab_size,seq_length)
model.fit(X,y,batch_size=128,epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

<keras.callbacks.History at 0x7fa411e809d0>

In [25]:
model.save_weights('./modelej.h5', overwrite=True)

In [26]:
from pickle import dump
dump(tokenizer, open('tokenizer.pkl','wb'))

In [27]:
model = define_model(vocab_size,seq_length)
model.load_weights('./modelej.h5')

In [28]:
from pickle import load
tokenizer = load(open('tokenizer.pkl','rb'))

In [29]:
from random import randint
seed_text = lines[randint(0,len(lines))]
print(seed_text + '\n')

y malteses pero todos hacen lo posible por parecer ingleses tenemos también un teatro en el que dan representaciones de juana de arco del maestro verdi yo fui una noche aprovechando que la enferma tenía menos de pulsaciones por minuto al final del primer acto toda la asamblea se levantó respetuosamente



In [30]:
seed_text = lines[randint(0,len(lines))]
print(seed_text + '\n')
generated = generate_seq(model,tokenizer,seq_length,seed_text,50)
print(generated)

los platos con disgusto desde el momento que los había probado su delgadez era espantosa y la señora chermidy hubiera tenido sumo placer en verla se podía decir que debajo de la piel límpida y transparente no tenía más que huesos y tendones los pómulos parecían salírsele de la cara era

preciso que se llama un muchacho guapo quizá también esté la elección de la señora chermidy y todo se le destrozaba el corazón en serio conocer usted paseaba a la muerte de su marido se vive sin arriesgar su boda por un padre de marina se sentaron juntos en una


Recuerda guardar este notebook en tu repositorio usando la opción "Save in GitHub" del menú File.