# Red Neuronal Recurrente

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras import layers
import os


**Libro:** Orgullo y Prejuicio

In [None]:
local_file_path = 'orgulloyprejuicio.txt'

text = open(local_file_path, 'rb').read().decode(encoding='latin-1')
print('Longitud del texto: {} caracteres'.format(len(text)))

vocab = sorted(set(text))
print('El texto está compuesto de estos {} caracteres'.format(len(vocab)))
print(vocab)

Longitud del texto: 690571 caracteres
El texto está compuesto de estos 96 caracteres
['\t', '\n', '\r', ' ', '!', '(', ')', ',', '-', '.', '0', '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', '>', '?', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '[', ']', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '\x96', '\x97', '¡', '«', '»', '¿', 'É', 'Í', 'Ú', 'à', 'á', 'é', 'ê', 'í', 'ñ', 'ó', 'ú', 'ü']


## Tablas de traducción o inversa de vocabulario

In [None]:
char2idx = {u:i for i, u in enumerate(vocab)}
idx2char = np.array(vocab)

In [None]:
for char,_ in zip(char2idx, range(len(vocab))):
  print(' {:4s}: {:3d},'.format(repr(char), char2idx[char]))

 '\t':   0,
 '\n':   1,
 '\r':   2,
 ' ' :   3,
 '!' :   4,
 '(' :   5,
 ')' :   6,
 ',' :   7,
 '-' :   8,
 '.' :   9,
 '0' :  10,
 '1' :  11,
 '2' :  12,
 '3' :  13,
 '4' :  14,
 '5' :  15,
 '6' :  16,
 '7' :  17,
 '8' :  18,
 '9' :  19,
 ':' :  20,
 ';' :  21,
 '>' :  22,
 '?' :  23,
 'A' :  24,
 'B' :  25,
 'C' :  26,
 'D' :  27,
 'E' :  28,
 'F' :  29,
 'G' :  30,
 'H' :  31,
 'I' :  32,
 'J' :  33,
 'K' :  34,
 'L' :  35,
 'M' :  36,
 'N' :  37,
 'O' :  38,
 'P' :  39,
 'Q' :  40,
 'R' :  41,
 'S' :  42,
 'T' :  43,
 'U' :  44,
 'V' :  45,
 'W' :  46,
 'X' :  47,
 'Y' :  48,
 'Z' :  49,
 '[' :  50,
 ']' :  51,
 'a' :  52,
 'b' :  53,
 'c' :  54,
 'd' :  55,
 'e' :  56,
 'f' :  57,
 'g' :  58,
 'h' :  59,
 'i' :  60,
 'j' :  61,
 'k' :  62,
 'l' :  63,
 'm' :  64,
 'n' :  65,
 'o' :  66,
 'p' :  67,
 'q' :  68,
 'r' :  69,
 's' :  70,
 't' :  71,
 'u' :  72,
 'v' :  73,
 'w' :  74,
 'x' :  75,
 'y' :  76,
 'z' :  77,
 '\x96':  78,
 '\x97':  79,
 '¡' :  80,
 '«' :  81,
 '»' :  82,


## Conversión de texto a enteros

In [None]:
text_as_int = np.array([char2idx[c] for c in text])

In [None]:
print('text: {}'.format(repr(text[:50])))
print('{}'.format(repr(text_as_int[:50])))

text: ' LIBROdot.com\r\n  \r\n  Jane Austen\r\n  Orgullo y Prej'
array([ 3, 35, 32, 25, 41, 38, 55, 66, 71,  9, 54, 66, 64,  2,  1,  3,  3,
        2,  1,  3,  3, 33, 52, 65, 56,  3, 24, 72, 70, 71, 56, 65,  2,  1,
        3,  3, 38, 69, 58, 72, 63, 63, 66,  3, 76,  3, 39, 69, 56, 61])


## Preparación de datos

In [None]:
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)

seq_length = 100

sequences = char_dataset.batch(seq_length+1, drop_remainder=True)

In [None]:
for item in sequences.take(10):
  print(repr(''.join(idx2char[item.numpy()])))

' LIBROdot.com\r\n  \r\n  Jane Austen\r\n  Orgullo y Prejuicio\r\n     \r\n     \r\n\r\nCAPÍTULO I\r\n       Es una ve'
'rdad mundialmente reconocida que un hombre soltero, poseedor de una gran fortuna, necesita una esposa'
'.\r\n       Sin embargo, poco se sabe de los sentimientos u opiniones de un hombre de tales condiciones'
' cuando entra a formar parte de un vecindario. Esta verdad está tan arraigada en las mentes de alguna'
's de las familias que lo rodean, que algunas le consideran de su legítima propiedad y otras de la de '
'sus hijas.\r\n       \x96\x96Mi querido señor Bennet \x96\x96le dijo un día su esposa\x96\x96, ¿sabías que, por fin, se h'
'a alquilado Netherfield Park?\r\n       El señor Bennet respondió que no.\r\n       \x96\x96Pues así es \x96\x96insis'
'tió ella\x96\x96; la señora Long ha estado aquí hace un momento y me lo ha contado todo.\r\n       El señor B'
'ennet no hizo ademán de contestar. \r\n       \x96\x96¿No quieres saber quién lo ha alquilado? \x96\x96se

In [None]:
def split_input_target(chunk):
  input_text = chunk[:-1]
  target_text = chunk[1:]
  return input_text, target_text

dataset = sequences.map(split_input_target)

In [None]:
for input_example, target_example in dataset.take(1):
  print ('Input data: ', repr(''.join(idx2char[input_example.numpy()])))
  print ('Target data: ', repr(''.join(idx2char[target_example.numpy()])))

Input data:  ' LIBROdot.com\r\n  \r\n  Jane Austen\r\n  Orgullo y Prejuicio\r\n     \r\n     \r\n\r\nCAPÍTULO I\r\n       Es una v'
Target data:  'LIBROdot.com\r\n  \r\n  Jane Austen\r\n  Orgullo y Prejuicio\r\n     \r\n     \r\n\r\nCAPÍTULO I\r\n       Es una ve'


In [None]:
print (dataset)

<_MapDataset element_spec=(TensorSpec(shape=(100,), dtype=tf.int64, name=None), TensorSpec(shape=(100,), dtype=tf.int64, name=None))>


In [None]:
BATCH_SIZE = 64
BUFFER_SIZE = 10000

dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)
print(dataset)

<_BatchDataset element_spec=(TensorSpec(shape=(64, 100), dtype=tf.int64, name=None), TensorSpec(shape=(64, 100), dtype=tf.int64, name=None))>


## Modelo RNN

In [None]:
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
  model = tf.keras.Sequential([
      tf.keras.layers.Embedding(vocab_size, embedding_dim,
                                batch_input_shape=[batch_size,None]),

      tf.keras.layers.LSTM(rnn_units,
                           return_sequences=True,
                           stateful = True,
                           recurrent_initializer='glorot_uniform'),

      tf.keras.layers.Dense(vocab_size)
  ])
  return model

vocab_size = len(vocab)
embedding_dim= 256
rnn_units = 1024

model = build_model(
    vocab_size = vocab_size,
    embedding_dim=embedding_dim,
    rnn_units=rnn_units,
    batch_size = BATCH_SIZE
)

In [None]:
model.summary()

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 embedding (Embedding)       (64, None, 256)           24576     
                                                                 
 lstm (LSTM)                 (64, None, 1024)          5246976   
                                                                 
 dense (Dense)               (64, None, 96)            98400     
                                                                 
Total params: 5369952 (20.48 MB)
Trainable params: 5369952 (20.48 MB)
Non-trainable params: 0 (0.00 Byte)
_________________________________________________________________


In [None]:
for input_example_batch, target_example_batch in dataset.take(1):
  print("Input: ", input_example_batch.shape, "# (batch_size, lenght)")
  print("Target: ", target_example_batch.shape, "# (batch_size, sequence_length)")

Input:  (64, 100) # (batch_size, lenght)
Target:  (64, 100) # (batch_size, sequence_length)


In [None]:
for input_example_batch, target_example_batch in dataset.take(1):
  example_batch_predictions = model(input_example_batch)
  print("Prediction: ", example_batch_predictions.shape, "# (batch_size, sequence_length, vocab_size)")

Prediction:  (64, 100, 96) # (batch_size, sequence_length, vocab_size)


In [None]:
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
sampled_indices_characters = tf.squeeze(sampled_indices,axis=-1).numpy()
print(sampled_indices_characters)

[73 48 66 88 35  8 54 79 84 72 94 84 54 28 50 86 39 92 91 76 18 56 16 82
 61 28 16 30  1 34 34 12 22 39 87 23 93 17 29 35 62  5 24 36 13 66 38 58
 69 35 87 11 73 30 49 46 38 22 39 18 18 23 72 88 41 74 76 47 57 92 29 84
 72 70  6 33 59 88 88 58 24 12 71 28 48 44 93 57 44 55  3 75 88  2 61 58
 95 56 53 92]


## Entrenamiento

In [None]:
def loss(labels, logits):
  return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

model.compile(optimizer='adam', loss=loss)

In [None]:
checkpoint_dir = './training_checkpoints'
checkpoint_prefix = os.path.join(checkpoint_dir, "ckpt_(epoch)")

checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(
    filepath=checkpoint_prefix,
    save_weights_only=True
)

In [None]:
EPOCHS = 50

history = model.fit(dataset, epochs=EPOCHS, callbacks=[checkpoint_callback])

Epoch 1/50
Epoch 2/50
Epoch 3/50
Epoch 4/50
Epoch 5/50
Epoch 6/50
Epoch 7/50
Epoch 8/50
Epoch 9/50
Epoch 10/50
Epoch 11/50
Epoch 12/50
Epoch 13/50
Epoch 14/50
Epoch 15/50
Epoch 16/50
Epoch 17/50
Epoch 18/50
Epoch 19/50
Epoch 20/50
Epoch 21/50
Epoch 22/50
Epoch 23/50
Epoch 24/50
Epoch 25/50
Epoch 26/50
Epoch 27/50
Epoch 28/50
Epoch 29/50
Epoch 30/50
Epoch 31/50
Epoch 32/50
Epoch 33/50
Epoch 34/50
Epoch 35/50
Epoch 36/50
Epoch 37/50
Epoch 38/50
Epoch 39/50
Epoch 40/50
Epoch 41/50
Epoch 42/50
Epoch 43/50
Epoch 44/50
Epoch 45/50
Epoch 46/50
Epoch 47/50
Epoch 48/50
Epoch 49/50
Epoch 50/50


## Generación de texto

In [None]:
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)

model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))

model.build(tf.TensorShape([1,None]))

In [None]:
def generate_text(model, start_strings, temperatures):
    num_generate = 500

    generated_texts = []

    for start_string in start_strings:
        for temperature in temperatures:
            input_eval = [char2idx[s] for s in start_string]
            input_eval = tf.expand_dims(input_eval, 0)
            text_generated = []

            model.reset_states()
            for _ in range(num_generate):
                predictions = model(input_eval)
                predictions = tf.squeeze(predictions, 0)
                predictions = predictions / temperature
                predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()
                input_eval = tf.expand_dims([predicted_id], 0)
                text_generated.append(idx2char[predicted_id])

            generated_texts.append(start_string + ''.join(text_generated))

    return generated_texts

In [None]:
start_strings = ["amor", "misterio"]
temperatures = [0.5, 1.0, 1.5]

In [None]:
generated_texts = generate_text(model, start_strings, temperatures)

In [None]:
for i, text in enumerate(generated_texts):
    print(f"Entrada: {start_strings[i // 3]}, Temperatura: {temperatures[i % 3]}")
    print(text)
    print()

Entrada: amor, Temperatura: 0.5
amorarse de él está la de salir de la solicia de la casa del párroco. El señor Denny se dirigió directamente a la escacia que el hablar de su hermana y se quedó muy satisfecha y proporcionaban la finca en la que está ubicada mi hermana antes de que la familia se acostase.
       La señorita Bingley le preguntó si están en Londad se alegraba. Sólo podía pensar en la misma profesión, aunque de distruir un poderoso respeto que el señor Bingley le devolvió la visita al señor Bennet y no dudo de que pro

Entrada: amor, Temperatura: 1.0
amorarse al principio la señora Bennet, a Elizabeth y a una particular a mi hermana clara usted más de la iglesia de buscarles o casi ver que el coronel Forster y el deseo de la tarde de la habitación y la acompañó hasta esta última de las sospechas, los dos tan excedentes no se les vio obligada a pensar que el ruido de un caballero y amigos de la falta de fortuna a la hora de comprometerse, ¿qué va a sañad?
       Nunca be