In [1]:
import tensorflow as tf
import numpy as np
import os
import time
import pandas as pd

# Database loading and exploration

In [2]:
data = '../input/resumo-carta-pedro-vaz-de-caminha/Carta_a_El_Rei_D._Manuel_(ortografia_atualizada).txt'

In [3]:
dataset_text = open(data, 'rb').read().decode(encoding = 'utf-8')

In [4]:
print(dataset_text)

Carta de Pero Vaz de Caminha


					Pero Vaz de Caminha





Conteúdo exportado da wiki Wikisource em 8 de dezembro de 2021





Senhor,

posto que o Capitão-mor desta Vossa frota, e assim os outros capitães escrevam a Vossa Alteza a nova do achamento desta Vossa terra nova, que se agora nesta navegação achou, não deixarei de também dar disso minha conta a Vossa Alteza, assim como eu melhor puder, ainda que — para o bem contar e falar — o saiba pior que todos fazer!

Todavia tome Vossa Alteza minha ignorância por boa vontade, a qual bem certo creia que, para aformosentar nem afear, aqui não há de pôr mais do que aquilo que vi e me pareceu.

Da marinhagem e das singraduras do caminho não darei aqui conta a Vossa Alteza — porque o não saberei fazer — e os pilotos devem ter este cuidado.

E portanto, Senhor, do que hei de falar começo:

E digo quê:

A partida de Belém foi, como Vossa Alteza sabe, segunda-feira 9 de Março. E sábado, 14 do dito mês, entre as 8 e 9 horas, nos achamos entre a

In [5]:
len(dataset_text)

45062

In [6]:
vocab = sorted(set(dataset_text))

In [7]:
print('{} unique characters'.format(len(vocab)))

95 unique characters


In [8]:
vocab

['\t',
 '\n',
 ' ',
 '!',
 "'",
 '(',
 ')',
 '*',
 ',',
 '-',
 '.',
 '/',
 '0',
 '1',
 '2',
 '3',
 '4',
 '5',
 '6',
 '7',
 '8',
 '9',
 ':',
 ';',
 'A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'G',
 'H',
 'I',
 'J',
 'K',
 'L',
 'M',
 'N',
 'O',
 'P',
 'Q',
 'R',
 'S',
 'T',
 'U',
 'V',
 'W',
 'Y',
 '[',
 ']',
 '_',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '~',
 'À',
 'Á',
 'à',
 'á',
 'â',
 'ã',
 'ç',
 'é',
 'ê',
 'í',
 'ó',
 'ô',
 'õ',
 'ú',
 'ü',
 '—',
 '↑']

# Mapping text to numbers

In [9]:
char2idx = {char: index for index, char in enumerate(vocab)}

In [10]:
char2idx

{'\t': 0,
 '\n': 1,
 ' ': 2,
 '!': 3,
 "'": 4,
 '(': 5,
 ')': 6,
 '*': 7,
 ',': 8,
 '-': 9,
 '.': 10,
 '/': 11,
 '0': 12,
 '1': 13,
 '2': 14,
 '3': 15,
 '4': 16,
 '5': 17,
 '6': 18,
 '7': 19,
 '8': 20,
 '9': 21,
 ':': 22,
 ';': 23,
 'A': 24,
 'B': 25,
 'C': 26,
 'D': 27,
 'E': 28,
 'F': 29,
 'G': 30,
 'H': 31,
 'I': 32,
 'J': 33,
 'K': 34,
 'L': 35,
 'M': 36,
 'N': 37,
 'O': 38,
 'P': 39,
 'Q': 40,
 'R': 41,
 'S': 42,
 'T': 43,
 'U': 44,
 'V': 45,
 'W': 46,
 'Y': 47,
 '[': 48,
 ']': 49,
 '_': 50,
 'a': 51,
 'b': 52,
 'c': 53,
 'd': 54,
 'e': 55,
 'f': 56,
 'g': 57,
 'h': 58,
 'i': 59,
 'j': 60,
 'k': 61,
 'l': 62,
 'm': 63,
 'n': 64,
 'o': 65,
 'p': 66,
 'q': 67,
 'r': 68,
 's': 69,
 't': 70,
 'u': 71,
 'v': 72,
 'w': 73,
 'x': 74,
 'y': 75,
 'z': 76,
 '~': 77,
 'À': 78,
 'Á': 79,
 'à': 80,
 'á': 81,
 'â': 82,
 'ã': 83,
 'ç': 84,
 'é': 85,
 'ê': 86,
 'í': 87,
 'ó': 88,
 'ô': 89,
 'õ': 90,
 'ú': 91,
 'ü': 92,
 '—': 93,
 '↑': 94}

In [11]:
idx2char = np.array(vocab)

In [12]:
idx2char

array(['\t', '\n', ' ', '!', "'", '(', ')', '*', ',', '-', '.', '/', '0',
       '1', '2', '3', '4', '5', '6', '7', '8', '9', ':', ';', 'A', 'B',
       'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O',
       'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'Y', '[', ']', '_', 'a',
       'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n',
       'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', '~',
       'À', 'Á', 'à', 'á', 'â', 'ã', 'ç', 'é', 'ê', 'í', 'ó', 'ô', 'õ',
       'ú', 'ü', '—', '↑'], dtype='<U1')

In [13]:
idx2char[10]

'.'

In [14]:
char2idx[':']

22

In [15]:
text_as_int = np.array([char2idx[char] for char in dataset_text])

In [16]:
text_as_int

array([26, 51, 68, ...,  1,  1,  1])

In [17]:
text_as_int.shape

(45062,)

In [18]:
print('{} characters mapped to int ---> {}'.format(repr(dataset_text[:13]), text_as_int[:13]))

'Carta de Pero' characters mapped to int ---> [26 51 68 70 51  2 54 55  2 39 55 68 65]


# Creation of training examples and batches

In [19]:
len(dataset_text)

45062

In [20]:
seq_length = 100
examples_per_epoch = len(dataset_text) // seq_length
examples_per_epoch

450

In [21]:
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)


User settings:

   KMP_AFFINITY=granularity=fine,verbose,compact,1,0
   KMP_BLOCKTIME=0
   KMP_SETTINGS=1

Effective settings:

   KMP_ABORT_DELAY=0
   KMP_ADAPTIVE_LOCK_PROPS='1,1024'
   KMP_ALIGN_ALLOC=64
   KMP_ALL_THREADPRIVATE=128
   KMP_ATOMIC_MODE=2
   KMP_BLOCKTIME=0
   KMP_CPUINFO_FILE: value is not defined
   KMP_DETERMINISTIC_REDUCTION=false
   KMP_DEVICE_THREAD_LIMIT=2147483647
   KMP_DISP_NUM_BUFFERS=7
   KMP_DUPLICATE_LIB_OK=false
   KMP_ENABLE_TASK_THROTTLING=true
   KMP_FORCE_REDUCTION: value is not defined
   KMP_FOREIGN_THREADS_THREADPRIVATE=true
   KMP_FORKJOIN_BARRIER='2,2'
   KMP_FORKJOIN_BARRIER_PATTERN='hyper,hyper'
   KMP_GTID_MODE=3
   KMP_HANDLE_SIGNALS=false
   KMP_HOT_TEAMS_MAX_LEVEL=1
   KMP_HOT_TEAMS_MODE=0
   KMP_INIT_AT_FORK=true
   KMP_LIBRARY=throughput
   KMP_LOCK_KIND=queuing
   KMP_MALLOC_POOL_INCR=1M
   KMP_NUM_LOCKS_IN_BLOCK=1
   KMP_PLAIN_BARRIER='2,2'
   KMP_PLAIN_BARRIER_PATTERN='hyper,hyper'
   KMP_REDUCTION_BARRIER='1,1'
   KMP_REDUCTION_BAR

In [22]:
char_dataset

<TensorSliceDataset shapes: (), types: tf.int64>

In [23]:
sequences = char_dataset.batch(seq_length + 1, drop_remainder=True)

In [24]:
sequences

<BatchDataset shapes: (101,), types: tf.int64>

In [25]:
for item in sequences.take(50):
  print(repr(''.join(idx2char[item.numpy()])))

'Carta de Pero Vaz de Caminha\n\n\n\t\t\t\t\tPero Vaz de Caminha\n\n\n\n\n\nConteúdo exportado da wiki Wikisource em'
' 8 de dezembro de 2021\n\n\n\n\n\nSenhor,\n\nposto que o Capitão-mor desta Vossa frota, e assim os outros cap'
'itães escrevam a Vossa Alteza a nova do achamento desta Vossa terra nova, que se agora nesta navegaçã'
'o achou, não deixarei de também dar disso minha conta a Vossa Alteza, assim como eu melhor puder, ain'
'da que — para o bem contar e falar — o saiba pior que todos fazer!\n\nTodavia tome Vossa Alteza minha i'
'gnorância por boa vontade, a qual bem certo creia que, para aformosentar nem afear, aqui não há de pô'
'r mais do que aquilo que vi e me pareceu.\n\nDa marinhagem e das singraduras do caminho não darei aqui '
'conta a Vossa Alteza — porque o não saberei fazer — e os pilotos devem ter este cuidado.\n\nE portanto,'
' Senhor, do que hei de falar começo:\n\nE digo quê:\n\nA partida de Belém foi, como Vossa Alteza sabe, se'
'gunda-feira 9 de Março. E sábad

In [26]:
def split_input_target(chunk):
  input_text = chunk[:-1]
  target_text = chunk[1:]
  return input_text, target_text

In [27]:
dataset = sequences.map(split_input_target)

In [28]:
for input_example, target_example in dataset.take(10):
  print('Input data:', repr(''.join(idx2char[input_example.numpy()])))
  print('Target data:', repr(''.join(idx2char[target_example.numpy()])))

Input data: 'Carta de Pero Vaz de Caminha\n\n\n\t\t\t\t\tPero Vaz de Caminha\n\n\n\n\n\nConteúdo exportado da wiki Wikisource e'
Target data: 'arta de Pero Vaz de Caminha\n\n\n\t\t\t\t\tPero Vaz de Caminha\n\n\n\n\n\nConteúdo exportado da wiki Wikisource em'
Input data: ' 8 de dezembro de 2021\n\n\n\n\n\nSenhor,\n\nposto que o Capitão-mor desta Vossa frota, e assim os outros ca'
Target data: '8 de dezembro de 2021\n\n\n\n\n\nSenhor,\n\nposto que o Capitão-mor desta Vossa frota, e assim os outros cap'
Input data: 'itães escrevam a Vossa Alteza a nova do achamento desta Vossa terra nova, que se agora nesta navegaç'
Target data: 'tães escrevam a Vossa Alteza a nova do achamento desta Vossa terra nova, que se agora nesta navegaçã'
Input data: 'o achou, não deixarei de também dar disso minha conta a Vossa Alteza, assim como eu melhor puder, ai'
Target data: ' achou, não deixarei de também dar disso minha conta a Vossa Alteza, assim como eu melhor puder, ain'
Input data: 'da que — para o bem

2021-12-08 22:52:18.777217: I tensorflow/compiler/mlir/mlir_graph_optimization_pass.cc:185] None of the MLIR Optimization Passes are enabled (registered 2)


In [29]:
batch_size = 64
buffer_size = 10000

In [30]:
dataset = dataset.shuffle(buffer_size).batch(batch_size, drop_remainder = True)

In [31]:
dataset

<BatchDataset shapes: ((64, 100), (64, 100)), types: (tf.int64, tf.int64)>

# Model building

In [32]:
len(vocab)

95

In [33]:
vocab_size = len(vocab)

In [34]:
embedding_dim = 256

In [35]:
rnn_units = 1024

In [36]:
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
  model = tf.keras.Sequential([tf.keras.layers.Embedding(vocab_size, embedding_dim, batch_input_shape=[batch_size, None]),
                               tf.keras.layers.LSTM(rnn_units, return_sequences=True, stateful=True, recurrent_initializer='glorot_uniform'),
                               tf.keras.layers.LSTM(rnn_units, return_sequences=True, stateful=True, recurrent_initializer='glorot_uniform'),
                               tf.keras.layers.LSTM(rnn_units, return_sequences=True, stateful=True, recurrent_initializer='glorot_uniform'), 
                               tf.keras.layers.Dense(vocab_size)])
  return model

In [37]:
model = build_model(vocab_size = len(vocab), embedding_dim=embedding_dim, rnn_units=rnn_units, batch_size=batch_size)

In [38]:
for input_example_batch, target_example_batch in dataset.take(10):
  example_batch_predictions = model(input_example_batch)
  print(example_batch_predictions.shape)

(64, 100, 95)
(64, 100, 95)
(64, 100, 95)
(64, 100, 95)
(64, 100, 95)
(64, 100, 95)


In [39]:
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)

In [40]:
sampled_indices

<tf.Tensor: shape=(100, 1), dtype=int64, numpy=
array([[92],
       [43],
       [50],
       [78],
       [31],
       [ 9],
       [41],
       [30],
       [41],
       [51],
       [ 7],
       [23],
       [54],
       [75],
       [65],
       [82],
       [69],
       [50],
       [31],
       [61],
       [ 0],
       [30],
       [76],
       [18],
       [76],
       [52],
       [16],
       [40],
       [76],
       [69],
       [73],
       [59],
       [88],
       [78],
       [17],
       [68],
       [41],
       [87],
       [ 1],
       [ 0],
       [58],
       [49],
       [93],
       [32],
       [94],
       [34],
       [44],
       [63],
       [89],
       [12],
       [41],
       [69],
       [86],
       [61],
       [50],
       [19],
       [73],
       [17],
       [20],
       [52],
       [ 7],
       [31],
       [ 3],
       [30],
       [58],
       [ 3],
       [67],
       [68],
       [75],
       [60],
       [ 2],
       [78],
       [75],
   

In [41]:
sampled_indices = tf.squeeze(sampled_indices, axis = -1).numpy()

In [42]:
sampled_indices

array([92, 43, 50, 78, 31,  9, 41, 30, 41, 51,  7, 23, 54, 75, 65, 82, 69,
       50, 31, 61,  0, 30, 76, 18, 76, 52, 16, 40, 76, 69, 73, 59, 88, 78,
       17, 68, 41, 87,  1,  0, 58, 49, 93, 32, 94, 34, 44, 63, 89, 12, 41,
       69, 86, 61, 50, 19, 73, 17, 20, 52,  7, 31,  3, 30, 58,  3, 67, 68,
       75, 60,  2, 78, 75, 92, 74, 65, 74, 28, 86, 52, 21, 14, 28, 78, 38,
       32, 93, 79, 57, 33, 61, 54, 80, 48, 87, 14, 45, 80, 63,  9])

In [43]:
print('Input: \n', repr(''.join(idx2char[input_example_batch[0]])))
print()
print('Next char predictions: \n', repr(''.join(idx2char[sampled_indices])))

Input: 
 ' esses dez ou doze que lá estavam, acenaram-lhes que fizessem o mesmo; e logo foram todos beijá-la.\n'

Next char predictions: 
 'üT_ÀH-RGRa*;dyoâs_Hk\tGz6zb4QzswióÀ5rRí\n\th]—I↑KUmô0Rsêk_7w58b*H!Gh!qryj ÀyüxoxEêb92EÀOI—ÁgJkdà[í2Vàm-'


# Model training

**Optimizer and loss function**

In [44]:
def loss(labels, logits):
  return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

In [45]:
example_batch_loss = loss(target_example_batch, example_batch_predictions)

In [46]:
example_batch_loss.numpy().mean()

4.5543966

In [47]:
model.compile(optimizer='Adam', loss=loss)

# Execution of training

In [48]:
checkpoint_dir = './training_checkpoints'
checkpoint_prefix = os.path.join(checkpoint_dir, 'ckpt_{epoch}')
checkpoint_callback = tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_prefix, save_weights_only=True)

In [49]:
epochs = 75
history = model.fit(dataset, epochs = epochs, callbacks=[checkpoint_callback])

Epoch 1/75
Epoch 2/75
Epoch 3/75
Epoch 4/75
Epoch 5/75
Epoch 6/75
Epoch 7/75
Epoch 8/75
Epoch 9/75
Epoch 10/75
Epoch 11/75
Epoch 12/75
Epoch 13/75
Epoch 14/75
Epoch 15/75
Epoch 16/75
Epoch 17/75
Epoch 18/75
Epoch 19/75
Epoch 20/75
Epoch 21/75
Epoch 22/75
Epoch 23/75
Epoch 24/75
Epoch 25/75
Epoch 26/75
Epoch 27/75
Epoch 28/75
Epoch 29/75
Epoch 30/75
Epoch 31/75
Epoch 32/75
Epoch 33/75
Epoch 34/75
Epoch 35/75
Epoch 36/75
Epoch 37/75
Epoch 38/75
Epoch 39/75
Epoch 40/75
Epoch 41/75
Epoch 42/75
Epoch 43/75
Epoch 44/75
Epoch 45/75
Epoch 46/75
Epoch 47/75
Epoch 48/75
Epoch 49/75
Epoch 50/75
Epoch 51/75
Epoch 52/75
Epoch 53/75
Epoch 54/75
Epoch 55/75
Epoch 56/75
Epoch 57/75
Epoch 58/75
Epoch 59/75
Epoch 60/75
Epoch 61/75
Epoch 62/75
Epoch 63/75
Epoch 64/75
Epoch 65/75
Epoch 66/75
Epoch 67/75
Epoch 68/75
Epoch 69/75
Epoch 70/75
Epoch 71/75
Epoch 72/75
Epoch 73/75
Epoch 74/75
Epoch 75/75


# Text Generation

Restore last checkpoint

In [50]:
tf.train.latest_checkpoint(checkpoint_dir)

'./training_checkpoints/ckpt_75'

In [51]:
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size = 1)
model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))
model.build(tf.TensorShape([1, None]))

In [52]:
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (1, None, 256)            24320     
_________________________________________________________________
lstm_3 (LSTM)                (1, None, 1024)           5246976   
_________________________________________________________________
lstm_4 (LSTM)                (1, None, 1024)           8392704   
_________________________________________________________________
lstm_5 (LSTM)                (1, None, 1024)           8392704   
_________________________________________________________________
dense_1 (Dense)              (1, None, 95)             97375     
Total params: 22,154,079
Trainable params: 22,154,079
Non-trainable params: 0
_________________________________________________________________


# Prediction Loop

In [53]:
def generate_text(model, start_string):
  
  num_generate = 1000

  
  input_eval = [char2idx[s] for s in start_string]
  input_eval = tf.expand_dims(input_eval, 0)
  
  text_generated = []
   
  temperature = 1.0

  
  for i in range(num_generate):
    
    predictions = model(input_eval)

    
    predictions = tf.squeeze(predictions, 0)
    predictions = predictions / temperature
    predicted_id = tf.random.categorical(predictions, num_samples=1)[-1,0].numpy()

    
    input_eval = tf.expand_dims([predicted_id], 0)

    text_generated.append(idx2char[predicted_id])
  
  return (start_string + ''.join(text_generated))

In [54]:
print(generate_text(model, start_string='Pedro Vaz : '))

Pedro Vaz : deu baleira nos mui bem vinte az tro. Mas ninguém os ele, neve, lençamos vir. eles scansermino que não dei aquelesquifer uma madir àu catico amuelo o rioto contrazia segua nos homem vivo de Mira Ilhé, que Vosse lá um saa vhe grande e tuntiraram-lo que estavá como em cima da praia, um qsande com vimo. Nómos tajo, mais e beixo jizeno tem navios neveus que telham carcaçges e muito graços, que es naus setentidas, a saber e se faciam e folgar mais que querea bajeira som pader e melhor e bola, o Alguns barris que nós os forámos come mado o Capitão para baixo para a boca do rio, ontres sessenta de um avada de seu viver e maneiras. E a Vavia de medo dedo qualim ali falar a outros, que nós leváviamos de dar! E depois tornou as contas a que lá firíamos de naute, a dormir. E esquifeza feiçade bom eles para andermoteltas de ria. E chegaram-se logo outras queisqAeler que que nos lávamos, a fonde em grande jazentos e que de modo algum viessem a dormir às naus, ainque nos que viam fázam. 

Essa é a carta completa de pedro Vaz de Caminha de quando avistou a costa do Brasil.

Neste trabalho foi utilizado as redes neurais recorrentes.

Se for realizado um tratamento com Stop Words ficará ainda melhor, mas eu não utilizei aqui.

No começo era apenas uma camada da rede neural eu aumentei ela em mais cinco camada, mas o notebook começou a travar então mantive apenas duas.

Para melhorar, poderia ser feitoi o tratamento com as stop words, aumentar as camadas da rede neural e o número de epócas, mas vai exigir uma máquina um pouco mais forte.

Obrigado!

This is the complete letter from Pedro Vaz de Caminha when he sighted the coast of Brazil.

In this work, recurrent neural networks were used.

If a treatment with Stop Words is performed, it will be even better, but I didn't use it here.

In the beginning it was just one layer of the neural network I increased it by five more layers, but the notebook started to crash so I kept only two.

To improve, it could be done the treatment with stop words, increasing the layers of the neural network and the number of epochs, but it will require a machine a little stronger.

Thanks!

# **If you find this notebook useful, support with an upvote** 👍