# LSTMega

Este projeto é um modelo de rede neural recorrente utilizando a arquitetura *Long Short-Term Memory* &ndash; LSTM para geração automatizada de textos.

Antes de mais nada, é importante ressaltar que este projeto estava baseado em uma implementação da biblioteca [Keras](https://keras.io/), a partir de um [exemplo](https://keras.io/examples/lstm_text_generation/) da utilização de redes neurais recorrentes com LSTM, disponível na própria documentação do Keras.

Porém, apesar dos vários ajustes no código-fonte, os resultados não estavam sendo satisfatórios. Então, para contornar esta situação, optou-se por utilizar outro algoritmo de geração de textos que, segundo a opinião de outros colegas, apresentava textos mais coesos e um melhor desempenho nos treinos.

Este algoritmo, apesar de também utilizar algumas funções da biblioteca Keras, foi produzido pelo [TensorFlow](https://www.tensorflow.org/) e apresenta uma aplicação de rede neural recorrente para geração de textos utilizando a arquitetura GRU, podendo ser facilmente adaptada para a LSTM. Este exemplo pode ser acessado [aqui](https://www.tensorflow.org/tutorials/text/text_generation).

No decorrer desta documentação, há alguns trechos de código de como este projeto estava antes de ser substituído pelo novo algoritmo. Todo o projeto e histórico de mudanças está disponível no repositório [lstmega](https://github.com/mlc2307/lstmega) no GitHub.

## Antes da alteração

Neste trecho da documentação será possível visualizar como a aplicação estava antes da troca de algoritmo.

Para manter um pouco da organização deste *notebook*, optou-se por não documentar o trecho de código que fazia as importações do algoritmo anterior. Além do mais, os dois exemplos são bem semelhantes nesta etapa.

Anteriormente, no primeiro bloco era informado o texto utilizado para o aprendizado do modelo, além de outras operações.

```python
# Origem remota do arquivo de texto utilizado no aprendizado do modelo.
origin = "https://s3.amazonaws.com/text-datasets/nietzsche.txt"

path = get_file(basename(origin), origin)

# Faz a leitura do arquivo, deixando todos os caracteres minúsculos.
with io.open(path, encoding="utf-8") as f:
    text = f.read().lower()
    
print("Tamanho do arquivo:", len(text))

# Verifica quantos caracteres diferentes existem no texto.
chars = sorted(list(set(text)))

print("Total de caracteres:", len(chars))

# Faz a indexação dos caracteres.
char_indices = dict((c, i) for i, c in enumerate(chars))
indices_char = dict((i, c) for i, c in enumerate(chars))
```

A seguir, o algoritmo fatiava o texto em sequências semi-redundantes, cuja quantidade de caracteres destas sequências era definida pela variável `maxlen`.

```python
# Tamanho das fatias do texto.
maxlen = 40

step = 3

sentences = []
next_chars = []

# Processo responsável por fatiar o texto em sequências.
for i in range(0, len(text) - maxlen, step):
    sentences.append(text[i:i + maxlen])
    next_chars.append(text[i + maxlen])

print("Total de sequências:", len(sentences))

print("\nVetorizando as sequências...")

x = np.zeros((len(sentences), maxlen, len(chars)), dtype=np.bool)
y = np.zeros((len(sentences), len(chars)), dtype=np.bool)

for i, sentence in enumerate(sentences):
    for t, char in enumerate(sentence):
        x[i, t, char_indices[char]] = 1
        
    y[i, char_indices[next_chars[i]]] = 1

print("Sequências vetorizadas!")
```

Na próxima etapa vinha a definição e construção do modelo de rede neural.

```python
print("Construindo o modelo...")

model = Sequential()

# A camada de entrada é do tipo LSTM.
model.add(LSTM(128, input_shape=(maxlen, len(chars))))

# Adiciona uma camada do tipo Dense com 24 neurônios e 0.2 de dropout.
model.add(Dense(24, activation="relu"))
model.add(Dropout(0.2))

# Adiciona uma camada do tipo Dense com 32 neurônios e 0.3 de dropout.
model.add(Dense(32, activation="relu"))
model.add(Dropout(0.3))

# Camada de saída.
model.add(Dense(len(chars), activation="softmax"))

print("Modelo construído!\n")

model.summary()
```

Logo após, duas funções eram definidas para auxiliarem nos processos de treinamento do modelo. A função `sample` amostrava um índice de uma matriz de probabilidade e a função `on_epoch_end` mostrava um *feedback* com algumas informações ao final de cada época.

```python
def sample(preds, temperature=1.0):
    preds = np.asarray(preds).astype("float64")
    preds = np.log(preds) / temperature
    
    exp_preds = np.exp(preds)
    
    preds = exp_preds / np.sum(exp_preds)
    probas = np.random.multinomial(1, preds, 1)
    
    return np.argmax(probas)

def on_epoch_end(epoch, _):
    print("\n\nGerando texto após época #{:d}...".format(epoch + 1))

    start_index = random.randint(0, len(text) - maxlen - 1)
    
    for diversity in [0.2, 0.5, 1.0, 1.2]:
        print("\n{:->10s}".format(""))
        print("Diversidade:", diversity)

        generated = ""
        sentence = text[start_index: start_index + maxlen]
        generated += sentence
        
        print("Gerando com a seed \"" + sentence + "\"\n")
        sys.stdout.write(generated)

        for i in range(400):
            x_pred = np.zeros((1, maxlen, len(chars)))
            
            for t, char in enumerate(sentence):
                x_pred[0, t, char_indices[char]] = 1.

            preds = model.predict(x_pred, verbose=0)[0]
            next_index = sample(preds, diversity)
            next_char = indices_char[next_index]

            generated += next_char
            sentence = sentence[1:] + next_char

            sys.stdout.write(next_char)
            sys.stdout.flush()
        
        print()
    
    print("{:s}{:->20s}".format("\n" * 3, ""))

print_callback = LambdaCallback(on_epoch_end=on_epoch_end)
```

E por último era feita a configuração da compilação e treinamento deste modelo, onde vários parâmtros haviam sido modificados em relação ao exemplo do original.

```python
model.compile(
    loss="categorical_crossentropy",
    metrics=['accuracy'],
    optimizer=RMSprop()
)

model.fit(
    x, y,
    batch_size=96,
    epochs=64,
    callbacks=[print_callback]
)
```

A cada época era gerado um texto usando diferentes *diversidades*. Quanto maior a diversidade, maior era a "mistura" de caracteres empregada na geração, e, quanto mais avançada a época, mais coeso era o texto.

No final dos treinamentos, mesmo com vários ajustes, não eram obtidos bons resultados. Portanto, como já foi dito anteriormente, empregar um outro algoritmo pareceu uma solução interessante para este projeto.

O novo algoritmo que substituiu o anterior é apresentado daqui em diante.

## Preparos iniciais

### Importação das bibliotecas

A biblioteca base deste projeto é o TensorFlow, mas também possui algumas funções principais trazidas da biblioteca Keras, além de outras bibliotecas mais comuns.

In [1]:
# Deve estar na primeira linha.
from __future__ import absolute_import, division, print_function, unicode_literals

# Ao importar o TensoFlow, seriam exibidos alguns avisos. A função abaixo os ignora.
import warnings
warnings.filterwarnings("ignore", module="tensorflow", category=FutureWarning)

# Caso este notebook esteja sendo executado no Google Colab...
try:
    # ... seleciona a versão do TensorFlow a ser importada a seguir.
    %tensorflow_version 2.x
except Exception:
    pass

# Importa a biblioteca TensorFlow de fato.
import tensorflow as tf

# Ferramentas para manuseio de arquivos.
from os.path import basename, join
import io

# Para a geração dos arrays a partir do texto.
import numpy as np

# Usado na geração aleatória do seed.
import random

### *Download* do *dataset*

Para mudar um pouco o modo como as coisas acontecem, o arquivo de texto usado como *dataset* será o mesmo usado antes da alteração. O texto está disponível remotamente e pode ser acessado através deste [link](https://s3.amazonaws.com/text-datasets/nietzsche.txt).

In [2]:
# Origem remota do arquivo de texto utilizado no aprendizado do modelo.
origin = "https://s3.amazonaws.com/text-datasets/nietzsche.txt"
filename = basename(origin)

# Retorna informações sobre o dataset.
print("O dataset é o arquivo \"{}\", disponível em {}".format(filename, origin))

# Faz o download do dataset.
path_to_file = tf.keras.utils.get_file(filename, origin)

O dataset é o arquivo "nietzsche.txt", disponível em https://s3.amazonaws.com/text-datasets/nietzsche.txt


### Leitura dos dados

Lê o arquivo de texto e obtém algumas informações.

In [3]:
# Faz a leitura do arquivo de texto.
text = io.open(path_to_file, encoding="utf-8").read()

# Quantidade de caracteres no texto.
print("O texto possui {} caracteres".format(len(text)))

# Quantidade de caracteres únicos.
vocab = sorted(set(text))
print ("Existem {} caracteres únicos".format(len(vocab)))

O texto possui 600893 caracteres
Existem 84 caracteres únicos


## Processamento do texto

A seguir serão feitos alguns processamentos fundamentais com o texto do *dataset* baixado anteriormente.

### Vetorização do texto

Antes de treinar o modelo, é necessário mapear as string para uma representação numérica. Para isso serão criadas duas tabelas indexadas: uma que mapeia caracteres à números, e outra números à caracteres.

In [4]:
# Mapeamento dos caracteres únicos à números.
char2idx = {u: i for i, u in enumerate(vocab)}
idx2char = np.array(vocab)

text_as_int = np.array([char2idx[c] for c in text])

Depois do procedimento acima, cada caractere recebeu uma representação numérica. Abaixo há uma amostra para ilustrar isto de uma forma mais compreensível.

In [5]:
# Imprime uma linha de dados de largura fixa.
def print_data(data, column_width=2):
    for i in data[:-1]:
        print("{:>{column_width}} ".format(i, column_width=column_width), end="")
    
    print("{:>{column_width}}".format(data[-1], column_width=column_width))

# Início e tamanho da frase.
phrase_begin = 54
phrase_len = 19

# Imprime os caracteres da frase e suas respectivas representações numéricas.
print_data(text[phrase_begin:phrase_begin + phrase_len])
print_data(text_as_int[phrase_begin:phrase_begin + phrase_len])

 I  s     t  h  e  r  e     n  o  t     g  r  o  u  n  d
32 71  1 72 60 57 70 57  1 66 67 72  1 59 70 67 73 66 56


### Amostras de treinamento e alvos

Nesta etapa o texto é dividido em sequências de amostragem. Cada sequência conterá `seq_length` caracteres do texto.

Para cada sequência de entrada, a quantidade de caracteres das sequências alvo correspondentes será a mesma, mas com um deslocamento de um caractere para a esquerda.

Isso quer dizer que os textos estão sendo dividos em partes de tamanho `seq_length + 1`. Por exemplo, suponha-se que `seq_length` é 4 e o trecho de texto é "Tchau". Neste caso, a sequência de entrada seria "Tcha", e a sequência alvo "chau".

Para fazer isso, primeiro usa-se a função `tf.data.Dataset.from_tensor_slices` para converter o vetor de texto em uma indexação de caracteres.

In [6]:
# O tamanho máximo de cada sequência.
seq_length = 100
examples_per_epoch = len(text) // (seq_length + 1)

# Cria as amostras de treinamento e os alvos.
char_dataset = tf.data.Dataset.from_tensor_slices(text_as_int)

for i in char_dataset.take(7):
    print(idx2char[i.numpy()])

P
R
E
F
A
C
E


O método `batch` permite converte facilmente estes caracteres avulsos em sequências de um tamanho específico.

In [7]:
# Cria os batches para o treinamento.
sequences = char_dataset.batch(seq_length + 1, drop_remainder=True)

for item in sequences.take(7):
    print(repr("".join(idx2char[item.numpy()])))

'PREFACE\n\n\nSUPPOSING that Truth is a woman--what then? Is there not ground\nfor suspecting that all phi'
'losophers, in so far as they have been\ndogmatists, have failed to understand women--that the terrible'
'\nseriousness and clumsy importunity with which they have usually paid\ntheir addresses to Truth, have '
'been unskilled and unseemly methods for\nwinning a woman? Certainly she has never allowed herself to b'
'e won; and\nat present every kind of dogma stands with sad and discouraged mien--IF,\nindeed, it stands'
' at all! For there are scoffers who maintain that it\nhas fallen, that all dogma lies on the ground--n'
'ay more, that it is at\nits last gasp. But to speak seriously, there are good grounds for hoping\nthat '


Cada sequência é duplicada e deslocada para formar o texto de entrada e de destino usando o método `map` para aplicar uma simples função em cada *batch*.

In [8]:
def split_input_target(chunk):
    input_text = chunk[:-1]
    target_text = chunk[1:]
    
    return input_text, target_text

dataset = sequences.map(split_input_target)

Imprime a primeira sequência de amostragem e valores alvo.

In [9]:
for input_example, target_example in dataset.take(1):
    print ("Dado de entrada:", repr("".join(idx2char[input_example.numpy()])))
    print ("Dado alvo:      ", repr("".join(idx2char[target_example.numpy()])))

Dado de entrada: 'PREFACE\n\n\nSUPPOSING that Truth is a woman--what then? Is there not ground\nfor suspecting that all ph'
Dado alvo:       'REFACE\n\n\nSUPPOSING that Truth is a woman--what then? Is there not ground\nfor suspecting that all phi'


Cada índice desses vetores é processado como uma etapa única. Para a entrada na etapa 0, o modelo recebe o índice para "P" e tenta prever o índice para "R" como o próximo caractere. No próximo passo, faz a mesma coisa, mas a RNN considera o contexto da etapa anterior além do caractere de entrada atual.

In [10]:
for i, (input_idx, target_idx) in enumerate(zip(input_example[:7], target_example[:7])):
    print("Passo {}:".format(i + 1))
    print("  Entrada: {} ({:s})".format(input_idx, repr(idx2char[input_idx])))
    print("  Saída esperada: {} ({:s})".format(target_idx, repr(idx2char[target_idx])))

Passo 1:
  Entrada: 39 ('P')
  Saída esperada: 41 ('R')
Passo 2:
  Entrada: 41 ('R')
  Saída esperada: 28 ('E')
Passo 3:
  Entrada: 28 ('E')
  Saída esperada: 29 ('F')
Passo 4:
  Entrada: 29 ('F')
  Saída esperada: 24 ('A')
Passo 5:
  Entrada: 24 ('A')
  Saída esperada: 26 ('C')
Passo 6:
  Entrada: 26 ('C')
  Saída esperada: 28 ('E')
Passo 7:
  Entrada: 28 ('E')
  Saída esperada: 0 ('\n')


### *Batches* de treinamento

Utiliza-se `tf.data` para dividir o texto em sequências gerenciáveis. Mas antes de alimentar esses dados no modelo, é necessário embaralhar os dados e agrupá-los em *batches*.

In [11]:
# Tamanho do batch.
BATCH_SIZE = 64

# Tamanho do buffer para embaralhar o conjunto de dados.
BUFFER_SIZE = 10000

dataset = dataset.shuffle(BUFFER_SIZE).batch(BATCH_SIZE, drop_remainder=True)

print(dataset)

<BatchDataset shapes: ((64, 100), (64, 100)), types: (tf.int32, tf.int32)>


## Construção do modelo

O modelo que será construído é do tipo `tf.keras.Sequential`.

Para a construção deste modelo são utilizados três tipos de camadas:

* `tf.keras.layers.Embedding`: é a camada de entrada. Uma espécie de tabela que mapeará os números de cada caractere para um *array* com dimensões `embedding_dim`.
* `tf.keras.layers.LSTM`: uma arquitetura de rede neural recorrente, com tamanho `units=rnn_units`.
* `tf.keras.layers.Dense`: demais camadas e camada de saída, com `vocab_size` saídas.

In [12]:
# Tamanho do vocabulário, em caracteres.
vocab_size = len(vocab)

# Dimensões da camada Embedding.
embedding_dim = 256

# Quantidade de unidades da camada LSTM.
rnn_units = 1024

A função `build_model` é responsável pela instanciação de um modelo de rede neural, dados os seus parâmetros.

Na primeira célula, seu algoritmo está igual ao do exemplo original.

In [13]:
# Constrói um modelo dados os parâmetros.
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
    # Modelo do tipo sequencial.
    model = tf.keras.Sequential()
    
    # Adiciona uma camada de entrada do tipo Embedding.
    model.add(tf.keras.layers.Embedding(vocab_size,
                                        embedding_dim,
                                        batch_input_shape=[batch_size, None]))
    
    # Adiciona a camada LSTM.
    model.add(tf.keras.layers.LSTM(rnn_units,
                                   return_sequences=True,
                                   stateful=True,
                                   recurrent_initializer='glorot_uniform'))
    
    # Última camada, do tipo Dense.
    model.add(tf.keras.layers.Dense(vocab_size))
    
    return model

Resta agora instanciar um novo modelo usando a recém-criada função `build_model`.

In [14]:
# Instancia um novo modelo.
model = build_model(vocab_size=vocab_size,
                    embedding_dim=embedding_dim,
                    rnn_units=rnn_units,
                    batch_size=BATCH_SIZE)

## Teste do modelo

Nesta etapa, o modelo é executado para verificar se tudo se comporta como o esperado.

In [15]:
# Verifica o shape de saída do modelo.
for input_example_batch, target_example_batch in dataset.take(1):
    example_batch_predictions = model(input_example_batch)
    indexes_batch_predictions = ("batch_size", "sequence_length", "vocab_size")
    
    for i, e in zip(indexes_batch_predictions, example_batch_predictions.shape):
        print("{}: {}".format(i, e))

batch_size: 64
sequence_length: 100
vocab_size: 84


No exemplo acima, o comprimento da sequência da entrada `sequence_length` é `100`, mas o modelo pode ser executado em entradas de qualquer comprimento, conforme célula abaixo.

In [16]:
# Exibe informações sobre o modelo.
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (64, None, 256)           21504     
_________________________________________________________________
lstm (LSTM)                  (64, None, 1024)          5246976   
_________________________________________________________________
dense (Dense)                (64, None, 84)            86100     
Total params: 5,354,580
Trainable params: 5,354,580
Non-trainable params: 0
_________________________________________________________________


Para obter previsões reais do modelo, precisamos fazer amostras a partir da distribuição de saída, para obter índices reais de caracteres. Essa distribuição é definida pelos *logits* sobre o vocabulário dos caracteres.

Nota: é importante fazer uma amostra dessa distribuição, pois o *argmax* da distribuição pode facilmente deixar o modelo preso em um *loop*.

In [17]:
# Faz uma amostragem da distribuição.
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
sampled_indices = tf.squeeze(sampled_indices, axis=-1).numpy()

Isso dá, a cada passo, uma previsão do próximo índice de caracteres.

In [18]:
# Imprime os índices dos caracteres amostrados.
print(sampled_indices)

[39 23  2  8 40 58 24 20 48 44 28 10  4 48 80 30 45 20 74 15 57 26 31 81
 64 70 63 36 50 31 51 58 64 39 70 71 36 59 68 49 48 58 77 24 31  2 78 30
 60  7 78 51 81 37  4 64 48 64 38 76 22 12 18 59 42 53 77 53 51 72 42 59
 57 39 45 82 20 77 28 67 39 33 38  0 66 25 31 36 37 63 37 52 51 81 71 18
 12 30 72 13]


Ao decodificar os índices é possível visualizar o texto previsto por este modelo que ainda não foi treinado.

In [19]:
# Decodifica os índices amostrados em sampled_indices.
print("Entrada:\n ", repr("".join(idx2char[input_example_batch[0]])))
print("\nPredições para o próximo caractere:\n ", repr("".join(idx2char[sampled_indices])))

Entrada:
  ' Schopenhauer\'s Basis of Morality,\ntranslated by Arthur B. Bullock, M.A. (1903).] "the axiom about t'

Predições para o próximo caractere:
  "P?!-QfA:YUE0'YäGV:v5eCHælrkM[H]flPrsMgpZYfyAH!zGh,z]æN'lYlOx=28gSaya]tSgePVé:yEoPJO\nnBHMNkN_]æs82Gt3"


## Treinamento do modelo

Neste ponto, o problema pode ser tratado como um problema padrão de classificação. Dado o estado anterior da RNN e a entrada em tal intervalo de tempo, deve ser prevista, então, a classe do próximo caractere.

### Otimizador e função de *loss*

A função padrão de *loss* `tf.keras.losses.sparse_categorical_crossentropy` funciona muito bem neste caso porque ela é aplicada na última dimensão das predições.

Nota: como o modelo retorna *logits*, é necessário definir a *flag* `from_logits`.

In [20]:
# Função de loss.
def loss(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

# Aplica a função de loss no exemplo.
example_batch_loss = loss(target_example_batch, example_batch_predictions)

for i, e in zip(indexes_batch_predictions, example_batch_predictions.shape):
    print("{}: {}".format(i, e))

print("scalar_loss:", example_batch_loss.numpy().mean())

batch_size: 64
sequence_length: 100
vocab_size: 84
scalar_loss: 4.4321527


O próximo passo é configurar o treinamento usando a função `tf.keras.Model.compile`.

O exemplo original utiliza o otimizador `tf.keras.optimizers.Adam`, com seus argumentos padrão, e a função de *loss* definida anteriormente.

In [21]:
# Configura o treinamento do modelo.
model.compile(optimizer="adam",
              loss=loss)

### Configuração dos *checkpoints*

Utiliza-se a função `tf.keras.callbacks.ModelCheckpoint` para garantir que os *checkpoints* sejam salvos durante o treinamento, conforme a célula a seguir.

In [22]:
# Diretório onde os checkpoints serão salvos.
checkpoint_dir = './checkpoints'

# Nome dos arquivos dos checkpoints.
checkpoint_prefix = join(checkpoint_dir, "ckpt_{epoch}")

# Define o callback para cada época.
checkpoint_callback=tf.keras.callbacks.ModelCheckpoint(filepath=checkpoint_prefix,
                                                       save_weights_only=True)

### Execução do treinamento

Na próxima célula é definida a quantidade de épocas do treinamento.

O exemplo original do TensorFlow define apenas 10 épocas para manter o treinamento mais razoável. Para este projeto, de início será definida uma quantidade de 20 épocas.

In [23]:
# Define a quantidade de épocas.
EPOCHS = 20

A função `fit` do modelo é responsável por executar o treinamento. Após a execução ela retorna um histórico, que pode ser manipulado.

In [24]:
# Executa o treinamento.
history = model.fit(dataset,
                    epochs=EPOCHS,
                    callbacks=[checkpoint_callback])

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
Epoch 6/20
Epoch 7/20
Epoch 8/20
Epoch 9/20
Epoch 10/20
Epoch 11/20
Epoch 12/20
Epoch 13/20
Epoch 14/20
Epoch 15/20
Epoch 16/20
Epoch 17/20
Epoch 18/20
Epoch 19/20
Epoch 20/20


## Geração do texto

Diferentemente do processo de geração de texto que o algoritmo anterior tinha, o exemplo original deste algoritmo executa a geração de texto apenas após todo o treinamento ser concluído, ou seja, o texto não é gerado a cada época.

### Restauração do último *checkpoint*

### O *loop* de predição

Para manter simples essa etapa de predição, será utilizado um tamanho de *batch* igual a 1.

Devido à maneira como o estado da RNN é passado passo a passo, o modelo aceita apenas um tamanho fixo de *batch* depois de criado.

Para executar o modelo com um `batch_size` diferente, é necessário reconstruí-lo e restaurar os pesos do último *checkpoint*.

In [25]:
# Reconstrói o modelo com um batch_size igual a 1.
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)

# Carrega os pesos do último checkpoint.
model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))
model.build(tf.TensorShape([1, None]))

# Exibe informações sobre o modelo.
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (1, None, 256)            21504     
_________________________________________________________________
lstm_1 (LSTM)                (1, None, 1024)           5246976   
_________________________________________________________________
dense_1 (Dense)              (1, None, 84)             86100     
Total params: 5,354,580
Trainable params: 5,354,580
Non-trainable params: 0
_________________________________________________________________


A lógica do funcionamento da geração de texto é simples:

* O algoritmo começa escolhendo uma sequência de início (*seed*), inicializando o estado RNN e definindo o número de caracteres a serem gerados.

* Depois é obtida a distribuição de predição do próximo caractere usando a sequência de início e o estado RNN.

* Em seguida, é usada uma distribuição categórica para calcular o índice do caractere previsto. Feito isto, este caractere passa a ser a próxima entrada do modelo.

* O estado RNN retornado pelo modelo é realimentado no modelo para que agora tenha mais contexto, em vez de apenas uma palavra. Depois de prever a próxima palavra, os estados RNN modificados são novamente alimentados no modelo. É assim que a rede neural aprende à medida que obtém mais contexto das palavras previstas anteriormente.

![Para gerar o texto, uma saída do modelo alimenta a entrada seguinte](images/text_generation_sampling.png)

A função `generate_text` mostrada abaixo é responsável pela geração de texto e é utilizada no exemplo original.

```python
# Gera um texto usando o modelo treinado.
def generate_text(model, start_string):
    # Número de caracteres do texto.
    num_generate = 1000

    # Vetoriza a seed, convertendo os caracteres para números.
    input_eval = [char2idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

    # Variável para armazenar os resultados.
    text_generated = []

    # Baixas temperaturas resultam em um texto mais previsível.
    # Temperaturas mais altas resultam em um texto mais surpreendente.
    temperature = 1.0

    # Redefine os estados do modelo para que tenha um batch_size igual à 1.
    model.reset_states()
    
    for i in range(num_generate):
        predictions = model(input_eval)
        
        # Remove a dimensão do batch.
        predictions = tf.squeeze(predictions, 0)

        # Usa uma distribuição categórica para predizer a palavra retornada pelo modelo.
        predictions = predictions / temperature
        predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()

        # Realimenta a próxima entrada do modelo com a palavra prevista,
        # juntamente com o estado oculto anterior.
        input_eval = tf.expand_dims([predicted_id], 0)
        
        text_generated.append(idx2char[predicted_id])
    
    return (start_string + ''.join(text_generated))
```

Para ampliar a gama de resultados deste projeto, tornou-se possível informar várias temperaturas para a função `generate_text`, conforme visto na célula abaixo.

In [26]:
# Gera um texto usando o modelo treinado.
def generate_text(model, start_string, temperatures):
    # Número de caracteres do texto.
    num_generate = 1000
    
    # Armazenará todos os textos gerados.
    texts = []
    
    # Vetoriza a seed, convertendo os caracteres para números.
    input_eval = [char2idx[s] for s in start_string]
    input_eval = tf.expand_dims(input_eval, 0)

    # Redefine os estados do modelo para que tenha um batch_size igual à 1.
    model.reset_states()
    
    # Baixas temperaturas resultam em um texto mais previsível.
    # Temperaturas mais altas resultam em um texto mais embaralhado.
    for temperature in temperatures:
        # Variável para armazenar os resultados.
        text_generated = []
        
        # Faz a predição dos caracteres.
        for i in range(num_generate):
            predictions = model(input_eval)

            # Remove a dimensão do batch.
            predictions = tf.squeeze(predictions, 0) / temperature

            # Usa uma distribuição categórica para predizer a palavra retornada pelo modelo.
            predicted_id = tf.random.categorical(predictions, num_samples=1)[-1, 0].numpy()

            # Realimenta a próxima entrada do modelo com a palavra prevista,
            # juntamente com o estado oculto anterior.
            input_eval = tf.expand_dims([predicted_id], 1)

            text_generated.append(idx2char[predicted_id])

        texts.append({
            "temperature": temperature,
            "text_generated": start_string + ''.join(text_generated)
        })
    
    # Retorna todos os textos gerados.
    return texts

Também foi desenvolvida a função `random_seed` para criar uma *seed* aleatória que será usada ao gerar o texto.

In [27]:
def random_seed(text, length):
    # Obtém um começo aleatório para a seed.
    start_index = random.randint(0, len(text) - length - 1)
    
    # Forma a seed aleatória a partir do caractere na posição
    # start_index do text e de comprimento length.
    return text[start_index:start_index + length]

Agora basta chamar a função `generate_text` e informar seus parâmetros para que os textos sejam gerados. Além disso, a célula abaixo imprime os textos gerados com base nas temperaturas definidas na variável `temperatures`.

In [28]:
# Cria uma seed aleatória.
start_string = random_seed(text, BATCH_SIZE)

print("Gerando textos com a seed:\n\n\"{}\"\n".format(start_string.replace("\n", " ")))

# Temperaturas que serão utilizadas na geração dos textos.
temperatures = [0.5, 0.6, 0.7, 0.8, 0.9]

# Finalmente, executa a geração dos textos.
texts = generate_text(model, start_string, temperatures)

# Imprime os textos gerados.
for t in texts:
    print("Temperatura: {}\n\n{}".format(t["temperature"], t["text_generated"]))
    
    # Imprime um separador entre os textos.
    if t["temperature"] != temperatures[-1]:
        print("{:->20s}".format(""))

Gerando textos com a seed:

"y perceived that in the most personal considerations the most ge"

Temperatura: 0.5

y perceived that in the most personal
considerations the most general intellectual is the old strength, the most praise of anything betrays to be sure, and the spirituality, and he who does not a man whose strength, and all the world of involved. The contemplation of the subject and respect to the super-spiritual in the will to the senses of the spirit, and the slave and more
delight in our present which is the present, however, that is the free spirit and the most distrust of all the whole senses and desires, and almost which he has the profound end for the German
spirit and absolutely, which is the latter development that it is a whole defendence. Not the ear is almost every philosophy of the German superial things. The entire than anything of power, and the result of the commanding of any events which have been made upon the world of the struggle and hasing the same a ma

Por esta ter sido a primeira execução do modelo, os textos, de certa forma, até impressionam pela sua coesão. Porém é interessante fazer algumas alterações para ver se é possível alcançar resultados melhores ainda.

## Alterações

A cada alteração realizada, todo o trecho de código seguinte ao ponto alterado também é inserido junto à célula para ser reexecutado.

A primeira tentativa de melhoria que pode ser feita é em relação à temperatura. Optou-se por adicionar temperaturas mais altas e manter um intervalo maior entre elas. A *seed* aleatória também será alterada para aumentar a diversificação dos resultados.

Entretanto, o modelo e outras variáveis do código permanecem os mesmos.

In [29]:
# Cria uma seed aleatória.
start_string = random_seed(text, BATCH_SIZE)

print("Gerando textos com a seed:\n\n\"{}\"\n".format(start_string.replace("\n", " ")))

# Temperaturas que serão utilizadas na geração dos textos.
# Desta vez, temperaturas mais altas foram adicionadas e em um intervalo maior.
temperatures = [0.5, 0.7, 0.9, 1.2, 1.5, 2]

# Finalmente, executa a geração dos textos.
texts = generate_text(model, start_string, temperatures)

# Imprime os textos gerados.
for t in texts:
    print("Temperatura: {}\n\n{}".format(t["temperature"], t["text_generated"]))
    
    # Imprime um separador entre os textos.
    if t["temperature"] != temperatures[-1]:
        print("{:->20s}".format(""))

Gerando textos com a seed:

"roblem of the value of truth presented itself before us--or was "

Temperatura: 0.5

roblem of the
value of truth presented itself before us--or was æÆæææ8äÆæææëææVëæäæäëææææVëæäææäææääæææææææZëæääëææëææææäÆäææÆëëææëëæææÆææ(YæQææäæäÆëææææVæQëëæäääëÆæëÆæä(ëVææææXæææææäëæææÆææææäëæääææëæéæäæäæææäææææÆææÆææææææææææÆæÆææÆäëëëëëMXææææXÆææææææZäæZVë0æZ(=æ(ÆæVææææäææÆæÆëæääæææææäææVæäÆäëææäæäææææëëæææ(ÆæäææääæäæäÆæQäæÆææ=éææMæäææææMææ(ääææVëÆëëæææææäæZæäææVëëæäæëææääææÆææÆææäææææäæ7æäæääëæäæQäæääææäQäææ(ëëææëäæäÆÆæäæææëæQæææÆ(ëæäæææëäæÆæëäææëæææÆæÆæéVæäëææææëÆÆæVæææ(XæäëæäääëëëÆë(ÆæëææVææäæäæ(æææÆäæäëëäææææäæææéæëæææææZëÆæææZæéäææMÆææææäZääääæQÆÆæëäëææ(ææææÆäëGBëæäÆéæææëæëZææëææææÆæÆäæ(Æææëëëæææäæ(ÆëÆëæVæææææëQææææææäÆäææææëääëëäëææÆää(æææææQäæZ3æææÆæäääæææQæZÆXääææÆæAëëëæäæÆæ0ææëäææXÆæææææäæäëëäæäÆëäÆæääæææÆæÆææëQæZëææÆäMëæ(7æäæëäÆäæÆææææëææXæVxæææäæææææëææäëæææææææQääëæäæÆææÆæææJæVæææÆæææÆääæäMë(ææÆæ(ææÆææëæææäææææVææV0ææJææäÆæëæææVææ0äæëææææÆæææäQæQäæÆÆææëQææëH

Como pode ser claramente observável, os textos gerados, desta vez estão todos demasiadamente embaralhados, o que leva a acreditar que, dependendo da *seed* utilizada para gerar os textos, estes podem possuir um bom nível de coesão ou ficar totalmente incompreensíveis.

Desta vez, a tentativa abaixo foi a de mudar a estrutura do modelo, entre outras variáveis:

* `rnn_units` agora possui o dobro de seu antigo valor, passando a ser 2048.
* `EPOCHS` passou para 50 épocas.

In [None]:
# Quantidade de unidades da camada LSTM.
rnn_units = 2048

# Constrói um modelo dados os parâmetros.
def build_model(vocab_size, embedding_dim, rnn_units, batch_size):
    # Modelo do tipo sequencial.
    model = tf.keras.Sequential()
    
    # Adiciona uma camada de entrada do tipo Embedding.
    model.add(tf.keras.layers.Embedding(vocab_size,
                                        embedding_dim,
                                        batch_input_shape=[batch_size, None]))
    
    # Adiciona a camada LSTM.
    model.add(tf.keras.layers.LSTM(rnn_units,
                                   return_sequences=True,
                                   stateful=True,
                                   recurrent_initializer='glorot_uniform'))
    
    # Última camada, do tipo Dense.
    model.add(tf.keras.layers.Dense(vocab_size))
    
    return model

# Instancia um novo modelo.
model = build_model(vocab_size=vocab_size,
                    embedding_dim=embedding_dim,
                    rnn_units=rnn_units,
                    batch_size=BATCH_SIZE)

# Verifica o shape de saída do modelo.
for input_example_batch, target_example_batch in dataset.take(1):
    example_batch_predictions = model(input_example_batch)
    indexes_batch_predictions = ("batch_size", "sequence_length", "vocab_size")
    
    for i, e in zip(indexes_batch_predictions, example_batch_predictions.shape):
        print("{}: {}".format(i, e))

In [None]:
# Exibe informações sobre o modelo.
model.summary()

In [None]:
# Faz uma amostragem da distribuição.
sampled_indices = tf.random.categorical(example_batch_predictions[0], num_samples=1)
sampled_indices = tf.squeeze(sampled_indices, axis=-1).numpy()

# Função de loss.
def loss(labels, logits):
    return tf.keras.losses.sparse_categorical_crossentropy(labels, logits, from_logits=True)

# Aplica a função de loss no exemplo.
example_batch_loss = loss(target_example_batch, example_batch_predictions)

for i, e in zip(indexes_batch_predictions, example_batch_predictions.shape):
    print("{}: {}".format(i, e))

print("scalar_loss:", example_batch_loss.numpy().mean())

In [None]:
# Configura o treinamento do modelo.
model.compile(optimizer="adam",
              loss=loss)

# Define a quantidade de épocas.
EPOCHS = 50

# Executa o treinamento.
history = model.fit(dataset,
                    epochs=EPOCHS,
                    callbacks=[checkpoint_callback])

In [None]:
# Reconstrói o modelo com um batch_size igual a 1.
model = build_model(vocab_size, embedding_dim, rnn_units, batch_size=1)

# Carrega os pesos do último checkpoint.
model.load_weights(tf.train.latest_checkpoint(checkpoint_dir))
model.build(tf.TensorShape([1, None]))

# Exibe informações sobre o modelo.
model.summary()

In [None]:
# Cria uma seed aleatória.
start_string = random_seed(text, BATCH_SIZE)

print("Gerando textos com a seed:\n\n\"{}\"\n".format(start_string.replace("\n", " ")))

# Temperaturas que serão utilizadas na geração dos textos.
# Foram mantidas as últimas temperaturas utilizadas.
temperatures = [0.5, 0.7, 0.9, 1.2, 1.5, 2]

# Finalmente, executa a geração dos textos.
texts = generate_text(model, start_string, temperatures)

# Imprime os textos gerados.
for t in texts:
    print("Temperatura: {}\n\n{}".format(t["temperature"], t["text_generated"]))
    
    # Imprime um separador entre os textos.
    if t["temperature"] != temperatures[-1]:
        print("{:->20s}".format(""))