## Geração Automática de Texto com LSTMs


As Redes Neurais Recorrentes também podem ser usadas como modelos generativos. Isso significa que além de serem usadas como modelos preditivos (fazendo previsões), elas podem aprender as sequências de um problema e, em seguida, gerar sequências plausíveis inteiramente novas para o domínio do problema. Modelos Generativos como este são úteis não apenas para estudar o quão bem um modelo aprendeu um problema, mas para saber mais sobre o próprio domínio do problema.


Uma boa forma de praticar a criação de texto, é usando livros clássicos, os quais já temos uma boa ideia sobre a história e que não estejamos violando nenhum direito de copyright. Um lugar para encontrar esses livros é no site do Projeto Gutenberg. É de lá que usaremos o livro para o qual criaremos um modelo generativo: Alice no País das Maravilhas ou o nome em inglês Alice's Adventures in Wonderland. O arquivo txt do livro pode ser baixado aqui: https://www.gutenberg.org/ebooks/11, mas você também o encontra anexo a este Jupyter Notebook. Este livro tem cerca de 3.300 linhas de texto. Removemos o cabeçalho e a marca de final de arquivo, já que não são necessários para o que vamos fazer.


Vamos aprender as dependências entre os caracteres e as probabilidades condicionais de caracteres em sequências para que possamos gerar sequências totalmente novas e originais de caracteres. Esta é uma tarefa divertida e recomendo repetir essas experiências com outros livros do Projeto Gutenberg. Essas experiências não se limitam ao texto, você também pode experimentar com outros dados ASCII, como código fonte de linguagens de programação, documentos marcados em LaTeX, HTML ou Markdown e muito mais.

Faremos aqui algo muito similar ao que foi feito pelo programador, nesta matéria: http://www.businessinsider.com/ai-just-wrote-the-next-book-of-game-of-thrones-for-us-2017-8


# Etapa 1: Importação das bibliotecas


In [1]:
!pip install keras --upgrade
!pip install numpy --upgrade




In [2]:
# Imports
from keras.models import Sequential
from keras.layers import Dense
from keras.layers import Dropout
from keras.layers import LSTM
from keras.callbacks import ModelCheckpoint
from keras.utils import np_utils
import numpy as np
import sys


# Etapa 2: Carregamento e exploração da base de dados


In [3]:
# from google.colab import drive
# drive.mount('/content/drive')


Carregamos os dados e convertemos para lowercase
Estamos usando aqui arquivo texto no formato ASCII


In [4]:

# filename = "/content/drive/MyDrive/Colab Notebooks/dados/wonderland.txt"
filename = "data/wonderland.txt"
raw_text = open(filename).read()
raw_text = raw_text.lower()


# Etapa 3: Tratamento da base de dados


Agora que o livro está carregado, devemos preparar os dados para modelagem. Não podemos modelar os caracteres diretamente, em vez disso, devemos converter os caracteres em números inteiros. Podemos fazer isso facilmente, criando um conjunto de todos os caracteres distintos do livro, então criando um mapa de cada caractere para um único inteiro.


In [5]:
chars = sorted(list(set(raw_text)))


In [6]:
chars


['\n',
 ' ',
 '!',
 '"',
 "'",
 '(',
 ')',
 '*',
 ',',
 '-',
 '.',
 ':',
 ';',
 '?',
 '[',
 ']',
 '_',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 'g',
 'h',
 'i',
 'j',
 'k',
 'l',
 'm',
 'n',
 'o',
 'p',
 'q',
 'r',
 's',
 't',
 'u',
 'v',
 'w',
 'x',
 'y',
 'z',
 '\ufeff']

In [7]:
char_to_int = dict((c, i) for i, c in enumerate(chars))


In [8]:
char_to_int


{'\n': 0,
 ' ': 1,
 '!': 2,
 '"': 3,
 "'": 4,
 '(': 5,
 ')': 6,
 '*': 7,
 ',': 8,
 '-': 9,
 '.': 10,
 ':': 11,
 ';': 12,
 '?': 13,
 '[': 14,
 ']': 15,
 '_': 16,
 'a': 17,
 'b': 18,
 'c': 19,
 'd': 20,
 'e': 21,
 'f': 22,
 'g': 23,
 'h': 24,
 'i': 25,
 'j': 26,
 'k': 27,
 'l': 28,
 'm': 29,
 'n': 30,
 'o': 31,
 'p': 32,
 'q': 33,
 'r': 34,
 's': 35,
 't': 36,
 'u': 37,
 'v': 38,
 'w': 39,
 'x': 40,
 'y': 41,
 'z': 42,
 '\ufeff': 43}

In [9]:
n_chars = len(raw_text)
n_vocab = len(chars)
print("Total Characters: ", n_chars)
print("Total Vocab: ", n_vocab)


Total Characters:  144343
Total Vocab:  44


# Etapa 4: Split em treino e teste


Podemos ver que o livro tem pouco menos de 150.000 caracteres e que quando convertidos para minúsculas, existem apenas 44 caracteres distintos no vocabulário para a rede aprender, muito mais do que os 26 no alfabeto. Agora, precisamos definir os dados de treinamento para a rede. Existe muita flexibilidade em como você escolhe dividir o texto e expô-lo a rede durante o treino. Aqui dividiremos o texto do livro em subsequências com um comprimento de 100 caracteres, um comprimento arbitrário. Poderíamos facilmente dividir os dados por sentenças e ajustar as sequências mais curtas e truncar as mais longas. Cada padrão de treinamento da rede é composto de 100 passos de tempo (time steps) de um caractere (X) seguido por um caracter de saída (y). Ao criar essas sequências, deslizamos esta janela ao longo de todo o livro um caracter de cada vez, permitindo que cada caracter tenha a chance de ser aprendido a partir dos 100 caracteres que o precederam (exceto os primeiros 100 caracteres, é claro). Por exemplo, se o comprimento da sequência é 5 (para simplificar), os dois primeiros padrões de treinamento seriam os seguintes:

- Palavra: CHAPTER
- CHAPT -> E
- HAPTE -> R


In [10]:
# À medida que dividimos o livro em sequências, convertemos os caracteres em números inteiros usando nossa
# tabela de pesquisa que preparamos anteriormente.
seq_length = 100
dataX = []
dataY = []

for i in range(0, n_chars - seq_length, 1):
    seq_in = raw_text[i:i + seq_length]
    seq_out = raw_text[i + seq_length]
    dataX.append([char_to_int[char] for char in seq_in])
    dataY.append(char_to_int[seq_out])
n_patterns = len(dataX)
print("Total de Padrões: ", n_patterns)


Total de Padrões:  144243


In [11]:
dataX


[[43,
  19,
  24,
  17,
  32,
  36,
  21,
  34,
  1,
  25,
  10,
  1,
  20,
  31,
  39,
  30,
  1,
  36,
  24,
  21,
  1,
  34,
  17,
  18,
  18,
  25,
  36,
  9,
  24,
  31,
  28,
  21,
  0,
  0,
  17,
  28,
  25,
  19,
  21,
  1,
  39,
  17,
  35,
  1,
  18,
  21,
  23,
  25,
  30,
  30,
  25,
  30,
  23,
  1,
  36,
  31,
  1,
  23,
  21,
  36,
  1,
  38,
  21,
  34,
  41,
  1,
  36,
  25,
  34,
  21,
  20,
  1,
  31,
  22,
  1,
  35,
  25,
  36,
  36,
  25,
  30,
  23,
  1,
  18,
  41,
  1,
  24,
  21,
  34,
  1,
  35,
  25,
  35,
  36,
  21,
  34,
  1,
  31,
  30,
  1],
 [19,
  24,
  17,
  32,
  36,
  21,
  34,
  1,
  25,
  10,
  1,
  20,
  31,
  39,
  30,
  1,
  36,
  24,
  21,
  1,
  34,
  17,
  18,
  18,
  25,
  36,
  9,
  24,
  31,
  28,
  21,
  0,
  0,
  17,
  28,
  25,
  19,
  21,
  1,
  39,
  17,
  35,
  1,
  18,
  21,
  23,
  25,
  30,
  30,
  25,
  30,
  23,
  1,
  36,
  31,
  1,
  23,
  21,
  36,
  1,
  38,
  21,
  34,
  41,
  1,
  36,
  25,
  34,
  21,
  20,
  1,
  31,
 

Agora que preparamos nossos dados de treinamento, precisamos transformá-lo para que possamos usá-lo com o Keras. Primeiro, devemos transformar a lista de sequências de entrada na forma [amostras, passos de tempo, recursos] esperados por uma rede LSTM. Em seguida, precisamos redimensionar os números inteiros para o intervalo de 0 a 1 para tornar os padrões mais fáceis de aprender pela rede LSTM que usa a função de ativação sigmoide por padrão.


In [12]:
# Reshape de X para [samples, time steps, features]
X = np.reshape(dataX, (n_patterns, seq_length, 1))

# Normalização
X = X / float(n_vocab)


Finalmente, precisamos converter os padrões de saída (caracteres únicos convertidos em números inteiros) usando Hot-Encoding. Isto é para que possamos configurar a rede para prever a probabilidade de cada um dos 44 caracteres diferentes no vocabulário (uma representação mais fácil) em vez de tentar forçá-lo a prever com precisão o próximo caracter. Cada valor de y é convertido em um vetor com um comprimento 44, cheio de zeros, exceto com um 1 na coluna para a letra (inteiro) que o padrão representa. Por exemplo, quando a letra n (valor inteiro 30) tiver sido transformada usando One-Hot Encoding, vai se parecer com isso:

[ 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 0.]


In [13]:
# One-Hot Encoding da variável de saída
y = np_utils.to_categorical(dataY)


In [14]:
y


array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]], dtype=float32)

# Etapa 6: Construção e treinamento do modelo

Modelo LSTM com duas camadas de Dropout com 20%
O tempo de treinamento é bem longo


In [15]:

model = Sequential()
model.add(LSTM(256, input_shape=(
    X.shape[1], X.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(256))
model.add(Dropout(0.2))
model.add(Dense(y.shape[1], activation='softmax'))
model.compile(loss='categorical_crossentropy', optimizer='adam')


2021-12-13 13:49:40.823959: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:939] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2021-12-13 13:49:40.860644: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:939] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2021-12-13 13:49:40.860858: I tensorflow/stream_executor/cuda/cuda_gpu_executor.cc:939] successful NUMA node read from SysFS had negative value (-1), but there must be at least one NUMA node, so returning NUMA node zero
2021-12-13 13:49:40.861284: I tensorflow/core/platform/cpu_feature_guard.cc:151] This TensorFlow binary is optimized with oneAPI Deep Neural Network Library (oneDNN) to use the following CPU instructions in performance-critical operations:  AVX2 FMA
To enable them in other operations, rebuild TensorFlow with the appropriate compiler flags

Não há conjunto de dados de teste. Estamos modelando todo o conjunto de dados de treinamento para aprender a probabilidade de cada caracter em uma sequência. Não estamos interessados nos mais preciso modelo do conjunto de dados de treinamento (Acurácia de Classificação). Este seria um modelo que prevê cada caracter no conjunto de dados de treinamento perfeitamente. Em vez disso, estamos interessados em uma generalização do conjunto de dados que minimiza a função de perda escolhida. Estamos buscando um equilíbrio entre generalização e
overfitting.


In [16]:
# Define o checkpoint
filepath = "weights/weights-improvement-{epoch:02d}-{loss:.4f}.hdf5"
checkpoint = ModelCheckpoint(
    filepath, monitor='loss', verbose=1, save_best_only=True, mode='min')
callbacks_list = [checkpoint]


Fit do modelo


In [17]:
# %% time
# model.fit(X, y, epochs = 20, batch_size = 128, callbacks = callbacks_list)
model.fit(X, y, epochs=50, batch_size=64, callbacks=callbacks_list)


Epoch 1/50


2021-12-13 13:49:50.322783: I tensorflow/stream_executor/cuda/cuda_dnn.cc:366] Loaded cuDNN version 8300


Epoch 00001: loss improved from inf to 2.77466, saving model to weights-improvement-01-2.7747.hdf5
Epoch 2/50
Epoch 00002: loss improved from 2.77466 to 2.41265, saving model to weights-improvement-02-2.4127.hdf5
Epoch 3/50
Epoch 00003: loss improved from 2.41265 to 2.20715, saving model to weights-improvement-03-2.2072.hdf5
Epoch 4/50
Epoch 00004: loss improved from 2.20715 to 2.07396, saving model to weights-improvement-04-2.0740.hdf5
Epoch 5/50
Epoch 00005: loss improved from 2.07396 to 1.97861, saving model to weights-improvement-05-1.9786.hdf5
Epoch 6/50
Epoch 00006: loss improved from 1.97861 to 1.89904, saving model to weights-improvement-06-1.8990.hdf5
Epoch 7/50
Epoch 00007: loss improved from 1.89904 to 1.83919, saving model to weights-improvement-07-1.8392.hdf5
Epoch 8/50
Epoch 00008: loss improved from 1.83919 to 1.78450, saving model to weights-improvement-08-1.7845.hdf5
Epoch 9/50
Epoch 00009: loss improved from 1.78450 to 1.74114, saving model to weights-improvement-09-1

<keras.callbacks.History at 0x7fa48d72e4f0>

Depois de executar o fit, você deve ter uma série de arquivos de checkpoint no mesmo diretório onde está este Jupyter Notebook. Você pode excluí-los todos exceto aquele com o menor valor de perda. Por exemplo, neste caso, o arquivo weights-improvement-19-1.9119.hdf5 será usado. Ele contém os melhores valores de peso.


Etapa 7: Geração do Texto


In [None]:
# Carrega os melhores pesos da rede e compila o modelo
# filename = "/content/drive/MyDrive/Colab Notebooks/dados/weights-improvement-49-1.3344.hdf5"
filename = "data/weights-improvement-49-1.3344.hdf5"
model.load_weights(filename)
model.compile(loss='categorical_crossentropy', optimizer='adam')


In [None]:
int_to_char = dict((i, c) for i, c in enumerate(chars))


In [None]:
# Obtém um random seed
start = np.random.randint(0, len(dataX)-1)

# Inicia a geração de texto de um ponto qualquer, definido pelo random seed "start"
pattern = dataX[start]
print("\"", ''.join([int_to_char[value] for value in pattern]), "\"")

# Gerando caracteres
for i in range(100):
    x = np.reshape(pattern, (1, len(pattern), 1))
    x = x / float(n_vocab)
    prediction = model.predict(x, verbose=0)
    index = np.argmax(prediction)
    result = int_to_char[index]
    seq_in = [int_to_char[value] for value in pattern]
    sys.stdout.write(result)
    pattern.append(index)
    pattern = pattern[1:len(pattern)]
print("\nConcluído.")


"  his father, 'i took to the law,
    and argued each case with my wife;
   and the muscular strength "
 toeee " 
                                                                                          
Concluído.


Abaixo algumas sugestões para melhorar este modelo:

- Prever menos de 1.000 caracteres como saída para uma determinada semente (seed).
- Remova toda a pontuação do texto original e, portanto, do vocabulário do modelo.
- Experimente One-Hot Encoding para as sequências de entrada.
- Aumente o número de épocas de treinamento para 100 ou muitas centenas (isso pode levar até dias para o treinamento, mas aumentará a previsão do modelo.
- Ajuste o percentual de Dropout
- Adicione mais unidades de memória às camadas e/ou mais camadas.


# Fim
