# Gerando texto Shakesperiano com uma Char-RNN

## Obtendo o conjunto de treinamento

Primeiramente, faremos o download de todo o trabalho de Shakespeare, usando a função `get_file()` do Keras e baixando os dados do projeto Char-RNN de Andrej Karpathy.

In [2]:
from tensorflow import keras

In [4]:
shakespeare_url = "https://homl.info/shakespeare"

filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)

with open(filepath) as f:
    shakespeare_text = f.read()

In [7]:
#print(shakespeare_text)

Vamos codificar cada caractere como um inteiro, utilizando a classe `Tokenizer` do Keras. Ele encontrará todos os caracteres usados no texto e mapeará cada um deles para um ID de caractere diferente, de 1 ao número de caracteres diferentes.

In [9]:
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True)

Com `char_level = True`, obtemos a codificação em nível de caractere em vez da codificação padrão por palavras.

In [10]:
%%time
tokenizer.fit_on_texts([shakespeare_text])

CPU times: user 535 ms, sys: 0 ns, total: 535 ms
Wall time: 534 ms


Codificando palavras:

In [15]:
sequencia = tokenizer.texts_to_sequences(['Carlos', 'Alberto', 'Silva', 'Junior'])
sequencia

[[19, 5, 9, 12, 4, 8],
 [5, 12, 22, 2, 9, 3, 4],
 [8, 6, 12, 26, 5],
 [33, 14, 10, 6, 4, 9]]

Decodificando o texto:

In [16]:
texto = tokenizer.sequences_to_texts(sequencia)
texto

['c a r l o s', 'a l b e r t o', 's i l v a', 'j u n i o r']

Por padrão, o tokenizer converte o texto para minúsculo, mas é possível definir `lower=False` para evitar isso.

In [17]:
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True, lower=False)
tokenizer.fit_on_texts([shakespeare_text])

In [18]:
sequencia = tokenizer.texts_to_sequences(['Carlos', 'Alberto', 'Silva', 'Junior'])
sequencia

[[38, 5, 8, 12, 4, 7],
 [27, 12, 23, 2, 8, 3, 4],
 [36, 10, 12, 28, 5],
 [59, 14, 9, 10, 4, 8]]

In [19]:
texto = tokenizer.sequences_to_texts(sequencia)
texto

['C a r l o s', 'A l b e r t o', 'S i l v a', 'J u n i o r']

Vamos codificar o texto de Shakespeare completamente:

In [20]:
import numpy as np

[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text]))

In [21]:
encoded

array([50, 10,  8, ..., 21, 26, 11])