# Shakespeare with Char-RNN

In [17]:
import tensorflow as tf
from tensorflow import keras
import pandas as pd
import numpy as np

### Pegando os dados

In [2]:
shakespeare_url = "https://homl.info/shakespeare"
filepath = keras.utils.get_file("shakespeare.txt", shakespeare_url)
with open(filepath) as f:
    shakespeare_text = f.read()

In [16]:
shakespeare_text[:1000]

"First Citizen:\nBefore we proceed any further, hear me speak.\n\nAll:\nSpeak, speak.\n\nFirst Citizen:\nYou are all resolved rather to die than to famish?\n\nAll:\nResolved. resolved.\n\nFirst Citizen:\nFirst, you know Caius Marcius is chief enemy to the people.\n\nAll:\nWe know't, we know't.\n\nFirst Citizen:\nLet us kill him, and we'll have corn at our own price.\nIs't a verdict?\n\nAll:\nNo more talking on't; let it be done: away, away!\n\nSecond Citizen:\nOne word, good citizens.\n\nFirst Citizen:\nWe are accounted poor citizens, the patricians good.\nWhat authority surfeits on would relieve us: if they\nwould yield us but the superfluity, while it were\nwholesome, we might guess they relieved us humanely;\nbut they think we are too dear: the leanness that\nafflicts us, the object of our misery, is as an\ninventory to particularise their abundance; our\nsufferance is a gain to them Let us revenge this with\nour pikes, ere we become rakes: for the gods know I\nspeak this in hunger 

### Codificação
Codificar cada caractere (`char_level=True`) como inteiro. Além disso essa tokenização já convedrte o texto um minúscula por padrão (`lower=True`).

In [3]:
tokenizer = keras.preprocessing.text.Tokenizer(char_level=True) 
tokenizer.fit_on_texts([shakespeare_text])

In [4]:
tokenizer.texts_to_sequences(["First"])

[[20, 6, 9, 8, 3]]

In [5]:
tokenizer.sequences_to_texts([[20, 6, 9, 8, 3]])

['f i r s t']

In [6]:
max_id = len(tokenizer.word_index)
print("número de caracteres diferentes:", max_id)

número de caracteres diferentes: 39


In [7]:
dataset_size = tokenizer.document_count
print("total de caracteres:", dataset_size)

total de caracteres: 1


### Codificando o texto completo para que cada caractere seja representado por seu ID:

In [11]:
[encoded] = np.array(tokenizer.texts_to_sequences([shakespeare_text])) - 1 # subtrai 1 para obter o ID de 0 a 38 ao em vez de 1 a 39
encoded

array([19,  5,  8, ..., 20, 26, 10])

### Dividindo um conjunto de dados sequencial em treinamento, validação e teste.
- em geral, é seguro dividir ao longo do tempo contanto que a série temporal seja *estacionária*, ou seja, que os padrões aprendidos sobre o passado ainda vão existir no futuro
- muitas vezes esse não é o caso, assim vc pode representar graficamente os error do modelo no conjutno de validação ao longo do tempo, caso o modelo tenha um desempenho muito melhor na primeira parte do conjunto de validação do que na última parte, assim, a série temporal pode não ser testacionária o suficiente, e talvez seja melhor treinar o modelo num **intervalo de tempo mais curto**

Vamos dividir 90% para treinamento e o resto para validação e teste.

In [20]:
train_size = dataset_size * 90 // 100
dataset = tf.data.Dataset.from_tensor_slices(encoded[:train_size])
dataset

<TensorSliceDataset shapes: (), types: tf.int32>

### Decompondo o conjunto de dados sequenial em várias janelas.

Nesse ponto, o conjunto de treinamento consite em uma única sequência de mais de 1 milhão de caracteres, se treinassemos diretamente uma RNN com ele teriamos mais de 1 milhão de camadas e uma única instância muito londa para treiná-lo. Utilizando o método `window()` converteremos essa longa sequência em muitas janelas menores de texto.
- ***retropropragação truncada ao longo do tempo*** - *backpropagation through time*

In [21]:
n_steps = 100
window_length = n_steps + 1
dataset = dataset.window(window_length, shift=1, drop_remainder=True)
dataset

<WindowDataset shapes: DatasetSpec(TensorSpec(shape=(), dtype=tf.int32, name=None), TensorShape([])), types: DatasetSpec(TensorSpec(shape=(), dtype=tf.int32, name=None), TensorShape([]))>

- ***n_steps***: é mais fácil treinar RNNs em sequências de entrada mais curtas, mas é claro que a RNN não será capaz de aprender nenhum padrão por mais tempo do que `n_steps`, então não é bom ser pequeno (mexer com o valor)