Agora que já sabemos fazer o processamento inicial no texto e construir um classificador, vamos explorar as arquiteturas que permitam processar a sequência de texto mais efetivamente.
[GRU](https://www.tensorflow.org/api_docs/python/tf/keras/layers/GRU)
[LSTM](https://www.tensorflow.org/api_docs/python/tf/keras/layers/LSTM)

Como estes algoritmos são capazes de processar sequências de caracteres, podemos considerar tarefas mais desafiadoras.

Considere o problema de **Gerar Texto**.

Na aula passada consideramos a tarefa de classificar o "sentimento" da sentenca. Agora vamos resolver um problema mais desafiador. 

Nesta aula vamos modelar o estilo de "William Shakespeare", treinando um modelo para que complete poemas "como Shakespeare os escreveria".

Basicamente, o problema consiste em prever a próxima palavra dado o restante da frase, por exemplo:

**x** *= "That thereby beauty's rose might never"*, **y** *= "die"*


**x** *= "Or who is he so fond will be the"*, **y** *= "tomb"*

Para tanto, preparamos um dataset com exemplos de sonetos escritos por Shakespeare:


In [1]:
import os
os.environ['CUDA_VISIBLE_DEVICES'] = '-1'
data = open('./data/text_generation/sonnets.txt').read()
corpus = data.lower().split("\n")
print(corpus[0:5])

['from fairest creatures we desire increase,', "that thereby beauty's rose might never die,", 'but as the riper should by time decease,', 'his tender heir might bear his memory:', 'but thou, contracted to thine own bright eyes,']


Como de costume, precisamos modelar esse problema de maneira que ele seja tratável com uma rede neural.

Agora já sabemos utilizar a classe [Tokenizer](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/text/Tokenizer) para codificar strings, porém no problema anterior tínhamos que fazer uma classificacão binária de um texto de tamanho máximo constante.

Agora, o modelo deve responder com uma palavra, como podemos modificar nossa rede neural para resolver este problema?

Antes de modificar a rede neural, vamos pensar como transformaremos o texto bruto no dataset para treinamento do modelo.

Uma forma é se aproveitar da funcão [pad_sequence](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences) com *padding='pre'* para que normalizemos o tamanho da string de forma que a "última palavra" (isto é, a palavra a ser predita pelo modelo) fique na última posicão e seja fácil de se extrair.

por exemplo:


`
"from fairest creatures we desire increase" -> (Tokenizer) -> 
[1, 2, 3, 4, 5, 6] -> (padding) -> [0, 0, 1, 2, 3, 4, 5, 6]`

Assim, *y* é facilmente acessível no índice `sentenca[-1]`.

Portanto, o primeiro passo é utilizar o tokenizer para que o vocabulário seja definido:


In [2]:
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer

max_vocab_size = 1000


tokenizer = Tokenizer(num_words=max_vocab_size, lower=True)
tokenizer.fit_on_texts(corpus)

corpus_seqs = tokenizer.texts_to_sequences(corpus)
corpus_seqs[0:5]


[[35, 418, 878, 167, 214, 518],
 [9, 879, 135, 352, 103, 157, 200],
 [17, 23, 3, 880, 62, 31, 49, 635],
 [26, 312, 636, 103, 201, 26, 279],
 [17, 11, 881, 4, 63, 86, 215, 54]]

O próximo passo é organizar nossa base de treinamento. 

Como queremos que o modelo seja capaz de prever a próxima palavra em qualquer ponto da frase, vamos considerar todas as subfrases possíveis de se formar com cada linha de soneto.

Por exemplo, para a frase `"from fairest creatures we desire increase"` as seguintes subfrases serão geradas

`
"from fairest"
"from fairest creatures"
"from fairest creatures we"
"from fairest creatures we desire"
"from fairest creatures we desire increase"
`

Ou, em sua versão codificada:

`
[35, 418]
[35, 418, 878]
[35, 418, 878, 167]
[35, 418, 878, 167, 214]
[35, 418, 878, 167, 214, 518]
`

Codifique uma funcao `process_corpus(seqs)` que vai transformar o corpus_seqs definido na célula acima criando as subfrases como descrito.

In [3]:
def process_corpus(seqs):
    res_seqs = []
    for seq in seqs:
        if len(seq) > 1:
            for i in range(1, len(seq)):
                res_seqs.append(seq[0:i+1])
    return res_seqs

proc_corpus = process_corpus(corpus_seqs)
print(proc_corpus[0:10])

[[35, 418], [35, 418, 878], [35, 418, 878, 167], [35, 418, 878, 167, 214], [35, 418, 878, 167, 214, 518], [9, 879], [9, 879, 135], [9, 879, 135, 352], [9, 879, 135, 352, 103], [9, 879, 135, 352, 103, 157]]


Agora podemos fazer o processamento final das sentencas com [padding](https://www.tensorflow.org/api_docs/python/tf/keras/preprocessing/sequence/pad_sequences).


O faremos de modo que a "palavra a ser predita" fique no último índice, facilitando o processamento posterior quando precisarmos separar a base em "x" e "y".

Note que aqui também devemos determinar o "tamanho máximo da frase", que efetivamente vai determinar até quantas palavras no passado o modelo vai olhar para definir a próxima palavra.

In [4]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

max_len = 30


padded_dataset = pad_sequences(proc_corpus, maxlen=max_len + 1, padding='pre', truncating='pre')
print(padded_dataset[0:5])

[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0  35 418]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0  35 418 878]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0  35 418 878 167]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0  35 418 878 167 214]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0  35 418 878 167 214 518]]


Agora temos os dados organizados de uma maneira mais palatável para uma rede neural.

Diferentemente da rede construída para a tarefa de classificacão de sentimentos, aqui nossa rede neural precisa ter `max_vocab_size` saídas, que efetivamente significa que a saída da rede vai ser uma probabilidade de a próxima palavra ser cada uma das possiblidades em nosso vocábulo.

Para o treinamento, é mais indicado que codifiquemos a palavra a ser prevista com um one-hot encoding, assim a saída da rede vai ser uma probabilidade para cada palavra.

In [5]:
import tensorflow.keras.utils as ku 
import numpy as np

X = np.array(padded_dataset[:,:-1])
y = padded_dataset[:,-1]
y = ku.to_categorical(y, num_classes = max_vocab_size)


print(X[0:2])
print(y[0:2])

[[  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0   0  35]
 [  0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0   0
    0   0   0   0   0   0   0   0   0   0  35 418]]
[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]


Agora sim, o processamento do texto está terminado e podemos treinar nossa rede neural

In [8]:
from tensorflow.keras.layers import Bidirectional, Dropout, LSTM, Dense, Embedding
from tensorflow.keras.models import Sequential

embedding_dim = 100
model = Sequential()
model.add(Embedding(max_vocab_size, embedding_dim, input_length=max_len))
model.add(LSTM(100, return_sequences = True))
model.add(LSTM(50))
model.add(Dense(max_vocab_size/2, activation='relu'))
model.add(Dense(max_vocab_size, activation='softmax'))
# Pick an optimizer
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.summary()

Model: "sequential_1"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 30, 100)           100000    
_________________________________________________________________
lstm_2 (LSTM)                (None, 30, 100)           80400     
_________________________________________________________________
lstm_3 (LSTM)                (None, 50)                30200     
_________________________________________________________________
dense_2 (Dense)              (None, 500)               25500     
_________________________________________________________________
dense_3 (Dense)              (None, 1000)              501000    
Total params: 737,100
Trainable params: 737,100
Non-trainable params: 0
_________________________________________________________________


In [9]:
history = model.fit(X, y, epochs=100, verbose=1)

Train on 15462 samples
Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100


Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78/100
Epoch 79/100
Epoch 80/100
Epoch 81/100
Epoch 82/100
Epoch 83/100
Epoch 84/100
Epoch 85/100
Epoch 86/100
Epoch 87/100
Epoch 88/100
Epoch 89/100
Epoch 90/100
Epoch 91/100
Epoch 92/100
Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


Este modelo pode agora ser utilizado para  prever as próximas palavras:

In [16]:
def get_next_word(model, frase):
    sequences = tokenizer.texts_to_sequences([frase])
    padded = pad_sequences(sequences, maxlen=max_len , padding='pre', truncating='pre')
    predicted = model.predict_classes(padded)
    
    for word, index in tokenizer.word_index.items():
        if index == predicted:
            output_word = word
            break
    return output_word
    
get_next_word(model, 'please, save me in this')
    
    

'world'

Inclusive, podemos gerar uma sequencia maior de palavras para formar um novo soneto.

In [20]:
generate_words = 50

sentence = 'please, save me in this'
for i in range(generate_words):
    sentence = sentence + " " + get_next_word(model, sentence)
print(sentence)

please, save me in this world out by thy gentle grace another defence <OOV> brand new pride can truly pace it in and pride in thee to prove false pride <OOV> thee <OOV> heaven's of state nor eyes be <OOV> true fire a end all me nor <OOV> steel <OOV> better under thee be gone


Para uma determinada entrada, o modelo sempre vai responder a mesma palavra, o que não é interessante. Modifique a funcão `get_next_word` para retornar uma palavra com probabilidade igual à especificada pelo modelo.

Teste diversas possibilidades de arquitetura, com modelos bidirecionais, LSTM e GRUs, quais deles obtém um resultado melhor?


Após isso, tente treinar um modelo semelhante usando poemas de [Goncalves Dias](http://www.dominiopublico.gov.br/download/texto/bv000115.pdf)
