# SimpleRNN - Geração de texto

RNN tem sido usado extensamente pela comunidade de Processamento de Linguagem Natural (NLP) para várias aplicações. Uma de elas, por exemplo, é construção de modelos de linguagem. Os modelos de linguagem ajudam a prever a probabilidade da seguinte palavra em função da palavra anterior. Os modelos de linguagem são importantes para várias tarefas de alto nível como máquinas de tradução, correção da pronúncia, etc.

# \begin{equation}
h_t = \phi(h_{t-1} ,x_t)
\end{equation}

<img src="img/RNN-unrolled.png " width="600">

A ideia nesta pratica é a mesma que modelamento baseado em linguagem só que trabalhamos com carateres em ves de palavras assim a velocidade de processamento é melhor.  Primeiro importamos os modulos necessarios:

In [1]:
from keras.layers import Dense, Activation
from keras.layers.recurrent import SimpleRNN
from keras.models import Sequential
from keras.utils.vis_utils import plot_model
import numpy as np
import os

Using Theano backend.
 https://github.com/Theano/Theano/wiki/Converting-to-the-new-gpu-back-end%28gpuarray%29

Using gpu device 0: Tesla C2070 (CNMeM is enabled with initial size: 95.0% of memory, cuDNN not available)


Lemos o texto de entrada do texto Alice in Wonderland no site [Project Gutenberg ](http://www.gutenberg.org/ebooks/11).  O texto contém linhas de caracteres non-ASCII, pelo qual primeiro limpamos e escrevemos o conteúdo numa variável chamada *text.

# Pre-processamento

In [2]:
DL_DATA="/share/apps/DL_DATA/LSTM"

In [3]:
fin = open(os.path.join(DL_DATA,"11-0.txt"),'rb')
lines=[]
for line in fin:
    line = line.strip().lower()
    line = line.decode("ascii","ignore")
    if len(line) == 0:
        continue
    lines.append(line)
fin.close()
text = " ".join(lines)

O seguinte código mapea os caracteres em índices e vice-versa:

In [11]:
chars = set([c for c in text])
nb_chars = len(chars)
char2index = dict((c,i) for i, c in enumerate(chars))
index2char = dict((i,c) for i, c in enumerate(chars))

O seguinte passo é criar os textos de entradas e rótulos. Realizamos isto passando através to texto com um passo STEP e extraímos uma extensão de texto determinada pela variável SEQLEN.

In [5]:
SEQLEN=#10
STEP=#1

input_chars=[]
label_chars=[]
for i in range(0, len(text) - SEQLEN, STEP):
    input_chars.append(text[i:i + SEQLEN])
    label_chars.append(text[i + SEQLEN])

Agora vamos vetorizar estes textos de entradas e rótulos. Nossa saída é um único caráter que é representada por um vector one-hot.

In [24]:
X = np.zeros((len(input_chars), SEQLEN, nb_chars), dtype=np.bool)
Y = np.zeros((len(input_chars), nb_chars), dtype=np.bool)
for i, input_char in enumerate (input_chars):
    for j,ch in enumerate(input_char):
        X[i, j, char2index[ch]] = 1
    Y[i, char2index[label_chars[i]]] = 1

# Criação do Modelo

A RRN é conectada a uma camada full connected (FC). A camada FC tem (nb_char) units, que calcula valores de probabilidade para cada palavra. O caráter com a maior probabilidade é escolhido como a predição. Para compilar o modelo, utilizamos a função de perda: cross-entropy e o método RMSprop para a atualização de pesos.

In [7]:
HIDDEN_SIZE = #128
BATCH_SIZE = #128
NUM_ITERATIONS = #25
NUM_EPOCH_PER_ITERATION = #1
NUM_PREDS_PER_EPOCH = #100

model = Sequential()
model.add(SimpleRNN(HIDDEN_SIZE,return_sequences=False, input_shape=(SEQLEN, nb_chars), unroll=True))
model.add(Dense(nb_chars))
model.add(Activation("softmax"))

model.compile(loss="categorical_crossentropy", optimizer="rmsprop")

Nosso teste consiste em gerar caracteres desde o modelo dada uma entrada aleatória, logo tirar o primeiro entrada e anexar a saída precedida pela rede. Continuamos o processo 100 vezes.

In [8]:
for iteration in range(NUM_ITERATIONS):
    print("="*50)
    print("Iteration #: %d" % (iteration))
    model.fit(X,Y,batch_size=BATCH_SIZE, epochs=NUM_EPOCH_PER_ITERATION, verbose=0)
    
    test_idx = np.random.randint(len(input_chars))
    test_chars = input_chars[test_idx]
    print("Generation from seed: %s" % (test_chars))
    print(test_chars, end="")
    for i in range(NUM_PREDS_PER_EPOCH):
        Xtest = np.zeros((1, SEQLEN, nb_chars))
        for i, ch in enumerate(test_chars):
            Xtest[0, i, char2index[ch]] = 1
        pred = model.predict(Xtest, verbose=0)[0]
        ypred = index2char[np.argmax(pred)]
        print(ypred, end="")
        # move forward with test_chars + ypred
        test_chars = test_chars[1:] + ypred
print()

Iteration #: 0
Generation from seed: in a tone 
Iteration #: 1
Generation from seed: s in it? s
Iteration #: 2
Generation from seed:  reasonabl
Iteration #: 3
Generation from seed:  to come u
Iteration #: 4
Generation from seed: site which
Iteration #: 5
Generation from seed: answer que
Iteration #: 6
Generation from seed:  owner of 
Iteration #: 7
Generation from seed: es where w
Iteration #: 8
Generation from seed: le door in
Iteration #: 9
Generation from seed: ood near t
Iteration #: 10
Generation from seed: r, you kno
Iteration #: 11
Generation from seed: can really
Iteration #: 12
Generation from seed: ng. the ne
Iteration #: 13
Generation from seed: ch, said a
Iteration #: 14
Generation from seed: then it ou
Iteration #: 15
Generation from seed: ite right,
Iteration #: 16
Generation from seed: -tm electr
Iteration #: 17
Generation from seed: the garden
Iteration #: 18
Generation from seed: e--but im 
Iteration #: 19
Generation from seed: ll just se
Iteration #: 20
Generation fro