# Atividade 3

## Redes Neurais Recorrentes

Discutimos como uma rede neural recorrente, através de suas células de memória, permitem processamento de dados sequencial. Também falamos sobre embedding e fizemos um exercício para entender o objetivo e função de um Word2Vec.

A biblioteca Keras traz acesso alto nível a camadas que permitem a fácil implementação deste tipo de layer.

Este tipo de técnica é boa para generalizar informação esparsa condensando em uma camada densa:

![word embeddings vs. one hot encoding](https://s3.amazonaws.com/book.keras.io/img/ch6/word_embeddings.png)

Vamos ver exemplos de implementação destas camadas:

In [None]:
import tensorflow

from tensorflow.keras.layers import SimpleRNN, Embedding, Dense, LSTM, CuDNNLSTM
from tensorflow.keras.models import Sequential

import matplotlib.pyplot as plt

from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, confusion_matrix, roc_curve, auc

In [None]:
model = Sequential()
model.add(Embedding(10000, 32))
model.add(SimpleRNN(32))
model.summary()

#### Stacks de RNNs

Em alguns casos, é interessante criar uma sequência de camadas recorrentes para processamento da informação. Nestes casos é necessário retornar as sequências para compartilhar com suas camadas vizinhas, com exceção da camada final. Este processo é feito passando o valor booleano `True` no o parâmetro `return_sequences` destas camadas, veja exemplo:

In [None]:
model = Sequential()
model.add(Embedding(10000, 32))
model.add(SimpleRNN(32, return_sequences=True))
model.add(SimpleRNN(32, return_sequences=True))
model.add(SimpleRNN(32, return_sequences=True))
model.add(SimpleRNN(32))  # Este layer final apenas retorna os últimos outputs.
model.summary()

## Análise e classificação de texto

Nesta atividade utilizaremos um _dataset_ chamado __IMDB__ composto de opiniões sobre filmes em formato textual. O objetivo é classificar estes _inputs_ de forma binária (0 e 1) onde identificaremos se a opinião é _**positiva**_ ou _**negativa**_.

__IMDB__ (Internet Movie DataBase) conta com um total de 50.000 opiniões sobre filmes onde separamos 25.000 delas para treino e os 50% restantes para teste. As frações são balanceadas, ou seja, contem um número igual de opiniões positivas e negativas.

In [None]:
from tensorflow.keras.datasets import imdb
from keras.preprocessing import sequence

max_features = 10000 # Número máximo de palavras consideradas como features
max_len      = 500 # Tamanho máximo do texto utilizado como input
batch_size   = 32 # Tamanho do batch de processamento

In [None]:
(x_train, y_train), (x_test, y_test) = imdb.load_data(num_words=max_features)

print(len(x_train), 'sequências de treino')
print(len(x_test), 'sequências de teste')

print('PadSequences (amostras x tamanho)')
input_train = sequence.pad_sequences(x_train, maxlen=max_len)
input_test = sequence.pad_sequences(x_test, maxlen=max_len)
print('input_train shape:', input_train.shape)
print('input_test shape:', input_test.shape)

#### PadSequence

Precisamos formatar um padrão de input para nossa rede. Definimos que nosso input máximo são 500 palavras. O que este processo faz é cortar textos maiores e preencher com 0 o que falta para completar 500 posições em textos menores que 500 palavras em seu conteúdo.

Veja exemplo:

In [None]:
print(len(x_train[0]))
x_train[0][:10]

In [None]:
input_train[0]

Para ter ideia do conteúdo deste dado, é possível baixar o dicionário representativo da informação. Da mesma maneira que fizemos na aula passada, podemos consultar o valor de cada número neste dicionário.

Veja o exemplo:

In [None]:
dic_palavras = imdb.get_word_index()

In [None]:
dic_palavras['woody']

Este dicionário possui o valor da palavra como chave, podemos inverter seu conteúdo de `palavra : número` para `número : palavra` para facilitar nosso processamento:

In [None]:
dic_palavras_formatado = dict([(valor, chave) for (chave, valor) in dic_palavras.items()])

In [None]:
dic_palavras_formatado[2289]

Agora podemos iterar sobre o vetor de _input_ traduzindo a informação, vejamos o exemplo na posição `0`:

In [None]:
texto = []

for item in x_train[0]:
    texto.append(dic_palavras_formatado.get(item, '?'))
    
print(texto)
print('------------------*------------------')
print(' '.join(texto))

### Treinando a rede

Podemos treinar uma rede de arquitetura simples para resolver o problema acima utilizando as camadas de `Embedding` e `SimpleRNN`:

In [None]:
model = Sequential()
model.add(Embedding(max_features, 32))
model.add(SimpleRNN(32))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = model.fit(input_train, y_train, epochs=10, batch_size=128, validation_split=0.2)

#### Resultados:

In [None]:
[loss, acc] = model.evaluate(input_test, y_test)
print("Acc: {:.4f}".format(acc))

acc      = history.history['acc']
val_acc  = history.history['val_acc']
loss     = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, label='Acc no treino')
plt.plot(epochs, val_acc, label='Acc da validação')
plt.title('Acc no treino e validação')
plt.legend()

plt.figure()

plt.plot(epochs, loss, label='Loss no treino')
plt.plot(epochs, val_loss, label='Loss na validação')
plt.title('Loss no treino e validação')
plt.legend()

plt.show()

In [None]:
test_preds = model.predict(input_test).flatten()
fpr, tpr, thresholds = roc_curve(y_test, test_preds)
auc_calc = auc(fpr, tpr)

plt.figure(figsize = (15, 10))
plt.plot(fpr, tpr, label='Modelo (area = {:.3f})'.format(auc_calc))
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('Curva ROC')
plt.legend(loc='best')
plt.plot([0, 1], [0, 1], 'k--')

plt.show()

### LSTM

Vamos para um exemplo mais objetivo, vamos implementar a mesma arquitetura utilizando uma camada de **LSTM**.

Keras traz uma implementação para processamento em GPUs com arquitetura CUDA. Se em seu ambiente, você possui uma GPU com este tipo de arquitetura, pode utilizar a classe `CuDNNLSTM`.

In [None]:
model = Sequential()
model.add(Embedding(max_features, 32))
model.add(LSTM(32))
model.add(Dense(1, activation='sigmoid'))

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['acc'])
history = model.fit(input_train, y_train, epochs=10, batch_size=128, validation_split=0.2)

#### Resultados:

In [None]:
[loss, acc] = model.evaluate(input_test, y_test)
print("Acc: {:.4f}".format(acc))

acc      = history.history['acc']
val_acc  = history.history['val_acc']
loss     = history.history['loss']
val_loss = history.history['val_loss']

epochs = range(len(acc))

plt.plot(epochs, acc, label='Acc no treino')
plt.plot(epochs, val_acc, label='Acc da validação')
plt.title('Acc no treino e validação')
plt.legend()

plt.figure()

plt.plot(epochs, loss, label='Loss no treino')
plt.plot(epochs, val_loss, label='Loss na validação')
plt.title('Loss no treino e validação')
plt.legend()

plt.show()

In [None]:
test_preds = model.predict(input_test).flatten()
fpr, tpr, thresholds = roc_curve(y_test, test_preds)
auc_calc = auc(fpr, tpr)

plt.figure(figsize = (15, 10))
plt.plot(fpr, tpr, label='Modelo (area = {:.3f})'.format(auc_calc))
plt.xlabel('False positive rate')
plt.ylabel('True positive rate')
plt.title('Curva ROC')
plt.legend(loc='best')
plt.plot([0, 1], [0, 1], 'k--')

plt.show()

# Chatbot

Neste próximo exemplo, vamos estudar uma forma de implementar um chatbot simples. Seu nome é Rose em homenagem ao desenho Os Jetsons de Hanna-Barbera.

![Rose](https://i.ytimg.com/vi/xCiQIKtuB6A/maxresdefault.jpg)

In [None]:
import tensorflow as tf
import numpy as np
import random
from sklearn.preprocessing import LabelEncoder

from unidecode import unidecode 

import colorama
from colorama import Fore, Style

## Base de conhecimento

In [None]:
base_conhecimento = {
    'base' : [
        {
            'label' : 'INIT',
            'X'     : ['Olá', 'Oi', 'bom dia', 'boa tarde', 'boa noite', 'como vai?', 'tem alguem ai?'],
            'Y'     : ['olá', 'como vai?', 'como posso ajudar?']
        },
        {
            'label' : 'END',
            'X'     : ['tchau', 'até logo', 'obrigado pela ajuda'],
            'Y'     : ['Sem problemas!', 'Meu prazer!']
        },
        {
            'label' : 'BOT_INFO',
            'X'     : ['qual e o seu nome?', 'como posso te chamar?', 'com quem falo?'],
            'Y'     : ['Você pode me chamar de rose!', 'Meu nome e rose!', 'Me chamo rose!']
        },
        {
            'label' : 'BOT_SOBRE',
            'X'     : ['quem e voce?', 'fale sobre você', 'pode se apresentar?'],
            'Y'     : ['Siri é passado! sou a Rose, seu robo assistente!', 'Meu nome é Rose, sou um chatbot!']
        },
        {
            'label' : 'BOT_AGRADECIMENTO',
            'X'     : ['obrigado', 'muito obrigado'],
            'Y'     : ['Foi um prazer ajudar!', 'Obrigado!']
        },
        {
            'label' : 'BOT_AGENDAMENTO',
            'X'     : ['quero agendar um exame', 'gostaria de saber sobre a disponibilidade de agenda para um exame', 'posso agendar um exame?', 'preciso realizar um agendamento de exame'],
            'Y'     : ['Ok, qual exame precisa agendar?', 'Certo! Preciso de mais informações. Qual exame gostaria de agendar?']
        }
    ]
}

## Trabalhando o dado

In [None]:
x_train = list()
y_train = list()
labels = list()
target = dict()

for item in base_conhecimento['base']:
    for x in item['X']:
        x_train.append(unidecode(x.lower()))
        y_train.append(item[ 'label'])
    
    if item['label'] not in labels:
        labels.append(item['label'])
        
    target[item['label']] = item['Y']
    
n_classes = len(labels)

In [None]:
x_train[:5]

In [None]:
y_train[:5]

In [None]:
labels[:5]

In [None]:
target

### Criando rótulos para cada classe

In [None]:
encoder = LabelEncoder()
y_train = encoder.fit_transform(y_train)

In [None]:
y_train[:5]

In [None]:
encoder.classes_

### Criando uma estrutura

In [None]:
vocab_size = 25
embedding_dim = 32
max_len = 50
unk_token = '<UNK>'

tokenizer = tf.keras.preprocessing.text.Tokenizer(num_words=vocab_size, oov_token=unk_token)
tokenizer.fit_on_texts(x_train)
sequences = tokenizer.texts_to_sequences(x_train)
pad_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, truncating='post', maxlen=max_len)

words_idx = tokenizer.word_index

In [None]:
sequences[:5]

In [None]:
pad_sequences[:5]

## Modelo

In [None]:
def build_model():
    model = tf.keras.Sequential()
    model.add(tf.keras.layers.Embedding(vocab_size, embedding_dim, input_length=max_len))
    model.add(tf.keras.layers.GlobalAveragePooling1D())
    model.add(tf.keras.layers.Dense(32, activation='relu'))
    model.add(tf.keras.layers.Dense(32, activation='relu'))
    model.add(tf.keras.layers.Dense(16, activation='relu'))
    model.add(tf.keras.layers.Dense(n_classes, activation='softmax'))
    
    model.compile(loss='sparse_categorical_crossentropy', optimizer='adam', metrics=['accuracy'])
    
    return model

In [None]:
model = build_model()
model.summary()

In [None]:
history = model.fit(pad_sequences, np.array(y_train), epochs=250, verbose=True)

## Testando a Rose

In [None]:
def chatbot():
    max_len = 50
    
    print(f'{Fore.RED}Chatbot ativo, envie "sair" para finalizar...{Style.RESET_ALL}')
    
    while True:
        print(f'{Fore.GREEN}Usuário: {Style.RESET_ALL}', end=' ')
        texto = unidecode(input().lower())
        
        if texto == 'sair':
            break
            
        result = model.predict(tf.keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences([texto]), truncating='post', maxlen=max_len))
        label = encoder.inverse_transform([np.argmax(result)])

        responses = target.get(label[0], None)
        
        if responses == None:
            print(f'{Fore.RED}Oooops...{Style.RESET_ALL}')
            continue
        
        response = np.random.choice(responses)
        
        print(f'{Fore.RED}Rose: {Style.RESET_ALL}{response}')
        
    print(f'{Fore.RED}Chatbot offline...{Style.RESET_ALL}')

In [None]:
chatbot()

## Exercício Proposto

Explore outras arquiteturas de rede e veja se você consegue obter melhores resultados com o exemplo visto acima.

## Leitura

### Um problema de previsão

Problemas envolvendo sequências podem ser encontrados em outros formatos. No meio médico; Sequências de imagens em um exame de tomografia ou valores de oxigenação de um paciente monitorado, são exemplos.

Pensando em negócio, um modelo capaz de prever temperatura em um certo período pode ser utilizado como feature em um motor de tomada de decisão. Dentro do meio hospitalar, pode ser utilizado como feature para prever a demanda diária de uma unidade de pronto atendimento.

O artigo em anexo abaixo faz parte do livro [Deep Learning with Python](https://www.manning.com/books/deep-learning-with-python?a_aid=keras&a_bid=76564dff) e traz um exemplo de previsão utilizando um conjunto de informações coletadas na estação meteorológica do [Instituto Max-Plank para biogeoquímica em Jena na Alemanha](http://www.bgc-jena.mpg.de/wetter/).

Além de trazer o uso de LSTMs bidirecionais, o que veremos na próxima aula deste curso, mostra um exemplo de consumo sequencial de informação pela rede.

[Link para download da base](https://www.kaggle.com/stytch16/jena-climate-2009-2016)

[Link para o artigo](https://colab.research.google.com/github/pgiaeinstein/nlp/blob/master/fcholletRNNS.ipynb)