# Treinando Modelos com Python

Uma forma também conhecida é treinar seu próprio modelo com sentenças conhecidas para que sirva como um classificador entre as classes desejadas, tais como de sentimento('positivo', 'neutro' e 'negativo'), assim como para emoções ('raiva', 'medo', 'alegria', 'tristeza', etc.)

Existem basicamente duas formas de implementar:

- Uso de modelo de Machine Learning tradicional (Ex: Naive Bayes)
- Uso de Redes Neurais

**Nota: Este Notebook utiliza algumas técnicas de processamento de texto em linguagem natural ou PLN, as quais poder ser conhecidas com maior profundidade no Curso de PLN.**


# Criando um modelo com Naive Bayes

**APRESENTAÇÃO**:

No contexto de aprendizado de máquina, o [classificador Naive Bayes](https://en.wikipedia.org/wiki/Naive_Bayes_classifier) é um classificador probabilístico baseado no [teorema de Bayes](https://pt.wikipedia.org/wiki/Teorema_de_Bayes), que constrói um modelo de classificação a partir de dados de treinamento. Esse classificador aprende a classificar as revisões como positivas ou negativas usando o mecanismo de aprendizado supervisionado. O processo de aprendizagem começa alimentando dados de amostra que ajudam o classificador a construir um modelo para classificar essas revisões.

**ESPECIFICAÇÕES**:

Vamos utilizar a implementação do classificador Naive Bayes que existe na biblioteca NLTK do Python, a qual dispõe dos seguintes métodos principais:
- **train()** utilizado para treinar o modelo
- **classify()** utilizado após o treinamento, para classificar uma sentença

Nota: Pelo fato de exigir um treinamento, um dos grandes custos dessa abordagem é ter que preparar uma base de treinamento contendo as sentenças que servirão de base para cada classe do modelo.

**pode ser criado com sentenças em português**. 

- Site oficial: http://www.nltk.org/api/nltk.classify.html?highlight=naivebayesclassifier
- Documentação: https://www.nltk.org/book/ch06.html

# Exemplo Naive Bayes

In [1]:
# Exemplo Naive Bayes - Passo 1
#
# Instalando a biblioteca nltk e baixando os pacotes necessários
#
!pip install --upgrade nltk
import nltk
nltk.download('punkt')

Requirement already up-to-date: nltk in /home/03662232677/anaconda3/envs/pln_ase/lib/python3.6/site-packages (3.4)


[nltk_data] Downloading package punkt to
[nltk_data]     /home/03662232677/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [2]:
# Exemplo Naive Bayes - Passo 2
#
# Preparando os dados para treino
#
import nltk
from nltk.tokenize import word_tokenize
# Array contendo as tuplas de dados no formato (sentença,classe)
train = [("Great place to be when you are in Bangalore.", "pos"),
  ("The place was being renovated when I visited so the seating was limited.", "neg"),
  ("Loved the ambience, loved the food", "pos"),
  ("The food is delicious but not over the top.", "neg"),
  ("Service - Little slow, probably because too many people.", "neg"),
  ("The place is not easy to locate", "neg"),
  ("Mushroom fried rice was spicy", "pos"),
]
# Criando um dicionário com todas as palavras
#sentencas = [tuple[0] for tuple in train]
#print(sentencas)
#words = [word_tokenize(sentenca) for sentenca in sentencas]
#print(words)
dictionary = set(word.lower() for data_tuple in train for word in word_tokenize(data_tuple[0]))
print('Dicionário: {}'.format(dictionary))
print('-------------------------------------------------------------')
# Criando os dados de treinamento
train_data = [({word: (word in word_tokenize(x[0].lower())) for word in dictionary}, x[1]) for x in train]
# Imprimindo o primeiro dado de treinamento
for i,data in enumerate(train_data):
    print(i+1,'-------------------------------------------------------------')
    print(data)


Dicionário: {'being', 'not', 'to', 'many', 'ambience', 'slow', 'limited', 'loved', 'top', 'food', '-', 'renovated', 'visited', 'bangalore', 'probably', 'locate', 'is', 'over', 'little', 'fried', 'because', 'in', 'mushroom', 'spicy', 'people', '.', 'the', 'so', 'be', 'are', 'delicious', 'place', 'too', ',', 'easy', 'great', 'you', 'i', 'but', 'service', 'seating', 'when', 'rice', 'was'}
-------------------------------------------------------------
1 -------------------------------------------------------------
({'being': False, 'not': False, 'to': True, 'many': False, 'ambience': False, 'slow': False, 'limited': False, 'loved': False, 'top': False, 'food': False, '-': False, 'renovated': False, 'visited': False, 'bangalore': True, 'probably': False, 'locate': False, 'is': False, 'over': False, 'little': False, 'fried': False, 'because': False, 'in': True, 'mushroom': False, 'spicy': False, 'people': False, '.': True, 'the': False, 'so': False, 'be': True, 'are': True, 'delicious': False

Veja que os dados de treinamento foram criados criando-se um array com duas posições:
- Na primeira existe um dicionário com todas as palavras e a indicação se a palavra está ou não presente com True/False
- Na segunda a classe 'pos' ou 'neg'

Este é um exemplo simples e não deve ser utilizado em modelos maiores, caso contrário o vetor cresce indefinidamente e se forna ineficiente. Nesse caso o ideal é limitar a quantidade desse vetor, como poderemos ver no próximo exemplo.

In [3]:
# Exemplo Naive Bayes - Passo 3
#
# Treinamento e uso do modelo
#
# Treinamento do modelo
classifier = nltk.NaiveBayesClassifier.train(train_data)
print('Modelo treinado')

Modelo treinado


In [4]:
# Executando um teste simples
test_data = "Manchurian was hot and spicy"
test_data_features = {word.lower(): (word in word_tokenize(test_data.lower())) for word in dictionary}
print('Test data: {}'.format(test_data_features))
print('-------------------------------------------------------------')
print ('Classificação: {}'.format(classifier.classify(test_data_features)))
print('-------------------------------------------------------------')

Test data: {'being': False, 'not': False, 'to': False, 'many': False, 'ambience': False, 'slow': False, 'limited': False, 'loved': False, 'top': False, 'food': False, '-': False, 'renovated': False, 'visited': False, 'bangalore': False, 'probably': False, 'locate': False, 'is': False, 'over': False, 'little': False, 'fried': False, 'because': False, 'in': False, 'mushroom': False, 'spicy': True, 'people': False, '.': False, 'the': False, 'so': False, 'be': False, 'are': False, 'delicious': False, 'place': False, 'too': False, ',': False, 'easy': False, 'great': False, 'you': False, 'i': False, 'but': False, 'service': False, 'seating': False, 'when': False, 'rice': False, 'was': True}
-------------------------------------------------------------
Classificação: pos
-------------------------------------------------------------


In [5]:
# Exemplo Naive Bayes - Passo 2
#
# Preparando os dados para treino
#
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from nltk.stem import RSLPStemmer
portuguese_stops = set(stopwords.words('portuguese'))
portuguese_stemmer = RSLPStemmer()
# Array contendo as tuplas de dados no formato (sentença,classe)
train = [("Este filme foi muito ruim", "neg"),
  ("Achei que a história foi pésssima", "neg"),
  ("Tenho muitas críticas quanto ao teatro que fomos", "neg"),
  ("Detestei viajar para aquele lugar, pois estava muito frio", "neg"),
  ("Não gostei da comida daquele restaurante", "neg"),
  ("Adorei ir ao cinema. Foi muito bom", "pos"),
  ("Foi muito legal o passeio de bicicleta", "pos"),
  ("Achei ótimo e divertido o jogo de futebol", "pos"),
  ("Foi massa ir ao teatro", "pos"),
  ("Super legal a programação que fizemos", "pos")
]
# Criando um dicionário com todas as palavras
#sentencas = [tuple[0] for tuple in train]
#print(sentencas)
#words = [word_tokenize(sentenca) for sentenca in sentencas]
#print(words)
dictionary = set(word.lower() for data_tuple in train for word in word_tokenize(data_tuple[0]))
palavras_sem_stopwords = [palavra for palavra in dictionary if palavra not in portuguese_stops]
dictionary = set(palavras_sem_stopwords)
print('Dicionário: {}'.format(dictionary))
print('-------------------------------------------------------------')
# Criando os dados de treinamento
train_data = [({word: (word in word_tokenize(x[0].lower())) for word in dictionary}, x[1]) for x in train]
# Imprimindo o primeiro dado de treinamento
#for i,data in enumerate(train_data):
#    print(i+1,'-------------------------------------------------------------')
#    print(data)
print(train_data[5])

Dicionário: {'gostei', 'jogo', 'história', 'restaurante', 'muitas', 'passeio', 'críticas', 'bicicleta', 'futebol', 'legal', 'teatro', 'quanto', 'super', 'bom', 'lugar', 'frio', 'programação', 'achei', 'viajar', '.', 'pois', 'adorei', 'pésssima', 'daquele', ',', 'fizemos', 'comida', 'divertido', 'ir', 'filme', 'cinema', 'massa', 'ótimo', 'ruim', 'detestei'}
-------------------------------------------------------------
({'gostei': False, 'jogo': False, 'história': False, 'restaurante': False, 'muitas': False, 'passeio': False, 'críticas': False, 'bicicleta': False, 'futebol': False, 'legal': False, 'teatro': False, 'quanto': False, 'super': False, 'bom': True, 'lugar': False, 'frio': False, 'programação': False, 'achei': False, 'viajar': False, '.': True, 'pois': False, 'adorei': True, 'pésssima': False, 'daquele': False, ',': False, 'fizemos': False, 'comida': False, 'divertido': False, 'ir': True, 'filme': False, 'cinema': True, 'massa': False, 'ótimo': False, 'ruim': False, 'detestei'

In [6]:
# Exemplo Naive Bayes - Passo 3
#
# Treinamento e uso do modelo
#
# Treinamento do modelo
classifier = nltk.NaiveBayesClassifier.train(train_data)
print('Modelo treinado')

Modelo treinado


In [7]:
# Executando um teste simples
test_data = "Achei o filme ótimo"
test_data_features = {word.lower(): (word in word_tokenize(test_data.lower())) for word in dictionary}
print('Test data: {}'.format(test_data_features))
print('-------------------------------------------------------------')
print ('Classificação: {}'.format(classifier.classify(test_data_features)))
print('-------------------------------------------------------------')

Test data: {'gostei': False, 'jogo': False, 'história': False, 'restaurante': False, 'muitas': False, 'passeio': False, 'críticas': False, 'bicicleta': False, 'futebol': False, 'legal': False, 'teatro': False, 'quanto': False, 'super': False, 'bom': False, 'lugar': False, 'frio': False, 'programação': False, 'achei': True, 'viajar': False, '.': False, 'pois': False, 'adorei': False, 'pésssima': False, 'daquele': False, ',': False, 'fizemos': False, 'comida': False, 'divertido': False, 'ir': False, 'filme': True, 'cinema': False, 'massa': False, 'ótimo': True, 'ruim': False, 'detestei': False}
-------------------------------------------------------------
Classificação: neg
-------------------------------------------------------------


Este é um exemplo simples de implementação. Veja no link abaixo como realizar melhorias no modelo:

https://medium.com/@martinpella/naive-bayes-for-sentiment-analysis-49b37db18bf8

# Criando um modelo com Redes Neurais

**APRESENTAÇÃO**:

Existem várias possibilidades de se criar um modelo de Rede Neural para criar um classificador que funcione adequadamente para análise de sentimento ou emoção. Podemos utilizar vários tipos de redes neurais, sendo que um dos modelos mais utilizados atualmente para PLN é do tipo [Rede Neural Recorrente ou RNN](https://en.wikipedia.org/wiki/Recurrent_neural_network) ou mais especificamente as  long [Long Short-Term Memory Networks ou LSTM](https://en.wikipedia.org/wiki/Long_short-term_memory).

Os seres humanos não começam a pensar desde zero a cada segundo. Ao ler este ensaio, você entende cada palavra com base a sua compreensão de palavras anteriores. Você não esquece tudo e começa a pensar do zero novamente. Os seus pensamentos têm persistência. As redes neurais tradicionais não podem fazer isso, e parece ser uma deficiência importante. As redes neurais recorrentes abordam (RNN) esta questão. São redes com loops, permitindo que as informações persistam.

As redes de memória de longo prazo – geralmente chamadas de “LSTMs” – são um tipo especial de RNN, capaz de aprender dependências de longo prazo. Elas funcionam bem em problemas que exigem processamento de linguagem natural.

**ESPECIFICAÇÕES**:

Vamos utilizar na implementação desse modelo algumas bibliotecas Python:
- **Pandas** pacote utilizado para lidar com grandes arquivos de dados
- **Keras** framework simplificado para uso de redes neurais baseado no TensorFlow
- **TensorFlow** framework para criação, treinamento e uso de Redes Neurais
- **Scikit-Learn** pacote de ciência de dados que contém funções relevantes para a implementação

**pode ser criado com sentenças em português**. 

- Sites oficiais e documentação: 
  - https://keras.io/
  - https://www.tensorflow.org/?hl=pt-br
  - https://pandas.pydata.org/
  - https://scikit-learn.org/stable/

# Exemplo com Keras e LSTM

Este exemplo consiste em utilizar uma base de avaliação de tweets dada pelo arquivo **Sentiment.csv**. 

Veja abaixo um exemplo de uma linha desse arquivo:

```
id,candidate,candidate_confidence,relevant_yn,relevant_yn_confidence,sentiment,sentiment_confidence,subject_matter,subject_matter_confidence,candidate_gold,name,relevant_yn_gold,retweet_count,sentiment_gold,subject_matter_gold,text,tweet_coord,tweet_created,tweet_id,tweet_location,user_timezone
2,Scott Walker,1.0,yes,1.0,Positive,0.6333,None of the above,1.0,,PeacefulQuest,,26,,,RT @ScottWalker: Didn't catch the full #GOPdebate last night. Here are some of Scott's best lines in 90 seconds. #Walker16 http://t.co/ZSfF…,,2015-08-07 09:54:46 -0700,629697199560069120,,
```

Nesse arquivo nos interessamos apenas pelas colunas 'text' e 'sentiment'. As demais colunas serão ignoradas.

```
text = "RT @ScottWalker: Didn't catch the full #GOPdebate last night. Here are some of Scott's best lines in 90 seconds. #Walker16 http://t.co/ZSfF…"
sentiment = Positive
```

Vamos utilizar o pacote **Pandas** para abrir e manipular o arquivo. 

Em seguida vamos utilizar o **Keras** para facilitar a criação de uma Rede Neural, tendo como base o **TensorFlow**.

Também vamos utilizar o pacote **scikit-learn** para separar os dados de treino com a função train_test_split(). 

Fonte: https://www.kaggle.com/ngyptr/lstm-sentiment-analysis-keras

## Instalando os pacotes para rodar o Keras com Tensorflow

In [8]:
# Rode apenas uma vez para instalar o TensorFlow. Após rodar, comente esta linha
# 
!pip install --upgrade tensorflow

Requirement already up-to-date: tensorflow in /home/03662232677/anaconda3/envs/pln_ase/lib/python3.6/site-packages (1.13.1)


In [9]:
# Testando a instalação do TensorFlow
# 
import tensorflow as tf
with tf.Graph().as_default():
    hello_constant = tf.constant('TensorFlow is working!')
    with tf.Session() as sess:
        print(sess.run(hello_constant))
tf.reset_default_graph()
print('\nTensorFlow Version: {}'.format(tf.__version__))

b'TensorFlow is working!'

TensorFlow Version: 1.13.1


In [10]:
# Rode apenas uma vez para instalar o Keras. Após rodar, comente esta linha
#
!pip install --upgrade keras

Requirement already up-to-date: keras in /home/03662232677/anaconda3/envs/pln_ase/lib/python3.6/site-packages (2.2.4)


In [11]:
# Testando a instalação do Keras
# 
import keras
from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, SpatialDropout1D
from keras.utils.np_utils import to_categorical
print('Keras is working!')
print('\nKeras version: {}'.format(keras.__version__))

Keras is working!

Keras version: 2.2.4


Using TensorFlow backend.


In [12]:
# Rode apenas uma vez para instalar os pacotes pandas e scikit-learn. Após rodar, comente estas linhas
# 
!pip install --upgrade pandas
!pip install --upgrade sklearn

Requirement already up-to-date: pandas in /home/03662232677/anaconda3/envs/pln_ase/lib/python3.6/site-packages (0.24.1)
Requirement already up-to-date: sklearn in /home/03662232677/anaconda3/envs/pln_ase/lib/python3.6/site-packages (0.0)


## Executando o exemplo Keras e LSTM

In [13]:
# Exemplo Keras e LSTM - Passo 1
#
# Realizando importações
#
import numpy as np 
import pandas as pd 

from keras.preprocessing.text import Tokenizer
from keras.preprocessing.sequence import pad_sequences
from keras.models import Sequential
from keras.layers import Dense, Embedding, LSTM, SpatialDropout1D
from keras.utils.np_utils import to_categorical
#from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
import re

In [14]:
import sys
import unicodedata
from nltk.stem.lancaster import LancasterStemmer

# Estrutura para armazenar pontuações
tbl = dict.fromkeys(i for i in range(sys.maxunicode) if unicodedata.category(chr(i)).startswith('P'))

# Função para remover pontuações das sentenças
def remove_punctuation(text):
    return text.translate(tbl)

def preprocessing(text):
        
    #Remover pontuação
    text= remove_punctuation(text)
    
    #Tokenização
    tokens = [word for sent in nltk.sent_tokenize(text) for word in nltk.word_tokenize(sent)]
    
    # Coloca em minúscula
    tokens = [word.lower() for word in tokens]
    
    # Remove stopwords
    # Existe um pacote de stop words padrão para português -> stopwords.words('portuguese')
    stop = set(stopwords.words('english'))
    tokens = [token for token in tokens if token not in stop]
    
    #Realizar o Stem
    stemmer = LancasterStemmer()
    tokens = [stemmer.stem(word) for word in tokens]
    
    # Lemmatizer: opção em relação ao stem 
    #wordnet_lemmatizer = WordNetLemmatizer()
    #tokens = [wordnet_lemmatizer.lemmatize(word) for word in tokens]
    
    #Retonar o texto preprocessado agrupando as tokens
    preprocessed_text= ' '.join(tokens)
    return preprocessed_text

In [15]:
# Exemplo Keras e LSTM - Passo 2
#
# Abrindo, manipulando o arquivo e preparando os dados
#
# Abrindo o arquivo com o Pandas
data = pd.read_csv('Sentiment.csv')
# Vamos manter apenas as colunas 'text' e 'sentiment'
data = data[['text','sentiment']]
# Removendo o sentimento do tipo 'Neutral'
# Exibindo a quantidade de Positivos e Negativos
print('Número de Positivos: {}'.format(data[ data['sentiment'] == 'Positive'].size))
print('Número de Negativos: {}'.format(data[ data['sentiment'] == 'Negative'].size))
print('-------------------------------------------------------------')
data = data[data.sentiment != "Neutral"]
print('Primeira linha do arquivo sem preparação: \n{}'.format(data['text'][1]))
print('-------------------------------------------------------------')
# Transformando o texto em minúsculo e removendo caracteres especiais
data['text'] = data['text'].apply(lambda x: x.lower())
data['text'] = data['text'].apply((lambda x: re.sub('[^a-zA-z0-9\s]','',x)))
data['text'] = data['text'].apply(preprocessing)
# Removendo o início 'rt'
for idx,row in data.iterrows():
    row[0] = row[0].replace('rt',' ')
print('Primeira linha do arquivo após preparação: \n{}'.format(data['text'][1]))
print('-------------------------------------------------------------')
# Limite de features (palavras) a serem consideradas no vocabulário
MAX_FEATURES = 2000
# Utiliza a função Tokenizer (https://keras.io/preprocessing/text/) para preparar os dados
# Essa classe permite vetorizar um corpus de texto, transformando cada texto em uma sequência de inteiros 
# (cada inteiro sendo o índice de um token em um dicionário) ou em um vetor em que o coeficiente de cada
# token pode ser binário, com base na contagem de palavras. , baseado em tf-idf ...
tokenizer = Tokenizer(num_words=MAX_FEATURES, split=' ')
tokenizer.fit_on_texts(data['text'].values)
print("Tamanho do Vocabulário: ", len(tokenizer.word_index))
#print("Palavras do Vocabulário: ", tokenizer.word_index)
X = tokenizer.texts_to_sequences(data['text'].values)
print('Vetor relativo à primeira linha do arquivo após utilizar Tokenizer:')
print(X[0])
print('Tamanho: {}'.format(len(X[0])))
print('-------------------------------------------------------------')
# A função pad_sequences (https://keras.io/preprocessing/sequence/) transforma uma lista de seqüências 
# de num_samples (listas de números inteiros) em uma matriz 2D Numpy de forma (num_samples, num_timesteps). 
# - num_timesteps é o argumento maxlen, se fornecido, ou o comprimento da sequência mais longa.
# - sequências menores que num_timesteps são preenchidas com valor no final.
X = pad_sequences(X)
print('Forma da matriz 2D Numpy')
print(X.shape)
print('-------------------------------------------------------------')
print('Vetor relativo à primeira linha do arquivo após utilizar a função pad_sequences:')
print(X[0])
print('-------------------------------------------------------------')
print('Sentimento associado à primeira linha do arquivo sem preparação:')
print(data['sentiment'].values[0])
# Formatação do vetor de resultado
Y = pd.get_dummies(data['sentiment']).values
print('-------------------------------------------------------------')
print('Sentimento associado à primeira linha do arquivo após preparação:')
print(Y[0])
print('-------------------------------------------------------------')
print('Forma da matriz de resultado')
print(Y.shape)
print('-------------------------------------------------------------')

Número de Positivos: 4472
Número de Negativos: 16986
-------------------------------------------------------------
Primeira linha do arquivo sem preparação: 
RT @ScottWalker: Didn't catch the full #GOPdebate last night. Here are some of Scott's best lines in 90 seconds. #Walker16 http://t.co/ZSfF…
-------------------------------------------------------------
Primeira linha do arquivo após preparação: 
  scottwalk didnt catch ful gopdeb last night scot best lin 90 second walker16 httptcozsff
-------------------------------------------------------------
Tamanho do Vocabulário:  12045
Vetor relativo à primeira linha do arquivo após utilizar Tokenizer:
[264, 72, 1203, 591, 1, 12, 11, 209, 125, 370, 1129, 483, 644]
Tamanho: 13
-------------------------------------------------------------
Forma da matriz 2D Numpy
(10729, 22)
-------------------------------------------------------------
Vetor relativo à primeira linha do arquivo após utilizar a função pad_sequences:
[   0    0    0    0    0 

Veja que primeiro definimos que vamos considerar no vocabulário apenas as 2000 palavras (tokens) mais frequentes

Em seguida criamos uma a matriz com os 10.729 tweets de exemplos, cuja dimensão máxima foi 28 (máximo de 28 tokens ou palavras)

Nesses 28 tokens está o número relativo à posição da palavra no vetor das 2000 palavras mais frequentes (MAX_FEATURES)

Veja que o primeiro exemplo que tinha apenas 17 tokens foi preenchido com '0' (zeros) no início para ficar com tamanho 28.

Logo, a matriz de dados tem o formato de 10.729 exemplos e dimensão 28.

A matriz de resultado tem o formato de 10.729 exemplos e dimensão 2.

Nota: a etapa de preparação dos dados pode ser a mais complexa de todo o processo!

In [16]:
# Exemplo Keras e LSTM - Passo 3
#
# Criando a Rede Neural. 
#
tf.reset_default_graph()
EMBEDDING_OUT_DIM = 128
LSTM_OUT_DIM = 128
model = Sequential()
# Criando uma camada Embedding (https://keras.io/layers/embeddings/)
# O primeiro atributo diz qual o tamanho do vocabulário, que no nosso caso é 2000 (MAX_FEATURES)
# O segundo atributo é a dimensão dessa camada (quantidade de neurônios)
# O parâmetro input_length é o tamanho dos dados de entrada, que no nosso caso é 28
# Essa camada recebe os índices de tamanho 28 de cada tweet e monta o tensor de acordo com o vocabulário
model.add(Embedding(MAX_FEATURES, EMBEDDING_OUT_DIM ,input_length = X.shape[1]))
# Em seguida criamos uma camada SpatialDropout1D (https://keras.io/layers/core/) para evitar overfitting
model.add(SpatialDropout1D(0.5))
# Finalmente criamos a camada LSTM com dimensão 196 (quantidade de neurônios)
model.add(LSTM(LSTM_OUT_DIM, dropout=0.5, recurrent_dropout=0.5))
# Para a saída, criamos uma camada totalmente conectada com saída de dimensão 2 com softmax (retorna apenas uma classe)
model.add(Dense(2,activation='softmax'))
# Finalmente definimos a função de perda, de otimização e que métrica vamos utilizar
model.compile(loss = 'categorical_crossentropy', optimizer='adam',metrics = ['accuracy'])
# Imprime o blueprint da rede neural
print(model.summary())

Instructions for updating:
Colocations handled automatically by placer.
Instructions for updating:
Please use `rate` instead of `keep_prob`. Rate should be set to `rate = 1 - keep_prob`.
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding_1 (Embedding)      (None, 22, 128)           256000    
_________________________________________________________________
spatial_dropout1d_1 (Spatial (None, 22, 128)           0         
_________________________________________________________________
lstm_1 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dense_1 (Dense)              (None, 2)                 258       
Total params: 387,842
Trainable params: 387,842
Non-trainable params: 0
_________________________________________________________________
None


In [17]:
# Exemplo Keras e LSTM - Passo 4
#
# Aqui utilizamos a função train_test_split() do scikit-learn para separar adequadamente os dados de treino e teste
#
X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size = 0.33, random_state = 42)
print('Dados de treino:',X_train.shape,Y_train.shape)
print('Dados de teste: ',X_test.shape,Y_test.shape)
print('-------------------------------------------------------------')

Dados de treino: (7188, 22) (7188, 2)
Dados de teste:  (3541, 22) (3541, 2)
-------------------------------------------------------------


In [21]:
# Exemplo Keras e LSTM - Passo 5
#
# Realizando o treinamento da rede utilizando os dados de treinamento
#
from keras.callbacks import TensorBoard
import datetime
# Ativando o Tensorboard para poder monitorar com o comando abaixo em uym outro terminal:
# > tensorboard --logdir=logs/
tensorboard = TensorBoard(log_dir='logs/{}'.format(datetime.datetime.today().strftime('%Y%m%d_%H%M')))
BATCH_SIZE = 32
EPOCHS = 10
model.fit(X_train, Y_train, epochs = EPOCHS, batch_size=BATCH_SIZE, verbose = 1, callbacks=[tensorboard])
print('-------------------------------------------------------------')

Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10
-------------------------------------------------------------


Durante ou após o treinamento você poderá acompanhar o resultado utilizando o TensorBoard

Para isso abra outro terminal, ative o ambiente anaconda, navegue até a pasta imediatamente antes do diretório 'logs' e execute o comando abaixo:

```
tensorboard --logdir=logs/
```

O resultado é que apareça uma mensagem como a abaixo:

```
TensorBoard 1.12.2 at http://serpro-1540796:6006 (Press CTRL+C to quit)
```

Copie o link acima e abra em um navegador para poder ver graficamente os valores de perda (loss) e acurácia (accuracy) além do grafo da rede. Serão exibidas as várias execuções, cada uma com uma cor de linha diferente

- **Acurácia (acc)** Mede o percentual de acerto das previsões tendo como base os dados de entrada e os valores esperados. Quando maior melhor
- **Perda (loss)** Função de perda: esse é o objetivo que o modelo tentará minimizar. Quanto menor melhor

**Visualização da Perda e Acurácia**

![Visualização da Perda e Acurácia](tensorboard_01.png)

**Visualização do Grafo da Rede**

![Visualização do Grafo da Rede](tensorboard_02.png)

In [22]:
# Exemplo Keras e LSTM - Passo 6
#
# Validando o modelo com os dados de teste (dados inéditos)
#
loss,acc = model.evaluate(X_test, Y_test, verbose = 2, batch_size = BATCH_SIZE)
print("Acurácia: %.2f" % (acc))
print('-------------------------------------------------------------')

Acurácia: 0.84
-------------------------------------------------------------


Veja que o resultado da validação foi diferente do treinamento, o que era esperado, visto que os dados de teste nunca foram submetidos à rede durante o treinamento. Entretanto esse resultado da validação é o que devemos considerar pois o modelo uma vez treinado será submetido à dados inéditos e não conhecidos no processo de treinamento. Nosso objetivo é ter um modelo genérico.

Podemos tentar melhorar o modelo realizando ajuste nas variáveis, tais como MAX_FEATURES, BATCH_SIZE, EPOCHS, ou mesmo modificando a quantidade de neurônios na rede e testando novamente.

In [None]:
# Exemplo Keras e LSTM - Passo 7
#
# Executando o modelo treinado para um Tweet específico
#
print('Tweet original:')
twt = 'We love awsome working with learning!'
print(twt)
print('-------------------------------------------------------------')
print('Tweet preparado:')
# Preparando o texto
twt = re.sub('[^a-zA-z0-9\s]','',twt.lower())
twt = twt.replace('rt',' ')
print(twt)
print('-------------------------------------------------------------')
print('Tweet vetorizado:')
twt = tokenizer.texts_to_sequences([twt])
twt = pad_sequences(twt, maxlen=28, dtype='int32', value=0)
print (twt)
print('-------------------------------------------------------------')
print('Previsão:')
sentiment = model.predict(twt,batch_size=1,verbose = 2)[0]
if(np.argmax(sentiment) == 0):
    print("Negativo")
elif (np.argmax(sentiment) == 1):
    print("Positivo")
print('-------------------------------------------------------------')

In [None]:
# Exemplo Keras e LSTM - Passo 8
#
# Validando o modelo para verificar a acurácia por cada classe (pos,neg)
#
pos_cnt, neg_cnt, pos_correct, neg_correct = 0, 0, 0, 0
for x in range(len(X_test)):
    result = model.predict(X_test[x].reshape(1,X_test.shape[1]),batch_size=1,verbose = 2)[0]
    if np.argmax(result) == np.argmax(Y_test[x]):
        if np.argmax(Y_test[x]) == 0:
            neg_correct += 1
        else:
            pos_correct += 1
    if np.argmax(Y_test[x]) == 0:
        neg_cnt += 1
    else:
        pos_cnt += 1
# Imprimindo os valores
print("Acurácia da classe Positivo:", pos_correct/pos_cnt*100, "%")
print("Acurácia da classe Negativo:", neg_correct/neg_cnt*100, "%")
print('-------------------------------------------------------------')

Como pode ser visto acima, a acurácia não está balanceada, o que era esperado, visto que temos mais amostras negativas do que positivas, como foi possível ver no Passo 2 deste tutorial:

```
Número de Positivos: 4472
Número de Negativos: 16986
```

Uma forma de evitar isso é justamente balancear as amostras, o que poderá ser feito posteriormente.

Essa é uma de muitas possíveis implementações de modelos preditivos de análise de sentimento com Redes Neurais em Python.

No exemplo acima utilizamos apenas duas classes ('Positivo', 'Negativo'), mas nada impede que você construa modelos de análise de emoção com mais de uma classe ('Raiva', 'Medo', 'Alegria', 'Tristeza')

Veja abaixo outros exemplos:
    
- https://github.com/keras-team/keras/blob/master/examples/imdb_lstm.py
- https://towardsdatascience.com/another-twitter-sentiment-analysis-bb5b01ebad90
- https://towardsdatascience.com/a-beginners-guide-on-sentiment-analysis-with-rnn-9e100627c02e

FIM