## Deep PLN para Análise de Sentimentos

Análise de sentimento é um termo geral para se referir a tarefa de extrair emoções a partir de dados gerados por pessoas. Dentre esses dados, o mais comum para analise de sentimento é texto. A partir de comentários  nas mídias sociais, podemos ver como as pessoas reagem a uma postagem ou notícia, como estão avaliando um restaurante ou como avaliam um político. A forma mais precisa, porém mais ingênua, de fazer isso é pagar algumas pessoas para monitorar os comentários das mídias sociais. No entanto, milhares de comentários e avaliações são geradas por dia e usar pessoas para monitorá-los seria ou muito caro ou simplesmente impraticável. Uma alternativa mais razoável é usar processamento de linguagem natural (PNL) para automatizar o monitoramento dos sentimentos nos textos. Mas, mesmo em PNL, há várias formas de abordar esse tipo de tarefa.

A forma mais simples consiste em primeiro construir um vocabulário de palavras que estão associadas a sentimentos positivos e negativos, tais como "excelente" e "péssimo", respectivamente. Geralmente, é preciso pagar algum bom linguista para essa primeira etapa. Em seguida, ao analisar um texto, nós simplesmente contamos o número de palavras negativas e positivas para conseguir uma pontuação. Se essa pontuação ultrapassar um limiar preestabelecido, nós então classificamos o texto como tendo um sentimento positivo. Essa metodologia funciona bem, mesmo sendo extremamente simples. No entanto, ela é extremamente dependente do domínio da linguagem analisada, uma vez que palavras que expressam sentimento positivo em um contexto podem corresponder a sentimentos negativos em outros. Por exemplo, a palavra “denso” pode indicar uma avaliação positiva de um livro, mas também pode indicar uma reação negativa a uma massa italiana.

Uma segunda forma de realizar analise de sentimento é usar aprendizado de máquina. Em vez de pagar um linguista para determinar quais são as palavras negativas e positivas, nós coletamos milhares de exemplos de texto positivo e texto negativo e treinamos uma máquina para aprender por conta própria as palavras positivas e negativas. Achar milhares de texto com sentimento negativo e positivo é fácil. Basta baixar [bases avaliações de produtos da Amazon](http://jmcauley.ucsd.edu/data/amazon/), e supor que avaliações com mais de 3 estrelas são positivas e com menos de 3 estrelas, negativas (as com 3 estrelas nós descartamos como sendo neutras). Em seguida, para cada palavra no nosso vocabulário, nós contamos quantas vezes ela aparece nos textos com sentimento positivos e negativos; então dividimos o número de ocorrências nos textos positivos pelo número de ocorrências nos textos negativos para conseguir uma pontuação para cada palavra. Essa pontuação será proporcional a "positividade" da palavra. Com isso, é fácil conseguir uma pontuação para o texto: basta tirar a média das pontuações de cada palavra nele. Essa abordagem é extremamente eficiente, fácil de implementar e funciona super bem. Ela resolve a primeira etapa do processo de PNL, isto é, não é precismo mais pagar um linguista para construir léxicos negativos e positivos. No entanto, cabe ressaltar alguns problemas que esse método não resolve.

Em primeiro lugar, ainda estamos desconsiderando informação do contexto, que pode dar um sentimento diferente para a mesma palavra. Em segundo lugar, ao simplesmente somar a pontuação das palavras para conseguir uma pontuação para o texto, estamos ignorando a estrutura sequencial do texto. Por exemplo, uma avaliação como "Eu estava esperando algo realmente desastroso, mas no final acabei me surpreendendo" tem duas orações, sendo que a primeira é negativa, mas a segunda é positiva. No português, o sentimento presente na oração coordenada adversativa predomina, então a frase como um todo é positiva. Isso é extremamente difícil de notar com um algoritmo de aprendizado que ignora a estrutura sequencial do texto. Uma outra dificuldade desse tipo de método é lidar com expressões idiomáticas, como "amigo da onça". Um algoritmo que analisasse cada palavra individualmente provavelmente atribuiria um sentimento positivo a essa expressão (por conta da palavra amigo), o que estaria equivocado.

Para lidar com essas dificuldades, podemos usar redes neurais recorrentes. Elas funcionam de forma iterativa, lendo a o texto em sequência, palavra por palavra. No início da frase, a rede neural codifica a primeira palavra em uma representação interna; na próxima iteração, a rede neural observa tanto a segunda palavra quanto a representação interna da iteração anterior e assim produz uma nova representação interna. Esse processo é repetido até o final da sequência de palavras. Nossa esperança é que, palavra por palavra, a rede vá incorporando na sua representação interna a informação presente no texto. Então, por fim, a partir da representação interna na última iteração, a rede neural produz uma probabilidade da frase ter um sentimento positivo. Isso resolve os dois problemas citados acima. Primeiro, as redes neurais recorrentes são feitas para representar sequências, então o texto é facilmente interpretado dessa forma. Em segundo lugar, a capacidade de representar sequências dá a rede neural poder para entender expressões idiomáticas; ela pode simplesmente codificar em sua representação interna a sequência de palavras da expressão de forma distinta de como codificaria cada palavra separadamente. Muito bem, isso soa promissor. Vamos tentar

## O Modelo
Em primeiro lugar, baixei as [avaliações da Amazon](http://jmcauley.ucsd.edu/data/amazon/). Lá, cada comentário/avaliação era associado a uma classificação de 1 a 5 estrelas. Eu supus que todas as avaliações com mais de 3 estrelas eram positivas e todas com menos de 3, negativas. Depois, usando 2 milhões de avaliações (1m de positivas e 1m de negativas), treinei o seguinte modelo de rede neural recorrente.

| Camada        | Formato                        | Especificação  |
| :-----------: |:------------------------------:| :-------------:|
| Entrada       | Sequencia, 1 variável          | Índicies das palavras |
| Representação | Sequência, 64 variáveis        |   Representação das palavras |
| Recorrente    | Sequência, 32 variáveis        |   LSTM bi-direcional|
| Dropout       | Sequência, 32 variáveis        |   Destruição de 70% |
| Recorrente    | Sequência, 32 variáveis        |   LSTM bi-direcional|
| Dropout       | Sequência, 32 variáveis        |   Destruição de 70% |
| Saída         | Escalar, 1 variável            |   Função logística  |

Nessa rede neural, as duas primeiras camadas tomam conta de codificar as palavras do texto em uma representação matemática. Para mais informações sobre esse processo, sugiro um [post que fiz](https://matheusfacure.github.io/2017/03/20/word2vec/) há algum tempo. Em seguida, as duas camadas recorrentes leem o texto palavra por palavra (com as palavras já codificadas), construindo uma representação interna da sequência observada. Você pode pensar na rede neural codificando a sequência em uma representação interna abstrata. Por fim, nós pegamos essa codificação abstrata e passamos à uma camada de saída, cujo trabalho é decodificar a representação interna da rede neural em uma probabilidade - a probabilidade do texto conter um sentimento positivo.

## O experimento

Muito bonito o modelo acima, mas funciona? Para ver isso, eu reservei 5% das 2mi avaliações e treinei essa rede neural nos outros 95% dos dados. Depois de pouco mais de uma hora, o modelo conseguiu prever corretamente mais de 92% do sentimento das avaliações não utilizadas para o treino. Podemos dizer que esse resultado é satisfatório. Não é nada fenomenal, mas já algo que pode ser usado industrialmente. Um detalhe importante, é que testamos o modelo treinado com avaliações do site da Amazon e essas avaliações**já tem uma pontuação de sentimento atrelado a elas**. Em outras palavras, não tem sentido prático prever avaliações da Amazon, porque já podemos saber o sentimento delas. 

Para avaliar o modelo com exemplos mais reais, eu fui ao Facebook, em páginas como a do Prêmio Nobel, The Economist, The New York Times e TED Talks, e peguei alguns exemplos de comentários. Então, utilizei o modelo treinado para conseguir a probabilidade de sentimento positivo de cada um deles.

Dos onze comentários com sentimento positivo que coletei, dois foram classificados de forma errada. O primeiro deles é o seguinte: 
```
The far reaching extent of people in the world are inherently good. This man could have ran off, and done nothing. Instead, he stepped up. We need more people to step up in all phases of life. This isn't an issue we can kill our way out of.
```
A rede neural deu uma probabilidade de 0.35 desse comentário ser positivo. O outro comentário classificado de forma errada recebeu uma probabilidade de 0.18 de ser positivo:

```
Just because I'm homeless doesn't mean I haven't got a heart. You, sir, have more heart than many very extremely wealthy men and women whose jobs are to care for their fellow citizens... I'm from the USA so yes, I am referring to our cruel leadership in DC. I hope they read your story and take inspiration from your actions. Bless and thank you
```
Esse comentário diz respeito a atuação heroica de um sem teto no atentado de Manchester (05/2017). Podemos ver que ele carrega um sentimento misto de louvor à ação do homem, mas também expressa uma indignidade com como as lideranças dos Estados Unidos. Eu mesmo tive minhas dúvidas antes de julgar esse comentário como tendo um sentimento positivo; não é surpresa então que a rede neural também tenha se confundido.

Alguns outros exemplos de comentários positivos, corretamente classificados (com mais de 95% de certeza), são os seguintes:

```
Congratulations Taiwan! This is a great day for human rights and equality before the law. As per usual, the homophobic religious nutjobs spewing their hateful bile on here are ALL closeted gays themselves who are trying to divert attention away from their own deeply repressed same sex attractions. It is classic Freudian psychology!
```

```
When I told everyone I wanted to be a stand up comic they all laughed. Ten years later I finally made it and nobody's laughing now
```

```
Congratulations Taiwan! This is a great day for human rights and equality before the law. As per usual, the homophobic religious nutjobs spewing their hateful bile on here are ALL closeted gays themselves who are trying to divert attention away from their own deeply repressed same sex attractions. It is classic Freudian psychology!
```

```
Although I am an Atheist and although the Catholic Church has been implicit in horrible crimes against humanity and specifically the vulnerable, I believe that Pope Francis is good, honest and empathetic man and an excellent religious leader for these times.
```

Esse último exemplo tem uma particularidade. Primeiro, a pessoa expressa um sentimento negativo e em seguida, contrapõe o que tinha dito com um sentimento positivo, que predomina no comentário. Esse caso é análogo ao uso de orações coordenadas adversativas que discutimos acima e é particularmente difícil de ser classificado corretamente por modelos que desconsideram a ordem das palavras.

Quanto aos exemplos de comentários negativos, dois dos doze que coletei foram incorretamente classificados.

```
I can't believe how this coward would choose a concert venue for a pop singer whose fan base demographic are teenage girls. Make no mistake about it, children were the deliberate targets for this latest horrific, terrorist attack. Parents unsuspectingly took their innocent teenage girls to an Ariana Grande concert for a seemingly fun night of entertainment and were victimized by a deadly suicide bombing. Even those who were not killed or injured will be mentally traumatized for life. Thank God the terrorist never made it inside of the venue and the bomb detonated outside the main entrance in a public space, or else the fatalities would have been much worse. Acts of violence against innocent children in the name of a religion or ideology? The dehumanization continues. God help us. Praying for the victims and their families at this time!
```

```
My deepest condolences to the families. As a Muslim I feel ashamed that my religion is being used to commit crimes like these. I wish all those Muslims who have issues with Western values would just leave and pick a country who shares their values and has no secularism. I wonder how long they would make it there.
```

Ambos os comentários foram classificados como positivos, com uma probabilidade maior do que 95%. Eu não sei porque isso aconteceu. Particularmente, não consigo ver nada que possa causar dúvidas quanto ao sentimento negativo. Outros exemplos de comentários negativos, esses classificados corretamente, são os seguintes:


```
The entire argument is flawed, because in your analogy, the owners of big companies are the Elizabeth I of our times. They are the only ones who gain net benefit from breakthroughs of industrial engineering. Everyone else breaks even or sees inflation erode their relative earnings.
```

```
have we learned nothing from the terminator? Must we all die so some psychos in white coats play god? It's bad enough we have d wave. Can we jus chill out with the self destruction for like 5 minutes?
```

```
Absolutely boring. I know GGM has his fanboys and lackeys out there but the fact that Joyce and Proust never got this award, it proves or shows that you Swedes cannot read well. Ugh, that first paragraph or even the first sentence of Cien años de soledad, ugh, how hideously composed! I wonder if Flaubert would have dug this Márquez dude. Why read García Márquez when one can enjoy Borges, Casares, Filloy, Di Benedetto or Mujica Lainez?

```

```
How can any army which occupies a people be considered remotely moral? If that was the case, the British Empire would have been the most moral and virtuous entity the world has ever known. It is an absolute travesty that this is even considered a debate, and shows how little man has actually progressed.
```

In [1]:
import pandas as pd # para manipulação de dados
import numpy as np # para computação numérica
from tools import read_dataframe # para processamento de texto

A função `read_dataframe` abaixo aceita os argumentos `neg` e `pos`, que recebem arquivos `.txt` em que cada linha é uma avaliação. Para construir esses arquivos, vá em http://jmcauley.ucsd.edu/data/amazon/, baixe algumas bases de avaliações (formato `.json`) e rode na linha de comando `python3 tools.py analiações.json`.

In [2]:
data = read_dataframe(n_neg=1000, n_pos=1000) # aumente o número de linhas para 1 milhão para melhores resultados
print(data.shape)
data.head()

(2000, 2)


Unnamed: 0,text,sentiment
315,this is the best mounting tape i have ever use...,1
1041,i got this paper for my first grader to practi...,0
1517,the laminator works well enough as advertised ...,0
500,avery is a brand i trust i have tried other bu...,1
738,i ve used these to print a few sheets of retur...,1


In [3]:
from sklearn.model_selection import train_test_split

# separa dados em treino e teste
train, test, _, _ = train_test_split(data, data['text'], test_size=0.01, random_state=42)

# separa texto dos sentimentos
X_train, X_test = train.values[:, 0], test.values[:, 0]
y_train, y_test = train.values[:, 1], test.values[:, 1]
print('Proporção de positivos no treino:', y_train.mean())
print('Proporção de positivos no teste:', y_test.mean())
print('Fromatos de treino', X_train.shape, y_train.shape)
print('Formatos de teste', X_test.shape, y_test.shape)
# del data # libera RAM

Proporção de positivos no treino: 0.4994949494949495
Proporção de positivos no teste: 0.55
Fromatos de treino (1980,) (1980,)
Formatos de teste (20,) (20,)


In [4]:
# importa funções para redes neurais
from keras.preprocessing.text import Tokenizer
from keras.preprocessing import sequence
from keras.models import Sequential
from keras.layers import Dense, Dropout, Embedding, LSTM, Bidirectional

max_features = 20000
maxlen = 100

# treina um tokenizador nos dados de treino
tokenizer = Tokenizer(num_words=max_features)
tokenizer.fit_on_texts(X_train)

# tokeniza os dados
X_train = tokenizer.texts_to_sequences(X_train) 
X_test = tokenizer.texts_to_sequences(X_test)

# corta ou adiciona zeros em sequências maiores de 100
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

Using TensorFlow backend.


In [5]:
print('Formato de treino', X_train.shape, y_train.shape)
print('Formato de teste', X_test.shape, y_test.shape)

Formato de treino (1980, 100) (1980,)
Formato de teste (20, 100) (20,)


In [6]:
# monta o modelo de rede neural
model = Sequential()
model.add(Embedding(max_features, 64, input_length=maxlen))
model.add(Bidirectional(LSTM(32, return_sequences=True)))
model.add(Dropout(0.3))
model.add(Bidirectional(LSTM(32)))
model.add(Dropout(0.3))
model.add(Dense(1, activation='sigmoid'))
model.compile('adam', 'binary_crossentropy', metrics=['accuracy'])

In [8]:
# treina a rede neural
model.fit(X_train, y_train,
          batch_size=128, epochs=3, verbose=2, validation_split=.01)

Train on 1960 samples, validate on 20 samples
Epoch 1/3
13s - loss: 0.6875 - acc: 0.5755 - val_loss: 0.6349 - val_acc: 0.7500
Epoch 2/3
12s - loss: 0.6557 - acc: 0.6010 - val_loss: 0.6148 - val_acc: 0.8000
Epoch 3/3
11s - loss: 0.4294 - acc: 0.8301 - val_loss: 0.2099 - val_acc: 0.9500


<keras.callbacks.History at 0x7f10d341f898>

In [9]:
# previsão de teste
y_hat = (model.predict(X_test, batch_size=1000) > .5).astype(int)

In [10]:
test['pred'] = y_hat

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  if __name__ == '__main__':


In [11]:
# mostra a acurácia de teste
print((test['pred'] == test['sentiment']).mean())
test.head(20)

0.8


Unnamed: 0,text,sentiment,pred
1029,i tried this product and liked it very much bu...,0,1
956,this tape does exactly what it claims to do yo...,1,1
944,its holds wrapping paper in place extremely we...,1,1
1077,the white board part of it may be nice but no ...,0,0
1300,it s so frustrating when the drawers fall off ...,0,1
420,avery has some of the best products and this i...,1,1
1532,i own the xp 310 epson printer not this model ...,0,0
1604,this is suppose to assist you in making a smal...,0,1
182,i was very happy with this paper my only issue...,1,1
626,i like to use my laser printer to print labels...,1,1


In [12]:
neg_txt = pd.read_table('neg_text.txt', header=None)
X_neg_test = tokenizer.texts_to_sequences(neg_txt.ix[:, 0].values)
X_neg_test = sequence.pad_sequences(X_neg_test, maxlen=maxlen)
neg_txt['pred'] = model.predict(X_neg_test, batch_size=10)
neg_txt.to_csv('test_resp_neg.csv')
neg_txt

Unnamed: 0,0,pred
0,My deepest condolences to the families. As a M...,0.852564
1,I can't believe how this coward would choose a...,0.182854
2,Yeah there's a lot of waste in the budget. App...,0.636512
3,These photos are silly. Do not play with peopl...,0.573776
4,Absolutely boring. I know GGM has his fanboys ...,0.160405
5,Einstein was a genius and he came up with grea...,0.631116
6,How can any army which occupies a people be co...,0.220767
7,"Yeah, this has to be the most useless post I'v...",0.205866
8,Just a really weak article. No insights whatso...,0.693893
9,"The entire argument is flawed, because in your...",0.681964


In [13]:
pos_txt = pd.read_table('pos_text.txt', header=None)
X_pos_test = tokenizer.texts_to_sequences(pos_txt.ix[:, 0].values)
X_pos_test = sequence.pad_sequences(X_pos_test, maxlen=maxlen)
pos_txt['pred'] = model.predict(X_pos_test, batch_size=10)
pos_txt.to_csv('res_test_pos.csv')
pos_txt


Unnamed: 0,0,pred
0,"Vry good article, it exposes the excesses and ...",0.837182
1,My daughter loves the Uni book. She's fascinat...,0.812413
2,When I told everyone I wanted to be a stand up...,0.885709
3,The far reaching extent of people in the world...,0.729148
4,Just because I'm homeless doesn't mean I haven...,0.886124
5,I don't really understand all the controversy ...,0.661833
6,"OMG, this is one of my absolute favorite novel...",0.188376
7,Inconsistent social prestige is what he is des...,0.780331
8,Congratulations Taiwan! This is a great day fo...,0.874758
9,This is incredibly fascinating to me. I've see...,0.040433
