# Análise de sentimento: teoria
Este notebook é parte da documentação de uma exploração de dados realizada para o artigo _**O uso da Cloroquina no tratamento da Covid-19 debatido no Facebook**: um estudo em opinião pública com processamento de linguagem natural_.

Deu pra perceber que o desafio de analisar automaticamente esse tipo de dado não é uma tarefa trivial. Nas análises anteriores, abrir a tabela do Planilhas e ler o comentário propriamente dito é o mínimo fundamental pra se saber o posicionamento de uma dada amostra, e ainda assim isso pode não ser tão evidente. As análises de sentimento e polaridade buscam justamente fazer esse mapeamento de posicionamentos, sentimentos, figuras de linguagem, emoções, intenções e de semântica. Esses métodos têm as suas fragilidades, no entanto.

"_The major weakness of knowledge-based approaches is poor recognition of affect when linguistic rules are involved_" (CAMBRIA et al., 2017. p. 6). Isso porque essas abordagens são **sintáticas**, baseadas no modelo de [_bag-of-words_](https://machinelearningmastery.com/gentle-introduction-bag-words-model/), que usa como estrutura fundamental de análise a palavra. As melhores apostas contra as fragilidades desse método são as baseadas em aprendizagem de máquina, que agrega seus modelos estatísticos a essas ferramentas. Como veremos adiante, sem um léxico anotado para auxiliar essa aprendizagem, nem a inteligência artificial pode dar conta de certas tarefas.

## Opiniões
Um dos objetivos da análise de sentimento é a coleta de **opiniões**. Só por isso já dá pra imaginar as inúmeras aplicações desse tipo de análise: vai desde estudos em marketing e atendimento ao consumidor até análises da conjuntura política e de... opinião pública! Na Computação, _opinião_ é um termo amplo:

> We use the term _opinion_ as a broad concept that covers sentiment, evaluation, appraisal, or attitude, and its associated information such as opinion target and the person who holds the opinion, and use the term _sentiment_ to mean only the underlying positive or negative feeling implied by opinion. (LIU, 2017. p. 12)

Liu (2017) então define opinião como um quádruplo onde **g** é o _alvo do sentimento_ (_target_), **s** é o _sentimento_ da opinião sobre o alvo, **h** é o _emissor_ (_holder_) da opinião e **t** é o _tempo_ (data, hora etc) em que a opinião foi emitida. Opiniões têm alvo, sentimentos não necessariamente. Alvos de opiniões são _entidades_, que podem ser produtos, serviços, assuntos, eventos, organizações ou pessoas, e podem ser dividos em partes ou atributos. _Sentimentos_ são a sensação, atitude, avaliação ou emoção implícita em uma opinião, e são compostas por um triplo onde **y** é o _tipo_ de sentimento — racional ("o som é claro", "o preço é justo") ou emocional ("fiquei com raiva", "o melhor carro do mundo") etc —, **o** é a _orientação_ desse sentimento (_positivo_, _negativo_ ou _neutro_) e **i** é a sua _intensidade_ (avaliação/rating em [escala Likert](https://pt.wikipedia.org/wiki/Escala_Likert), 0/5 estrelas ou semelhante).

Simplificando essa definição, o mesmo autor define opinião como um quintuplo onde **e** é a _entidade_ alvo sobre a qual se expressa a opinião, **a** é o _aspecto_ alvo sobre o qual se emite a opinião, **s** é o _sentimento_ sobre o aspecto da entidade (que pode ser _positivo_, _negativo_ ou _neutro_, ou uma avaliação/rating), **h** é o _emissor_ da opinião e **t** é a data de sua postagem. Análises baseadas nessa definição são chamadas de _análise de sentimento baseadas em aspecto_ (_aspect based_ ou _feature based_).

A **razão** para a emissão de uma opinião é a causa dessa opinião: "não gosto da qualidade dessa câmera" é diferente de "não gosto da qualidade dessa câmera porque as imagens ficam meio escuras". A segunda frase fornece uma razão para essa opinião sobre a câmera em questão. Um **qualificador** limita ou modifica o significado de uma opinião: "esse carro é pequeno para pessoas altas" não diz necessariamente que o carro é ruim para todo mundo. A extração dessas categorias são bem desafiadoras no campo do processamento de linguagem natural.

O objetivo de uma análise de sentimento é, portanto, descobrir todos os quíntuplos que formam opiniões em um dado documento. Indo um pouco além disso, é também identificar as razões e os qualificadores em cada quíntuplo. A primeira tarefa da análise de sentimento é extrair e categorizar as suas entidades e aspectos em categorias únicas; esses aspectos são expressados através de frases nominais ou substantivos, mas também podem ser verbos, advérbios e adjetivos, podendo ser explícitos ("a qualidade dessa câmera é ótima" diz respeito à _qualidade_ do produto) ou implícitos ("essa câmera é cara" diz respeito ao _preço_ do produto).

## Sentimentos
Segundo Liu (2017), _afeto_, _emoção_ e _humor_ são temas de estudo em várias áreas, principalmente psicologia, filosofia e sociologia. Mas as definições desses conceitos são pouco claras nessas várias áreas, muitas vezes se sobrepondo e sendo usadas como sinônimos, como _afeto_ e _emoção_. _Afeto_ também não é um conceito claro, porque também pode abarcar sentimentos, sensações, humores e emoções. Por causa disso, Liu vai centrar as suas definições na psicologia:

> In short, emotions are quick and tense, while moods are more diffuse and prolonged feelings. For example, we can get very angry very quickly, but it is difficult to stay very angry for a long time. The anger emotion may subside into an irritable mood that can last quite a long time. An emotion is usually very specific, triggered by noticeable events, which means that an emotion has a specific target. In this sense, emotion is like a rational opinion. On the other hand, a mood can be caused by multiple events, and sometimes it may not have any specific targets or causes. Mood typically has a dimension of future expectations. It can involve structured set of beliefs about general expectations of a future experience of pleasure or pain, or of positive or negative affect in the future. (P. 27)

Para a análise de sentimento, é importante saber como um sentimento é expresso em linguagem natural e de que forma ele pode ser reconhecido enquanto tal. No processo de escrita, às vezes podemos fazer uso de pontuação ("!!!!!!") ou CAIXA ALTA para expressar surpresa ou indignação, alterar a grafia das palavras ("devagaaaaaaaaaaar") ou usar emojis e emoticons, por exemplo. Às vezes, as emoções são apenas verbalmente descritas ou usadas em associação com intensificadores ("estranhamente ruim", "incrivelmente delicioso"), superlativos ou pejorativos, e até xingamentos.

Assim, é preciso levar em consideração que existe um vão cognitivo entre o real estado psicológico da pessoa e a linguagem que ela escolhe usar para expressar esses sentimentos. Em texto escrito, emoções e humores são de difícil distinção e considerados sinônimos. Emoções podem inclusive ser classificadas como sentimentos de intensidade mais forte. A principal diferença entre opinião emotiva e opinião racional é que as emoções focam nas sensações individuais, enquanto que as opiniões racionais se focam na avaliação do alvo da opinião.

Para nossos propósitos, _emoção_ é também um quíntuplo, onde **e** é a _entidade_ alvo, **a** é o _aspecto_ sobre o qual se dá a opinião, **m** é o tipo de emoção ou um par de dados representando o tipo e a intensidade dessa emoção, **f** é quem sente a emoção (_feeler_) e **t** é quando a emoção foi expressa. Opiniões racionais contém sentimentos e alvos de maneira explícita, mas nem sempre identificam o possuidor da opinião ("tinha tristeza nos olhos dela"). Uma frase emotiva sempre terá "sentidores" e expressões de emoção, mas não necessariamente a causa, razão ou alvo desse sentimento ("me senti triste essa manhã"). Opiniões podem ser subjetivas (regulares ou comparativas) ou baseadas em fatos (usa afirmações factuais).

## Desafios
Os maiores desafios desse tipo de análise estão na detecção de sentimento em texto nos seus mais variados níveis de granularidade (termos, frases, parágrafos etc). Existem também as limitações dos métodos comuns, que fazem uso de léxicos de sentimento, e as limitações de linguagem, como pudemos notar na análise léxica. Um desses grandes desafios é a detecção da posição/postura (_stance_) do emissor da opinião em relação ao alvo (_contra_, _a favor_ ou _neutro_).

> Automatically detecting stance has widespread applications in information retrieval, text summarization, and textual entailment. In fact, one can argue that stance detection can bring complementary information to sentiment analysis, because we often care about the authors evaluative outlook toward _specific targets_ and propositions rather than simply whether the speaker was angry or happy. (MOHAMMAD, 2017.)

Mohammad (2017) também aponta que esse processo de detecção de sentimento envolve identificar duas dimensões primárias do conteúdo: sua **valência** (positiva ou negativa) e **excitação** (grau de reatividade ao estímulo). Uma das formas de se detectar essas características na comunicação expressa pelos usuários é usando _dados anotados_, que são depois avaliados com o auxílio de corpos de texto previamente classificados. Algumas abordagens se valem da associação entre sentimentos para calcular a positividade ou negatividade dessas valências, que podem ser usadas para calcular a polaridade de uma opinião.

Entretanto, essa forma apresenta dificuldades próprias em função das sutilezas da linguagem. Algumas vezes é possível expressar sentimentos positivos fazendo uso de palavras que são associadas a aspectos negativos — frases formadas por palavras de polaridades opostas —, como por exemplo _feliz acidente_. Outra dessas sutilezas é o uso da negação, que pode impactar negativamente a avaliação da polaridade de uma opinião se não for corretamente compreendida em seu contexto de uso. É preciso atentar também para o uso de modais, intensificadores e advérbios, que atuam como modificadores do significado, bem como para o uso de metáforas, linguagem figurada, sarcasmo e ironia, identificação de súplicas e apelos, e perguntas retóricas.

Outro dos seus principais desafios é a análise em idiomas que não a língua inglesa. Por vezes, uma análise de sentimento em um idioma incomum exige a tradução automática do corpus. O problema é que nem sempre essas traduções mantém os significados e sentimentos do texto original.

# Referências bibliográficas
CAMBRIA, Erik; DAS, Dipankar; BANDYOPADHYAY, Sivaji; FERACO, Antonio (ed.). **A Practical Guide to Sentiment Analysis**. Série Socio-Affective Computing, volume 5. Reino Unido: Springer, 2017.

LIU, Bing. "Many Facets of Sentiment Analysis". In: CAMBRIA, Erik; DAS, Dipankar; BANDYOPADHYAY, Sivaji; FERACO, Antonio (ed.). **A Practical Guide to Sentiment Analysis**. Série Socio-Affective Computing, volume 5. Reino Unido: Springer, 2017.

MOHAMMAD, Saif M. "Challenges in Sentiment Analysis". In: CAMBRIA, Erik; DAS, Dipankar; BANDYOPADHYAY, Sivaji; FERACO, Antonio (ed.). **A Practical Guide to Sentiment Analysis**. Série Socio-Affective Computing, volume 5. Reino Unido: Springer, 2017.

MOHAMMAD, Saif M.; SOBHANI, Parinaz; KIRITCHENKO, Svetlana. "Stance and Sentiment in Tweets". In: **ACM Transactions on Embedded Computing Systems**. V. 0. N. 0. 2016. Disponível em: <https://arxiv.org/pdf/1605.01655.pdf>. Acesso em 18 de setembro de 2020.