# Análise de sentimento com Spacy

Neste notebook, o objetivo é construir um modelo analisador de sentimento que pega algumas das frases e mostra o resultado do sentimento (polaridade): quanto mais próximo de -1, mais negativo; quanto mais próximo de 1, mais positivo; e quanto mais próximo de zero, mais neutro. 

Num segundo momento, será analisado a subjetividade de cada frase.

Para isso será usada a biblioteca spacy.

Antes de ir direto ao assunto, vamos entender um pouco o que é análise de sentimento, e suas diferentes formas.

---

Há diferentes tipos de análise de sentimento dependendo no objetivo do modelo.

- Modelos com foco na polaridade do texto: positivo, neutro e negativo
- Modelos com foco no sentimento e na emoção do texto
- Modelos focados nas intenções e nas urgências

Para atingir os objetivos dos modelos, temos estes grupos de análises:

- Análise de sentimento padrão (Standard Sentiment Analysis)
- Análise de sentimento granular (Fine-grained Sentiment Analysis)
- Detecção de emoções (Emotion Detection)
- Análise de sentimento baseada em aspectos (Aspect-based Sentiment Analysis)
- Detecção de intenção (Intent Detection)

#### Análise de sentimento padrão (Standard Sentiment Analysis)

Detecta a polaridade de um dado texto, podendo este ser positivo, negativo ou neutro.

- "Eu adorei este produto" - **Positiva**
- "Este produto é uma porcaria cheia de defeitos" - **Negativa**
- "Estou em busca de assistência para este serviço" - **Neutra**

#### Análise de sentimento granular (Fine-grained Sentiment Analysis)

Foca na polaridade de um texto, mas adiciona mais categorias: 

- Muito positiva
- Positiva
- Neutra
- Negativa
- Muito negativa

#### Detecção de emoções (Emotion Detection)

Este tipo detecta emoções e sentimentos de um dado texto. 

- "Este produto facilitou muito meu trabalho" - **Alegria**
- "Odiei!" - **Raiva**

#### Análise de sentimento baseada em aspectos (Aspect-based Sentiment Analysis)

É uma técnica de análise que categoriza os dados por aspecto e identifica sentimentos atribuídos a cada um. Os aspectos são atributos ou componentes de um produto ou serviço.

#### Detecção de intenção (Intent Detection)

O foco está em tentar identificar a intenção por trás das afirmações. Chatbots usam muito disso para atendimentos automáticos.

---


### Iniciando os trabalhos

In [2]:
# importar bibliotecas

import pandas as pd
import numpy as np
import string

import spacy
#from spacy.lang.en.stop_words import STOP_WORDS
from spacytextblob.spacytextblob import SpacyTextBlob

from textblob import TextBlob

#import nltk
#nltk.download('averaged_perceptron_tagger')

nlp = spacy.load('en_core_web_md')
nlp.add_pipe('spacytextblob')

<spacytextblob.spacytextblob.SpacyTextBlob at 0x2dd7455e9a0>

Aqui será usado o dataset quotes, que consiste em uma lista de frases, seus autores, as tags, a popularidade e a categoria.

In [3]:
# importar dados
quotes_data = pd.read_json('dados/quotes.json', encoding='utf-8')

### Analisar o dataset

In [4]:
# número de linas e colunas

quotes_data.shape

(48391, 5)

In [5]:
quotes_data.head()

Unnamed: 0,Quote,Author,Tags,Popularity,Category
0,"Don't cry because it's over, smile because it ...",Dr. Seuss,"[attributed-no-source, cry, crying, experience...",0.155666,life
1,"Don't cry because it's over, smile because it ...",Dr. Seuss,"[attributed-no-source, cry, crying, experience...",0.155666,happiness
2,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,love
3,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,life
4,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,truth


In [6]:
# Categorias das frases

quotes_data['Category'].unique()

array(['life', 'happiness', 'love', 'truth', 'inspiration', 'humor',
       'philosophy', 'science', '', 'soul', 'books', 'wisdom',
       'knowledge', 'education', 'poetry', 'hope', 'friendship',
       'writing', 'religion', 'death', 'romance', 'success', 'arts',
       'relationship', 'motivation', 'faith', 'mind', 'god', 'funny',
       'quotes', 'positive', 'purpose'], dtype=object)

---

### Análise de sentimento (polaridade)

Como é um analisador bem simples, vamos pegar algumas frases aleatoriamente do dataframe, e depois medir a polaridade de cada uma delas.

In [7]:
def selecionar_frase(df):
    """ Seleciona uma frase ao acaso, entre o índice zero e o maior índice do dataframe """
    return df['Quote'].iloc[np.random.randint(0, len(df))]

In [8]:
quote1 = selecionar_frase(quotes_data)
quote2 = selecionar_frase(quotes_data)
quote3 = selecionar_frase(quotes_data)

In [9]:
def calcular_polaridade(quote):
    doc = nlp(quote)
    input_polarity = doc._.polarity
    sentiment = {'frase': quote, 'polaridade': input_polarity}
    return sentiment

In [10]:
frase1 = calcular_polaridade(quote1)

print('Frase:', frase1['frase'], '\n')
print('Polaridade', frase1['polaridade'])

Frase: It's easy to look back and see it, and it's easy to give the advice. But the sad fact is, most people don't look beneath the surface until it's too late. 

Polaridade 0.09444444444444444


In [11]:
frase2 = calcular_polaridade(quote2)

print('Frase:', frase2['frase'], '\n')
print('Polaridade', frase2['polaridade'])

Frase: Coffee Wisdom [2] For a real manthe only thing better than the scent of pussyis the smell of freshly ground coffee. 

Polaridade 0.25


In [12]:
frase3 = calcular_polaridade(quote3)

print('Frase:', frase3['frase'], '\n')
print('Polaridade', frase3['polaridade'])

Frase: Charge forward with hope and get the best medical advice you can. Talk to your friends, neighbors, family, and together you attack it. We can't always control what happens to us, but we can always control how we react to it. 

Polaridade 0.5


Analisando as 3 frases, as com a Polaridade mais próximas de 1, são as mais positivas, e as mais próximas de -1, as mais negativas, e as mais próximas de zero, as neutras.

### Polaridade em trechos de músicas

Vou selecionar uns trechos de músicas para medirmos a polaridade.

In [13]:
# Queen

queen = """I was born to love you
With every single beat of my heart"""

calcular_polaridade(queen)

{'frase': 'I was born to love you\nWith every single beat of my heart',
 'polaridade': 0.2142857142857143}

In [14]:
# Black Sabbath

black_sabbath = """Evil minds that plot destruction
Sorcerer of death's construction"""

calcular_polaridade(black_sabbath)

{'frase': "Evil minds that plot destruction\nSorcerer of death's construction",
 'polaridade': -1.0}

In [15]:
# Depeche Mode

depeche_mode = """All I ever wanted
All I ever needed
Is here in my arms
Words are very unnecessary
They can only do harm
"""

calcular_polaridade(depeche_mode)

{'frase': 'All I ever wanted\nAll I ever needed\nIs here in my arms\nWords are very unnecessary\nThey can only do harm\n',
 'polaridade': -0.26}

In [16]:
# Janis Joplin

janis_joplin = """One of these mornings
You're gonna rise, rise up singing
You're gonna spread your wings
Child, and take, take to the sky
Lord, the sky
"""

calcular_polaridade(janis_joplin)

{'frase': "One of these mornings\nYou're gonna rise, rise up singing\nYou're gonna spread your wings\nChild, and take, take to the sky\nLord, the sky\n",
 'polaridade': 0.0}

--- 

Vamos fazer algo diferente agora, criar uma função que retorne uma frase que seja bem positiva (acima de 0.8) e que retorne uma frase bem negativa (abaixo de -0.8).

In [17]:
def retornar_frase_polaridade(df, polaridade = 'positiva'):
    """ Recebe o dataframe e a polaridade esperada da frase """
    while True:
        quote = df['Quote'].iloc[np.random.randint(0, len(df))]
        doc = nlp(quote)
        input_polarity = doc._.polarity
        if polaridade == 'positiva':
            if input_polarity >= 0.8:
                return {'frase': quote, 'polaridade': input_polarity}
        elif polaridade == 'negativa':
            if input_polarity <= -0.8:
                return {'frase': quote, 'polaridade': input_polarity}
        else:
            return ''

Retornar uma frase positiva.

In [18]:
frase_positiva = retornar_frase_polaridade(quotes_data)

print('Frase:', frase_positiva['frase'], '\n')
print('Polaridade:', frase_positiva['polaridade'])

Frase: The best kind of humans are the ones who stay. 

Polaridade: 0.8


Retornar uma frase negativa.

In [19]:
frase_negativa = retornar_frase_polaridade(quotes_data, 'negativa')

print('Frase:', frase_negativa['frase'], '\n')
print('Polaridade:', frase_negativa['polaridade'])

Frase: All God does is watch us and kill us when we get boring. We must never, ever be boring. 

Polaridade: -1.0


---

## Subjetividade

A subjetividade quantifica o quanto o texto é uma opinião pessoal ou informação factual. Esse valor vai de `0 até 1`, e quanto maior a subjetividade, significa que o texto é mais uma opinião do que um fato.

Novamente, vamos montar uma função que retorna uma frase mais subjetiva, e outra menos subjetiva. 

In [20]:
def retornar_frase_subjetividade(df, subjetividade = 'subjetiva'):
    """ Recebe o dataframe e a polaridade esperada da frase """
    while True:
        quote = df['Quote'].iloc[np.random.randint(0, len(df))]
        doc = nlp(quote)
        input_subjectivity = doc._.subjectivity
        if subjetividade == 'subjetiva':
            if input_subjectivity >= 0.8:
                return {'frase': quote, 'subjetividade': input_subjectivity}
        elif subjetividade == 'factual':
            if input_subjectivity <= 0.2:
                return {'frase': quote, 'subjetividade': input_subjectivity}
        else:
            return ''

Retornar uma frase mais subjetiva:

In [21]:
frase_subjetiva = retornar_frase_subjetividade(quotes_data)

print('Frase:', frase_subjetiva['frase'], '\n')
print('Subjetividade:', frase_subjetiva['subjetividade'])

Frase: The Gypsy Jackpot An ambulance, a police car and a fire truck parked in front of a gypsy's trailer can only mean one thing ~ insurance scam! 

Subjetividade: 0.84375


Retornar uma frase menos subjetiva:

In [22]:
frase_factual = retornar_frase_subjetividade(quotes_data, 'factual')

print('Frase:', frase_factual['frase'], '\n')
print('Subjetividade:', frase_factual['subjetividade'])

Frase: Imagination is a process of seeing events or things with the minds eye. 

Subjetividade: 0.0


---

### Referências

https://towardsdatascience.com/my-absolute-go-to-for-sentiment-analysis-textblob-3ac3a11d524

https://towardsdatascience.com/emotion-detection-a-machine-learning-project-f7431f652b1f

https://spacy.io/universe/project/spacy-textblob

https://spacytextblob.netlify.app/

https://hackernoon.com/how-to-perform-emotion-detection-in-text-via-python-lk383tsu

https://www.section.io/engineering-education/sentiment-analysis-with-spacy-and-scikit-learn/

https://www.analyticsvidhya.com/blog/2021/06/analyzing-customer-feedbacks-using-aspect-based-sentiment-analysis/