# Análise de sentimento com Spacy and Scikit-Learn

Há diferentes tipos de análise de sentimento dependendo no objetivo do modelo.

- Modelos com foco na polaridade do texto: positivo, neutro e negativo
- Modelos com foco no sentimento e na emoção do texto
- Modelos focados nas intenções e nas urgências

Para atingir os objetivos dos modelos, temos estes grupos de análises:

- Análise de sentimento padrão (Standard Sentiment Analysis)
- Análise de sentimento granular (Fine-grained Sentiment Analysis)
- Detecção de emoções (Emotion Detection)
- Análise de sentimento baseada em aspectos (Aspect-based Sentiment Analysis)
- Detecção de intenção (Intent Detection)

#### Análise de sentimento padrão (Standard Sentiment Analysis)

Detecta a polaridade de um dado texto, podendo este ser positivo, negativo ou neutro.

- "Eu adorei este produto" - **Positiva**
- "Este produto é uma porcaria cheia de defeitos" - **Negativa**
- "Estou em busca de assistência para este serviço" - **Neutra**

#### Análise de sentimento granular (Fine-grained Sentiment Analysis)

Foca na polaridade de um texto, mas adiciona mais categorias: 

- Muito positiva
- Positiva
- Neutra
- Negativa
- Muito negativa

#### Detecção de emoções (Emotion Detection)

Este tipo detecta emoções e sentimentos de um dado texto. 

- "Este produto facilitou muito meu trabalho" - **Alegria**
- "Odiei!" - **Raiva**

#### Análise de sentimento baseada em aspectos (Aspect-based Sentiment Analysis)

É uma técnica de análise que categoriza os dados por aspecto e identifica sentimentos atribuídos a cada um. Os aspectos são atributos ou componentes de um produto ou serviço.

#### Detecção de intenção (Intent Detection)

O foco está em tentar identificar a intenção por trás das afirmações. Chatbots usam muito disso para atendimentos automáticos.

---


Neste notebook, o objetivo é construir um modelo analisador de sentimento que pega algumas das frases e mostra o resultado do sentimento (polaridade): quanto mais próximo de -1, mais negativo; quanto mais próximo de 1, mais positivo; e quanto mais próximo de zero, mais neutro.

Para isso será usada a biblioteca spacy.

In [1]:
# importar bibliotecas

import pandas as pd
import numpy as np

import spacy
#from spacy.lang.en.stop_words import STOP_WORDS
from spacytextblob.spacytextblob import SpacyTextBlob

from textblob import TextBlob

#import nltk
#nltk.download('averaged_perceptron_tagger')

nlp = spacy.load('en_core_web_md')
nlp.add_pipe('spacytextblob')

<spacytextblob.spacytextblob.SpacyTextBlob at 0x142e1fdf910>

Aqui será usado o dataset quotes, que consiste em uma lista de frases, seus autores, as tags, a popularidade e a categoria.

In [2]:
# importar dados
quotes_data = pd.read_json('dados/quotes.json', encoding='utf-8')

### Analisar o dataset

In [3]:
quotes_data.shape

(48391, 5)

In [4]:
quotes_data.head()

Unnamed: 0,Quote,Author,Tags,Popularity,Category
0,"Don't cry because it's over, smile because it ...",Dr. Seuss,"[attributed-no-source, cry, crying, experience...",0.155666,life
1,"Don't cry because it's over, smile because it ...",Dr. Seuss,"[attributed-no-source, cry, crying, experience...",0.155666,happiness
2,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,love
3,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,life
4,"I'm selfish, impatient and a little insecure. ...",Marilyn Monroe,"[attributed-no-source, best, life, love, mista...",0.129122,truth


In [5]:
# Categorias das frases

quotes_data['Category'].unique()

array(['life', 'happiness', 'love', 'truth', 'inspiration', 'humor',
       'philosophy', 'science', '', 'soul', 'books', 'wisdom',
       'knowledge', 'education', 'poetry', 'hope', 'friendship',
       'writing', 'religion', 'death', 'romance', 'success', 'arts',
       'relationship', 'motivation', 'faith', 'mind', 'god', 'funny',
       'quotes', 'positive', 'purpose'], dtype=object)

In [6]:
#positive_quotes = quotes_data[quotes_data['Category'] == 'positive']
#positive_quotes.shape

(1130, 5)

### Análise de sentimento (polaridade)

Como é um analisador bem simples, vamos pegar algumas frases aleatoriamente do dataframe, e depois medir a polaridade de cada uma delas.

In [30]:
def selecionar_frase(df):
    """ Seleciona uma frase ao acaso, entre o índice zero e o maior índice do dataframe """
    return df['Quote'].iloc[np.random.randint(0, len(df))]

In [41]:
quote1 = selecionar_frase(quotes_data)
quote2 = selecionar_frase(quotes_data)
quote3 = selecionar_frase(quotes_data)
quote4 = selecionar_frase(quotes_data)
quote5 = selecionar_frase(quotes_data)

In [37]:
def calcular_polaridade(quote):
    doc = nlp(quote)
    input_polarity = doc._.polarity
    sentiment = {'frase': quote, 'polaridade': input_polarity}
    return sentiment

In [42]:
frase1 = calcular_polaridade(quote1)

print('Frase:', frase1['frase'], '\n')
print('Polaridade', frase1['polaridade'])

Frase: And the rest is rust and stardust. 

Polaridade 0.0


In [43]:
frase2 = calcular_polaridade(quote2)

print('Frase:', frase2['frase'], '\n')
print('Polaridade', frase2['polaridade'])

Frase: When I was young, I was 13 going on 31. Then when I was 30 going on 31, I was 30 going on 29. Now I’m in love and I’ve lost all sense of time—and all the rest of my sense. 

Polaridade 0.3


In [44]:
frase3 = calcular_polaridade(quote3)

print('Frase:', frase3['frase'], '\n')
print('Polaridade', frase3['polaridade'])

Frase: We feel that even if all possible scientific questions be answered, the problems of life have still not been touched at all. 

Polaridade 0.0


In [45]:
frase4 = calcular_polaridade(quote4)

print('Frase:', frase4['frase'], '\n')
print('Polaridade', frase4['polaridade'])

Frase: The Motto of Champions: If you are hurt, you can suck it up and press on. If injured, you can rebound and return bigger and better...and continue to inspire! 

Polaridade 0.0


In [46]:
frase5 = calcular_polaridade(quote5)

print('Frase:', frase5['frase'], '\n')
print('Polaridade', frase5['polaridade'])

Frase: I was entirely happy. Perhaps we feel like that when we die and become a part of something entire, whether it is sun and air. or goodness and knowledge. At any rate, that is happiness; to be dissolved into something complete and great. When it comes to one, it comes as naturally as sleep. 

Polaridade 0.41666666666666674


Analisando as 5 frases, a mais positiva é a frase 5 e depois a frase 2, as demais são neutras.

Vamos fazer algo diferente agora, criar uma função que retorne uma frase que seja bem positiva (acima de 0.8) e que retorne uma frase bem negativa (abaixo de -0.8).

In [48]:
def retornar_frase_polaridade(df, polaridade = 'positiva'):
    """ Recebe o dataframe e a polaridade esperada da frase """
    while True:
        quote = df['Quote'].iloc[np.random.randint(0, len(df))]
        doc = nlp(quote)
        input_polarity = doc._.polarity
        if polaridade == 'positiva':
            if input_polarity >= 0.8:
                return {'frase': quote, 'polaridade': input_polarity}
        elif polaridade == 'negativa':
            if input_polarity <= -0.8:
                return {'frase': quote, 'polaridade': input_polarity}
        else:
            return ''

Retornar uma frase positiva.

In [61]:
frase_positiva = retornar_frase_polaridade(quotes_data)

print('Frase:', frase_positiva['frase'], '\n')
print('Polaridade:', frase_positiva['polaridade'])

Frase: Who’s happy? Happy is just what people think they are when they can’t find anything to bitch about. 

Polaridade: 0.8


Retornar uma frase negativa.

In [62]:
frase_negativa = retornar_frase_polaridade(quotes_data, 'negativa')

print('Frase:', frase_negativa['frase'], '\n')
print('Polaridade:', frase_negativa['polaridade'])

Frase: Evil [10w] Believing you're evil sets into motion the wheels of self-destruction. 

Polaridade: -1.0


### Subjetividade

A subjetividade quantifica o quanto o texto é uma opinião pessoal ou informação factual. Esse valor vai de `0 até 1`, e quanto maior a subjetividade, significa que o texto é mais uma opinião do que um fato.

Novamente, vamos montar uma função que retorna uma frase mais subjetiva, e outra menos subjetiva. 

In [74]:
def retornar_frase_subjetividade(df, subjetividade = 'subjetiva'):
    """ Recebe o dataframe e a polaridade esperada da frase """
    while True:
        quote = df['Quote'].iloc[np.random.randint(0, len(df))]
        doc = nlp(quote)
        input_subjectivity = doc._.subjectivity
        if subjetividade == 'subjetiva':
            if input_subjectivity >= 0.8:
                return {'frase': quote, 'subjetividade': input_subjectivity}
        elif subjetividade == 'factual':
            if input_subjectivity <= 0.2:
                return {'frase': quote, 'subjetividade': input_subjectivity}
        else:
            return ''

Retornar uma frase mais subjetiva:

In [72]:
frase_subjetiva = retornar_frase_subjetividade(quotes_data)

print('Frase:', frase_subjetiva['frase'], '\n')
print('Subjetividade:', frase_subjetiva['subjetividade'])

Frase: In a perfect world, you could fuck people without giving them a piece of your heart. And every glittering kiss and every touch of flesh is another shard of heart you’ll never see again. 

Subjetividade: 0.8


Retornar uma frase menos subjetiva:

In [76]:
frase_factual = retornar_frase_subjetividade(quotes_data, 'factual')

print('Frase:', frase_factual['frase'], '\n')
print('Subjetividade:', frase_factual['subjetividade'])

Frase: Success means we go to sleep at night knowing that our talents and ablities were used in a way that served others. 

Subjetividade: 0.0


---

### Referências

https://towardsdatascience.com/my-absolute-go-to-for-sentiment-analysis-textblob-3ac3a11d524

https://towardsdatascience.com/emotion-detection-a-machine-learning-project-f7431f652b1f

https://spacy.io/universe/project/spacy-textblob

https://spacytextblob.netlify.app/

https://hackernoon.com/how-to-perform-emotion-detection-in-text-via-python-lk383tsu

https://www.section.io/engineering-education/sentiment-analysis-with-spacy-and-scikit-learn/

https://www.analyticsvidhya.com/blog/2021/06/analyzing-customer-feedbacks-using-aspect-based-sentiment-analysis/