# Exemplo de análise de sentimentos usando o VADER

## Pacotes utilizados

* __LeIA__: fork do léxico e ferramenta para análise de sentimentos VADER adaptado para textos em português;
* __Pandas__: pacote/módulo para análise e manipulação de dados;
* __Numpy__: pacote/módulo para programação científica;
* __RE__: pacote/módulo para operações de correspondência de expressões regulares.

In [39]:
# IMPORTANDO PACOTES

from leia.leia import SentimentIntensityAnalyzer
import pandas as pd
import numpy as np
import re

In [40]:
# LENDO ARQUIVO JSON COM OS TWEETS

dados = pd.read_json(r'example_dataset.json')
dados.head()

Unnamed: 0,id_str_twitter,name,screen_name,created_at,text
0,1552601236809158656,Neymar Jr,neymarjr,2022-07-28 10:25:55+00:00,@gabriel1medina Gosto de vc assim 😂😂
1,1551860014301827072,Neymar Jr,neymarjr,2022-07-26 09:20:34+00:00,Toda ação provava uma reação … \nFala o que qu...
2,1551859906189328384,Neymar Jr,neymarjr,2022-07-26 09:20:08+00:00,Ah pronto! Não posso contrariar uma matéria qu...
3,1551582940219559936,Neymar Jr,neymarjr,2022-07-25 14:59:34+00:00,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta https://t....
4,1551576735443034112,Neymar Jr,neymarjr,2022-07-25 14:34:55+00:00,@geglobo Fantasma? 😂😂😂 ge sendo ge … tocou é p...


In [41]:
dados.columns = ['id_tweet', 'nome', 'nome_conta', 'data_criacao', 'texto']
dados.head()

Unnamed: 0,id_tweet,nome,nome_conta,data_criacao,texto
0,1552601236809158656,Neymar Jr,neymarjr,2022-07-28 10:25:55+00:00,@gabriel1medina Gosto de vc assim 😂😂
1,1551860014301827072,Neymar Jr,neymarjr,2022-07-26 09:20:34+00:00,Toda ação provava uma reação … \nFala o que qu...
2,1551859906189328384,Neymar Jr,neymarjr,2022-07-26 09:20:08+00:00,Ah pronto! Não posso contrariar uma matéria qu...
3,1551582940219559936,Neymar Jr,neymarjr,2022-07-25 14:59:34+00:00,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta https://t....
4,1551576735443034112,Neymar Jr,neymarjr,2022-07-25 14:34:55+00:00,@geglobo Fantasma? 😂😂😂 ge sendo ge … tocou é p...


# Construção do dataset

O arquivo JSON com o dataset foi construído a partir da coleta dos tweets usando a Twitter API através da biblioteca Tweepy (https://www.tweepy.org).

In [42]:
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 57 entries, 0 to 56
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype              
---  ------        --------------  -----              
 0   id_tweet      57 non-null     int64              
 1   nome          57 non-null     object             
 2   nome_conta    57 non-null     object             
 3   data_criacao  57 non-null     datetime64[ns, UTC]
 4   texto         57 non-null     object             
dtypes: datetime64[ns, UTC](1), int64(1), object(3)
memory usage: 2.4+ KB


# Função para realizar a análise de sentimentos

* __SentimentIntensityAnalyzer__: classe usada para calcular uma pontuação de intensidade de sentimentos de determinado texto;
* __polarity_scores(text)__: retorna pontuações de intensidade do sentimento com base no texto de entrada.

In [56]:
def realizar_analise_vader(text):
    analisador = SentimentIntensityAnalyzer()
    resultado = analisador.polarity_scores(text)

    return resultado

In [57]:
resultado = realizar_analise_vader("Fico triste pela derrota do Santos!")
resultado

{'neg': 0.615, 'neu': 0.385, 'pos': 0.0, 'compound': -0.75}

# Formato de retorno da função _polarity_scores_

* __neg__: probabilidade do sentimento do texto ser negativo;
* __neu__: probabilidade do sentimento do texto ser neutro;
* __pos__: probabilidade do sentimento do texto ser positivo;
* __compound__: valor composto normalizado que calcula a soma de todas as classificações para o texto, na escala de -1 a 1.

# Criando funções de pré-processamento de texto

* Removendo menções a usuários;
* Removendo links;
* Removendo números
* Removendo espaços em branco duplicados, e no início e final dos textos

In [77]:
def remover_padrao(input_txt, pattern):
    r = re.findall(pattern, input_txt)
    for i in r:
        input_txt = re.sub(i, '', input_txt)
    return input_txt



def limpar_tweets(tweets):

    # remove mencoes a usuarios (@xxx)
    tweets = np.vectorize(remover_padrao)(tweets, "@[\w]*")

    # remove URL links (httpxxx)
    tweets = np.vectorize(remover_padrao)(tweets, "https?://[A-Za-z0-9./]*")

    # remove numeros
    tweets = np.vectorize(remover_padrao)(tweets, "\d+")
    
    # remove espacos em branco duplicados
    tweets = [" ".join(t.split()) for t in tweets]
    
    # remove espacos em branco do inicio e do final da string
    tweets = [t.strip() for t in tweets]

    return tweets

In [78]:
dados['texto_limpo'] = limpar_tweets(dados['texto'])

In [79]:
dados.head()

Unnamed: 0,id_tweet,nome,nome_conta,data_criacao,texto,texto_limpo,polaridade_vader
0,1552601236809158656,Neymar Jr,neymarjr,2022-07-28 10:25:55+00:00,@gabriel1medina Gosto de vc assim 😂😂,Gosto de vc assim 😂😂,Positivo
1,1551860014301827072,Neymar Jr,neymarjr,2022-07-26 09:20:34+00:00,Toda ação provava uma reação … \nFala o que qu...,Toda ação provava uma reação … Fala o que quer...,Negativo
2,1551859906189328384,Neymar Jr,neymarjr,2022-07-26 09:20:08+00:00,Ah pronto! Não posso contrariar uma matéria qu...,Ah pronto! Não posso contrariar uma matéria qu...,Negativo
3,1551582940219559936,Neymar Jr,neymarjr,2022-07-25 14:59:34+00:00,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta https://t....,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta,Neutro
4,1551576735443034112,Neymar Jr,neymarjr,2022-07-25 14:34:55+00:00,@geglobo Fantasma? 😂😂😂 ge sendo ge … tocou é p...,Fantasma? 😂😂😂 ge sendo ge … tocou é pênalti! B...,Negativo


In [80]:
dados.iloc[5]['texto']

'@neymarjrdepre Gosto desse clima 😂😂😂😂 futebol é isso! \nProvocar o rival apps a Vitoria! \nTudo no bom sentido.\nSem violência fica perfeito 🙏\nAdoro hangar dos meus amigos e provocá-los 😂😂😂😂'

In [81]:
dados.iloc[5]['texto_limpo']

'Gosto desse clima 😂😂😂😂 futebol é isso! Provocar o rival apps a Vitoria! Tudo no bom sentido. Sem violência fica perfeito 🙏 Adoro hangar dos meus amigos e provocá-los 😂😂😂😂'

# Determinando a polaridade

# ![1*AhqHTmvl00dbh8jmEpBmaQ.png](attachment:1*AhqHTmvl00dbh8jmEpBmaQ.png)

In [82]:
def determinar_polaridade(text):
    resultado = realizar_analise_vader(text)

    if resultado['compound'] >= 0.05 :
        return "Positivo"

    elif resultado['compound'] <= -0.05 :
        return "Negativo"

    else:
        return "Neutro"

In [83]:
dados['polaridade_vader'] = ""

In [84]:
dados.head()

Unnamed: 0,id_tweet,nome,nome_conta,data_criacao,texto,texto_limpo,polaridade_vader
0,1552601236809158656,Neymar Jr,neymarjr,2022-07-28 10:25:55+00:00,@gabriel1medina Gosto de vc assim 😂😂,Gosto de vc assim 😂😂,
1,1551860014301827072,Neymar Jr,neymarjr,2022-07-26 09:20:34+00:00,Toda ação provava uma reação … \nFala o que qu...,Toda ação provava uma reação … Fala o que quer...,
2,1551859906189328384,Neymar Jr,neymarjr,2022-07-26 09:20:08+00:00,Ah pronto! Não posso contrariar uma matéria qu...,Ah pronto! Não posso contrariar uma matéria qu...,
3,1551582940219559936,Neymar Jr,neymarjr,2022-07-25 14:59:34+00:00,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta https://t....,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta,
4,1551576735443034112,Neymar Jr,neymarjr,2022-07-25 14:34:55+00:00,@geglobo Fantasma? 😂😂😂 ge sendo ge … tocou é p...,Fantasma? 😂😂😂 ge sendo ge … tocou é pênalti! B...,


In [85]:
dados['polaridade_vader'] = np.vectorize(determinar_polaridade)(dados['texto_limpo'])

In [86]:
dados.head()

Unnamed: 0,id_tweet,nome,nome_conta,data_criacao,texto,texto_limpo,polaridade_vader
0,1552601236809158656,Neymar Jr,neymarjr,2022-07-28 10:25:55+00:00,@gabriel1medina Gosto de vc assim 😂😂,Gosto de vc assim 😂😂,Positivo
1,1551860014301827072,Neymar Jr,neymarjr,2022-07-26 09:20:34+00:00,Toda ação provava uma reação … \nFala o que qu...,Toda ação provava uma reação … Fala o que quer...,Negativo
2,1551859906189328384,Neymar Jr,neymarjr,2022-07-26 09:20:08+00:00,Ah pronto! Não posso contrariar uma matéria qu...,Ah pronto! Não posso contrariar uma matéria qu...,Negativo
3,1551582940219559936,Neymar Jr,neymarjr,2022-07-25 14:59:34+00:00,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta https://t....,Meu sobrenome 😂🤷🏽‍♂️ atura ou surta,Neutro
4,1551576735443034112,Neymar Jr,neymarjr,2022-07-25 14:34:55+00:00,@geglobo Fantasma? 😂😂😂 ge sendo ge … tocou é p...,Fantasma? 😂😂😂 ge sendo ge … tocou é pênalti! B...,Negativo


In [76]:
dados.to_json("example_dataset_with_vader_polarities.json", orient="records")