<h1 align='center'>pyentimento: Toolkit para multitarefas para análise de sentimentos e SocialNLP<h1/>

Data Scientist Jr.: Karina Gonçalves Soares

Link de estudo:

* [Github: pysentimiento](https://github.com/pysentimiento/pysentimiento)

* [pysentimiento: A Python Toolkit for Sentiment
Analysis and SocialNLP tasks](https://arxiv.org/pdf/2106.09462.pdf)

* [More Scraped Data, Greater Bias](https://www.deeplearning.ai/the-batch/research-shows-that-training-on-larger-datasets-can-increase-social-bias/?utm_campaign=The%20Batch&utm_content=267121221&utm_medium=social&utm_source=facebook&hss_channel=fbp-1027125564106325)


* [ON HATE SCALING LAWS FOR DATA-SWAMPS](https://arxiv.org/pdf/2306.13141.pdf)

> Neste Notebook estudamos a `biblioteca pysentimiento`, um `Toolkit Multilingual` para extração de opiniões e análises de Sentimentos `(centrado no Idioma Espanhol)`.

`pysentimiento` é uma biblioteca que utiliza modelos pré-treinado de transformers para diferentes tarefas de SocialNLP.Usa como modelos bases a BETO: Spanish BERT e RoBERTuito em Espanhol, BERTweet em Inglês e outros modelos similares em Italiano e Português.



In [2]:
#%pip install pysentimiento

Vamos `criar um analisador`. O `create_analyzer` recebe a tarefa e o idioma como parâmetros.



In [3]:
from pysentimiento import create_analyzer

import transformers

transformers.logging.set_verbosity(transformers.logging.ERROR)

analyzer = create_analyzer(task="sentiment", lang="pt")

  from .autonotebook import tqdm as notebook_tqdm


`Vejamos alguns exemplos:`

## **<font color="red">Exemplo1</font>**

In [4]:
exemplo1 = analyzer.predict("O Ronaldinho é muito bom como jogador!")

exemplo1

AnalyzerOutput(output=POS, probas={POS: 0.972, NEU: 0.021, NEG: 0.007})

In [5]:
# Obtendo a nossa saída 'exemplo1', de maneira mais explícita: 
output_label = exemplo1.output  # Obtemos o rótulo (POS, NEU, NEG)
probabilities = exemplo1.probas  # Obtemos as probabilidades associadas

# Probabilidades individuais para cada rótulo:
positive_probability = probabilities.get("POS", 0.0)
neutral_probability = probabilities.get("NEU", 0.0)
negative_probability = probabilities.get("NEG", 0.0)

# Teríamos o seguinte:
print(f"Rótulo: {output_label}")
print(f"Probabilidade Positiva: {round(positive_probability, 4)*100}%")
print(f"Probabilidade Neutra: {neutral_probability}%")
print(f"Probabilidade Negativa: {negative_probability}%")

Rótulo: POS
Probabilidade Positiva: 97.22%
Probabilidade Neutra: 0.020972739905118942%
Probabilidade Negativa: 0.006807348690927029%


## **<font color="red">Exemplo 2</font>**

In [6]:
analyzer.predict("A tinta da minha caneta acabou, nossa!")

AnalyzerOutput(output=NEG, probas={NEG: 0.938, NEU: 0.057, POS: 0.005})

## **<font color="red">Exemplo 3</font>**

In [7]:
analyzer.predict("Que dia é hoje?")

AnalyzerOutput(output=NEU, probas={NEU: 0.931, NEG: 0.049, POS: 0.021})

## **<font color="red">Exemplo 4</font>**

In [8]:
analyzer.predict("Hoje Eu estou 😭")

AnalyzerOutput(output=NEG, probas={NEG: 0.955, NEU: 0.026, POS: 0.019})

# <font color="yellow">Predição em batch</font>

Se temos um conjunto de orações, `pysentimiento` faz a predição em conjunto e de maneira eficiente:

In [9]:
%%time

from tqdm.auto import tqdm

oraciones = [
    "Amo ser Cientista de Dados",
    "Ver tanta pobreza me dá tristeza.",
    "O Sol está muito distante",    
] * 5

for sent in tqdm(oraciones):
    analyzer.predict(sent)

  7%|▋         | 1/15 [00:00<00:01,  8.56it/s]

100%|██████████| 15/15 [00:01<00:00, 11.47it/s]

CPU times: user 2.53 s, sys: 5.92 ms, total: 2.54 s
Wall time: 1.38 s





In [10]:
%%time

rets = analyzer.predict(oraciones)

rets 

Map: 100%|██████████| 15/15 [00:00<00:00, 18.99 examples/s]


CPU times: user 3.95 s, sys: 647 ms, total: 4.59 s
Wall time: 6.43 s


[AnalyzerOutput(output=POS, probas={POS: 0.989, NEU: 0.009, NEG: 0.002}),
 AnalyzerOutput(output=NEG, probas={NEG: 0.987, NEU: 0.007, POS: 0.006}),
 AnalyzerOutput(output=NEU, probas={NEU: 0.847, NEG: 0.139, POS: 0.014}),
 AnalyzerOutput(output=POS, probas={POS: 0.989, NEU: 0.009, NEG: 0.002}),
 AnalyzerOutput(output=NEG, probas={NEG: 0.987, NEU: 0.007, POS: 0.006}),
 AnalyzerOutput(output=NEU, probas={NEU: 0.847, NEG: 0.139, POS: 0.014}),
 AnalyzerOutput(output=POS, probas={POS: 0.989, NEU: 0.009, NEG: 0.002}),
 AnalyzerOutput(output=NEG, probas={NEG: 0.987, NEU: 0.007, POS: 0.006}),
 AnalyzerOutput(output=NEU, probas={NEU: 0.847, NEG: 0.139, POS: 0.014}),
 AnalyzerOutput(output=POS, probas={POS: 0.989, NEU: 0.009, NEG: 0.002}),
 AnalyzerOutput(output=NEG, probas={NEG: 0.987, NEU: 0.007, POS: 0.006}),
 AnalyzerOutput(output=NEU, probas={NEU: 0.847, NEG: 0.139, POS: 0.014}),
 AnalyzerOutput(output=POS, probas={POS: 0.989, NEU: 0.009, NEG: 0.002}),
 AnalyzerOutput(output=NEG, probas={NE

# <font color="yellow">Emojis</font>

Suporta, também, o uso de `emojis` através da Biblioteca [emoji](https://pypi.org/project/emoji/).

In [11]:
analyzer.predict("🤢")

AnalyzerOutput(output=NEG, probas={NEG: 0.976, NEU: 0.016, POS: 0.008})

In [12]:
analyzer.predict(":)")

AnalyzerOutput(output=POS, probas={POS: 0.925, NEU: 0.069, NEG: 0.006})

`Hashtags, também:`

In [13]:
analyzer.predict("#IstoéUmaMerda")

AnalyzerOutput(output=NEG, probas={NEG: 0.992, POS: 0.004, NEU: 0.004})

# <font color="yellow">Análise Emocional</font>

`pysentimiento` fornece análise Emocional por meio de modelos pré-treinados com conjuntos de dados [EmoEvent](https://github.com/fmplaza/EmoEvent)

In [14]:
# Instanciamos o Objeto:
emotion_analyzer = create_analyzer(task="emotion", lang="pt")

In [15]:
emotion_1 = emotion_analyzer.predict("Eu machuquei meu joelho jogando bola, isso é terrível!")

emotion_1

AnalyzerOutput(output=['fear'], probas={admiration: 0.013, amusement: 0.002, anger: 0.009, annoyance: 0.013, approval: 0.006, caring: 0.005, confusion: 0.004, curiosity: 0.003, desire: 0.004, disappointment: 0.028, disapproval: 0.012, disgust: 0.160, embarrassment: 0.016, excitement: 0.002, fear: 0.890, gratitude: 0.005, grief: 0.008, joy: 0.001, love: 0.007, nervousness: 0.049, optimism: 0.006, pride: 0.002, realization: 0.005, relief: 0.001, remorse: 0.001, sadness: 0.074, surprise: 0.003, neutral: 0.009})

In [16]:
# A Emoção é:
emotion_1.output

['fear']

In [17]:
# Temos várias Emoções e só uma tem uma alta probabildiade:
emotion_1.probas

{'admiration': 0.013477839529514313,
 'amusement': 0.0018875550013035536,
 'anger': 0.009365188889205456,
 'annoyance': 0.013239799067378044,
 'approval': 0.00569023285061121,
 'caring': 0.005219749640673399,
 'confusion': 0.004016146529465914,
 'curiosity': 0.0025675150100141764,
 'desire': 0.004219981841742992,
 'disappointment': 0.028135400265455246,
 'disapproval': 0.011510009877383709,
 'disgust': 0.16009768843650818,
 'embarrassment': 0.01590888574719429,
 'excitement': 0.001899012946523726,
 'fear': 0.8895401954650879,
 'gratitude': 0.005402678158134222,
 'grief': 0.008150695823132992,
 'joy': 0.0013532412704080343,
 'love': 0.006999167148023844,
 'nervousness': 0.04916279762983322,
 'optimism': 0.006161699071526527,
 'pride': 0.0018651897553354502,
 'realization': 0.005212029907852411,
 'relief': 0.000912616727873683,
 'remorse': 0.0012565108481794596,
 'sadness': 0.0744243785738945,
 'surprise': 0.0028698265086859465,
 'neutral': 0.008908512070775032}

In [18]:
name_of_emotion = max(emotion_1.probas, key=emotion_1.probas.get)

value_of_emotion = emotion_1.probas[name_of_emotion]

print(f"A Emoção da nossa sentença é: {name_of_emotion} com uma probabilidade de: {value_of_emotion}")

A Emoção da nossa sentença é: fear com uma probabilidade de: 0.8895401954650879


In [19]:
emotion_analyzer.predict("Oh meu Deus!") # Em Inglês e: "omg"

AnalyzerOutput(output=['surprise'], probas={admiration: 0.012, amusement: 0.007, anger: 0.005, annoyance: 0.010, approval: 0.002, caring: 0.001, confusion: 0.003, curiosity: 0.011, desire: 0.003, disappointment: 0.004, disapproval: 0.002, disgust: 0.001, embarrassment: 0.005, excitement: 0.143, fear: 0.002, gratitude: 0.003, grief: 0.002, joy: 0.006, love: 0.003, nervousness: 0.001, optimism: 0.002, pride: 0.002, realization: 0.031, relief: 0.003, remorse: 0.001, sadness: 0.002, surprise: 0.944, neutral: 0.034})

In [20]:
emotion_2 = emotion_analyzer.predict("Gol do Brasil!")

emotion_2

AnalyzerOutput(output=[], probas={admiration: 0.095, amusement: 0.261, anger: 0.016, annoyance: 0.016, approval: 0.005, caring: 0.001, confusion: 0.001, curiosity: 0.001, desire: 0.001, disappointment: 0.003, disapproval: 0.001, disgust: 0.001, embarrassment: 0.002, excitement: 0.089, fear: 0.000, gratitude: 0.003, grief: 0.001, joy: 0.168, love: 0.001, nervousness: 0.000, optimism: 0.001, pride: 0.006, realization: 0.014, relief: 0.004, remorse: 0.001, sadness: 0.001, surprise: 0.035, neutral: 0.231})

In [21]:
emotion_2.probas

{'admiration': 0.09488872438669205,
 'amusement': 0.2614235281944275,
 'anger': 0.016178186982870102,
 'annoyance': 0.016428008675575256,
 'approval': 0.0045191398821771145,
 'caring': 0.0008352831937372684,
 'confusion': 0.000655831303447485,
 'curiosity': 0.000696275441441685,
 'desire': 0.0006572880083695054,
 'disappointment': 0.0025380225852131844,
 'disapproval': 0.0011165443575009704,
 'disgust': 0.0011116702808067203,
 'embarrassment': 0.0018576275324448943,
 'excitement': 0.08896475285291672,
 'fear': 0.00023081747349351645,
 'gratitude': 0.00258094840683043,
 'grief': 0.001126772491261363,
 'joy': 0.16801756620407104,
 'love': 0.0005174428806640208,
 'nervousness': 0.00028827451751567423,
 'optimism': 0.0006350059993565083,
 'pride': 0.006065180525183678,
 'realization': 0.014104055240750313,
 'relief': 0.004411832429468632,
 'remorse': 0.001243908074684441,
 'sadness': 0.0012675581965595484,
 'surprise': 0.034669265151023865,
 'neutral': 0.23090434074401855}

In [22]:
name_of_emotion  = max(emotion_2.probas, key=emotion_2.probas.get)

value_of_emotion = emotion_2.probas[name_of_emotion]

print(f"A Emoção da nossa sentença é: {name_of_emotion} com uma probabilidade de: {value_of_emotion}")

A Emoção da nossa sentença é: amusement com uma probabilidade de: 0.2614235281944275


In [23]:
emotion_analyzer.predict("As pessoas no mundo estão realmente preocupadas por causa do Coronavírus")

AnalyzerOutput(output=['nervousness'], probas={admiration: 0.002, amusement: 0.002, anger: 0.005, annoyance: 0.013, approval: 0.007, caring: 0.195, confusion: 0.011, curiosity: 0.019, desire: 0.006, disappointment: 0.022, disapproval: 0.004, disgust: 0.004, embarrassment: 0.005, excitement: 0.012, fear: 0.335, gratitude: 0.006, grief: 0.009, joy: 0.008, love: 0.008, nervousness: 0.630, optimism: 0.006, pride: 0.004, realization: 0.018, relief: 0.010, remorse: 0.002, sadness: 0.115, surprise: 0.002, neutral: 0.033})

# <font color="yellow">Discurso de ódio (`Hate Speech`)</font>

`pysentimiento` também oferece suporte à detecção de `discurso de ódio`, treinando modelos usando o conjunto de dados [HatEval](https://competitions.codalab.org/competitions/19935)

In [24]:
hate_speech_analyzer = create_analyzer(task="hate_speech", lang='pt')

Downloading (…)lve/main/config.json: 100%|██████████| 936/936 [00:00<00:00, 1.38MB/s]
Downloading pytorch_model.bin: 100%|██████████| 541M/541M [02:23<00:00, 3.76MB/s] 
Downloading (…)okenizer_config.json: 100%|██████████| 418/418 [00:00<00:00, 549kB/s]
Downloading (…)solve/main/vocab.txt: 100%|██████████| 504k/504k [00:00<00:00, 2.45MB/s]
Downloading (…)/main/tokenizer.json: 100%|██████████| 1.52M/1.52M [00:01<00:00, 1.14MB/s]
Downloading (…)in/added_tokens.json: 100%|██████████| 41.0/41.0 [00:00<00:00, 51.6kB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 125/125 [00:00<00:00, 129kB/s]


<font color="orange">Este modelo é um algoritmo de `classificação multirótulo``, retornando três variáveis ​​diferentes ao mesmo tempo:

* A mensagem é odiosa (`hateful`) ou não?

* A mensagem de odiosa é dirigida (`targeted`) a uma pessoa ou grupo específico?

* A mensagem odiosa é agressiva (`aggressive`)?</font>

In [25]:
hate_speech_1 = hate_speech_analyzer.predict("Odeio a todos os gordos")

hate_speech_1

AnalyzerOutput(output=['Sexism', 'Body'], probas={Sexism: 0.777, Body: 0.705, Racism: 0.090, Ideology: 0.055, Homophobia: 0.010})

In [26]:
hate_speech_1.output

['Sexism', 'Body']

In [27]:
hate_speech_1.probas

{'Sexism': 0.7774370312690735,
 'Body': 0.7049675583839417,
 'Racism': 0.09032890200614929,
 'Ideology': 0.05541188269853592,
 'Homophobia': 0.010256546549499035}

In [32]:
hate_speech_analyzer.predict("Todos esses imigrantes devem ser aniquilados.")

AnalyzerOutput(output=[], probas={Sexism: 0.004, Body: 0.002, Racism: 0.004, Ideology: 0.003, Homophobia: 0.003})

In [33]:
hate_speech_analyzer.predict("O Hitler foi uma desgraça de ser humano.")

AnalyzerOutput(output=[], probas={Sexism: 0.005, Body: 0.002, Racism: 0.011, Ideology: 0.003, Homophobia: 0.003})

In [34]:
hate_speech_analyzer.predict("Chega de homossexuais, gays e outros")

AnalyzerOutput(output=['Homophobia'], probas={Sexism: 0.039, Body: 0.008, Racism: 0.021, Ideology: 0.014, Homophobia: 0.960})

In [35]:
hate_speech_analyzer.predict("Todos os comunistas são terroristas")

AnalyzerOutput(output=['Ideology'], probas={Sexism: 0.059, Body: 0.018, Racism: 0.051, Ideology: 0.805, Homophobia: 0.046})

# <font color="yellow">Tarefas de rotulagem de Token (`Token Labeling tasks`)</font>

`pysentimiento` também possui tags `POS` e analisadores `NER`, especialmente criados para dados do `Twitter`, graças ao conjunto de dados [LinCE](https://ritual.uh.edu/lince/)

## <font color="red">NER</font>

In [36]:
# NOTA: NER & POS tagging só para Espahol e Inglés:

ner_analyzer = create_analyzer("ner", lang='es')

Downloading (…)lve/main/config.json: 100%|██████████| 1.48k/1.48k [00:00<00:00, 2.30MB/s]
Downloading pytorch_model.bin: 100%|██████████| 433M/433M [01:54<00:00, 3.79MB/s] 
Downloading (…)okenizer_config.json: 100%|██████████| 334/334 [00:00<00:00, 299kB/s]
Downloading (…)/main/tokenizer.json: 100%|██████████| 858k/858k [00:00<00:00, 3.71MB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 150/150 [00:00<00:00, 220kB/s]


In [37]:
ner_analyzer.predict("Me voy de vacaciones a Perú 😎")

TokenClassificationOutput(entities=[Perú (LOC)], tokens=['Me', 'voy', 'de', 'vacaciones', 'a', 'Perú', ' ', 'emoji', 'cara', 'sonriendo', 'con', 'gafas', 'de', 'sol', 'emoji'], labels=['O', 'O', 'O', 'O', 'O', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'])

In [38]:
ner_analyzer.predict("Me llamo Juan Manuel Pérez y vivo en 🇦🇷😎")

TokenClassificationOutput(entities=[Juan Manuel Pérez (PER), bandera (LOC), argentina (LOC)], tokens=['Me', 'llamo', 'Juan', 'Manuel', 'Pérez', 'y', 'vivo', 'en', ' ', 'emoji', 'bandera', 'argentina', 'emoji', ' ', 'emoji', 'cara', 'sonriendo', 'con', 'gafas', 'de', 'sol', 'emoji'], labels=['O', 'O', 'B-PER', 'I-PER', 'I-PER', 'O', 'O', 'O', 'O', 'O', 'B-LOC', 'B-LOC', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O', 'O'])

## <font color="red">Part-Of-Speech (`POS`)</font>

Essas `tags POS(Partes do discurso)`, são rótulos atribuídos a cada palavra em um texto para indicar a função gramatical daquela palavra em uma sentença.

In [40]:
pos_tagger = create_analyzer("pos", "es")

Downloading model.safetensors: 100%|██████████| 433M/433M [02:29<00:00, 2.90MB/s]
Downloading (…)okenizer_config.json: 100%|██████████| 330/330 [00:00<00:00, 484kB/s]
Downloading (…)/main/tokenizer.json: 100%|██████████| 829k/829k [00:00<00:00, 1.66MB/s]
Downloading (…)cial_tokens_map.json: 100%|██████████| 150/150 [00:00<00:00, 102kB/s]


In [41]:
pos_tagger_1 =  pos_tagger.predict("Me llamo Karina Gonçalves y soy cientista de Datos y vivo en Brasil.")

pos_tagger_1

TokenClassificationOutput(tokens=['Me', 'llamo', 'Karina', 'Gonçalves', 'y', 'soy', 'cientista', 'de', 'Datos', 'y', 'vivo', 'en', 'Brasil', '.'], labels=['PRON', 'VERB', 'PROPN', 'PROPN', 'CONJ', 'VERB', 'NOUN', 'ADP', 'PROPN', 'CONJ', 'VERB', 'ADP', 'PROPN', 'PUNCT'])

In [42]:
pos_tagger_1.tokens

['Me',
 'llamo',
 'Karina',
 'Gonçalves',
 'y',
 'soy',
 'cientista',
 'de',
 'Datos',
 'y',
 'vivo',
 'en',
 'Brasil',
 '.']

In [43]:
pos_tagger_1.labels

['PRON',
 'VERB',
 'PROPN',
 'PROPN',
 'CONJ',
 'VERB',
 'NOUN',
 'ADP',
 'PROPN',
 'CONJ',
 'VERB',
 'ADP',
 'PROPN',
 'PUNCT']

# <font color="yellow">Pré-processando (`Preprocessing`)</font>


`pysentimiento` apresenta um módulo de pré-processamento com várias opções para manipulação de `hashtags`, `emojis`, `repetição de caracteres` e assim por diante.

In [44]:
from pysentimiento.preprocessing import preprocess_tweet

preprocess_tweet("📢 O Twitter removeu as postagens de @JairBolsonaro por 'violar as regras de convivência' #BreakingNews",
                 lang="pt"
                )

"emoji buzina emoji  O Twitter removeu as postagens de @USER por 'violar as regras de convivência' hashtag breaking news"

In [45]:
preprocess_tweet("📢 O Twitter removeu as postagens de @JairBolsonaro por 'violar as regras de convivência' #BreakingNews",
                 preprocess_handles=False,
                 demoji=False,
                 preprocess_hashtags=False
                )

"📢 O Twitter removeu as postagens de @JairBolsonaro por 'violar as regras de convivência' #BreakingNews"