<a href="https://colab.research.google.com/github/adalves-ufabc/2022.Q2-PLN/blob/main/2022_Q2_PLN_Notebook_16.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Processamento de Linguagem Natural [2022.Q2]**
Prof. Alexandre Donizeti Alves

### **Análise de Sentimentos**



**Modelos** de aprendizado de máquina **pré-treinados** podem ser usados com sucesso se os dados que você vai prever forem muito semelhantes aos dados em que o modelo foi treinado. Por exemplo, se você quiser prever o sentimento em tweets em inglês, precisará de um modelo treinado em tweets em inglês (ou em tweets em vários idiomas que contenham inglês).

Novos modelos de **aprendizado profundo** (*deep learning*) são introduzidos em uma taxa crescente e às vezes é difícil acompanhar todas as novidades. Dito isso, um modelo de rede neural específico provou ser especialmente eficaz para tarefas comuns de processamento de linguagem natural. O modelo é chamado de **Transformer**.

Um **Transformer** é um modelo de aprendizado profundo que adota o mecanismo de autoatenção, ponderando diferencialmente o significado de cada parte dos dados de entrada.

A **autoatenção** é um mecanismo de atenção que relaciona diferentes posições de uma única sequência para computar uma representação da mesma sequência. O mecanismo de atenção fornece **contexto** para qualquer posição na sequência de entrada.

A motivação é que a rede deve dedicar mais foco às partes pequenas, mas importantes, dos dados. Aprender qual parte dos dados é mais importante que outra depende do contexto. O efeito melhora algumas partes dos dados de entrada enquanto diminui outras partes.

A biblioteca `transformers` fornece a funcionalidade para criar e usar modelos compartilhados. A plataforma **Hugging Face Hub** contém milhares de modelos pré-treinados que qualquer pessoa pode baixar e usar. Você também pode enviar seus próprios modelos para o Hub!

> https://huggingface.co/docs/hub/index

O objeto mais básico da biblioteca `transformers` é a função `pipeline()`. Ele conecta um modelo com suas etapas necessárias de pré-processamento e pós-processamento, permitindo inserir diretamente qualquer texto e obter uma resposta:

In [20]:
from transformers import pipeline

classifier = pipeline("sentiment-analysis")
classifier("I've been waiting for a HuggingFace course my whole life.")

No model was supplied, defaulted to distilbert-base-uncased-finetuned-sst-2-english (https://huggingface.co/distilbert-base-uncased-finetuned-sst-2-english)


[{'label': 'POSITIVE', 'score': 0.9598049521446228}]

Podemos até passar várias frases!

In [17]:
classifier(
    ["I've been waiting for a HuggingFace course my whole life.", 
     "I hate this so much!"]
)

[{'label': 'POSITIVE', 'score': 0.9598049521446228},
 {'label': 'NEGATIVE', 'score': 0.9994558691978455}]

Você pode encontrar muitos modelos públicos pré-treinados para **análise de sentimentos** no **Hugging Face**:

> https://huggingface.co/models?search=sentiment

Um bom modelo de análise de sentimento para tweets é o `twitter-xlm-roberta-base-sentiment`, que funciona em oito idiomas (Ar, En, Fr, De, Hi, It, Sp, Pt). Visitando sua página, você verá trechos de código que mostram como usá-lo:

> https://huggingface.co/cardiffnlp/twitter-xlm-roberta-base-sentiment

Primeiro, precisamos instalar a biblioteca `transformers` do **Hugging Face**, junto com o tokenizador `SentencePiece` que será usado pelo nosso modelo.

In [10]:
!pip install transformers[sentencepiece]

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [5]:
from transformers import pipeline

model_path = "cardiffnlp/twitter-xlm-roberta-base-sentiment"
sentiment_task = pipeline("sentiment-analysis", model=model_path, tokenizer=model_path)

Em seguida, usaremos o código a seguir (muito semelhante ao trecho de código fornecido pelo **Hugging Face**) para extrair o sentimento de duas frases.

In [18]:
sentences = [
  "I really liked the video!",
  "I'm not happy with the results."
]
sentiments = sentiment_task(sentences)
for sentiment_dict, sentence in zip(sentiments, sentences):
  print(f"Text: {sentence}\nSentiment: {sentiment_dict}")

Text: I really liked the video!
Sentiment: {'label': 'Positive', 'score': 0.9351463913917542}
Text: I'm not happy with the results.
Sentiment: {'label': 'Negative', 'score': 0.9008225202560425}


In [19]:
sentences = [
  "Gostei muito do vídeo!",
  "Não estou feliz com os resultados."
]
sentiments = sentiment_task(sentences)
for sentiment_dict, sentence in zip(sentiments, sentences):
  print(f"Text: {sentence}\nSentiment: {sentiment_dict}")

Text: Gostei muito do vídeo!
Sentiment: {'label': 'Positive', 'score': 0.9314153790473938}
Text: Não estou feliz com os resultados.
Sentiment: {'label': 'Negative', 'score': 0.8356583118438721}


**Referência:**


Two minutes NLP — Quick Intro to Sentiment Analysis
> https://medium.com/nlplanet/two-minutes-nlp-quick-intro-to-sentiment-analysis-106b6947b2fd