# Checkpoint 4 - Advanced Nets

---

## Aluno
> Henrico Nardelli Bela | 
> Emilly Gabrielly | 
> Felype Nunes | 
> Sara Leal | 
> Daniel Faria | 
## RM
> RM 95985 | 
> RM 94437 | 
> RM 96232 | 
> RM 96302 | 
> RM 94026 | 
## Turma
> 2TIAR


---

Olá pessoal, tudo bem?



Para o quarto entregáveis da nossa disciplina de “Generative Adversarial Networks & Advanced Nets” peço que seja entregue uma codificação exemplo contendo projeto no tema “Classificação de Texto com Transformers”.



Esta atividade tem como objetivo trazer os conceitos introduzidos em nossas últimas aulas, de modo a iniciá-los no uso prático de modelos Transformers da Hugging Face para tarefas em classificação de texto.



Passos da atividade:



Escolha de uma Tarefa: Escolham uma tarefa de classificação de texto simples, sugiro problemas como análise de sentimento ou classificação multi classe de notícias. Por exemplo: classificar sentimentos em tweets em "positivos" ou "negativos”;



Obtenção de Dados: Procurem e coletem um conjunto de dados relacionado à tarefa escolhida;



Pré-processamento de Dados: A codificação exemplo deve conter algum modo de pré-processar os dados, incluindo tokenização e codificação de rótulos, se necessário;



Seleção de um Modelo: Podem escolher um modelo Transformers pré-treinado da Hugging Face, como BERT ou DistilBERT, que seja adequado para a tarefa de classificação escolhida;



Relatório: Ao final da experimentação, vocês devem devem preparar um breve relatório que descreva o problema, os dados, o modelo escolhido, o código implementado e os resultados obtidos. Pode estar junto a codificação em formato de notebook Python.



Ref. https://huggingface.co/blog/sentiment-analysis-python

---

# Código

In [3]:
# Importando as bibliotecas necessárias
from transformers import AutoModelForSequenceClassification
from transformers import TFAutoModelForSequenceClassification
from transformers import AutoTokenizer, AutoConfig
import numpy as np
from scipy.special import softmax

# Definindo uma função de pré-processamento de texto
def preprocess(text):
    new_text = []
    # Iterando por cada palavra no texto
    for t in text.split(" "):
        # Substituindo nomes de usuário por '@user' se começarem com '@' e tiverem mais de um caractere
        t = '@user' if t.startswith('@') and len(t) > 1 else t
        # Substituindo links por 'http' se começarem com 'http'
        t = 'http' if t.startswith('http') else t
        new_text.append(t)
    # Unindo as palavras de volta em um único texto
    return " ".join(new_text)

# Definindo o modelo pré-treinado a ser utilizado
MODEL = f"cardiffnlp/twitter-roberta-base-sentiment-latest"

# Carregando o tokenizador associado ao modelo
tokenizer = AutoTokenizer.from_pretrained(MODEL)

# Carregando a configuração do modelo
config = AutoConfig.from_pretrained(MODEL)

# Carregando o modelo pré-treinado para classificação de sequências
model = AutoModelForSequenceClassification.from_pretrained(MODEL)

# Definindo o texto de exemplo
text = "The world war 2 was really disgusting"

# Aplicando o pré-processamento ao texto de exemplo
text = preprocess(text)

# Codificando o texto utilizando o tokenizador
encoded_input = tokenizer(text, return_tensors='pt')

# Passando o texto codificado para o modelo e obtendo a saída
output = model(**encoded_input)

# Extraindo os escores de probabilidade da saída do modelo
scores = output[0][0].detach().numpy()

# Aplicando a função softmax para obter probabilidades normalizadas
scores = softmax(scores)

# Classificando as probabilidades em ordem decrescente
ranking = np.argsort(scores)
ranking = ranking[::-1]

# Iterando pelas classificações de sentimentos em ordem decrescente de probabilidade
for i in range(scores.shape[0]):
    # Obtendo o rótulo (label) correspondente ao ranking atual
    l = config.id2label[ranking[i]]
    # Obtendo a probabilidade correspondente ao ranking atual
    s = scores[ranking[i]]
    # Imprimindo o resultado com o índice, rótulo e probabilidade arredondada
    print(f"{i+1}) {l} {np.round(float(s), 4)}")



Some weights of the model checkpoint at cardiffnlp/twitter-roberta-base-sentiment-latest were not used when initializing RobertaForSequenceClassification: ['roberta.pooler.dense.weight', 'roberta.pooler.dense.bias']
- This IS expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing RobertaForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


1) negative 0.9435
2) neutral 0.0486
3) positive 0.0079


---

# Relatório de Análise de Sentimento usando o modelo Cardiff Twitter RoBERTa

## 1. Introdução

O objetivo deste relatório é descrever o problema abordado, os dados utilizados, o modelo escolhido, o código implementado e os resultados obtidos na análise de sentimento de um texto. Para isso, utilizou-se o modelo Cardiff Twitter RoBERTa para realizar a classificação de sentimentos em um texto de exemplo.

## 2. Problema

O problema abordado neste código é a análise de sentimento em um texto. O objetivo é determinar o sentimento expresso no texto, classificando-o como positivo, negativo ou neutro. Isso é útil em várias aplicações, como monitoramento de mídias sociais, análise de opinião de clientes e detecção de tendências de mercado.

## 3. Dados

Não há dados externos sendo usados neste código, uma vez que estamos avaliando o desempenho do modelo pré-treinado Cardiff Twitter RoBERTa em um texto de exemplo ("The world war 2 was really disgusting"). Os dados utilizados neste contexto são textos de exemplo fornecidos no código. Entretanto, os dados de treinamento do modelo foi executado pelo tweetnlp, uma biblioteca criada pelo twitter, Ref: https://github.com/cardiffnlp/tweetnlp e https://huggingface.co/docs/datasets/load_hub (RottenTomatoes)

### 3.1 Preprocessamento

Para obter um melhor resultado, foi inserido um preprocessamento dos dados que serão enviados para a predição do modelo. Como *Tokenizador* e tambem uma função simples para verificar se há "@" no texto, fazendo a troca por "@user", afim de obter uma maior assertividade pois o modelo prétreinado está acostumando a ver dados neste tipo de forma.


## 4. Modelo Escolhido

O modelo escolhido para a análise de sentimento é o "Cardiff Twitter RoBERTa", que é uma variação do modelo RoBERTa pré-treinado especificamente voltado para tarefas de classificação de sentimentos em texto. Ele é treinado em dados do Twitter e é conhecido por ser eficaz na tarefa de análise de sentimentos em mídias sociais.

## 5. Código Implementado

O código implementado realiza as seguintes etapas:

- Importa as bibliotecas necessárias, incluindo Transformers, NumPy e SciPy.
- Define uma função de pré-processamento de texto para substituir nomes de usuário e links por marcadores, a fim de proteger a privacidade e simplificar o texto.
- Define o modelo pré-treinado Cardiff Twitter RoBERTa e carrega o tokenizador e a configuração associados.
- Pré-processa o texto de exemplo, substituindo nomes de usuário e links.
- Codifica o texto usando o tokenizador.
- Passa o texto codificado para o modelo e obtém a saída.
- Calcula os escores de probabilidade de sentimento usando a função softmax.
- Classifica os sentimentos em ordem decrescente de probabilidade e imprime os resultados.

## 6. Resultados Obtidos

Os resultados obtidos com o código são os seguintes, com base no texto de exemplo "Covid cases are increasing fast!":

1) NEGATIVE 0.9435
2) NEUTRAL 0.0486
3) POSITIVE 0.0079

Os resultados indicam que o modelo classificou o texto como "LABEL_2" com uma probabilidade de 94%, o que provavelmente representa um sentimento negativo. Os outros sentimentos possíveis, "LABEL_1" (neutro) e "LABEL_0" (positivo), tiveram probabilidades menores de 0,04% e 0,007%, respectivamente.

Isso sugere que o texto de exemplo expressa um sentimento negativo em relação á afirmação de que a segunda guerra mundial foi desagradavel. No entanto, vale ressaltar que a precisão do modelo pode variar dependendo do contexto e dos dados utilizados para o treinamento.

## 7. Conclusão

O código apresentado demonstra a utilização do modelo Cardiff Twitter RoBERTa para a análise de sentimento em um texto específico. O modelo fornece probabilidades de sentimentos positivos, negativos e neutros para o texto de entrada, ajudando a entender como o sentimento é expresso no texto. Esse tipo de análise pode ser valioso em várias aplicações, como monitoramento de redes sociais e análise de opinião de clientes. No entanto, a interpretação dos resultados deve levar em consideração a natureza probabilística da classificação de sentimentos e a necessidade de treinamento em dados específicos, quando aplicável.