# Notebook 06 - Experimentos com TweetEval
Este notebook demonstra como carregar, explorar e utilizar o dataset **TweetEval** para análise de sentimentos. Ele servirá como base de treino/teste para o TCC.

In [1]:
!pip install datasets transformers --quiet


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


## 1. Carregar dataset TweetEval

In [2]:
from datasets import load_dataset

# Carregar dataset de sentimento
dataset = load_dataset('cardiffnlp/tweet_eval', 'sentiment')
print(dataset)

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 45615
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 12284
    })
    validation: Dataset({
        features: ['text', 'label'],
        num_rows: 2000
    })
})


## 2. Explorar amostras do dataset

In [3]:
labels = {0: 'negativo', 1: 'neutro', 2: 'positivo'}

for i in range(5):
    print(dataset['train'][i]['text'], '=>', labels[dataset['train'][i]['label']])

"QT @user In the original draft of the 7th book, Remus Lupin survived the Battle of Hogwarts. #HappyBirthdayRemusLupin" => positivo
"Ben Smith / Smith (concussion) remains out of the lineup Thursday, Curtis #NHL #SJ" => neutro
Sorry bout the stream last night I crashed out but will be on tonight for sure. Then back to Minecraft in pc tomorrow night. => neutro
Chase Headley's RBI double in the 8th inning off David Price snapped a Yankees streak of 33 consecutive scoreless innings against Blue Jays => neutro
@user Alciato: Bee will invest 150 million in January, another 200 in the Summer and plans to bring Messi by 2017" => positivo


## 3. Usar modelo pré-treinado para teste de sentimento

In [4]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

model_name = 'nlptown/bert-base-multilingual-uncased-sentiment'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

sentiment_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

exemplo = 'O HB20 é um carro econômico, mas tem pouco espaço interno.'
print(sentiment_pipeline(exemplo))

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

Device set to use mps:0


[{'label': '3 stars', 'score': 0.5784284472465515}]


## 4. Observações
- O dataset TweetEval está em inglês. Para seu TCC, você pode usá-lo para validação metodológica.
- Para português, utilize **BERTimbau** (`neuralmind/bert-base-portuguese-cased`) ou **multilingual BERT**.
- Os dados coletados do Reclame Aqui/Twitter podem ser classificados com o modelo ajustado.