# Experimentos com TweetEval e Modelos Pré-Treinados em Português

Este notebook realiza testes de análise de sentimentos utilizando modelos disponíveis no Hugging Face, incluindo TweetEval e modelos em português (ex.: BERTimbau).


In [1]:
!pip install torch torchvision torchaudio transformers datasets --quiet


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.1.1[0m[39;49m -> [0m[32;49m25.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


## Importando bibliotecas

In [2]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

In [3]:
model_name = 'nlptown/bert-base-multilingual-uncased-sentiment'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

sentiment_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

exemplo = 'O HB20 é um carro econômico, mas tem pouco espaço interno.'
print(sentiment_pipeline(exemplo))

Device set to use mps:0


[{'label': '3 stars', 'score': 0.5784284472465515}]


## Carregando modelo em Português (BERTimbau + fine-tuning para sentimentos)

In [4]:
model_name_pt = "pierreguillou/bert-base-cased-sentiment-br"
tokenizer_pt = AutoTokenizer.from_pretrained(model_name_pt)
model_pt = AutoModelForSequenceClassification.from_pretrained(model_name_pt)

sentiment_pipeline_pt = pipeline("sentiment-analysis", model=model_pt, tokenizer=tokenizer_pt)


exemplo_pt = 'O Onix tem bom consumo, mas o espaço traseiro poderia ser melhor.'

print(sentiment_pipeline_pt(exemplo_pt))

OSError: pierreguillou/bert-base-cased-sentiment-br is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `hf auth login` or by passing `token=<your_token>`

## Testando com o dataset TweetEval (sentiment - inglês)
⚠️ Nota: TweetEval está em inglês, mas serve como referência inicial de benchmark.

In [None]:
dataset = load_dataset('tweet_eval', 'sentiment')
print(dataset)

### Exemplo de avaliação com TweetEval (inglês)

In [None]:
exemplos = dataset['test']['text'][:5]
for texto in exemplos:
    print(texto)
    print(sentiment_pipeline(texto))
    print('-'*50)

## Avaliação em Português
Exemplo com frases simuladas sobre carros (HB20, Onix, Argo).

In [None]:
frases_pt = [
    "O HB20 é econômico, mas o acabamento poderia ser melhor.",
    "O Onix é muito confortável e tem ótimo custo-benefício.",
    "O Argo apresenta falhas no motor segundo alguns usuários."
]

for frase in frases_pt:
    print(frase, "->", sentiment_pipeline_pt(frase))

## Próximos passos
- Expandir testes para coleções maiores de tweets/reclamações.
- Comparar métricas de performance entre TweetEval (inglês) e modelos PT-BR.
- Integrar resultados com o banco de dados e dashboard.
