# Experimentos com TweetEval e Modelos Pré-Treinados em Português

Este notebook realiza testes de análise de sentimentos utilizando modelos disponíveis no Hugging Face, incluindo TweetEval e modelos em português (ex.: BERTimbau).


In [1]:
!pip install torch torchvision torchaudio transformers datasets tiktoken protobuf --quiet

SyntaxError: invalid syntax (2409234625.py, line 2)

## Importando bibliotecas

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline
from datasets import load_dataset
from huggingface_hub import login

print('bibliotecas importadas')

## Login

In [None]:
login("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")

print('login realizado.')

## Carregando modelo multilíngue (ex.: BERT Multilingual)

In [None]:
model_name = 'nlptown/bert-base-multilingual-uncased-sentiment'
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

sentiment_pipeline = pipeline('sentiment-analysis', model=model, tokenizer=tokenizer)

exemplo = 'O HB20 é um carro econômico, mas tem pouco espaço interno.'
print(sentiment_pipeline(exemplo))

## Carregando modelo em Português (BERTimbau + fine-tuning para sentimentos)

In [None]:
model_name_pt = 'cardiffnlp/twitter-xlm-roberta-base-sentiment'
tokenizer_pt = AutoTokenizer.from_pretrained(model_name_pt)
model_pt = AutoModelForSequenceClassification.from_pretrained(model_name_pt)

sentiment_pipeline_pt = pipeline('sentiment-analysis', model=model_pt, tokenizer=tokenizer_pt)

exemplo_pt = 'O Onix tem bom consumo, mas o espaço traseiro poderia ser melhor.'
print(sentiment_pipeline_pt(exemplo_pt))

## Testando com o dataset TweetEval (sentiment - inglês)
⚠️ Nota: TweetEval está em inglês, mas serve como referência inicial de benchmark.

In [None]:
dataset = load_dataset('tweet_eval', 'sentiment')
print(dataset)

### Exemplo de avaliação com TweetEval (inglês)

In [None]:
exemplos = dataset['test']['text'][:5]
for texto in exemplos:
    print(texto)
    print(sentiment_pipeline(texto))
    print('-'*50)

## Avaliação em Português
Exemplo com frases simuladas sobre carros (HB20, Onix, Argo).

In [None]:
frases_pt = [
    'O HB20 é econômico, mas o acabamento poderia ser melhor.',
    'O Onix é muito confortável e tem ótimo custo-benefício.',
    'O Argo apresenta falhas no motor segundo alguns usuários.'
]

for frase in frases_pt:
    print(frase)
    print(sentiment_pipeline_pt(frase))
    print('-'*50)

## Próximos passos
- Expandir testes para coleções maiores de tweets/reclamações.
- Comparar métricas de performance entre TweetEval (inglês) e modelos PT-BR.
- Integrar resultados com o banco de dados e dashboard.
