# RoBERTa

[link para a p√°gina do roberta](https://huggingface.co/tbluhm/clf-sentimentos-cmts)


* O modelo `tbluhm/clf-sentimentos-cmts` √© uma vers√£o do modelo **RoBERTa** (*Robustly optimized BERT approach*) treinada especificamente para an√°lise de sentimento em tweets.

O modelo clf-sentimentos-cmts representa aplica√ß√£o de t√©cnicas de aprendizado de m√°quina para tarefas espec√≠ficas de processamento de linguagem natural (PLN), em particular, a classifica√ß√£o de sentimentos em textos extra√≠dos de redes sociais em portugu√™s do Brasil, incluindo o processamento de emojis. Este modelo √© uma adapta√ß√£o do XLM-RoBERTa, uma arquitetura de Transformer altamente eficaz e robusta pr√©-treinada em uma vasta gama de dados multil√≠ngues.

Ao contr√°rio do treinamento padr√£o de um modelo de linguagem, o processo de fine-tuning do tbluhm/clf-sentimentos-cmts envolve ajustar os par√¢metros do XLM-RoBERTa em um conjunto de dados espec√≠fico, otimizando-o para a tarefa de classifica√ß√£o de texto de sentimentos em portugu√™s do Brasil e incluindo a interpreta√ß√£o de emojis. Esse conjunto de dados diversificado inclui coment√°rios de perfis de pol√≠ticos, artistas e empresas do ramo automobil√≠stico, refletindo uma ampla variedade de contextos e express√µes lingu√≠sticas encontradas nas redes sociais brasileiras.

In [1]:
from transformers import pipeline

# Carregar o modelo tbluhm/clf-sentimentos-cmts
analise_sentimento =  pipeline("text-classification", model="tbluhm/clf-sentimentos-cmts")

# Exemplo de texto para an√°lise de sentimento
texto = "Excelente not√≠cia para todos os brasileiros!"

# Realizar an√°lise de sentimentos no texto
resultado = analise_sentimento(texto)

# Imprimir o resultado
print(resultado)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


config.json:   0%|          | 0.00/957 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.34k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

[{'label': 'neutral', 'score': 0.463728129863739}]


In [2]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer
import numpy as np
from scipy.special import softmax

# Carregar o modelo e o tokenizer
model_name = "tbluhm/clf-sentimentos-cmts"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Fun√ß√£o para pr√©-processar o texto
def preprocess(text):
    new_text = []
    for t in text.split(" "):
        t = '@user' if t.startswith('@') and len(t) > 1 else t
        t = 'http' if t.startswith('http') else t
        new_text.append(t)
    return " ".join(new_text)

# Texto de exemplo
text = "Estou muito feliz hoje! üòä, que dia maravilhoso ensolarado, radiante"
text = preprocess(text)

# Tokenizar e obter as previs√µes
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
scores = output[0][0].detach().numpy()
scores = softmax(scores)

# Etiquetas
labels = ['Negative', 'Neutral', 'Positive']
ranking = np.argsort(scores)[::-1]
for i in range(scores.shape[0]):
    l = labels[ranking[i]]
    s = scores[ranking[i]]
    print(f"{i+1}) {l} {np.round(float(s), 4)}")


1) Positive 0.4898
2) Neutral 0.4345
3) Negative 0.0757


* Este aviso indica que voc√™ n√£o configurou um token de autentica√ß√£o `*(HF_TOKEN)* `para acessar o Hugging Face Hub. Embora a autentica√ß√£o seja recomendada para acessar modelos e datasets privados, ela √© opcional para recursos p√∫blicos. Para resolver isso, voc√™ pode criar um token na p√°gina de configura√ß√µes do Hugging Face e configur√°-lo como um segredo no Google Colab.


* Este aviso informa que o par√¢metro *`clean_up_tokenization_spaces`* n√£o foi definido. Atualmente, ele √© definido como `True` por padr√£o, mas isso ser√° alterado para *False* na vers√£o 4.45 da biblioteca transformers. Para evitar esse aviso, voc√™ pode definir explicitamente o par√¢metro ao chamar a fun√ß√£o de tokeniza√ß√£o.

Para criar um token de acesso no Hugging Face, siga os passos abaixo:

1. **Crie uma conta ou fa√ßa login**:
   - Acesse [Hugging Face](https://huggingface.co/) e crie uma conta ou fa√ßa login na sua conta existente.

2. **Acesse as configura√ß√µes**:
   - Clique no √≠cone do seu perfil no canto superior direito e selecione "Settings" (Configura√ß√µes).

3. **V√° para a se√ß√£o de tokens de acesso**:
   - No menu √† esquerda, clique em "Access Tokens" (Tokens de Acesso).

4. **Crie um novo token**:
   - Clique no bot√£o "New token" (Novo token).
   - D√™ um nome ao seu token para identific√°-lo facilmente.
   - Selecione o n√≠vel de permiss√£o desejado (leitura, escrita, etc.).

5. **Salve o token**:
   - Clique em "Create" (Criar) para gerar o token.
   - Copie o token gerado e guarde-o em um local seguro. Voc√™ precisar√° dele para autenticar suas requisi√ß√µes.



[Criar Token no Hugging Face](https://huggingface.co/docs/hub/security-tokens)

### Usando o Token no C√≥digo

Depois de criar o token, voc√™ pode us√°-lo em seu c√≥digo Python para autenticar suas requisi√ß√µes ao Hugging Face Hub. Aqui est√° um exemplo de como usar o token com a biblioteca `transformers`:





