In [1]:
import pandas as pd
from transformers import pipeline
from tqdm.auto import tqdm

In [2]:
# Carregue a base de reviews 
df = pd.read_csv("../data/reviews.csv")
df.head()

Unnamed: 0,cliente,servico,review
0,Cliente_103,Fibra Óptica,Péssimo suporte ao cliente.
1,Cliente_180,TV,Ainda estou avaliando o serviço.
2,Cliente_093,Internet,O atendimento poderia ser melhor.
3,Cliente_015,Streaming,"Serviço razoável, mas melhorou ultimamente."
4,Cliente_107,Streaming,Equipe super preparada e educada.


In [3]:
# Modelo multilíngue, funciona para PT, EN, ES, etc
classifier = pipeline(
    "sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment", 
    framework="pt"  # força uso do PyTorch
)

model.safetensors:   0%|          | 0.00/669M [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


tokenizer_config.json:   0%|          | 0.00/39.0 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/872k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

Device set to use cpu


In [4]:
# Isso pode demorar um pouco se for a primeira vez (download do modelo)
tqdm.pandas()
df["sentimento_modelo"] = df["review"].progress_apply(lambda x: classifier(x)[0]['label'])
df.head()


  0%|          | 0/10000 [00:00<?, ?it/s]

Unnamed: 0,cliente,servico,review,sentimento_modelo
0,Cliente_103,Fibra Óptica,Péssimo suporte ao cliente.,1 star
1,Cliente_180,TV,Ainda estou avaliando o serviço.,4 stars
2,Cliente_093,Internet,O atendimento poderia ser melhor.,3 stars
3,Cliente_015,Streaming,"Serviço razoável, mas melhorou ultimamente.",3 stars
4,Cliente_107,Streaming,Equipe super preparada e educada.,5 stars


In [5]:
def simplifica_label(label):
    # Modelo retorna: '1 star', ..., '5 stars'
    if "1" in label or "2" in label:
        return "Negativo"
    elif "4" in label or "5" in label:
        return "Positivo"
    else:
        return "Neutro"

df["sentimento"] = df["sentimento_modelo"].apply(simplifica_label)
df.head()

Unnamed: 0,cliente,servico,review,sentimento_modelo,sentimento
0,Cliente_103,Fibra Óptica,Péssimo suporte ao cliente.,1 star,Negativo
1,Cliente_180,TV,Ainda estou avaliando o serviço.,4 stars,Positivo
2,Cliente_093,Internet,O atendimento poderia ser melhor.,3 stars,Neutro
3,Cliente_015,Streaming,"Serviço razoável, mas melhorou ultimamente.",3 stars,Neutro
4,Cliente_107,Streaming,Equipe super preparada e educada.,5 stars,Positivo


In [6]:
df.to_csv("../data/reviews_sentimentos.csv", index=False)
print('Arquivo salvo em ../data/reviews_sentimentos.csv')

Arquivo salvo em ../data/reviews_sentimentos.csv


In [7]:
df.head()

Unnamed: 0,cliente,servico,review,sentimento_modelo,sentimento
0,Cliente_103,Fibra Óptica,Péssimo suporte ao cliente.,1 star,Negativo
1,Cliente_180,TV,Ainda estou avaliando o serviço.,4 stars,Positivo
2,Cliente_093,Internet,O atendimento poderia ser melhor.,3 stars,Neutro
3,Cliente_015,Streaming,"Serviço razoável, mas melhorou ultimamente.",3 stars,Neutro
4,Cliente_107,Streaming,Equipe super preparada e educada.,5 stars,Positivo
