Library

In [2]:
!pip install transformers torch scikit-learn


Collecting scikit-learn
  Downloading scikit_learn-1.5.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (13 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Downloading scipy-1.14.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (60 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.4.2-py3-none-any.whl.metadata (5.4 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.5.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.5.2-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (12.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m60.4 MB/s[0m eta [36m0:00:00[0m:00:01[0m
[?25hDownloading joblib-1.4.2-py3-none-any.whl (301 kB)
Downloading scipy-1.14.1-cp312-cp312-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (40.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.8/40.8 MB[0m [31m62.6 MB/s[0m eta [36m0:00:0

Code

In [5]:
from transformers import BertTokenizer, BertForSequenceClassification
from transformers import pipeline
from sklearn.metrics import accuracy_score

# Carregar o tokenizer e o modelo ProsusAI/finbert
tokenizer = BertTokenizer.from_pretrained("ProsusAI/finbert")
model = BertForSequenceClassification.from_pretrained("ProsusAI/finbert")

# Criar o pipeline de análise de sentimento
finbert_sentiment = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Exemplo de dados rotulados (conjunto de notícias e suas classificações reais)
noticias = [
    "The stock market experienced a huge drop today due to unforeseen events.",
    "The company's growth this quarter has exceeded expectations, leading to positive outlooks.",
    "The product launch was average, with neutral feedback from most users.",
    "Sales declined rapidly over the last month, which affected the company's reputation."
]

# Classificações reais correspondentes ('positive', 'neutral', 'negative')
labels_reais = ["negative", "positive", "neutral", "negative"]

# Previsão do modelo para cada notícia e exibição das porcentagens de sentimento
labels_preditas = []
for noticia in noticias:
    # Realizar a análise de sentimento
    resultados = finbert_sentiment(noticia)

    # Inicializar dicionário para armazenar os resultados
    sentimentos = {"positive": 0, "neutral": 0, "negative": 0}

    # Atualizar o dicionário com as porcentagens dos resultados
    for resultado in resultados:
        sentimentos[resultado['label'].lower()] = round(resultado['score'] * 100, 2)

    # Exibir as porcentagens de sentimento
    print(f"Notícia: {noticia}")
    print(f"Positivo: {sentimentos['positive']}%")
    print(f"Neutro: {sentimentos['neutral']}%")
    print(f"Negativo: {sentimentos['negative']}%\n")

    # Capturar o rótulo com maior probabilidade
    label_mais_alta = max(resultados, key=lambda x: x['score'])['label'].lower()
    labels_preditas.append(label_mais_alta)

# Calcular a acurácia
acuracia = accuracy_score(labels_reais, labels_preditas)

# Exibir a acurácia
print(f"Acurácia do modelo: {acuracia * 100:.2f}%")



Notícia: The stock market experienced a huge drop today due to unforeseen events.
Positivo: 0%
Neutro: 0%
Negativo: 97.36%

Notícia: The company's growth this quarter has exceeded expectations, leading to positive outlooks.
Positivo: 95.75%
Neutro: 0%
Negativo: 0%

Notícia: The product launch was average, with neutral feedback from most users.
Positivo: 0%
Neutro: 0%
Negativo: 70.38%

Notícia: Sales declined rapidly over the last month, which affected the company's reputation.
Positivo: 0%
Neutro: 0%
Negativo: 97.25%

Acurácia do modelo: 75.00%


In [1]:
import pandas as pd
from transformers import BertTokenizer, BertForSequenceClassification, pipeline

# Carregar o tokenizer e o modelo ProsusAI/finbert
tokenizer = BertTokenizer.from_pretrained("ProsusAI/finbert")
model = BertForSequenceClassification.from_pretrained("ProsusAI/finbert")

# Criar o pipeline de análise de sentimento
finbert_sentiment = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

# Carregar o CSV com as notícias
df = pd.read_csv('./database/news_texts.csv')  # Substitua 'noticias.csv' pelo caminho do seu arquivo CSV

# Extrair as notícias de uma coluna específica (ex: coluna "noticia")
noticias = df['news_text'].tolist()  # Certifique-se de que a coluna se chama 'noticia'

# Lista para armazenar os resultados
resultados_sentimentos = []

# Loop para analisar cada notícia
for noticia in noticias:
    # Realizar a análise de sentimento
    resultados = finbert_sentiment(noticia)

    # Inicializar dicionário para armazenar os resultados
    sentimentos = {"positive": 0, "neutral": 0, "negative": 0}

    # Atualizar o dicionário com as porcentagens dos resultados
    for resultado in resultados:
        sentimentos[resultado['label'].lower()] = round(resultado['score'] * 100, 2)

    # Capturar o sentimento com maior pontuação
    label_mais_alta = max(resultados, key=lambda x: x['score'])['label'].lower()

    # Armazenar o resultado na lista
    resultados_sentimentos.append(label_mais_alta)

# Criar um novo DataFrame com as notícias e os resultados da análise
df_resultados = pd.DataFrame({
    'noticia': noticias,
    'resultado': resultados_sentimentos
})

# Salvar o DataFrame em um novo CSV
df_resultados.to_csv('resultados_noticias.csv', index=False)

print("Análise de sentimento concluída e resultados salvos em 'resultados_noticias.csv'")

  from .autonotebook import tqdm as notebook_tqdm


Análise de sentimento concluída e resultados salvos em 'resultados_noticias.csv'
