In [1]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer, pipeline
import pandas as pd

model_name = "yiyanghkust/finbert-tone"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

sentiment_analyzer = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer)

def clean_text(text):
    return str(text).strip()

data = pd.read_csv('content_only.csv')

data['Cleaned_Content'] = data['İçerik Stemmed'].apply(clean_text)

sentiments = []
for idx, content in enumerate(data['Cleaned_Content']):
    print(f"Analiz ediliyor: Satır {idx + 1}/{len(data)}")
    try:
        sentiment = sentiment_analyzer(content[:512])[0] 
        sentiments.append(sentiment)
    except Exception as e:
        print(f"Satır {idx + 1} işlenirken hata oluştu: {e}")
        sentiments.append({'label': 'ERROR', 'score': 0})  

data['Sentiment_Label'] = [s['label'] for s in sentiments]
data['Sentiment_Score'] = [s['score'] for s in sentiments]

data.drop(columns=['Cleaned_Content'], inplace=True)

output_path = 'crypto_news_sentiment_finbert_processed.csv'
data.to_csv(output_path, index=False)

print(f"Duygu analizi tamamlandı! Sonuçlar {output_path} dosyasına kaydedildi.")


Device set to use cuda:0


Analiz ediliyor: Satır 1/5081
Analiz ediliyor: Satır 2/5081
Analiz ediliyor: Satır 3/5081
Analiz ediliyor: Satır 4/5081
Analiz ediliyor: Satır 5/5081


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Analiz ediliyor: Satır 6/5081
Analiz ediliyor: Satır 7/5081
Analiz ediliyor: Satır 8/5081
Analiz ediliyor: Satır 9/5081
Analiz ediliyor: Satır 10/5081
Analiz ediliyor: Satır 11/5081
Analiz ediliyor: Satır 12/5081
Analiz ediliyor: Satır 13/5081
Analiz ediliyor: Satır 14/5081
Analiz ediliyor: Satır 15/5081
Analiz ediliyor: Satır 16/5081
Analiz ediliyor: Satır 17/5081
Analiz ediliyor: Satır 18/5081
Analiz ediliyor: Satır 19/5081
Analiz ediliyor: Satır 20/5081
Analiz ediliyor: Satır 21/5081
Analiz ediliyor: Satır 22/5081
Analiz ediliyor: Satır 23/5081
Analiz ediliyor: Satır 24/5081
Analiz ediliyor: Satır 25/5081
Analiz ediliyor: Satır 26/5081
Analiz ediliyor: Satır 27/5081
Analiz ediliyor: Satır 28/5081
Analiz ediliyor: Satır 29/5081
Analiz ediliyor: Satır 30/5081
Analiz ediliyor: Satır 31/5081
Analiz ediliyor: Satır 32/5081
Analiz ediliyor: Satır 33/5081
Analiz ediliyor: Satır 34/5081
Analiz ediliyor: Satır 35/5081
Analiz ediliyor: Satır 36/5081
Analiz ediliyor: Satır 37/5081
Analiz edili

In [3]:
import pandas as pd

file_path = "crypto_news_sentiment_finbert_processed.csv"  
df = pd.read_csv(file_path)

label_mapping = {"Neutral": 0, "Positive": 1, "Negative": 2}
df['Sentiment_Label'] = df['Sentiment_Label'].map(label_mapping)

df.to_csv(file_path, index=False)

print(f"Dönüştürülen veri başarıyla '{file_path}' dosyasına kaydedildi.")


Dönüştürülen veri başarıyla 'crypto_news_sentiment_finbert_processed.csv' dosyasına kaydedildi.


In [5]:
import pandas as pd

file_path = 'crypto_news_sentiment_finbert_processed.csv'
data = pd.read_csv(file_path)

if 'Sentiment_Score' in data.columns:
    data_without_baslik = data.drop(columns=['Sentiment_Score'])
else:
    data_without_baslik = data  

output_path = 'crypto_news_sentiment_finbert_processed.csv'
data_without_baslik.to_csv(output_path, index=False)

print(f"Düzenlenmiş dosya kaydedildi: {output_path}")


Düzenlenmiş dosya kaydedildi: crypto_news_sentiment_finbert_processed.csv


In [7]:
import pandas as pd

file_path = "combined_processed_filtered_news.csv" 
df = pd.read_csv(file_path)

class_counts = df['Sentiment_Label'].value_counts()

print("\nSentiment_Label sütunundaki sınıf dağılımı:")
print(f"0 (Neutral): {class_counts.get(0, 0)} adet")
print(f"1 (Positive): {class_counts.get(1, 0)} adet")
print(f"2 (Negative): {class_counts.get(2, 0)} adet")



Sentiment_Label sütunundaki sınıf dağılımı:
0 (Neutral): 4949 adet
1 (Positive): 1880 adet
2 (Negative): 536 adet
