In [1]:
import re
import nltk
from nltk.corpus import stopwords as nltk_stopwords
from collections import Counter
import pandas as pd
import matplotlib.pyplot as plt
from wordcloud import WordCloud
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
import os

nltk.download('stopwords')


turkce_stopwords = set(nltk_stopwords.words('turkish'))
ozel_stopwords = {
    've', 'bir', 'bu', 'da', 'de', 'için', 'ile', 'ama', 'fakat', 'ancak', 'çünkü', 'gibi',
    'mi', 'mı', 'mu', 'mü', 'ki', 'diye', 'ya', 'veya', 'ya da', 'daha', 'en', 'çok', 'az',
    'olan', 'olduğu', 'olarak', 'ise', 'yani', 'hem', 'ne', 'niçin', 'neden', 'ben', 'sen',
    'biz', 'siz', 'onlar', 'benim', 'senin', 'bizim', 'sizin', 'birçok', 'bazı', 'her', 'hiç',
    'şey', 'şu', 'o', 'tüm', 'hepsi', 'rt'
}
stopwords = turkce_stopwords.union(ozel_stopwords)


def temizle(text):
    text = re.sub(r'http\S+', '', text)
    text = re.sub(r'@\w+', '', text)
    text = re.sub(r'#\w+', '', text)
    text = re.sub(r'[^\w\sçğıöşüÇĞİÖŞÜ]', '', text)
    text = text.lower()
    text = re.sub(r'\s+', ' ', text).strip()
    return text

def stopwords_temizle(text):
    kelimeler = text.split()
    filtreli = [k for k in kelimeler if k not in stopwords]
    return " ".join(filtreli)


model_name = "savasy/bert-base-turkish-sentiment-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)
labels = ['Negatif', 'Pozitif']

def analiz_et(text, threshold=0.65):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, max_length=128)
    outputs = model(**inputs)
    probs = torch.nn.functional.softmax(outputs.logits, dim=1)
    confidence, predicted_class = torch.max(probs, dim=1)
    if confidence.item() < threshold:
        return "Nötr", confidence.item()
    else:
        return labels[predicted_class.item()], confidence.item()


def yorumla(puan):
    if puan < 1:
        return "Genel olarak olumsuz bir hava hakim."
    elif puan < 1.5:
        return "Duygular nötr seviyede."
    else:
        return "Pozitif bir hava gözlemleniyor."


veriler = pd.read_csv("sozcu_news.csv")
ham_haberler = veriler['baslik'].dropna().tolist()


temizlenmis_haberler = [stopwords_temizle(temizle(h)) for h in ham_haberler if len(h.strip()) > 2]


sonuclar = []
for haber in temizlenmis_haberler:
    duygu, guven = analiz_et(haber)
    sonuclar.append({'haber': haber, 'duygu': duygu, 'guven': guven})

df_duygu = pd.DataFrame(sonuclar)


duygu_puan_map = {'Negatif': 0, 'Nötr': 1, 'Pozitif': 2}
df_duygu['duygu_puani'] = df_duygu['duygu'].map(duygu_puan_map)

ortalama_puan = df_duygu['duygu_puani'].mean()


yorum = yorumla(ortalama_puan)


df_sonuc = pd.DataFrame({
    'ortalama_duygu_puani': [ortalama_puan],
    'yorum': [yorum]
})


os.makedirs("data/news", exist_ok=True)
df_sonuc.to_csv("haber_yorum.csv", index=False, encoding="utf-8-sig")

print("✅ Haberlerin ortalama duygu puanı ve yorumu kaydedildi: data/news/haber_yorum.csv")
print(df_sonuc)


[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\furka\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


✅ Haberlerin ortalama duygu puanı ve yorumu kaydedildi: data/news/haber_yorum.csv
   ortalama_duygu_puani                                 yorum
0              0.333333  Genel olarak olumsuz bir hava hakim.
