In [None]:
import pandas as pd
import re

# 1. VERİ YÜKLEME
# Veri yolunu, 'twitter-sentiment-analizi' klasörünüzdeki 'data/test.csv' konumuna göre ayarlayın.
# Eğer dosya adınız farklıysa, 'test.csv' kısmını düzeltin.
VERI_YOLU = r'data/test.csv' 

try:
    # Veri setiniz genelde UTF-8 formatında olur, farklıysa encoding değiştirebiliriz.
    df = pd.read_csv(VERI_YOLU)
    print("✅ Veri başarıyla yüklendi.")
except FileNotFoundError:
    print(f"HATA: Dosya '{VERI_YOLU}' yolunda bulunamadı. Lütfen dosya yolunu kontrol edin.")
    exit() # Hata durumunda kodu durdururuz.

# 2. TEMEL TEMİZLİK VE FİLTRELEME
# Sadece text (tweet metni) ve label (etiket) sütunlarını alıyoruz.
df = df[['text', 'label']] 

# 'Notr' etiketlerini kaldırıyoruz. Sadece 'Positive' ve 'Negative' kalacak.
df = df[df['label'] != 'Notr'].reset_index(drop=True)
print(f"\n✅ 'Notr' etiketleri kaldırıldı. Kalan veri satır sayısı: {len(df)}")


# 3. METİN TEMİZLİK FONKSİYONU
def temel_metin_temizligi(text):
    text = str(text)
    # URL'leri kaldırma
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    # Kullanıcı adlarını (@kullanici) kaldırma
    text = re.sub(r'@\w+', '', text)
    # Sadece harf ve boşlukları bırakma (noktalama işaretlerini, emojileri ve sayıları kaldırır)
    text = re.sub(r'[^\w\s]', '', text)
    # Sayıları kaldırma
    text = re.sub(r'\d+', '', text)
    # Birden fazla boşluğu tek boşluğa indirme
    text = re.sub(r'\s+', ' ', text).strip()
    # Tüm metni küçük harfe çevirme
    text = text.lower()
    return text

# Temizleme işlemini uygulama
df['text_temiz'] = df['text'].apply(temel_metin_temizligi)

print("\n✅ Temel metin temizliği (URL, kullanıcı adı, küçük harf) yapıldı.")
print("\nİşlenmiş Veri Kontrolü (İlk 5 Satır):")
print(df[['text', 'text_temiz', 'label']].head())