In [1]:
import pandas as pd

# --- DOSYA İSİMLERİ ---
EXISTING_FILE = "human_data_merged.csv"  # Önceki birleştirdiğimiz dosya (2699 satır)
NEW_FILE = "arxiv_hep_ph.csv"           # Yeni çektiğin (aslında Fizik olan) dosya (600 satır)
FINAL_OUTPUT = "human_data_final_3000.csv" # İnsan verisinin son hali



In [2]:
try:
    # 1. Dosyaları Oku
    df_main = pd.read_csv(EXISTING_FILE)
    df_new = pd.read_csv(NEW_FILE)
    
    print(f"Mevcut Veri Seti: {len(df_main)} satır")
    print(f"Yeni Eklenecek Veri: {len(df_new)} satır")

    # 2. Sütun Standardizasyonu
    # Yeni dosyadaki 'license_type', 'arxiv_url' gibi sütunları atıyoruz.
    # Sadece eğitim için gerekli olanları alıyoruz.
    df_new_clean = df_new[['title', 'summary', 'label']].copy()
    
    # Ana dosyanın da sütunlarını garantiye alalım
    df_main = df_main[['title', 'summary', 'label']].copy()

    # 3. Birleştirme (Concatenation)
    df_combined = pd.concat([df_main, df_new_clean], ignore_index=True)

    # 4. Çakışma Kontrolü (Duplicate Removal)
    # Aynı başlığa sahip makale varsa birini sil
    initial_count = len(df_combined)
    df_combined.drop_duplicates(subset=['title'], keep='first', inplace=True)
    final_count = len(df_combined)
    
    removed_count = initial_count - final_count

    # 5. Kaydet
    df_combined.to_csv(FINAL_OUTPUT, index=False)

    print("-" * 40)
    print(f"İŞLEM BAŞARILI!")
    print(f"Toplam İşlenen Veri: {initial_count}")
    print(f"Silinen Çakışma (Duplicate): {removed_count}")
    print(f"NET TOPLAM SATIR SAYISI: {final_count}")
    print(f"Dosya Oluşturuldu: {FINAL_OUTPUT}")
    print("-" * 40)
    
    # İlk 5 satırı göster
    print(df_combined.head())
    
    # Etiket kontrolü
    print("\nEtiket Dağılımı:")
    print(df_combined['label'].value_counts())

except Exception as e:
    print(f"Bir hata oluştu: {e}")

Mevcut Veri Seti: 2699 satır
Yeni Eklenecek Veri: 600 satır
----------------------------------------
İŞLEM BAŞARILI!
Toplam İşlenen Veri: 3299
Silinen Çakışma (Duplicate): 1
NET TOPLAM SATIR SAYISI: 3298
Dosya Oluşturuldu: human_data_final_3000.csv
----------------------------------------
                                               title  \
0  TAB-DRW: A DFT-based Robust Watermark for Gene...   
1  MAD-DAG: Protecting Blockchain Consensus from MEV   
2  Constructing and Benchmarking: a Labeled Email...   
3  Illuminating the Black Box: Real-Time Monitori...   
4  Data Exfiltration by Compression Attack: Defin...   

                                             summary  label  
0  The rise of generative AI has enabled the prod...  human  
1  Blockchain security is threatened by selfish m...  human  
2  Phishing and spam emails remain a major cybers...  human  
3  Backdoor attacks pose severe security threats ...  human  
4  With the rapid expansion of data lakes storing...  human  

