In [2]:
import pandas as pd

# --- DOSYA İSİMLERİ ---
# Senin ekran görüntüsündeki dosya adlarını buraya yazıyoruz
file_cr = "safe_file_2_cr.csv"                # Siber Güvenlik verisi
file_ai = "arxiv_image_filtered_data-ai.csv"  # AI verisi
OUTPUT_FILE = "human_data_merged.csv"         # Çıktı dosyasının adı

In [3]:
try:
    # 1. Dosyaları Oku
    df1 = pd.read_csv(file_cr)
    df2 = pd.read_csv(file_ai)
    
    print(f"Dosya 1 (CR) Yüklendi: {len(df1)} satır")
    print(f"Dosya 2 (AI) Yüklendi: {len(df2)} satır")

    # 2. Sadece İstenen Sütunları Seç ('title' ve 'summary')
    # Proje ileride 'label' isteyeceği için şimdiden 'human' etiketi eklemek çok iyi olur.
    # Eğer istemezsen aşağıdaki 'label' satırlarını silebilirsin.
    df1 = df1[['title', 'summary']].copy()
    df2 = df2[['title', 'summary']].copy()
    
    # Etiketleme (İkisi de Arxiv'den geldiği için İnsan yazımıdır)
    df1['label'] = 'human'
    df2['label'] = 'human'

    # 3. Verileri Alt Alta Birleştir (Concat)
    df_combined = pd.concat([df1, df2], ignore_index=True)

    # 4. Tekrar Eden Verileri Temizle (Duplicate Removal)
    # Aynı makale hem AI hem Security kategorisine girmiş olabilir.
    initial_count = len(df_combined)
    df_combined.drop_duplicates(subset=['title'], inplace=True)
    final_count = len(df_combined)

    # 5. Kaydet
    df_combined.to_csv(OUTPUT_FILE, index=False)

    print("-" * 30)
    print(f"Birleştirme Başarılı!")
    print(f"Toplam Veri: {initial_count}")
    print(f"Tekrar Edenler Silindi: {initial_count - final_count} adet")
    print(f"NET TOPLAM SATIR: {final_count}")
    print(f"Yeni dosya oluşturuldu: {OUTPUT_FILE}")
    print("-" * 30)
    print(df_combined.head())

except FileNotFoundError as e:
    print(f"Hata: Dosya bulunamadı -> {e}")
except KeyError as e:
    print(f"Hata: Dosyalarda 'title' veya 'summary' sütunu eksik olabilir -> {e}")

Dosya 1 (CR) Yüklendi: 1600 satır
Dosya 2 (AI) Yüklendi: 1432 satır
------------------------------
Birleştirme Başarılı!
Toplam Veri: 3032
Tekrar Edenler Silindi: 333 adet
NET TOPLAM SATIR: 2699
Yeni dosya oluşturuldu: human_data_merged.csv
------------------------------
                                               title  \
0  TAB-DRW: A DFT-based Robust Watermark for Gene...   
1  MAD-DAG: Protecting Blockchain Consensus from MEV   
2  Constructing and Benchmarking: a Labeled Email...   
3  Illuminating the Black Box: Real-Time Monitori...   
4  Data Exfiltration by Compression Attack: Defin...   

                                             summary  label  
0  The rise of generative AI has enabled the prod...  human  
1  Blockchain security is threatened by selfish m...  human  
2  Phishing and spam emails remain a major cybers...  human  
3  Backdoor attacks pose severe security threats ...  human  
4  With the rapid expansion of data lakes storing...  human  
