In [None]:
import os
import json
import glob
from langdetect import detect, DetectorFactory
from langdetect.lang_detect_exception import LangDetectException

# Dil algılama kütüphanesi için tutarlı sonuçlar
DetectorFactory.seed = 0

def preprocess_dataset(base_path):
    data = []
    problems = glob.glob(os.path.join(base_path, "problem*"))
    
    for problem_folder in problems:
        # Problem klasöründeki bilgiler
        meta_file = os.path.join(problem_folder, "meta-file.json")
        truth_file = os.path.join(problem_folder, "ground-truth.json")
        
        # Metadata ve ground-truth okuma
        with open(meta_file, "r", encoding="utf-8") as f:
            meta_data = json.load(f)
        with open(truth_file, "r", encoding="utf-8") as f:
            truth_data = json.load(f)
        
        # İçerikleri işleme
        for item in meta_data:
            file_path = os.path.join(problem_folder, item["relative-path"])
            with open(file_path, "r", encoding="utf-8") as f:
                content = f.read().strip()
            
            # Dil algılama
            try:
                lang = detect(content)
            except LangDetectException:
                lang = "unknown"
            
            # Veri kaydı
            data.append({
                "problem": os.path.basename(problem_folder),
                "author": truth_data["ground_truth"][item["id"]],
                "text": content,
                "language": lang
            })
    
    return data

# Verilerinizi işlemek için
training_path = "PycharmProjects/machineLearningProject/pan18-cross-domain-authorship-attribution-training-dataset-2017-12-02"  # Eğitim veri seti yolu
test_path = "PycharmProjects/machineLearningProject/pan18-cross-domain-authorship-attribution-test-dataset2-2018-04-20"          # Test veri seti yolu

# Eğitim ve test verilerini ön işleme
training_data = preprocess_dataset(training_path)
test_data = preprocess_dataset(test_path)

# Örnek veri çıktısı
print(training_data[:3])  # İlk 3 veriyi göster


In [None]:
import re

def clean_text(text):
    # HTML etiketlerini temizle
    text = re.sub(r'<[^>]+>', '', text)
    # Gereksiz boşlukları temizle
    text = re.sub(r'\s+', ' ', text).strip()
    # Özel karakterleri temizle
    text = re.sub(r'[^\w\s.,;!?-]', '', text)
    return text

# Tüm verilerde temizleme işlemi
for entry in training_data:
    entry["text"] = clean_text(entry["text"])

for entry in test_data:
    entry["text"] = clean_text(entry["text"])


In [None]:
import pandas as pd

# Eğitim verilerini kaydetme
training_df = pd.DataFrame(training_data)
training_df.to_csv("training_data_cleaned.csv", index=False)

# Test verilerini kaydetme
test_df = pd.DataFrame(test_data)
test_df.to_csv("test_data_cleaned.csv", index=False)
