In [4]:
import os
import pandas as pd

In [5]:
def generate_metadata(root_dir, output_csv, file_extensions):
    metadata = []

    domain_mapping = {
    #    "for-2sec\\for-2seconds": "2seconds",
        "for-norm\\for-norm": "norm",
        "for-original\\for-original": "original",
        "for-rerec\\for-rerecorded": "rerecorded",
    }

    domain_path_continue = [
    #    "for-2sec\\for-2seconds",
        "for-norm\\for-norm",
        "for-original\\for-original",
        "for-rerec\\for-rerecorded",
    ]

    set_type = [
        "testing",
        "training",
        "validation",
    ]
    
    for domain_folder_name in domain_path_continue:
        domain_path = os.path.join(root_dir, domain_folder_name)
        if not os.path.isdir(domain_path):
            continue

        domain = domain_mapping.get(domain_folder_name.lower(), domain_folder_name)

        for split_folder_name in set_type:
            split_path = os.path.join(domain_path, split_folder_name)
            if not os.path.isdir(split_path):
                continue

            for label in ["fake", "real"]:
                label_path = os.path.join(split_path, label)
                if not os.path.isdir(label_path):
                    continue
                
                for filename in os.listdir(label_path):
                    file_path = os.path.join(label_path, filename)

                    if os.path.isfile(file_path) and any(filename.lower().endswith(ext) for ext in file_extensions):
                        first_part = filename.split(".")[0]
                        utterance_id = first_part[4:]

                        metadata.append(
                            {
                                "file_path": file_path,
                                "label": label,  
                                "source_dataset": "FakeOrReal", 
                                "domain": domain,
                                "speaker_id": "",  
                                "utterance_id": utterance_id,
                                "split": split_folder_name, 
                            }
                        )

    df = pd.DataFrame(metadata)
    df.to_csv(output_csv, index=False)
    print(f"Đã tạo file metadata CSV tại: {output_csv}")
    print(f"Tổng số bản ghi: {len(df)}")
    print("Vui lòng điền cột 'label' (fake/real) vào file CSV này.")
    print("Sau khi điền, bạn có thể chạy script tổ chức lại dataset.")


In [6]:
DATASET_ROOT_DIR = "F:\\Deepfake-Audio-Detector\\datasets\\for-dataset"
OUTPUT_METADATA_CSV = "F:\\Deepfake-Audio-Detector\\datasets\\for-dataset\\generated_metadata.csv"
FILE_EXTENSIONS = [".wav", ".npy", ".png", "flac"]

if __name__ == "__main__":
    generate_metadata(DATASET_ROOT_DIR, OUTPUT_METADATA_CSV, FILE_EXTENSIONS)


Đã tạo file metadata CSV tại: F:\Deepfake-Audio-Detector\datasets\for-dataset\generated_metadata.csv
Tổng số bản ghi: 123481
Vui lòng điền cột 'label' (fake/real) vào file CSV này.
Sau khi điền, bạn có thể chạy script tổ chức lại dataset.
