In [1]:
import numpy as np

In [2]:
def clean_subject_id(subject_id):
    """Nettoie un ID de sujet en retirant les suffixes .nii.gz et _seg.nii.gz."""
    if subject_id.endswith('_seg.nii.gz'):
        subject_id = subject_id.replace('_seg.nii.gz', '')
    elif subject_id.endswith('.nii.gz'):
        subject_id = subject_id.replace('.nii.gz', '')
    return subject_id

def load_subjects(file_path, clean_ids=False):
    """Charge les sujets d’un fichier texte. Nettoie les IDs si demandé."""
    subjects = set()
    with open(file_path, 'r') as f:
        for line in f:
            subj = line.strip()
            if not subj:
                continue
            if clean_ids:
                subj = clean_subject_id(subj)
            subjects.add(subj)
    return subjects

In [3]:
# Fichiers
bdd_file = './VL_all_suj.txt'
set_files = {
    "./VL/sarcopenia_subj_DIASEM.txt": "sarcopenia",
    "./VL/test_cases_1.txt": "test set 1",
    "./VL/train_cases_1.txt": "train set 1"
}

In [5]:

# Charger la base de données en nettoyant les suffixes
bdd_subjects = load_subjects(bdd_file, clean_ids=True)
print(bdd_subjects)

{'sujet6_VL_fort', 'sujet6_VL_pad', 'GG131_VL', 'sujet5_VL_pad', 'sujet12_VL_faible', 'DB145_VL', 'sujet5_VL_fort', 'IJ157_VL', 'sujet11_VL_faible', 'LE120_VL', 'sujet2_VL_pad', 'CR159_VL', 'SM127_VL', 'PP104_VL', 'sujet12_VL_pad', 'HM124_VL', 'RD132_VL', 'CG115_VL', 'sujet13_VL_fort', 'DI154_VL', 'EM151_VL', 'sujet11_VL_pad', 'TT129_VL', 'sujet3_VL_fort', 'AM112_VL', 'sujet9_VL_faible', 'BA137_VL', 'sujet13_VL_pad', 'sujet2_VL_faible', 'sujet9_VL_fort', 'sujet4_VL_fort', 'sujet4_VL_faible', 'BH116_VL', 'sujet10_VL_fort', 'sujet7_VL_faible', 'BC167_VL', 'sujet14_VL_fort', 'CG147_VL', 'DH156_VL', 'MA119_VL', 'sujet12_VL_fort', 'DP172_VL', 'sujet8_VL_fort', 'LJ139_VL', 'EP105_VL', 'SC146_VL', 'LJ168_VL', 'JJ142_VL', 'SS130_VL', 'LA162_VL', 'DO125_VL', 'RA150_VL', 'LA134_VL', 'BJ128_VL', 'sujet14_VL_faible', 'sujet15_VL_fort', 'AL135_VL', 'RA126_VL', 'sujet6_VL_faible', 'RY166_VL', 'TC152_VL', 'PJ165_VL', 'MA113_VL', 'sujet1_VL_pad', 'BM103_VL', 'RJ136_VL', 'sujet8_VL_pad', 'sujet3_VL_pad

In [6]:
len(bdd_subjects)

101

In [7]:
# Comparaison avec les fichiers de set
for file_path, label in set_files.items():
    subjects = load_subjects(file_path, clean_ids=False)  # Les autres fichiers ont déjà les bons IDs
    missing_subjects = subjects - bdd_subjects
    if missing_subjects:
        print(f"\n❌ Sujets du fichier '{label}' absents de la BDD :")
        for subj in sorted(missing_subjects):
            print(f" - {subj}")
    else:
        print(f"\n✅ Tous les sujets du fichier '{label}' sont présents dans la BDD.")


✅ Tous les sujets du fichier 'sarcopenia' sont présents dans la BDD.

❌ Sujets du fichier 'test set 1' absents de la BDD :
 - sujet9_VL_pad

❌ Sujets du fichier 'train set 1' absents de la BDD :
 - PL158_VL
 - sujet1_VL_faible
 - sujet1_VL_fort
