##  Progetto di ML Vision

In [1]:
import os
import yaml
from glob import glob

# --- CONFIGURAZIONE ---
# Inserisci qui il percorso della cartella principale del dataset (quella con il file data.yaml)
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"  # Es: "C:/Users/Tu/Downloads/Animal-Detection-1"

# Le classi che vuoi controllare
target_classes = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']
# ----------------------

def count_yolo_classes():
    # 1. Leggiamo il file data.yaml per capire quale ID numerico corrisponde a quale animale
    yaml_path = os.path.join(dataset_path, "data.yaml")
    
    try:
        with open(yaml_path, 'r') as f:
            data_config = yaml.safe_load(f)
            class_names = data_config['names'] # Lista dei nomi es: ['antelope', 'badger', ...]
            
            # Creiamo una mappa Inversa: Nome -> ID (es: {'horse': 15, 'mouse': 42})
            # Gestiamo sia il caso in cui 'names' sia una lista che un dizionario
            if isinstance(class_names, dict):
                name_to_id = {v: k for k, v in class_names.items()}
            else:
                name_to_id = {name: i for i, name in enumerate(class_names)}
                
    except FileNotFoundError:
        print(f"Errore: Non trovo il file {yaml_path}. Controlla il percorso.")
        return

    # Filtriamo solo gli ID degli animali che ti interessano
    target_ids = {}
    print("Verifica ID classi trovate:")
    for animal in target_classes:
        if animal in name_to_id:
            target_ids[name_to_id[animal]] = animal
            print(f"‚úÖ {animal} = ID {name_to_id[animal]}")
        else:
            print(f"‚ùå {animal} non trovato nel file data.yaml!")

    if not target_ids:
        print("Nessuna delle classi richieste √® stata trovata.")
        return

    # 2. Contiamo le immagini nella cartella 'train/labels'
    # In YOLO le annotazioni sono in file .txt dentro la cartella labels
    labels_path = os.path.join(dataset_path, "train", "labels")
    txt_files = glob(os.path.join(labels_path, "*.txt"))
    
    if not txt_files:
        print(f"Attenzione: Nessun file .txt trovato in {labels_path}")
        return

    # Dizionario per contare: { 'horse': {set di file univoci}, ... }
    counts = {animal: set() for animal in target_classes if animal in name_to_id}

    print(f"\nAnalisi di {len(txt_files)} file di annotazione in corso...")

    for txt_file in txt_files:
        with open(txt_file, 'r') as f:
            lines = f.readlines()
            
        for line in lines:
            parts = line.strip().split()
            if not parts: continue
            
            # Il primo numero in una riga YOLO √® l'ID della classe
            class_id = int(parts[0])
            
            # Se questo ID √® uno dei nostri target, segniamo il file
            if class_id in target_ids:
                animal_name = target_ids[class_id]
                counts[animal_name].add(txt_file)

    # 3. Risultati
    print("-" * 30)
    print("RISULTATI CONTEGGIO (TRAIN SET)")
    print("-" * 30)
    for animal, files in counts.items():
        print(f"üì∑ {animal.capitalize()}: {len(files)} immagini")
    print("-" * 30)

if __name__ == "__main__":
    count_yolo_classes()

Verifica ID classi trovate:
‚úÖ horse = ID 39
‚úÖ lizard = ID 48
‚úÖ mouse = ID 52
‚úÖ hamster = ID 34
‚úÖ donkey = ID 21

Analisi di 3779 file di annotazione in corso...
------------------------------
RISULTATI CONTEGGIO (TRAIN SET)
------------------------------
üì∑ Horse: 41 immagini
üì∑ Lizard: 36 immagini
üì∑ Mouse: 40 immagini
üì∑ Hamster: 42 immagini
üì∑ Donkey: 42 immagini
------------------------------


In [None]:
import os
import yaml
from glob import glob

# --- CONFIGURAZIONE ---
# Inserisci qui il percorso della cartella principale del dataset (quella con il file data.yaml)
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"  # Es: "C:/Users/Tu/Downloads/Animal-Detection-1"

# Le classi che vuoi controllare
target_classes = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']
# ----------------------

def count_yolo_classes():
    # 1. Leggiamo il file data.yaml per capire quale ID numerico corrisponde a quale animale
    yaml_path = os.path.join(dataset_path, "data.yaml")
    
    try:
        with open(yaml_path, 'r') as f:
            data_config = yaml.safe_load(f)
            class_names = data_config['names'] # Lista dei nomi es: ['antelope', 'badger', ...]
            
            # Creiamo una mappa Inversa: Nome -> ID (es: {'horse': 15, 'mouse': 42})
            # Gestiamo sia il caso in cui 'names' sia una lista che un dizionario
            if isinstance(class_names, dict):
                name_to_id = {v: k for k, v in class_names.items()}
            else:
                name_to_id = {name: i for i, name in enumerate(class_names)}
                
    except FileNotFoundError:
        print(f"Errore: Non trovo il file {yaml_path}. Controlla il percorso.")
        return

    # Filtriamo solo gli ID degli animali che ti interessano
    target_ids = {}
    print("Verifica ID classi trovate:")
    for animal in target_classes:
        if animal in name_to_id:
            target_ids[name_to_id[animal]] = animal
            print(f"‚úÖ {animal} = ID {name_to_id[animal]}")
        else:
            print(f"‚ùå {animal} non trovato nel file data.yaml!")

    if not target_ids:
        print("Nessuna delle classi richieste √® stata trovata.")
        return

    # 2. Contiamo le immagini nella cartella 'train/labels'
    # In YOLO le annotazioni sono in file .txt dentro la cartella labels
    labels_path = os.path.join(dataset_path, "train", "labels")
    txt_files = glob(os.path.join(labels_path, "*.txt"))
    
    if not txt_files:
        print(f"Attenzione: Nessun file .txt trovato in {labels_path}")
        return

    # Dizionario per contare: { 'horse': {set di file univoci}, ... }
    counts = {animal: set() for animal in target_classes if animal in name_to_id}

    print(f"\nAnalisi di {len(txt_files)} file di annotazione in corso...")

    for txt_file in txt_files:
        with open(txt_file, 'r') as f:
            lines = f.readlines()
            
        for line in lines:
            parts = line.strip().split()
            if not parts: continue
            
            # Il primo numero in una riga YOLO √® l'ID della classe
            class_id = int(parts[0])
            
            # Se questo ID √® uno dei nostri target, segniamo il file
            if class_id in target_ids:
                animal_name = target_ids[class_id]
                counts[animal_name].add(txt_file)

    # 3. Risultati
    print("-" * 30)
    print("RISULTATI CONTEGGIO (TRAIN SET)")
    print("-" * 30)
    for animal, files in counts.items():
        print(f"üì∑ {animal.capitalize()}: {len(files)} immagini")
    print("-" * 30)

if __name__ == "__main__":
    count_yolo_classes()

---

In [3]:
import os
import yaml
from glob import glob

# --- CONFIGURAZIONE ---
# Inserisci il percorso della cartella principale (quella che contiene data.yaml)
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11" 

# Le classi da cercare
target_classes = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']
# ----------------------

def count_all_splits():
    # 1. Leggiamo il data.yaml per la mappatura ID -> Nome
    yaml_path = os.path.join(dataset_path, "data.yaml")
    
    try:
        with open(yaml_path, 'r') as f:
            data_config = yaml.safe_load(f)
            class_names = data_config['names']
            
            # Mappa Nome -> ID
            if isinstance(class_names, dict):
                name_to_id = {v: k for k, v in class_names.items()}
            else:
                name_to_id = {name: i for i, name in enumerate(class_names)}
                
    except FileNotFoundError:
        print(f"‚ùå Errore: File data.yaml non trovato in {dataset_path}")
        return

    # Filtriamo solo gli ID richiesti
    target_ids = {}
    for animal in target_classes:
        if animal in name_to_id:
            target_ids[name_to_id[animal]] = animal
    
    if not target_ids:
        print("‚ùå Nessuna classe trovata nel file yaml.")
        return

    # 2. Prepariamo la struttura per i risultati
    # Struttura: {'horse': {'train': 0, 'valid': 0, 'test': 0}, ...}
    splits = ['train', 'valid', 'test']
    results = {animal: {s: 0 for s in splits} for animal in target_classes}

    # 3. Iteriamo su ogni cartella (train, valid, test)
    print(f"Analisi in corso su: {dataset_path}...\n")
    
    for split in splits:
        labels_path = os.path.join(dataset_path, split, "labels")
        txt_files = glob(os.path.join(labels_path, "*.txt"))
        
        if not txt_files:
            print(f"‚ö†Ô∏è  Attenzione: Cartella '{split}' vuota o non trovata.")
            continue

        for txt_file in txt_files:
            with open(txt_file, 'r') as f:
                lines = f.readlines()
            
            # Usiamo un set per questa singola immagine per non contare due volte 
            # lo stesso animale nella stessa foto (es. 2 cavalli in 1 foto = 1 foto di cavalli)
            classes_in_image = set()
            
            for line in lines:
                parts = line.strip().split()
                if parts:
                    classes_in_image.add(int(parts[0]))
            
            # Aggiorniamo i contatori globali
            for cls_id in classes_in_image:
                if cls_id in target_ids:
                    animal_name = target_ids[cls_id]
                    results[animal_name][split] += 1

    # 4. Stampa Risultati in Tabella
    print("-" * 65)
    print(f"{'CLASSE':<15} | {'TRAIN':<10} | {'VALID':<10} | {'TEST':<10} | {'TOTALE':<10}")
    print("-" * 65)
    
    for animal in target_classes:
        if animal in results:
            train_c = results[animal]['train']
            valid_c = results[animal]['valid']
            test_c  = results[animal]['test']
            total_c = train_c + valid_c + test_c
            
            print(f"{animal.capitalize():<15} | {train_c:<10} | {valid_c:<10} | {test_c:<10} | {total_c:<10}")
        else:
             print(f"{animal.capitalize():<15} | NON TROVATA NEL DATASET")
    print("-" * 65)

if __name__ == "__main__":
    count_all_splits()

Analisi in corso su: C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11...

-----------------------------------------------------------------
CLASSE          | TRAIN      | VALID      | TEST       | TOTALE    
-----------------------------------------------------------------
Horse           | 41         | 14         | 5          | 60        
Lizard          | 36         | 9          | 13         | 58        
Mouse           | 40         | 12         | 6          | 58        
Hamster         | 42         | 16         | 2          | 60        
Donkey          | 42         | 9          | 9          | 60        
-----------------------------------------------------------------


---

# Compensiamo le mancanze

In [4]:
import os
import shutil
import random
from glob import glob
from pathlib import Path

# --- CONFIGURAZIONE ---
# Il percorso della cartella principale del dataset
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"

# Quante immagini vuoi ESATTAMENTE nel test set? (Mettiamo 105 per stare sicuri sopra i 100)
DESIRED_TEST_COUNT = 105
# Quante nel validation?
DESIRED_VALID_COUNT = 30
# Il resto andr√† tutto nel TRAIN
# ----------------------

def split_dataset():
    print(f"Inizio riorganizzazione dataset in: {dataset_path}")
    
    # 1. Raccogliamo tutte le coppie (immagine + label) da tutte le sottocartelle
    all_pairs = []
    extensions = ['*.jpg', '*.jpeg', '*.png', '*.bmp']
    
    # Cerchiamo in train, valid, test
    for split in ['train', 'valid', 'test', 'val']:
        img_path = os.path.join(dataset_path, split, 'images')
        lbl_path = os.path.join(dataset_path, split, 'labels')
        
        if not os.path.exists(img_path): continue
        
        # Trova tutte le immagini
        images = []
        for ext in extensions:
            images.extend(glob(os.path.join(img_path, ext)))
            
        for img_file in images:
            # Trova il file txt corrispondente
            basename = os.path.splitext(os.path.basename(img_file))[0]
            txt_file = os.path.join(lbl_path, basename + '.txt')
            
            if os.path.exists(txt_file):
                all_pairs.append({'img': img_file, 'txt': txt_file, 'base': basename})
    
    total_files = len(all_pairs)
    print(f"Trovate {total_files} coppie totali di immagini/annotazioni.")
    
    if total_files < DESIRED_TEST_COUNT:
        print("ERRORE: Non hai abbastanza immagini totali per soddisfare la richiesta del test set!")
        return

    # 2. Mescoliamo casualmente (SHUFFLE)
    random.seed(42) # Usiamo un seed fisso per riproducibilit√†, se vuoi variare togli questa riga
    random.shuffle(all_pairs)
    
    # 3. Definiamo i tagli
    test_set = all_pairs[:DESIRED_TEST_COUNT]
    valid_set = all_pairs[DESIRED_TEST_COUNT : DESIRED_TEST_COUNT + DESIRED_VALID_COUNT]
    train_set = all_pairs[DESIRED_TEST_COUNT + DESIRED_VALID_COUNT:]
    
    print(f"Nuova distribuzione prevista -> Train: {len(train_set)}, Valid: {len(valid_set)}, Test: {len(test_set)}")

    # 4. Spostiamo i file
    # Creiamo una cartella temporanea per evitare conflitti se spostiamo file su se stessi
    # Ma dato che la struttura YOLO √® fissa, possiamo sovrascrivere se stiamo attenti.
    # Per sicurezza, svuotiamo le cartelle di destinazione logica o le ricreiamo?
    # Approccio sicuro: Spostiamo tutto dove deve andare.
    
    splits_map = {
        'train': train_set,
        'valid': valid_set,
        'test': test_set
    }
    
    for split_name, pairs in splits_map.items():
        # Percorsi destinazione
        dest_img_dir = os.path.join(dataset_path, split_name, 'images')
        dest_lbl_dir = os.path.join(dataset_path, split_name, 'labels')
        
        # Assicuriamoci che esistano
        os.makedirs(dest_img_dir, exist_ok=True)
        os.makedirs(dest_lbl_dir, exist_ok=True)
        
        for pair in pairs:
            # Nuovi percorsi
            new_img_path = os.path.join(dest_img_dir, os.path.basename(pair['img']))
            new_txt_path = os.path.join(dest_lbl_dir, os.path.basename(pair['txt']))
            
            # Spostiamo (usiamo shutil.move che gestisce anche se il file √® gi√† l√¨ vicino)
            # Controllo per non sovrascrivere se per caso sorgente == destinazione
            if pair['img'] != new_img_path:
                shutil.move(pair['img'], new_img_path)
            if pair['txt'] != new_txt_path:
                shutil.move(pair['txt'], new_txt_path)
                
    print("‚úÖ Riorganizzazione completata!")
    print("Ora esegui di nuovo lo script di conteggio per verificare.")

if __name__ == "__main__":
    split_dataset()

Inizio riorganizzazione dataset in: C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11
Trovate 5399 coppie totali di immagini/annotazioni.
Nuova distribuzione prevista -> Train: 5264, Valid: 30, Test: 105
‚úÖ Riorganizzazione completata!
Ora esegui di nuovo lo script di conteggio per verificare.


In [5]:
import os
import yaml
from glob import glob

# --- AGGIORNA SOLO QUESTO PERCORSO ---
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"
# -------------------------------------

target_classes = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']

def verify_dataset():
    print(f"Verifica requisiti in corso su: {dataset_path}...\n")
    
    # 1. Mappatura Nomi -> ID
    yaml_path = os.path.join(dataset_path, "data.yaml")
    try:
        with open(yaml_path, 'r') as f:
            data = yaml.safe_load(f)
            names = data['names']
            # Gestione lista o dizionario
            if isinstance(names, dict):
                name_to_id = {v: k for k, v in names.items()}
            else:
                name_to_id = {n: i for i, n in enumerate(names)}
    except Exception as e:
        print(f"Errore lettura YAML: {e}")
        return

    # 2. Conteggio
    splits = ['train', 'valid', 'test']
    results = {animal: {s: 0 for s in splits} for animal in target_classes}
    total_test_images = 0

    for split in splits:
        txt_files = glob(os.path.join(dataset_path, split, "labels", "*.txt"))
        
        # Conteggio per il totale del Test set
        if split == 'test':
            total_test_images = len(txt_files)

        for txt_file in txt_files:
            with open(txt_file, 'r') as f:
                content = f.read()
                
            # Identifichiamo quali animali sono presenti in questo file
            found_ids = set()
            for line in content.splitlines():
                if line.strip():
                    class_id = int(line.split()[0])
                    found_ids.add(class_id)
            
            # Aggiorniamo la tabella
            for animal in target_classes:
                if animal in name_to_id:
                    aid = name_to_id[animal]
                    if aid in found_ids:
                        results[animal][split] += 1

    # 3. Stampa Tabella e Verdetto
    print("-" * 65)
    print(f"{'CLASSE':<15} | {'TRAIN':<10} | {'VALID':<10} | {'TEST':<10} | {'TOTALE':<10}")
    print("-" * 65)
    
    min_class_count = 9999
    
    for animal in target_classes:
        t = results[animal]['test']
        print(f"{animal.capitalize():<15} | {results[animal]['train']:<10} | {results[animal]['valid']:<10} | {t:<10} | {sum(results[animal].values()):<10}")
        if t < min_class_count:
            min_class_count = t

    print("-" * 65)
    print(f"TOTALE FOTO NEL TEST SET: {total_test_images}")
    print("-" * 65)

    # 4. Controllo automatico dei requisiti
    print("\nESITO VERIFICA:")
    
    check_1 = total_test_images >= 100
    check_2 = min_class_count >= 10
    
    if check_1:
        print("‚úÖ Requisito 1: Almeno 100 immagini nel Test Set -> SODDISFATTO")
    else:
        print(f"‚ùå Requisito 1: Almeno 100 immagini nel Test Set -> NON SODDISFATTO ({total_test_images}/100)")
        
    if check_2:
        print("‚úÖ Requisito 2: Almeno 10 immagini per classe nel Test -> SODDISFATTO")
    else:
        print(f"‚ùå Requisito 2: Almeno 10 immagini per classe -> NON SODDISFATTO (Minimo trovato: {min_class_count})")

if __name__ == "__main__":
    verify_dataset()

Verifica requisiti in corso su: C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11...

-----------------------------------------------------------------
CLASSE          | TRAIN      | VALID      | TEST       | TOTALE    
-----------------------------------------------------------------
Horse           | 56         | 1          | 3          | 60        
Lizard          | 57         | 1          | 0          | 58        
Mouse           | 56         | 1          | 1          | 58        
Hamster         | 58         | 1          | 1          | 60        
Donkey          | 60         | 0          | 0          | 60        
-----------------------------------------------------------------
TOTALE FOTO NEL TEST SET: 105
-----------------------------------------------------------------

ESITO VERIFICA:
‚úÖ Requisito 1: Almeno 100 immagini nel Test Set -> SODDISFATTO
‚ùå Requisito 2: Almeno 10 immagini per classe -> NON SODDISFATTO (Minimo trovato: 0

---

Test 2

In [6]:
import os
import shutil
import random
import yaml
from glob import glob
from collections import defaultdict

# --- CONFIGURAZIONE ---
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"
target_classes_names = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']
REQUIRED_TEST_PER_CLASS = 12  # Ne mettiamo 12 per essere sicuri di superare i 10
TOTAL_TEST_SIZE = 105         # Obiettivo totale immagini test
# ----------------------

def stratified_resplit():
    print(f"üîÑ Avvio bilanciamento INTELLIGENTE su: {dataset_path}")

    # 1. Mappatura Classi dal YAML
    yaml_path = os.path.join(dataset_path, "data.yaml")
    try:
        with open(yaml_path, 'r') as f:
            data_cfg = yaml.safe_load(f)
            names = data_cfg['names']
            if isinstance(names, dict):
                name_to_id = {v: k for k, v in names.items()}
            else:
                name_to_id = {n: i for i, n in enumerate(names)}
    except Exception as e:
        print(f"‚ùå Errore YAML: {e}")
        return

    target_ids = {name_to_id[n]: n for n in target_classes_names if n in name_to_id}
    print(f"üìã ID Target trovati: {target_ids}")

    # 2. Raccogliamo TUTTI i file in un unico pool
    print("üì¶ Raccolta di tutti i file...")
    all_files = [] # Lista di tuple (img_path, txt_path, elenco_classi_nel_file)
    
    # Cerchiamo in tutte le cartelle possibili
    for split in ['train', 'valid', 'test', 'val']:
        lbl_dir = os.path.join(dataset_path, split, 'labels')
        img_dir = os.path.join(dataset_path, split, 'images')
        
        txts = glob(os.path.join(lbl_dir, "*.txt"))
        for txt in txts:
            basename = os.path.basename(txt)
            img_name = os.path.splitext(basename)[0] + ".jpg" # Assumiamo jpg, poi controlliamo
            # Cerchiamo l'immagine corrispondente (gestione estensioni)
            found_img = None
            for ext in ['.jpg', '.jpeg', '.png', '.bmp']:
                probe = os.path.join(img_dir, os.path.splitext(basename)[0] + ext)
                if os.path.exists(probe):
                    found_img = probe
                    break
            
            if found_img:
                # Leggiamo quali classi ci sono dentro
                with open(txt, 'r') as f:
                    lines = f.readlines()
                classes_in_file = set()
                for line in lines:
                    if line.strip():
                        classes_in_file.add(int(line.split()[0]))
                
                all_files.append({
                    'img': found_img,
                    'txt': txt,
                    'classes': classes_in_file,
                    'id': basename
                })

    print(f"üìä Totale file trovati: {len(all_files)}")

    # 3. Allocazione Strategica
    test_set = []
    valid_set = []
    train_set = []
    
    assigned_ids = set() # Per non duplicare file

    # A. PRIMA PASSA: Soddisfare il requisito "Minimo 10 per classe nel Test"
    print("üéØ Fase 1: Assegnazione prioritaria Test Set...")
    for tid, tname in target_ids.items():
        count = 0
        # Mischiamo per variare
        random.shuffle(all_files)
        
        for file in all_files:
            if file['id'] in assigned_ids: continue
            
            if tid in file['classes']:
                test_set.append(file)
                assigned_ids.add(file['id'])
                count += 1
                if count >= REQUIRED_TEST_PER_CLASS:
                    break
        print(f"   -> Assegnati {count} file per la classe '{tname}' al Test.")

    # B. SECONDA PASSA: Valid Set (ne mettiamo un po' a caso, es. 30 totali)
    print("‚öñÔ∏è Fase 2: Riempimento Valid Set...")
    remaining = [f for f in all_files if f['id'] not in assigned_ids]
    random.shuffle(remaining)
    
    # Prendiamo 30 file per valid
    for _ in range(30):
        if not remaining: break
        file = remaining.pop()
        valid_set.append(file)
        assigned_ids.add(file['id'])

    # C. TERZA PASSA: Riempire il Test fino a 105 totali
    curr_test_len = len(test_set)
    needed = TOTAL_TEST_SIZE - curr_test_len
    if needed > 0:
        print(f"üì• Fase 3: Aggiunta di {needed} file random al Test per raggiungere quota {TOTAL_TEST_SIZE}...")
        # Cerchiamo di prendere file che HANNO animali target se possibile, altrimenti qualsiasi cosa
        remaining = [f for f in all_files if f['id'] not in assigned_ids]
        
        # Ordiniamo: prima quelli che hanno target classes, poi gli altri
        def has_target(f):
            return any(c in target_ids for c in f['classes'])
        
        remaining.sort(key=has_target, reverse=True)
        
        for _ in range(needed):
            if not remaining: break
            file = remaining.pop(0) # Prendi il primo (il pi√π rilevante)
            test_set.append(file)
            assigned_ids.add(file['id'])

    # D. QUARTA PASSA: Tutto il resto in Train
    train_set = [f for f in all_files if f['id'] not in assigned_ids]

    print(f"\nüìù Riassunto pianificazione:")
    print(f"   TRAIN: {len(train_set)}")
    print(f"   VALID: {len(valid_set)}")
    print(f"   TEST:  {len(test_set)} (Target minimo 10/classe garantito)")

    # 4. Esecuzione Spostamenti
    print("\nüöÄ Esecuzione spostamenti fisici...")
    
    # Creiamo cartelle se non esistono
    for split in ['train', 'valid', 'test']:
        os.makedirs(os.path.join(dataset_path, split, 'images'), exist_ok=True)
        os.makedirs(os.path.join(dataset_path, split, 'labels'), exist_ok=True)

    splits_data = {'train': train_set, 'valid': valid_set, 'test': test_set}

    for split_name, files in splits_data.items():
        dest_img_dir = os.path.join(dataset_path, split_name, 'images')
        dest_lbl_dir = os.path.join(dataset_path, split_name, 'labels')
        
        for f in files:
            # Sposta Immagine
            shutil.move(f['img'], os.path.join(dest_img_dir, os.path.basename(f['img'])))
            # Sposta Label
            shutil.move(f['txt'], os.path.join(dest_lbl_dir, os.path.basename(f['txt'])))

    print("‚úÖ Ribilanciamento completato con successo.")

if __name__ == "__main__":
    stratified_resplit()

üîÑ Avvio bilanciamento INTELLIGENTE su: C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11
üìã ID Target trovati: {39: 'horse', 48: 'lizard', 52: 'mouse', 34: 'hamster', 21: 'donkey'}
üì¶ Raccolta di tutti i file...
üìä Totale file trovati: 5399
üéØ Fase 1: Assegnazione prioritaria Test Set...
   -> Assegnati 12 file per la classe 'horse' al Test.
   -> Assegnati 12 file per la classe 'lizard' al Test.
   -> Assegnati 12 file per la classe 'mouse' al Test.
   -> Assegnati 12 file per la classe 'hamster' al Test.
   -> Assegnati 12 file per la classe 'donkey' al Test.
‚öñÔ∏è Fase 2: Riempimento Valid Set...
üì• Fase 3: Aggiunta di 45 file random al Test per raggiungere quota 105...

üìù Riassunto pianificazione:
   TRAIN: 5264
   VALID: 30
   TEST:  105 (Target minimo 10/classe garantito)

üöÄ Esecuzione spostamenti fisici...
‚úÖ Ribilanciamento completato con successo.


In [7]:
import os
import yaml
from glob import glob

# --- AGGIORNA SOLO QUESTO PERCORSO ---
dataset_path = r"C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11"
# -------------------------------------

target_classes = ['horse', 'lizard', 'mouse', 'hamster', 'donkey']

def verify_dataset():
    print(f"Verifica requisiti in corso su: {dataset_path}...\n")
    
    # 1. Mappatura Nomi -> ID
    yaml_path = os.path.join(dataset_path, "data.yaml")
    try:
        with open(yaml_path, 'r') as f:
            data = yaml.safe_load(f)
            names = data['names']
            # Gestione lista o dizionario
            if isinstance(names, dict):
                name_to_id = {v: k for k, v in names.items()}
            else:
                name_to_id = {n: i for i, n in enumerate(names)}
    except Exception as e:
        print(f"Errore lettura YAML: {e}")
        return

    # 2. Conteggio
    splits = ['train', 'valid', 'test']
    results = {animal: {s: 0 for s in splits} for animal in target_classes}
    total_test_images = 0

    for split in splits:
        txt_files = glob(os.path.join(dataset_path, split, "labels", "*.txt"))
        
        # Conteggio per il totale del Test set
        if split == 'test':
            total_test_images = len(txt_files)

        for txt_file in txt_files:
            with open(txt_file, 'r') as f:
                content = f.read()
                
            # Identifichiamo quali animali sono presenti in questo file
            found_ids = set()
            for line in content.splitlines():
                if line.strip():
                    class_id = int(line.split()[0])
                    found_ids.add(class_id)
            
            # Aggiorniamo la tabella
            for animal in target_classes:
                if animal in name_to_id:
                    aid = name_to_id[animal]
                    if aid in found_ids:
                        results[animal][split] += 1

    # 3. Stampa Tabella e Verdetto
    print("-" * 65)
    print(f"{'CLASSE':<15} | {'TRAIN':<10} | {'VALID':<10} | {'TEST':<10} | {'TOTALE':<10}")
    print("-" * 65)
    
    min_class_count = 9999
    
    for animal in target_classes:
        t = results[animal]['test']
        print(f"{animal.capitalize():<15} | {results[animal]['train']:<10} | {results[animal]['valid']:<10} | {t:<10} | {sum(results[animal].values()):<10}")
        if t < min_class_count:
            min_class_count = t

    print("-" * 65)
    print(f"TOTALE FOTO NEL TEST SET: {total_test_images}")
    print("-" * 65)

    # 4. Controllo automatico dei requisiti
    print("\nESITO VERIFICA:")
    
    check_1 = total_test_images >= 100
    check_2 = min_class_count >= 10
    
    if check_1:
        print("‚úÖ Requisito 1: Almeno 100 immagini nel Test Set -> SODDISFATTO")
    else:
        print(f"‚ùå Requisito 1: Almeno 100 immagini nel Test Set -> NON SODDISFATTO ({total_test_images}/100)")
        
    if check_2:
        print("‚úÖ Requisito 2: Almeno 10 immagini per classe nel Test -> SODDISFATTO")
    else:
        print(f"‚ùå Requisito 2: Almeno 10 immagini per classe -> NON SODDISFATTO (Minimo trovato: {min_class_count})")

if __name__ == "__main__":
    verify_dataset()

Verifica requisiti in corso su: C:\Users\JadeOliverGuevarra\Documents\computer_vision\project work\Animal Detection.v1i.yolov11...

-----------------------------------------------------------------
CLASSE          | TRAIN      | VALID      | TEST       | TOTALE    
-----------------------------------------------------------------
Horse           | 42         | 0          | 18         | 60        
Lizard          | 31         | 2          | 25         | 58        
Mouse           | 34         | 0          | 24         | 58        
Hamster         | 34         | 1          | 25         | 60        
Donkey          | 46         | 1          | 13         | 60        
-----------------------------------------------------------------
TOTALE FOTO NEL TEST SET: 105
-----------------------------------------------------------------

ESITO VERIFICA:
‚úÖ Requisito 1: Almeno 100 immagini nel Test Set -> SODDISFATTO
‚úÖ Requisito 2: Almeno 10 immagini per classe nel Test -> SODDISFATTO
