In [1]:
# === Auditoría de duplicados exactos por hash (evita fuga train↔test) ===
from pathlib import Path
import hashlib
from collections import defaultdict

DATA_ROOT = Path("data/chest_xray")  # ajusta si usas otra carpeta

def sha256_of_file(p: Path, chunk=1<<20) -> str:
    h = hashlib.sha256()
    with open(p, "rb") as f:
        for b in iter(lambda: f.read(chunk), b""):
            h.update(b)
    return h.hexdigest()

def iter_split(split):
    for cls in ["NORMAL", "PNEUMONIA"]:
        d = DATA_ROOT/split/cls
        if d.exists():
            for p in d.glob("*"):
                if p.is_file():
                    yield p, cls

def build_index(split):
    idx = defaultdict(list)  # hash -> list[(path, cls)]
    for p, cls in iter_split(split):
        try:
            h = sha256_of_file(p)
            idx[h].append((p, cls))
        except Exception as e:
            print(f"⚠️ No pude leer {p}: {e}")
    return idx

train_idx = build_index("train")
test_idx  = build_index("test")

overlap = set(train_idx) & set(test_idx)
print(f"Duplicados exactos train↔test: {len(overlap)}")

# Ejemplos
for i, h in enumerate(list(overlap)[:10]):
    print("Ejemplo:", train_idx[h][0][0].name, "<->", test_idx[h][0][0].name)

# Duplicados dentro de cada split (mismo archivo repetido)
train_dups_intra = {h:v for h,v in train_idx.items() if len(v) > 1}
test_dups_intra  = {h:v for h,v in test_idx.items()  if len(v) > 1}
print(f"Duplicados dentro de TRAIN: {len(train_dups_intra)} | dentro de TEST: {len(test_dups_intra)}")

# Conflictos de etiqueta (misma imagen con NORMAL y PNEUMONIA en algún split)
conflicts = []
for h in overlap:
    labs = {c for _,c in train_idx[h]} | {c for _,c in test_idx[h]}
    if len(labs) > 1:
        conflicts.append(h)
print(f"Conflictos de etiqueta (misma imagen con clases distintas): {len(conflicts)}")


Duplicados exactos train↔test: 387
Ejemplo: person100_bacteria_480.jpeg <-> BACTERIA-6950003-0005.jpeg
Ejemplo: person1662_virus_2875.jpeg <-> person1662_virus_2875.jpeg
Ejemplo: person3_virus_17.jpeg <-> person3_virus_17.jpeg
Ejemplo: person108_bacteria_507.jpeg <-> BACTERIA-3961172-0003.jpeg
Ejemplo: person113_bacteria_541.jpeg <-> BACTERIA-5240350-0002.jpeg
Ejemplo: person109_bacteria_528.jpeg <-> BACTERIA-4269599-0009.jpeg
Ejemplo: person130_bacteria_625.jpeg <-> BACTERIA-8190872-0002.jpeg
Ejemplo: person83_bacteria_407.jpeg <-> BACTERIA-9242636-0001.jpeg
Ejemplo: person55_virus_110.jpeg <-> person55_virus_110.jpeg
Ejemplo: person15_virus_46.jpeg <-> person15_virus_46.jpeg
Duplicados dentro de TRAIN: 1364 | dentro de TEST: 556
Conflictos de etiqueta (misma imagen con clases distintas): 0


In [2]:
import shutil
QUAR = Path("data/_quarantine_dups"); QUAR.mkdir(parents=True, exist_ok=True)

moved = 0
# a) quitar de TEST los que están en TRAIN
for h in set(train_idx) & set(test_idx):
    for p, cls in test_idx[h]:
        dst = QUAR / p.name
        shutil.move(str(p), str(dst))
        moved += 1
print(f"Movidos de TEST (presentes en TRAIN): {moved}")

# b) opcional: desduplicar dentro de cada split dejando una copia
def dedup_intra(idx, split):
    removed = 0
    for h, items in idx.items():
        if len(items) > 1:
            # conserva la primera, mueve el resto
            for p, cls in items[1:]:
                dst = QUAR / p.name
                shutil.move(str(p), str(dst))
                removed += 1
    print(f"Eliminados duplicados intra-split en {split}: {removed}")

# Descomenta si quieres limpiar intra-split
# dedup_intra(train_idx, "TRAIN")
# dedup_intra(test_idx,  "TEST")

Movidos de TEST (presentes en TRAIN): 780
