In [1]:
import os
import cv2
from pathlib import Path
from tqdm import tqdm


In [2]:
caminho_base = Path('../data/Weeds')
pastas = ['train', 'valid', 'test']


In [3]:
def verifica_imagens_corrompidas(pasta_imagens):
    corrompidas = []
    for img_path in tqdm(list(pasta_imagens.glob('*.jpg')), desc='Verificando imagens'):
        img = cv2.imread(str(img_path))
        if img is None or img.size == 0:
            corrompidas.append(img_path)
            if corrompidas:
                print(f"[!] {len(corrompidas)} imagem corrompida encontrada em {pasta_imagens.name}:")
                for c in corrompidas:
                    print(f" - {c.name}")
            else:
                print(f"Nenhuma imagem corrompida encontrada em {pasta_imagens.name}.")
    return corrompidas





In [4]:
def verifica_labels_vazias(pasta_labels):
    vazias = []
    for label_path in tqdm(list(pasta_labels.glob('*.txt')), desc=f'Verificando labels em {pasta_labels.name}'):
        if label_path.stat().st_size == 0:
            vazias.append(label_path)
    
    if vazias:
        print(f"{len(vazias)} labels vazia encontradas em {pasta_labels.name}:")
        for v in vazias:
            print(f" - {v.name}")
    else:
        print(f" Nenhuma label vazia encontrada em {pasta_labels.name}.")
    
    return vazias



In [5]:
def verificar_inconsistencias(pasta_imagens, pasta_labels):
    imagens = set(p.stem for p in pasta_imagens.glob('*.jpg'))
    labels = set(p.stem for p in pasta_labels.glob('*.txt'))

    imagens_sem_label = imagens - labels
    labels_sem_imagem = labels - imagens

    if imagens_sem_label:
        print(f"[!] {len(imagens_sem_label)} imagem sem label em {pasta_imagens.name}:")
        for i in imagens_sem_label:
            print(f" - {i}.jpg")
    else:
        print(f"Todas as imagens possuem label em {pasta_imagens.name}.")

    if labels_sem_imagem:
        print(f"{len(labels_sem_imagem)} label sem imagem em {pasta_labels.name}:")
        for l in labels_sem_imagem:
            print(f" - {l}.txt")
    else:
        print(f" Todas as labels possuem imagem correspondente em {pasta_labels.name}.")

    return imagens_sem_label, labels_sem_imagem


In [6]:
for parte in pastas:
    print(f'\n--- Verificando {parte.upper()} ---')
    pasta_img = caminho_base / parte / 'images'
    pasta_lbl = caminho_base / parte / 'labels'

    imgs_corrompidas = verifica_imagens_corrompidas(pasta_img)
    lbls_vazias = verifica_labels_vazias(pasta_lbl)
    imgs_sem_lbl, lbls_sem_img = verificar_inconsistencias(pasta_img, pasta_lbl)

   
    print(f'Labels vazias:       {len(lbls_vazias)}')
    print(f'Imagens sem label:   {len(imgs_sem_lbl)}')
    print(f'Labels sem imagem:   {len(lbls_sem_img)}')



--- Verificando TRAIN ---


Verificando imagens: 100%|██████████| 3664/3664 [00:47<00:00, 76.68it/s]
Verificando labels em labels: 100%|██████████| 3664/3664 [00:00<00:00, 15048.63it/s]


 Nenhuma label vazia encontrada em labels.
Todas as imagens possuem label em images.
 Todas as labels possuem imagem correspondente em labels.
Labels vazias:       0
Imagens sem label:   0
Labels sem imagem:   0

--- Verificando VALID ---


Verificando imagens: 100%|██████████| 359/359 [00:00<00:00, 791.94it/s]
Verificando labels em labels: 100%|██████████| 359/359 [00:00<00:00, 30383.69it/s]


 Nenhuma label vazia encontrada em labels.
Todas as imagens possuem label em images.
 Todas as labels possuem imagem correspondente em labels.
Labels vazias:       0
Imagens sem label:   0
Labels sem imagem:   0

--- Verificando TEST ---


Verificando imagens: 100%|██████████| 180/180 [00:02<00:00, 83.23it/s]
Verificando labels em labels: 100%|██████████| 180/180 [00:00<00:00, 16529.28it/s]

 Nenhuma label vazia encontrada em labels.
Todas as imagens possuem label em images.
 Todas as labels possuem imagem correspondente em labels.
Labels vazias:       0
Imagens sem label:   0
Labels sem imagem:   0



