In [1]:
caminho_base = '../data/Weeds'

In [2]:
from pathlib import Path

def listar_imagens(pasta):
    """
    Lista todas as imagens .jpg de uma pasta.
    
    Args:
        pasta (str ou Path): Caminho da pasta.

    Returns:
        List[Path]: Lista de caminhos das imagens.
    """
    pasta = Path(pasta)
    imagens = list(pasta.glob('*.jpg'))
    print(f"Encontradas {len(imagens)} imagens em {pasta}")
    return imagens
imagens_treino = listar_imagens(Path(caminho_base) / 'train' / 'images')

Encontradas 3664 imagens em ..\data\Weeds\train\images


In [3]:
import cv2

def carregar_imagem_label(caminho_imagem, caminho_label):
    """
    Carrega uma imagem e o conteúdo do arquivo de label associado.

    Args:
        caminho_imagem (str ou Path): Caminho da imagem.
        caminho_label (str ou Path): Caminho do arquivo de label.

    Returns:
        imagem (np.ndarray): Imagem carregada.
        labels (list): Lista com as linhas do arquivo label.
    """
    imagem = cv2.imread(str(caminho_imagem))
    if imagem is None:
        print(f"Erro ao carregar a imagem: {caminho_imagem}")
    else:
        imagem = cv2.cvtColor(imagem, cv2.COLOR_BGR2RGB)

    labels = []
    if Path(caminho_label).exists():
        with open(caminho_label, 'r') as f:
            labels = f.readlines()
    else:
        print(f"Arquivo não encontrado: {caminho_label}")

    return imagem, labels

img_exemplo, label_exemplo = carregar_imagem_label(
    imagens_treino[0],
    Path(caminho_base) / 'train' / 'labels' / (imagens_treino[0].stem + '.txt')
)


In [4]:
def estatisticas_dataset(caminho_base):
    """
    Gera estatísticas básicas do dataset: número de imagens e labels por conjunto (train, valid, test).

    Args:
        caminho_base (str ou Path): Caminho até a pasta base do dataset.

    Returns:
        dict: Estatísticas de quantidade de imagens e labels.
    """
    caminho_base = Path(caminho_base)
    conjuntos = ['train', 'valid', 'test']
    stats = {}

    for conjunto in conjuntos:
        caminho_img = caminho_base / conjunto / 'images'
        caminho_lbl = caminho_base / conjunto / 'labels'

        n_imagens = len(list(caminho_img.glob('*.jpg')))
        n_labels = len(list(caminho_lbl.glob('*.txt')))

        stats[conjunto] = {'imagens': n_imagens, 'labels': n_labels}

    return stats

stats = estatisticas_dataset(caminho_base)
print(stats)


{'train': {'imagens': 3664, 'labels': 3664}, 'valid': {'imagens': 359, 'labels': 359}, 'test': {'imagens': 180, 'labels': 180}}
