In [1]:
import numpy as np
import pandas as pd

In [2]:
# Columnas de clases
LABEL_COLUMNS = ['direccion', 'fachada', 'envio', 'etiqueta', 'planilla']

PRODUCTION_DATA_INPUT = 'yolo-datos-de-produccion-raw.csv'
PRODUCTION_DATA_OUTPUT = 'yolo-output-' + PRODUCTION_DATA_INPUT

In [67]:
def create_csv_classes(input_file, output_file, size_class, labels_columns):
    """
    Divide un archivo CSV en dos conjuntos aleatorios con proporción especificada.
    
    Parámetros:
    input_file (str): Ruta del archivo CSV de entrada
    train_output (str): Ruta donde se guardará el archivo de entrenamiento
    test_output (str): Ruta donde se guardará el archivo de validación
    train_size (float): Proporción para el conjunto de entrenamiento (default 0.8)
    random_state (int): Semilla para reproducibilidad (default 42)
    """
    
    # Leer el archivo CSV
    df = pd.read_csv(input_file)
    df = df.sample(n=len(df), random_state=42, ignore_index=True)

    new_rows = [ [] for i in range(len(labels_columns)) ]   
    
    for index, row in df.iterrows():
        #validar si por cada clase aún no se alancza la distribución esperadas
        for i in range(len(labels_columns)):
            label = labels_columns[i] 
            if row[label] == 1 and len(new_rows[i]) < size_class:
                new_rows[i].append(row)
   
    new_df = pd.DataFrame(columns=df.columns)
    for i in range(len(labels_columns)):
        new_row  = new_rows[i]
        df_rows = pd.DataFrame(new_row, columns=df.columns)
        new_df = pd.concat([new_df, df_rows], ignore_index=True)

    new_df.to_csv(output_file)

In [68]:
def print_class_distribution_from_csv(csv_path, label_columns):
    """
    Imprime la distribución de clases leyendo desde un archivo CSV
    
    Parámetros:
    csv_path: str - Ruta al archivo CSV
    label_columns: list - Lista de nombres de las columnas de etiquetas
    """
    # Leer solo las columnas necesarias del CSV
    df = pd.read_csv(csv_path, usecols=label_columns)
    total_samples = len(df)
    
    print(f"Dataset preparado con {total_samples} imágenes")
    print(f"Distribución de clases:")
    
    for col in label_columns:
        positive_samples = df[col].sum()
        percentage = (positive_samples / total_samples) * 100
        print(f"{col}: {percentage:.2f}% ({int(positive_samples)}/{total_samples})")

In [69]:
create_csv_classes(
    input_file=PRODUCTION_DATA_INPUT,
    output_file=PRODUCTION_DATA_OUTPUT,
    size_class=250,
    labels_columns=LABEL_COLUMNS
)

print('Input csv')
print_class_distribution_from_csv(PRODUCTION_DATA_INPUT, label_columns=LABEL_COLUMNS)
print('output csv')
print_class_distribution_from_csv(PRODUCTION_DATA_OUTPUT, label_columns=LABEL_COLUMNS)

Input csv
Dataset preparado con 5000 imágenes
Distribución de clases:
direccion: 26.24% (1312/5000)
fachada: 16.26% (813/5000)
envio: 25.46% (1273/5000)
etiqueta: 43.68% (2184/5000)
planilla: 0.00% (0/5000)
output csv
Dataset preparado con 1000 imágenes
Distribución de clases:
direccion: 45.50% (455/1000)
fachada: 30.90% (309/1000)
envio: 41.40% (414/1000)
etiqueta: 51.60% (516/1000)
planilla: 0.00% (0/1000)
