In [2]:
import numpy as np
import pandas as pd

In [11]:
# Columnas de clases
LABEL_COLUMNS = ['direccion', 'fachada', 'envio', 'etiqueta', 'planilla']

# Fase 1: crear datasets: train(80%) y devtest(20%)
'''
CSV_PATH_INPUT = './mobilnet-multi-label-con-planilla-all-data.csv'
CSV_PATH_TRAIN = './mobilnet-multi-label-train-60-planilla.csv'
CSV_PATH_TEST = './mobilnet-multi-label-devtest-40-planilla.csv'
TRAIN_SET_SIZE=0.6
'''
# Fase 2: crear datasets: dev(50%) y test(50%)

CSV_PATH_INPUT = './mobilnet-multi-label-devtest-40-40-planilla.csv'
CSV_PATH_TRAIN = './mobilnet-multi-label-dev-40-40-50-planilla.csv'
CSV_PATH_TEST = './mobilnet-multi-label-test-40-40-50-planilla.csv'
TRAIN_SET_SIZE=0.5


In [12]:
def split_csv(input_file, train_output, test_output, train_size=0.8, random_state=42):
    """
    Divide un archivo CSV en dos conjuntos aleatorios con proporción especificada.
    
    Parámetros:
    input_file (str): Ruta del archivo CSV de entrada
    train_output (str): Ruta donde se guardará el archivo de entrenamiento
    test_output (str): Ruta donde se guardará el archivo de validación
    train_size (float): Proporción para el conjunto de entrenamiento (default 0.8)
    random_state (int): Semilla para reproducibilidad (default 42)
    """
    
    # Leer el archivo CSV
    df = pd.read_csv(input_file)
    
    # Crear una máscara aleatoria para la división
    np.random.seed(random_state)
    mask = np.random.rand(len(df)) < train_size
    
    # Dividir el DataFrame
    train_df = df[mask]
    test_df = df[~mask]
    
    # Guardar los archivos
    train_df.to_csv(train_output, index=False)
    test_df.to_csv(test_output, index=False)
    
    # Imprimir información sobre la división
    print(f"Dataset original: {len(df)} filas")
    print(f"Conjunto de entrenamiento: {len(train_df)} filas ({len(train_df)/len(df)*100:.1f}%)")
    print(f"Conjunto de prueba: {len(test_df)} filas ({len(test_df)/len(df)*100:.1f}%)")

In [13]:
def print_class_distribution_from_csv(csv_path, label_columns):
    """
    Imprime la distribución de clases leyendo desde un archivo CSV
    
    Parámetros:
    csv_path: str - Ruta al archivo CSV
    label_columns: list - Lista de nombres de las columnas de etiquetas
    """
    # Leer solo las columnas necesarias del CSV
    df = pd.read_csv(csv_path, usecols=label_columns)
    total_samples = len(df)
    
    print(f"Dataset preparado con {total_samples} imágenes")
    print(f"Distribución de clases:")
    
    for col in label_columns:
        positive_samples = df[col].sum()
        percentage = (positive_samples / total_samples) * 100
        print(f"{col}: {percentage:.2f}% ({int(positive_samples)}/{total_samples})")

In [14]:
split_csv(
    input_file=CSV_PATH_INPUT,
    train_output=CSV_PATH_TRAIN,
    test_output=CSV_PATH_TEST,
    train_size=TRAIN_SET_SIZE
)

print('Input csv')
print_class_distribution_from_csv(CSV_PATH_INPUT, label_columns=LABEL_COLUMNS)
print('Train csv')
print_class_distribution_from_csv(CSV_PATH_TRAIN, label_columns=LABEL_COLUMNS)
print('Test csv')
print_class_distribution_from_csv(CSV_PATH_TEST, label_columns=LABEL_COLUMNS)

Dataset original: 2610 filas
Conjunto de entrenamiento: 1291 filas (49.5%)
Conjunto de prueba: 1319 filas (50.5%)
Input csv
Dataset preparado con 2610 imágenes
Distribución de clases:
direccion: 15.40% (402/2610)
fachada: 16.82% (439/2610)
envio: 53.83% (1405/2610)
etiqueta: 38.58% (1007/2610)
planilla: 17.93% (468/2610)
Train csv
Dataset preparado con 1291 imágenes
Distribución de clases:
direccion: 16.42% (212/1291)
fachada: 17.82% (230/1291)
envio: 53.99% (697/1291)
etiqueta: 37.26% (481/1291)
planilla: 17.35% (224/1291)
Test csv
Dataset preparado con 1319 imágenes
Distribución de clases:
direccion: 14.40% (190/1319)
fachada: 15.85% (209/1319)
envio: 53.68% (708/1319)
etiqueta: 39.88% (526/1319)
planilla: 18.50% (244/1319)
