In [1]:
import os
import pandas as pd


In [2]:
def create_audio_dataset_csv(base_path='audios', output_file='dataset.csv'):
    """
    Crea un CSV con información sobre los archivos de audio.
    
    Parameters:
    base_path (str): Ruta a la carpeta principal que contiene las subcarpetas de palabras
    output_file (str): Nombre del archivo CSV de salida
    
    Returns:
    pandas.DataFrame: DataFrame con la información procesada
    """
    # Lista para almacenar la información de cada archivo
    data = []
    
    # Recorrer todas las subcarpetas (palabras)
    for palabra in os.listdir(base_path):
        palabra_path = os.path.join(base_path, palabra)
        
        # Verificar que sea un directorio
        if os.path.isdir(palabra_path):
            # Recorrer todos los archivos de audio en la subcarpeta
            for audio_file in os.listdir(palabra_path):
                if audio_file.endswith('.wav'):
                    # Construir la ruta completa del archivo
                    file_path = os.path.join(palabra_path, audio_file)
                    
                    # Extraer el nombre de la persona (primera parte del nombre del archivo)
                    persona = audio_file.split('_')[0]
                    
                    # Crear registro para este archivo
                    registro = {
                        'ruta_archivo': file_path,
                        'palabra': palabra,
                        'persona': persona,
                        'nombre_archivo': audio_file
                    }
                    
                    data.append(registro)
    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Guardar a CSV
    df.to_csv(output_file, index=False)
    
    print(f"Se ha creado el archivo {output_file} con {len(df)} registros")
    return df

In [4]:
df = create_audio_dataset_csv()

# Mostrar las primeras filas del DataFrame
print("\nPrimeras 5 filas del dataset:")
df

Se ha creado el archivo dataset.csv con 4000 registros

Primeras 5 filas del dataset:


Unnamed: 0,ruta_archivo,palabra,persona,nombre_archivo
0,audios/casa/Nancy_casa_084.wav,casa,Nancy,Nancy_casa_084.wav
1,audios/casa/Diego_casa_038.wav,casa,Diego,Diego_casa_038.wav
2,audios/casa/Nancy_casa_095.wav,casa,Nancy,Nancy_casa_095.wav
3,audios/casa/Valeria_casa_094.wav,casa,Valeria,Valeria_casa_094.wav
4,audios/casa/Miguel_casa_041.wav,casa,Miguel,Miguel_casa_041.wav
...,...,...,...,...
3995,audios/sol/Miguel_sol_012.wav,sol,Miguel,Miguel_sol_012.wav
3996,audios/sol/Valeria_sol_006.wav,sol,Valeria,Valeria_sol_006.wav
3997,audios/sol/Miguel_sol_063.wav,sol,Miguel,Miguel_sol_063.wav
3998,audios/sol/Miguel_sol_050.wav,sol,Miguel,Miguel_sol_050.wav


In [6]:
print("\nNúmero de archivos por palabra:")
df['palabra'].value_counts()


Número de archivos por palabra:


palabra
casa    400
alto    400
no      400
frio    400
baja    400
luz     400
cero    400
uno     400
si      400
sol     400
Name: count, dtype: int64

In [7]:
print("\nNúmero de personas diferentes:")
len(df['persona'].unique())


Número de personas diferentes:


4