In [1]:
import os
import pandas as pd


In [2]:
def create_audio_dataset_csv(base_path='audios', output_file='dataset.csv'):
    """
    Crea un CSV con información sobre los archivos de audio.
    
    Parameters:
    base_path (str): Ruta a la carpeta principal que contiene las subcarpetas de palabras
    output_file (str): Nombre del archivo CSV de salida
    
    Returns:
    pandas.DataFrame: DataFrame con la información procesada
    """
    # Lista para almacenar la información de cada archivo
    data = []
    
    # Recorrer todas las subcarpetas (palabras)
    for palabra in os.listdir(base_path):
        palabra_path = os.path.join(base_path, palabra)
        
        # Verificar que sea un directorio
        if os.path.isdir(palabra_path):
            # Recorrer todos los archivos de audio en la subcarpeta
            for audio_file in os.listdir(palabra_path):
                if audio_file.endswith('.wav'):
                    # Construir la ruta completa del archivo
                    file_path = os.path.join(palabra_path, audio_file)
                    
                    # Extraer el nombre de la persona (primera parte del nombre del archivo)
                    persona = audio_file.split('_')[0]
                    
                    # Crear registro para este archivo
                    registro = {
                        'ruta_archivo': file_path,
                        'palabra': palabra,
                        'persona': persona,
                        'nombre_archivo': audio_file
                    }
                    
                    data.append(registro)
    
    # Crear DataFrame
    df = pd.DataFrame(data)
    
    # Guardar a CSV
    df.to_csv(output_file, index=False)
    
    print(f"Se ha creado el archivo {output_file} con {len(df)} registros")
    return df

In [3]:
df = create_audio_dataset_csv()

# Mostrar las primeras filas del DataFrame
print("\nPrimeras 5 filas del dataset:")
df

Se ha creado el archivo dataset.csv con 2000 registros

Primeras 5 filas del dataset:


Unnamed: 0,ruta_archivo,palabra,persona,nombre_archivo
0,audios/casa/Vale_casa_014.wav,casa,Vale,Vale_casa_014.wav
1,audios/casa/Vale_casa_005.wav,casa,Vale,Vale_casa_005.wav
2,audios/casa/Diego_casa_038.wav,casa,Diego,Diego_casa_038.wav
3,audios/casa/Mike_casa_033.wav,casa,Mike,Mike_casa_033.wav
4,audios/casa/Vale_casa_036.wav,casa,Vale,Vale_casa_036.wav
...,...,...,...,...
1995,audios/ocho/Vale_ocho_048.wav,ocho,Vale,Vale_ocho_048.wav
1996,audios/ocho/Vale_ocho_026.wav,ocho,Vale,Vale_ocho_026.wav
1997,audios/ocho/Mike_ocho_036.wav,ocho,Mike,Mike_ocho_036.wav
1998,audios/ocho/Vale_ocho_047.wav,ocho,Vale,Vale_ocho_047.wav


In [4]:
print("\nNúmero de archivos por palabra:")
df['palabra'].value_counts()


Número de archivos por palabra:


palabra
casa    200
alto    200
no      200
frio    200
baja    200
luz     200
cero    200
uno     200
si      200
ocho    200
Name: count, dtype: int64

In [5]:
print("\nNúmero de personas diferentes:")
len(df['persona'].unique())


Número de personas diferentes:


4