<h1>Consolidado de datos</h1>


| <b>filename</b> | datos_audio_init.ipynb |
| --- | --- | 
| Descripción | Notebook creado para organizar la información de los archivos de audio que se encuentran en carpetas con el id de cada paciente. Se busca organizar en una sola tabla la información de los pacientes que se encuentran en el archivo imus y marcha (1).xls con el listado de archivos de audio que tiene cada paciente. |
| Salida | Obtener un archivo en csv "datos_audio.csv" que contengan la información del paciente y el origen de los archivos de audio. Este archivo será el insumo para el EDA. En principio sirve para conocer la cantidad de audios que tenemos por paciente, la duración de los audios y caracteristicas más generales de los archivos |

In [3]:
import os
import pandas as pd
import wave

In [40]:
#Ruta donde se encuentran los archivos de audio
ruta_archivos = '..\\data\\wavFiles'


#Ruta del excel que contiene la información de los pacientes
ruta_excel_pacientes = '..\\data\\imus y marcha (1).xls'
ruta_excel_salida = '..\\data\\informacion_pacientes.csv'

#Los audios de los pacientes están separados por carpeta
ids =  [nombre for nombre in os.listdir(ruta_archivos) if os.path.isdir(os.path.join(ruta_archivos, nombre))]



<h2>1. Lectura de archivos de audio</h2>

Se buscan los archivos de audio ubicados en ruta_archivos, se guarda el nombre de los archivos con el nombre de la carpeta que los contiene (debe ser el id de cada paciente).

Finalmente en el dataframe df_audios se guarda la información de cada uno de los archivos encontrados para cada paciente

In [19]:
#Se recorre cada subcarpeta para recoger la información de los audios grabados
audios_data = []

#ids contiene el listado de carpetas en wavfiles, que deben ser los id de los pacientes.
for id in ids:
    audio_data = {}
    audio_id = os.path.join(ruta_archivos, id)
    audio_data['id'] = id
    
    # Verificar que la carpeta existe
    if os.path.isdir(audio_id):
        
        #Se guarda el listado de archivos en cada subcarpeta, solo se buscan archivos con extensión wav o WAV
        archivos_audio = [
            f for f in os.listdir(audio_id)
            if os.path.isfile(os.path.join(audio_id, f)) and
            os.path.splitext(f)[1].lower() in ['.wav','.WAV']]
        
        audio_data['numero_archivos'] = len(archivos_audio)

        #Se abre cada archivo y se lee 
        for archivo in archivos_audio:

            try:
                with wave.open(os.path.join(audio_id,archivo), 'rb') as wav_file:
                    frames = wav_file.getnframes()
                    channels = wav_file.getnchannels()
                    rate = wav_file.getframerate()
                    duracion = frames / float(rate)
            except Exception as e:
                duracion = None
                print(f"Error leyendo '{archivo}': {e}")

            if 'moca_p' in archivo.lower():
                audio_data['file_MoCA_P'] = archivo
                audio_data['lenght_MoCA_P'] = duracion
                audio_data['rate_MoCA_P'] = rate
                audio_data['channels_MoCA_P'] = channels
            elif 'animales' in archivo.lower():
                audio_data['file_Animales'] = archivo
                audio_data['lenght_Animales'] = duracion
                audio_data['rate_Animales'] = rate
                audio_data['channels_Animales'] = channels
            elif 'frutas' in archivo.lower():
                audio_data['file_Frutas'] = archivo
                audio_data['lenght_Frutas'] = duracion
                audio_data['rate_Frutas'] = rate
                audio_data['channels_Frutas'] = channels
            elif '_a_' in archivo.lower():
                audio_data['file_A'] = archivo
                audio_data['lenght_A'] = duracion
                audio_data['rate_Frutas'] = rate
                audio_data['channels_Frutas'] = channels
            elif '_f_' in archivo.lower():
                audio_data['file_F'] = archivo
                audio_data['lenght_F'] = duracion
                audio_data['rate_F'] = rate
                audio_data['channels_F'] = channels
            elif '_m_' in archivo.lower():
                audio_data['file_M'] = archivo
                audio_data['lenght_M'] = duracion
                audio_data['rate_M'] = rate
                audio_data['channels_M'] = channels

        audios_data.append(audio_data)
    else:
        print(f"La carpeta '{audio_id}' no existe.")

audios_data

[{'id': '102907369',
  'numero_archivos': 6,
  'file_MoCA_P': '102907369_MoCA_P_Letter_1686929951416.wav',
  'lenght_MoCA_P': 59.52,
  'rate_MoCA_P': 16000,
  'channels_MoCA_P': 1,
  'file_Animales': '102907369_Prueba_Fluidez_Verbal_Animales_Letter_1686930633860.wav',
  'lenght_Animales': 59.52,
  'rate_Animales': 16000,
  'channels_Animales': 1,
  'file_A': '102907369_Prueba_Fluidez_Verbal_A_Letter_1686930483405.wav',
  'lenght_A': 59.52,
  'rate_Frutas': 16000,
  'channels_Frutas': 1,
  'file_Frutas': '102907369_Prueba_Fluidez_Verbal_Frutas_Letter_1686930704334.wav',
  'lenght_Frutas': 59.52,
  'file_F': '102907369_Prueba_Fluidez_Verbal_F_Letter_1686930408845.wav',
  'lenght_F': 59.52,
  'rate_F': 16000,
  'channels_F': 1,
  'file_M': '102907369_Prueba_Fluidez_Verbal_M_Letter_1686930552121.wav',
  'lenght_M': 59.52,
  'rate_M': 16000,
  'channels_M': 1},
 {'id': '10523391',
  'numero_archivos': 6,
  'file_MoCA_P': '10523391_MoCA_P_Letter_1686952907610.wav',
  'lenght_MoCA_P': 59.52,


In [20]:
#se convierte la información de los archivos de audio en dataframe para combinarlo con la información de los pacientes en el archivo "imus y marcha (1).xls"
df_audios = pd.DataFrame(audios_data)
df_audios.head()

Unnamed: 0,id,numero_archivos,file_MoCA_P,lenght_MoCA_P,rate_MoCA_P,channels_MoCA_P,file_Animales,lenght_Animales,rate_Animales,channels_Animales,...,file_Frutas,lenght_Frutas,file_F,lenght_F,rate_F,channels_F,file_M,lenght_M,rate_M,channels_M
0,102907369,6,102907369_MoCA_P_Letter_1686929951416.wav,59.52,16000.0,1.0,102907369_Prueba_Fluidez_Verbal_Animales_Lette...,59.52,16000.0,1.0,...,102907369_Prueba_Fluidez_Verbal_Frutas_Letter_...,59.52,102907369_Prueba_Fluidez_Verbal_F_Letter_16869...,59.52,16000.0,1.0,102907369_Prueba_Fluidez_Verbal_M_Letter_16869...,59.52,16000.0,1.0
1,10523391,6,10523391_MoCA_P_Letter_1686952907610.wav,59.52,16000.0,1.0,10523391_Prueba_Fluidez_Verbal_Animales_Letter...,59.52,16000.0,1.0,...,10523391_Prueba_Fluidez_Verbal_Frutas_Letter_1...,59.52,10523391_Prueba_Fluidez_Verbal_F_Letter_168695...,59.52,16000.0,1.0,10523391_Prueba_Fluidez_Verbal_M_Letter_168695...,59.52,16000.0,1.0
2,10526776,6,10526776_MoCA_P_Letter.wav,59.52,16000.0,1.0,10526776_Prueba_Fluidez_Verbal_Animales_Letter...,59.52,16000.0,1.0,...,10526776_Prueba_Fluidez_Verbal_Frutas_Letter.wav,59.52,10526776_Prueba_Fluidez_Verbal_F_Letter.wav,59.52,16000.0,1.0,10526776_Prueba_Fluidez_Verbal_M_Letter.wav,59.52,16000.0,1.0
3,10529624,6,10529624_MoCA_P_Letter.wav,59.52,16000.0,1.0,10529624_Prueba_Fluidez_Verbal_Animales_Letter...,59.52,16000.0,1.0,...,10529624_Prueba_Fluidez_Verbal_Frutas_Letter.wav,59.52,10529624_Prueba_Fluidez_Verbal_F_Letter.wav,59.392,16000.0,1.0,10529624_Prueba_Fluidez_Verbal_M_Letter.wav,59.52,16000.0,1.0
4,10529944,6,10529944_MoCA_P_Letter.wav,59.52,16000.0,1.0,10529944_Prueba_Fluidez_Verbal_Animales_Letter...,59.52,16000.0,1.0,...,10529944_Prueba_Fluidez_Verbal_Frutas_Letter.wav,59.52,10529944_Prueba_Fluidez_Verbal_F_Letter.wav,59.52,16000.0,1.0,10529944_Prueba_Fluidez_Verbal_M_Letter.wav,59.52,16000.0,1.0


<h2>2. Lectura de archivo excel con la información del paciente</h2>

Se lee el archivo en el dataframe df_excel, se crea la columna id y se formatea para se usada como llave para unirlo con el dataframe de los archivos de audio

In [29]:
#Carga el excel en un dataframe
df_excel = pd.read_excel(ruta_excel_pacientes)
df_excel.head()

Unnamed: 0,Record ID,Cédula,Fecha,Marcha,Edad,Puntaje total MDS UPDRS,H&J,Lateralidad,C/C
0,GEO_REF0001,4663131.0,2023-07-26 00:00:00,1.0,75.0,40.0,3.0,2.0,1
1,GEO_REF0002,25714829.0,2023-07-26 00:00:00,3.0,68.0,60.0,3.0,1.0,1
2,GEO_REF0003,10542415.0,2023-07-26 00:00:00,1.0,60.0,19.0,2.0,1.0,1
3,GEO_REF0004,10526776.0,2023-07-26 00:00:00,2.0,70.0,34.0,2.0,1.0,1
4,GEO_REF0005,25268997.0,2023-07-26 00:00:00,4.0,79.0,55.0,4.0,2.0,1


In [30]:
#Se ajustan los id de cada Dataframe
df_excel['id'] = df_excel['Cédula'].astype(str).str.replace('.0', '', regex=False)
df_audios['id'] = df_audios['id'].astype(str)

<h2>3. Combinar los dataframes</h3>

Se combina la información del excel con la información de los archivos de audio recolectada

In [31]:
#Combina los dataframes con el id como llave
df_final = pd.merge(df_audios,df_excel,on='id',how='left')

In [38]:
#Se revisa si hay archivos de audio sin información
print(df_final.shape)
print(df_excel.shape)
print(df_audios.shape)

(40, 33)
(160, 10)
(40, 24)


<h2>4. Guarda el dataframe en un csv</h2>

In [42]:
df_final.to_csv(ruta_excel_salida,encoding='utf-8',index=False)