In [5]:
from PIL import Image
import librosa
import librosa.display
import matplotlib.pyplot as plt
import os
import pandas as pd
import numpy as np

In [8]:


def convertir_audios_a_imagenes(audio_dir, output_dir_original, output_dir_resized, img_size=(256, 256)):
   
    
    os.makedirs(output_dir_original, exist_ok=True)
    os.makedirs(output_dir_resized, exist_ok=True)

    archivos_audio = [f for f in os.listdir(audio_dir) if f.endswith(".wav")]

    for archivo_audio in archivos_audio:
        ruta_audio = os.path.join(audio_dir, archivo_audio)

        try:
            # Cargar el audio
            y, sr = librosa.load(ruta_audio, sr=None)

            # Generar espectrograma Mel
            mel_spectrogram = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=128, fmax=8000)
            mel_spectrogram_db = librosa.power_to_db(mel_spectrogram, ref=np.max)

            # Crear el espectrograma como imagen sin redimensionar
            plt.figure(figsize=(4, 4))
            plt.axis('off')
            plt.imshow(mel_spectrogram_db, aspect='auto', origin='lower', cmap='viridis')

            # Guardar la imagen sin redimensionar
            nombre_salida = os.path.splitext(archivo_audio)[0] + ".png"
            ruta_salida_original = os.path.join(output_dir_original, nombre_salida)
            plt.savefig(ruta_salida_original, bbox_inches='tight', pad_inches=0)
            plt.close()

            # Redimensionar y guardar la imagen redimensionada
            temp_image = Image.open(ruta_salida_original)
            temp_image = temp_image.resize(img_size, Image.Resampling.LANCZOS)
            ruta_salida_resized = os.path.join(output_dir_resized, nombre_salida)
            temp_image.save(ruta_salida_resized)

        except Exception as e:
            print(f"Error al procesar {archivo_audio}: {e}")

In [9]:
audio_dir = "./SoundAnimals_Train/test"
output_dir_original = "./SoundAnimals_Train/test_spectograms"
output_dir_resized = "./SoundAnimals_Train/test_redimensionados"

convertir_audios_a_imagenes(
    audio_dir=audio_dir,
    output_dir_original=output_dir_original,
    output_dir_resized=output_dir_resized,
    img_size=(256, 256)  
)