## Reconocimiento de pájaros por su canto!

- Descarga de los datos

- [x] Implementar que solo se descarguen .wav
- [x] Si no hay suficientes .wav descargar .mp3
- [ ] Hacer el codigo modular /?

In [None]:
#!pip install pydub
#!pip install mutagen

import requests
import os
from pydub import AudioSegment  # Para verificar el bitrate de MP3s
from io import BytesIO
from mutagen.mp3 import MP3

Duracion total de las grabaciones para los diferentes pájaros del análisis:

    - Gorrion comun      (Passer domesticus)
    - Mirlo comun        (Turdus merula)
    - Petirrojo europeo  (Erithacus Rubecula)
    - Jilguero europeo   (Carduelis carduelis)
    """
    - Canario español  (Serinus canaria)
    - Golondrina común  (Hirundo rustica)
    - Urraca  (pica pica)
    """

In [None]:
def get_total_duration(scientific_name, quality="A"):
    """
    Obtiene la duración total disponible de grabaciones para una especie desde Xeno-Canto.
    
    Args:
        scientific_name (str): Nombre científico de la especie (e.g., "Passer domesticus").
        quality (str): Calidad mínima de las grabaciones a considerar (e.g., "A" o "B").
    
    Returns:
        total_duration (int): Duración total en segundos de las grabaciones disponibles.
        num_recordings (int): Número de grabaciones disponibles.
    """
    base_url = f"https://www.xeno-canto.org/api/2/recordings?query={scientific_name.replace(' ', '%20')}+q:{quality}"
    total_duration = 0
    num_recordings = 0
    page = 1  # La API usa paginación
    
    while True:
        #print(f"Consultando página {page} para {scientific_name}...")
        response = requests.get(base_url + f"&page={page}")
        if response.status_code != 200:
            print(f"Error al consultar la API. Código: {response.status_code}")
            break
        
        data = response.json()
        recordings = data.get("recordings", [])
        
        for rec in recordings:
            # Convertir 'mm:ss' a segundos
            length = rec.get("length", "0:00")  # Longitud en formato 'mm:ss'
            minutes, seconds = map(int, length.split(":"))  # Dividir y convertir a entero
            duration = minutes * 60 + seconds  # Convertir a segundos
            
            total_duration += duration
            num_recordings += 1
        
        # Comprobar si hay más páginas
        if not data.get("numPages") or page >= int(data["numPages"]):
            break
        page += 1
    
    return total_duration, num_recordings

In [None]:
def get_total_filetype_duration(scientific_name, filetype, quality="A"):
    """
    Obtiene la duración total disponible de grabaciones para una especie desde Xeno-Canto.
    
    Args:
        scientific_name (str): Nombre científico de la especie (e.g., "Passer domesticus").
        quality (str): Calidad mínima de las grabaciones a considerar (e.g., "A" o "B").
    
    Returns:
        total_duration (int): Duración total en segundos de las grabaciones disponibles.
        num_recordings (int): Número de grabaciones disponibles.
    """
    base_url = f"https://www.xeno-canto.org/api/2/recordings?query={scientific_name.replace(' ', '%20')}+q:{quality}"
    total_duration = 0
    num_recordings = 0
    page = 1  # La API usa paginación
    
    while True:
        print(f"Consultando página {page} para {scientific_name}...")
        response = requests.get(base_url + f"&page={page}")
        if response.status_code != 200:
            print(f"Error al consultar la API. Código: {response.status_code}")
            break
        
        data = response.json()
        recordings = data.get("recordings", [])
        
        for rec in recordings:
            # Construir URL de archivo
            file_url = rec.get('file', '')
            
            audio_response = requests.get(file_url, stream=True)
            content_type = audio_response.headers.get('Content-Type', '')
            if 'audio/wav' in content_type:
                # Convertir 'mm:ss' a segundos
                length = rec.get("length", "0:00")  # Longitud en formato 'mm:ss'
                minutes, seconds = map(int, length.split(":"))  # Dividir y convertir a entero
                duration = minutes * 60 + seconds  # Convertir a segundos
                
                total_duration += duration
                num_recordings += 1
        
        # Comprobar si hay más páginas
        if not data.get("numPages") or page >= int(data["numPages"]):
            break
        page += 1
    
    return total_duration, num_recordings

In [None]:
species_list = {"Passer domesticus",
                "Turdus merula",
                "Erithacus Rubecula",
                "Carduelis carduelis"}

In [None]:
#for species in species_list:
#    duration, num_recordings = get_total_filetype_duration(species, "wav", quality="A")
#    print(f"Duración total disponible para {species}: {duration / 3600:.2f} horas")
#    print(f"Número de grabaciones disponibles: {num_recordings}")
#    print('\n')

In [None]:
def download_species_duration(scientific_name, output_folder, target_duration=1800, quality="A"):
    """
    Descarga grabaciones de Xeno-Canto en formato .wav para una especie específica y calcula la duración total.
    
    Args:
        scientific_name (str): Nombre científico de la especie (e.g., "Passer domesticus").
        output_folder (str): Carpeta para guardar las grabaciones.
        target_duration (int): Duración total objetivo en segundos.
        quality (str): Calidad mínima de las grabaciones (e.g., "A" o "B").
    """
    os.makedirs(output_folder, exist_ok=True)  # Crear la carpeta de salida si no existe
    base_url = f"https://www.xeno-canto.org/api/2/recordings?query={scientific_name.replace(' ', '%20')}+q:{quality}"
    total_duration = 0
    num_recordings = 0
    page = 1

    # Crear la carpeta de la especie
    species_folder = os.path.join(output_folder, scientific_name.replace(' ', '_'), "Audios")
    os.makedirs(species_folder, exist_ok=True)

    while total_duration < target_duration:  # Iterar mientras no alcancemos la duración objetivo
        response = requests.get(base_url + f"&page={page}")
        if response.status_code != 200:
            print(f"Error al consultar la API. Código: {response.status_code}")
            break

        data = response.json()
        recordings = data.get("recordings", [])

        for rec in recordings:
            if total_duration >= target_duration:
                break
            
            # Construir URL de archivo
            file_url = rec.get('file', '')

            try:
                # Intentar descargar el archivo
                audio_response = requests.get(file_url, stream=True)
                content_type = audio_response.headers.get('Content-Type', '')

                # Filtrar solo archivos WAV (audio/wav) y MP3 (audio/mp3)
                if 'audio/wav' in content_type:
                    # Obtener la duración de la grabación en segundos
                    length = rec.get("length", "0:00")
                    minutes, seconds = map(int, length.split(":"))
                    duration = minutes * 60 + seconds

                    # Generar un nombre único para el archivo (e.g., 'gorrion_1.wav', 'gorrion_2.wav', etc.)
                    new_file_name = f"download_{num_recordings + 1}.wav"
                    file_path = os.path.join(species_folder, new_file_name)
                    
                    # Descargar el archivo###################################################################
                    with open(file_path, "wb") as f:
                        f.write(audio_response.content)
                    
                    total_duration += duration
                    num_recordings += 1
                    print(f"Descargado: .wav | Duración acumulada: {total_duration} segundos")
                    
                elif 'audio/mpeg' in content_type:
                    audio_data = BytesIO(audio_response.content)
                    audio = AudioSegment.from_file(audio_data, format="mp3")
                    
                    # Obtener el bitrate en kbps -> Mutagen
                    mp3_audio = MP3(audio_data) 
                    bitrate_kbps = mp3_audio.info.bitrate // 1000

                    if bitrate_kbps >= 256:  # 256 kbps esta bastante bien (320 es increible)
                        new_file_name = f"download_{num_recordings + 1}.mp3"
                        file_path = os.path.join(species_folder, new_file_name)
                    
                        # Duracion grabacion en segundos
                        length = rec.get("length", "0:00")
                        minutes, seconds = map(int, length.split(":"))
                        duration = minutes * 60 + seconds
                        
                        # Descargar el archivo###################################################################
                        with open(file_path, "wb") as f:
                            f.write(audio_response.content)

                        total_duration += duration
                        num_recordings += 1
                        #print(f"Se ha descargado un .mp3 de bitrate: {bitrate_kbps}")
                        print(f"Descargado: .mp3 de bitrate: {bitrate_kbps} | Duración acumulada: {total_duration} segundos")

            except Exception as e:
                print(f"Error al descargar {file_url}: {e}")

        # Comprobar si hay más páginas
        if not data.get("numPages") or page >= int(data["numPages"]):
            break
        page += 1

    print(f"Duración total descargada para {scientific_name}: {total_duration} segundos.")
    print(f"Número total de grabaciones descargadas: {num_recordings}")

In [None]:
# Ejemplo de uso
download_species_duration("Passer domesticus", "D:/pajarillos", target_duration=1000, quality="A")
#for species in species_list:
#    download_species_duration(species, "D:/pajarillos", target_duration=100, quality="A")

In [None]:
musicfile = "D:/pajarillos/Passer_domesticus/download_17.mp3"
f = MP3(musicfile)
bitrate = f.info.bitrate / 1000
print(bitrate)

- Preprocesamiento de los datos
    - [x] Cortar en fragmentos de 5 s
    - [x] Convertir a espectrogramas Mel
    - [ ] Resize: 300x300 y [0,255]
    - [ ] Dividir en **train**, **val** y **test**
        - [ ] Importancia diferente número de espectrogramas: ~100 
    - [ ] Limpiar el código

In [None]:
#!pip install librosa

import librosa
import librosa.display
import numpy as np
import os
import matplotlib.pyplot as plt
import soundfile as sf

In [None]:
# Parámetros
segment_duration = 5  # Duración del fragmento en segundos
sr_target = 44100  # Frecuencia de muestreo en Hz (44.1 kHz)
n_mels = 128  # Número de bandas Mel
n_fft = 1024  # Tamaño de la ventana FFT
hop_length = n_fft // 4  # Desplazamiento entre ventanas (75% de superposición) (default, no sé muy bien el efecto)

In [None]:
def generate_mel_spectrogram(y, sr, output_filename):
    """Genera y guarda un espectrograma de Mel"""
    mel_spec = librosa.feature.melspectrogram(y=y, sr=sr, n_mels=n_mels, n_fft=n_fft, hop_length=hop_length)
    mel_spec_db = librosa.power_to_db(mel_spec, ref=np.max)  # Convertir a escala logarítmica (dB)

    # Guardar como imagen
    plt.figure(figsize=(5, 5))
    librosa.display.specshow(mel_spec_db, sr=sr, hop_length=hop_length, x_axis='time', y_axis='mel')
    plt.axis('off')  # Ocultar ejes para usarlo en el modelo
    plt.savefig(output_filename, bbox_inches='tight', pad_inches=0)
    plt.close()

In [None]:
# Recortar audios a fragmentos de 5 s y convertirlos a Mel
def aud_to_mel(input_folder, output_folder, segment_duration=5):
    os.makedirs(output_folder, exist_ok=True)  # Crear carpeta si no existe
    for filename in os.listdir(input_folder):
        if filename.endswith(".wav") or filename.endswith(".mp3"):
            file_path = os.path.join(input_folder, filename)
    
            # Cargar audio (resampleando a 44.1 kHz)
            y, sr = librosa.load(file_path, sr=sr_target)
    
            # Duración total del audio
            total_samples = len(y)
            total_duration = librosa.get_duration(y=y, sr=sr)
            num_segments = int(total_duration // segment_duration)
    
            for i in range(num_segments):
                start_sample = i * segment_duration * sr # Contador * tiempo * sampleo = número muestras (adimensional)
                end_sample = start_sample + (segment_duration * sr)
                
                if end_sample <= total_samples:
                    segment = y[start_sample:end_sample]
                    # Guardar espectrograma
                    output_filename = os.path.join(output_folder, f"{os.path.splitext(filename)[0]}_seg_{i}.png")
                    generate_mel_spectrogram(segment, sr, output_filename)

In [None]:
# Directorios
input_folder = "D:/pajarillos/Passer_domesticus/Audios"  # Carpeta con audios .wav y .mp3
output_folder = "D:/pajarillos/Passer_domesticus/Espectrogramas/"
aud_to_mel(input_folder, output_folder, 5)

**División**

Código directo de chatgpt -> Encapsular en una función

In [None]:
import os
import shutil
import random

# Configurar rutas
base_folder = "D:/pajarillos/Espectrogramas"  # Carpeta con los espectrogramas generados
output_folder = "D:/pajarillos/Dataset"  # Carpeta destino organizada en train/val/test

train_ratio = 0.7 # A lo mejor prefiero un .8 .1 .1, no voy muy sobrado de datos
val_ratio = 0.15
test_ratio = 0.15

# Crear carpetas organizadas si no existen
for split in ["train", "val", "test"]:
    split_path = os.path.join(output_folder, split)
    os.makedirs(split_path, exist_ok=True)

# Clasificar imágenes en train/val/test
for species in os.listdir(base_folder):
    species_folder = os.path.join(base_folder, species)
    if os.path.isdir(species_folder):  # Asegurar que es una carpeta

        # Obtener lista de espectrogramas
        spectrograms = [f for f in os.listdir(species_folder) if f.endswith(".png")]
        random.shuffle(spectrograms)  # Mezclar aleatoriamente # MUY BUENA IDEA!!!

        # Calcular cantidad de datos para cada conjunto
        num_train = int(len(spectrograms) * train_ratio)
        num_val = int(len(spectrograms) * val_ratio)

        # Dividir los datos
        train_files = spectrograms[:num_train]
        val_files = spectrograms[num_train:num_train + num_val]
        test_files = spectrograms[num_train + num_val:]

        # Función auxiliar para mover archivos
        def move_files(file_list, split):
            split_species_folder = os.path.join(output_folder, split, species)
            os.makedirs(split_species_folder, exist_ok=True)
            for file in file_list:
                src = os.path.join(species_folder, file)
                dst = os.path.join(split_species_folder, file)
                shutil.move(src, dst)

        # Mover los archivos a sus carpetas correspondientes
        move_files(train_files, "train")
        move_files(val_files, "val")
        move_files(test_files, "test")

print("Base de datos organizada en train/val/test")