### Instalando las dependencias ...

Durante la clase se estarán utilizando las siguientes bibliotecas:
- `librosa` para el procesamiento de sonidos.
- `matplotlib` para la visualización de datos y gráficos.
- `scikit-learn` para el aprendizaje automático y las métricas de evaluación del modelo.
- `pydub` y `PyObjC` para reproducir sonidos.

Compruebe que tenga las bibliotecas o instálelas.

In [None]:
!pip3.10 install librosa matplotlib scikit-learn playsound PyObjC

# Laboratorio #6: Procesamiento de señales (sonidos específicamente)

El procesamiento de sonidos desempeña un papel fundamental en los Sistemas de Recuperación de Información (SRI). Por ejemplo:

- Indexación y búsqueda eficientes: El procesamiento de sonidos permite extraer características relevantes de los archivos de audio para indexar y buscar eficientemente dentro de grandes conjuntos de datos. 
- Mejora de la precisión en la recuperación: Al analizar el contenido sonoro de los archivos, los SRI pueden "entender" mejor el contexto y el contenido de los archivos de audio. Esto puede mejorar la precisión de las consultas y devolver resultados más relevantes a los usuarios.
- Diversificación de los tipos de datos: Con el procesamiento de sonido, los SRI pueden manejar una variedad más amplia de tipos de datos. Esto significa que pueden indexar y recuperar no solo texto, imágenes o videos, sino también archivos de audio, lo que amplía las posibilidades de búsqueda y la experiencia del usuario.
- Aplicaciones prácticas: Los SRI basados en el procesamiento de sonido tienen numerosas aplicaciones prácticas, que van desde la búsqueda de música y podcasts hasta la transcripción automática de archivos de audio y la recuperación de información en entornos complejos de multimedia.

En resumen, el procesamiento de sonidos en los sistemas de recuperación de información es esencial para entender y organizar el contenido sonoro.

Durante la clase se usará el conjunto de datos `ESC10-rearranged` el cual es una versión modificada `ESC-10`. `ESC-10` es un conjunto de datos de audio utilizado comúnmente en tareas de reconocimiento de sonidos ambientales. Contiene grabaciones de sonidos ambientales de diez clases diferentes, con cada clase representando un tipo específico de sonido ambiental.

Las diez clases son las siguientes:
- Ladrido de perro (Dog bark)
- Lluvia (Rain)
- Olas del mar (Sea waves)
- Llanto de bebé (Baby cry)
- Tic tac de un reloj (Clock tick)
- Estornudo de persona (Person sneeze)
- Helicóptero (Helicopter)
- Motosierra (Chainsaw)
- Gallo (Rooster)
- Crepitación del fuego (Fire crackling)
  
El objetivo de la clase es visualizar y definir extractores de características de sonidos. Además, teniendo distintas representaciones se evaluará la que mejor describe al conjunto de datos para la clasificación de las diez categorías presentadas anteriormente.

In [None]:
# Cargando las bibliotecas necesarias para trabajar ...

import os
import random
from os.path import join

import numpy as np
import librosa
import librosa.display
import matplotlib.pyplot as plt
from playsound import playsound

from classifier import classifier as teacher_classifier

### Ejercicio #1: Cargar las señales y otros datos en memoria.

Conociendo que cada carpeta contiene la **clasificación** de los archivos de sonido, almacene en un diccionario la información. El diccionario está definido como `<str, list<(np.narray, int, str)>>` donde la llave del diccionario es la clasificación y cada tupla de la lista tiene:
- archivo de sonido cargado en memoria.
- cantidad de muestras tomadas (re-muestro, resampling)
- ruta del fichero

Para cargar el fichero de sonido considere usar la función `librosa.load`. 
 

In [None]:
def load_data(root_folder='dataset'):
    """
    Load the data
    
    Arg:
        - root_folder (str) : Path of the folder containing the data.
        
    Return:
        - dict<str, list<(np.narray, int, str)>>
    
    """
    raise Exception("Not Implemented")
        
dataset = load_data()

Mostremos la representación de la onda y su espectrograma de señal tomada al alzar.

In [None]:
# Seleccionar aleatoriamente una clave del diccionario 'dataset'
random_key = random.choice(list(dataset.keys()))

# Tomar la señal a graficar
audio, sr, file = random.choice(dataset[random_key])

# Calcular el tiempo correspondiente a cada muestra de la señal de audio. Necesario para el eje x
time = np.arange(0, len(audio)) / sr

# Imprimir el nombre del archivo seleccionado aleatoriamente. En caso de querer buscarlo y oir
print('Fichero: ', file)

# Graficar la forma de onda del audio
plt.figure(figsize=(12, 6)) 
plt.plot(time, audio) 
plt.title('Forma de onda del audio') 
plt.xlabel('Tiempo (segundos)') 
plt.ylabel('Amplitud') 

# Calcular el espectrograma del audio y visualizarlo
D = librosa.amplitude_to_db(np.abs(librosa.stft(audio)), ref=np.max) 
plt.figure(figsize=(12, 6)) 
librosa.display.specshow(D, sr=sr, x_axis='time', y_axis='log') 
plt.colorbar(format='%+2.0f dB') 
plt.title('Espectrograma del audio') 

# playsound(file)

# Mostrar los gráficos
plt.show()

#### Preguntas previas:
1. ¿Qué representa la escala de Mel? ¿Para qué se utiliza?
2. ¿Qué representa un Cent? ¿En dónde se ha visto el uso de esta escala?
3. ¿Qué información captura los estractores de características que se definen en el ejercicio siguiente?

### Ejercicio #2: Implemente extractores de características de los sonidos.

Se recomienda trabajar con los siguientes extractores:
- Coeficientes ceptrales de frecuencia Mel
- Espectograma de Mel (similar al espectrograma tradicional pero las frecuencias se mapean a la escala de Mel)
- Centroide espectral 
- Cens de la señal

Se recomienda hacer uso del módulo `librosa.feature`. De usarse, es importante considerar trabajar tanto con la señal como con el cantidad de muestras tomadas en el re-muestreo.

In [None]:
# raise Exception("Not Implemented")
mfccs_extractor = lambda audio, sr: None
mel_spectrum_extractor = lambda audio, sr: None
spectral_centroid_extractor = lambda audio, sr: None
cens_extractor = lambda audio, sr: None

Definidas las funciones para extraer las características, carguemos el mismo ejemplo tomado aleatoriamente y mostremos su representación visual de cada extractor.

In [None]:
mfccs = mfccs_extractor(audio, sr)

# Mostrar los MFCCs
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, x_axis='time')
plt.colorbar()
plt.title('MFCCs')
plt.xlabel('Tiempo')
plt.ylabel('Coeficientes de Mel')
plt.show()

In [None]:
mel_spectrum = mel_spectrum_extractor(audio, sr)

# Visualizar el espectrograma de Mel
plt.figure(figsize=(10, 6))
librosa.display.specshow(mel_spectrum, sr=sr, x_axis='time', y_axis='mel')
plt.colorbar(format='%+2.0f dB')
plt.title('Espectrograma de Mel')
plt.show()

In [None]:
spectral_centroid = spectral_centroid_extractor(audio, sr)

# Visualizar el centroide espectral a lo largo del tiempo
plt.figure(figsize=(10, 6))
plt.semilogy(spectral_centroid.T, label='Centroide espectral')
plt.ylabel('Hz')
plt.xticks([])
plt.xlim([0, spectral_centroid.shape[-1]])
plt.legend()
plt.title('Centroide espectral')
plt.show()

In [None]:
cens = cens_extractor(audio, sr)

# Visualizar el cens
plt.figure(figsize=(10, 4))
librosa.display.specshow(cens, y_axis='chroma', x_axis='time')
plt.colorbar()
plt.title('Chroma CENS')
plt.tight_layout()
plt.show()

La posibilidad de contar con distintos extractores y con ellos distintas representaciones asociadas a una misma señal, nos facilita determinar la "mejor" representación según las tareas que tendrá nuestro SRI.

### Ejercicio #3: Analice y discuta la mejor representación implementada de la señal para clasificarlas en las 10 categorías mencionadas al inicio de la clase

Para ello, apóyese de la función `teacher_classifier`. Además, antes de utilizarla debe de volcar toda la información almacenada en la variable `dataset` en dos variables que serán los datos y las categorías de cada uno.

In [None]:

data = []
labels = []

raise Exception("Not Implemented")


In [None]:
print('mfccs_extractor\n', teacher_classifier(mfccs_extractor, data, labels))
print('\nmel_spectrum_extractor\n', teacher_classifier(mel_spectrum_extractor, data, labels))
print('\ncens_extractor\n', teacher_classifier(cens_extractor, data, labels))
print('\nspectral_centroid_extractor\n', teacher_classifier(spectral_centroid_extractor, data, labels))