# Procesamiento de Audio empleando Numpy, Librosa y Matplotlib

Para la preparacion de este material, se ha tomado como referencia los cursos https://huggingface.co/learn/nlp-course (Capitulo 3-4),
https://huggingface.co/learn/audio-course (Unidad 1 - 3), y manuales de Real Python (https://realpython.com/python-matplotlib-guide/)

## Instrucciones de Instalacion

Antes de empezar, verificar si tienen instalado las librerias necesarias.
En su configuracion personal, pueden instalar desde el directorio base del repositorio usando `pip install -r installer/requirements.txt`,
ya sea para Windows o Linux.

En caso de usar Colab, pueden copiar el contenido en un archivo dentro de Colab, o en su propia nube.
Ingresar la linea de codigo: `!pip install -r <folder>/requirements.txt` dentro de una celda, y presionar en `Ejecutar celda`

## Visualizacion con Matplotlib

Con Python, podemos aprovechar toda la potencia de las bibliotecas más populares de Python para analizar y visualizar datos.

In [None]:
import numpy as np
from matplotlib import pyplot as plt

ys = 200 + np.random.randn(100)
x = [x for x in range(len(ys))]

plt.plot(x, ys, '-')
plt.fill_between(x, ys, 195, where=(ys > 195), facecolor='g', alpha=0.6)

plt.title("Visualizacion simple")
plt.show()

Mostrando lineas

In [None]:
rng = np.arange(50)
rnd = np.random.randint(0, 10, size=(3, rng.size))
yrs = 1950 + rng
fig, ax = plt.subplots(figsize=(5, 3))

ax.stackplot(yrs, rng + rnd, labels=['Eastasia', 'Eurasia', 'Oceania'])
ax.set_title('Crecimiento de la deuda combinada a traves del tiempo')
ax.legend(loc='upper left')
ax.set_ylabel('Total debt')
ax.set_xlim(xmin=yrs[0], xmax=yrs[-1])
fig.tight_layout()

Mostrando diagramas de dispersion y barras

In [None]:
x = np.random.randint(low=1, high=11, size=50)
y = x + np.random.randint(1, 5, size=x.size)
data = np.column_stack((x, y))

fig, (ax1, ax2) = plt.subplots(nrows=1, ncols=2, figsize=(8, 4))

ax1.scatter(x=x, y=y, marker='o', c='r', edgecolor='b')
ax1.set_title('Dispersion: $x$ versus $y$')
ax1.set_xlabel('$x$')
ax1.set_ylabel('$y$')

ax2.hist(data, bins=np.arange(data.min(), data.max()),    label=('x', 'y'))
ax2.legend(loc=(0.65, 0.8))
ax2.set_title('Frecuencias de $x$ y $y$')
ax2.yaxis.tick_right()

Mostrando imagenes 3D

In [None]:
ax = plt.figure().add_subplot(projection='3d')

# Plot a sin curve using the x and y axes.
x = np.linspace(0, 1, 100)
y = np.sin(x * 2 * np.pi) / 2 + 0.5
ax.plot(x, y, zs=0, zdir='z', label='curve in (x, y)')

# Trazar datos de diagrama de dispersión (20 puntos 2D por color) en los ejes x y z.
colors = ('r', 'g', 'b', 'k')

# Arreglando el estado aleatorio para la reproducibilidad
np.random.seed(19680801)

x = np.random.sample(20 * len(colors))
y = np.random.sample(20 * len(colors))
c_list = []
for c in colors:
    c_list.extend([c] * 20)
# Al usar zdir='y', el valor y de los puntos es fijado a zs con valor 0
# y los puntos (x, y) son trazados en los ejes x y z.
ax.scatter(x, y, zs=0, zdir='y', c=c_list, label='points in (x, z)')

# Hacer una leyenda, fijar limites y etiquetas en los ejes
ax.legend()
ax.set_xlim(0, 1)
ax.set_ylim(0, 1)
ax.set_zlim(0, 1)
ax.set_xlabel('X')
ax.set_ylabel('Y')
ax.set_zlabel('Z')

# Personaliza el angulo de vision para que sea mas facil ver donde se encuentan los puntos de dispersion
# en el plano y=0 
ax.view_init(elev=20., azim=-35, roll=0)

plt.show()

Otro ejemplo con imagenes 3D

In [None]:
import matplotlib.pyplot as plt
import numpy as np

from matplotlib import cbook, cm
from matplotlib.colors import LightSource

# Cargar y dar formato a la data
dem = cbook.get_sample_data('jacksboro_fault_dem.npz')
z = dem['elevation']
nrows, ncols = z.shape
x = np.linspace(dem['xmin'], dem['xmax'], ncols)
y = np.linspace(dem['ymin'], dem['ymax'], nrows)
x, y = np.meshgrid(x, y)

region = np.s_[5:50, 5:50]
x, y, z = x[region], y[region], z[region]

# Configurar la figura
fig, ax = plt.subplots(subplot_kw=dict(projection='3d'))

ls = LightSource(270, 45)

# Para utilizar un modo de sombreado personalizado, anule el sombreado
# incorporado y pase los colores rgb de la superficie sombreada calculados a partir 
# de "shade".

rgb = ls.shade(z, cmap=cm.gist_earth, vert_exag=0.1, blend_mode='soft')
surf = ax.plot_surface(x, y, z, rstride=1, cstride=1, facecolors=rgb,
                       linewidth=0, antialiased=False, shade=False)

plt.show()

## Generando Sonidos con Numpy

Usando las frecuencias de las notas musicales, generar una melodia (Ref. https://www.ciudadpentagrama.com/2020/01/tabla-frecuencias-notas-musicales.html) 

Puedes guardar la melodia usando soundfile

In [None]:
import soundfile as sf

bpm = 80 #
fs = 
t = np.linspace(0, 60 / bpm)
x = np.sin(2 * np.pi * t)

melodia = [nota1, nota2, nota3, ...]
sf.write(name_out, melodia, fs)

Finalmente mostrar la grafica de su melodia

In [None]:
plt.plot(melodia)
plt.show()

## Librosa para procesamiento de sonido

Es posible que haya visto sonidos visualizados como una forma de onda, que traza los valores de la muestra a lo largo del tiempo e ilustra los cambios en la amplitud del sonido. Esto también se conoce como representación del sonido en el dominio del tiempo.

In [None]:
import librosa

array, sampling_rate = librosa.load(librosa.ex("trumpet"))
plt.figure().set_figwidth(12)
librosa.display.waveshow(array, sr=sampling_rate)

##### El dominio de la frecuencia

Otra forma de visualizar datos de audio es trazar el espectro de frecuencia de una señal de audio, también conocido como representación en el dominio de la frecuencia. El espectro se calcula mediante la transformada discreta de Fourier o DFT. Describe las frecuencias individuales que componen la señal y su intensidad.

Tracemos el espectro de frecuencia para el mismo sonido de trompeta tomando el DFT usando la función rfft() de numpy. Si bien es posible trazar el espectro de todo el sonido, es más útil observar una región pequeña. Aquí tomaremos el DFT de las primeras 4096 muestras, que es aproximadamente la duración de la primera nota que se toca:

In [None]:
dft_input = array[:4096]

# Calcular la (Transformada Discreta de Fourier) DFT
window = np.hanning(len(dft_input))
windowed_input = dft_input * window
dft = np.fft.rfft(windowed_input)

# Obtener la amplitud espectral en decibeles
amplitude = np.abs(dft)
amplitude_db = librosa.amplitude_to_db(amplitude, ref=np.max)

# Obtener las frecuencias bins
frequency = librosa.fft_frequencies(sr=sampling_rate, n_fft=len(dft_input))

plt.figure().set_figwidth(12)
plt.plot(frequency, amplitude_db)
plt.xlabel("Frequency (Hz)")
plt.ylabel("Amplitude (dB)")
plt.xscale("log")

#### Espectrograma

Qué pasa si queremos ver cómo cambian las frecuencias en una señal de audio? La trompeta toca varias notas y todas tienen frecuencias diferentes. El problema es que el espectro sólo muestra una instantánea congelada de las frecuencias en un instante determinado. La solución es tomar múltiples DFT, cada una de las cuales cubra solo una pequeña porción de tiempo, y apilar los espectros resultantes en un espectrograma.

Un espectrograma traza el contenido de frecuencia de una señal de audio a medida que cambia con el tiempo. Le permite ver el tiempo, la frecuencia y la amplitud, todo en un solo gráfico. El algoritmo que realiza este cálculo es el STFT o Transformada de Fourier de Tiempo Corto.

El espectrograma es una de las herramientas de audio más informativas disponibles para usted. Por ejemplo, cuando trabaja con una grabación musical, puede ver los distintos instrumentos y pistas vocales y cómo contribuyen al sonido general. En el habla, puedes identificar diferentes sonidos vocálicos, ya que cada vocal se caracteriza por frecuencias particulares.

In [None]:
D = librosa.stft(array)
S_db = librosa.amplitude_to_db(np.abs(D), ref=np.max)

plt.figure().set_figwidth(12)
librosa.display.specshow(S_db, x_axis="time", y_axis="hz")
plt.colorbar()

#### Espectrogramas Mel

Un espectrograma mel es una variación del espectrograma que se usa comúnmente en tareas de procesamiento del habla y aprendizaje automático. Es similar a un espectrograma en que muestra el contenido de frecuencia de una señal de audio a lo largo del tiempo, pero en un eje de frecuencia diferente.

En un espectrograma estándar, el eje de frecuencia es lineal y se mide en hercios (Hz). Sin embargo, el sistema auditivo humano es más sensible a los cambios en las frecuencias más bajas que en las más altas, y esta sensibilidad disminuye logarítmicamente a medida que aumenta la frecuencia. La escala mel es una escala de percepción que se aproxima a la respuesta de frecuencia no lineal del oído humano.

Para crear un espectrograma mel, se utiliza el STFT como antes, dividiendo el audio en segmentos cortos para obtener una secuencia de espectros de frecuencia. Además, cada espectro se envía a través de un conjunto de filtros, el llamado banco de filtros mel, para transformar las frecuencias a la escala mel.

In [None]:
S = librosa.feature.melspectrogram(y=array, sr=sampling_rate, n_mels=128, fmax=8000)
S_dB = librosa.power_to_db(S, ref=np.max)

plt.figure().set_figwidth(12)
librosa.display.specshow(S_dB, x_axis="time", y_axis="mel", sr=sampling_rate, fmax=8000)
plt.colorbar()