Primero insertamos las librerias necesarias para el trabajo.

In [None]:
from scipy.io import wavfile
import IPython
import os
import numpy as np
import matplotlib.pyplot as plt

Especificaremos la carpeta de entrada, que será "input", y la carpeta de salida, que será "outputE

In [None]:
cwd = os.getcwd()
audio_input_path = os.path.join(cwd, os.path.join('audio', '_input')) 
audio_output_path = os.path.join(cwd, os.path.join('audio', '_output'))
print(f'Directorio con los audios de entrada: {audio_input_path}')
print(f'Directorio donde guardaremos los audios generados: {audio_output_path}\n')

Ahora ya podremos cargar los audios que necesitemos especificando su nombre.

In [None]:
filename = os.path.join(audio_input_path, 'the_last_of_us_reduced.wav')

sample_rate, audio_data = wavfile.read(filename)
print(f'Frecuencia de muestreo (sample rate): {sample_rate/1000} kHz')
print('Datos de audio (estereo):')
print(f'- Tamaño:     {audio_data.shape}')
print(f'- 1º canal:   {audio_data[:5, 0]}...')
print(f'- 2º canal:   {audio_data[:5, 1]}...')
print(f'- Resolucion: {type(audio_data[0,0])}\n')

Crearemos un widget para escuchar el audio cargado

In [None]:
IPython.display.Audio(audio_data.T, rate=sample_rate)

Para pasar de estereo a mono usaremos el siguiente código

In [None]:
new_data_mono = audio_data.mean(axis=1) 

Comprobamos los datos una vez modificado el audio y mantenemos la misma resolución que el original

In [None]:
print('Nuevos datos de audio (mono):')
print(f'- Nuevo tamaño: {new_data_mono.shape}')
print(f'- Canal unico:  {new_data_mono[:5]}...')

new_data_mono = new_data_mono.astype(np.int16)
print(f'- Resolucion:   {type(new_data_mono[0])}\n')

Añadimos un nuevo widget para ecuchar el audio modificado

In [None]:
IPython.display.Audio(new_data_mono.T, rate=sample_rate)

Procederemos a mostrar las graficas de los audios stereo y mono.

In [None]:
ampl_mono = len(audio_data)
ampl_stereo= len(new_data_mono)

t1 = np.arange(0, ampl_mono/sample_rate, 1/sample_rate)
t2 = np.arange(0, ampl_stereo/sample_rate, 1/sample_rate)

# Creamos la figura.
fig, ax = plt.subplots(2, 1, figsize=(12, 6), sharex=True)

# Solo mostramos las primeras 50 muestras de amplitud (por claridad).
end = 50

# Señal stereo
ax[0].plot(t1[:end], audio_data[:end], marker='X')
ax[0].set_title(f'Audio en el dominio del tiempo muestreado a {ampl_stereo} Hz')
ax[0].set_ylabel('Amplitud')
ax[0].grid(True)

# Señal mono
ax[1].plot(t1[:end], new_data_mono[:end], marker='X')
ax[1].set_title(f'Audio en el dominio del tiempo muestreado a {ampl_mono} Hz')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Amplitud')
ax[1].grid(True)

# Mostramos la figura.
plt.tight_layout()
plt.show()

Como podemos observar, en la gráfica del audio stereo nos aparecerean dos ondas distintas ya que este audio tiene dos canales por donde se reproduce el audio. En el segundo gráfico tenemos solo una onda ya que al ser un audio mono solo tiene un canal.

Ahora procederemos a ver la frecuencia de muestreo

In [None]:
print(f'Frecuencia de muestreo (estereo): {audio_data/1000} kHz')
print(f'Frecuencia de muestreo (mono): {new_data_mono/1000} kHz')

Para comprimir nuestro audio usaremos la Tranformada rápida de fourier. Con esto cogeremos solos los valores que se encuentre debajo de dciho valor reduciendo asi el tamaño del audio. Usaremos el audio mono para aplicarle la transforamda rápida de Fourier.

In [None]:
# La longitud del array de datos y el
# sample rate (frecuencia de muestreo).
n = len(new_data_mono)
Fs = sample_rate

# Working with stereo audio, there are two channels in the audio data.
# Let's retrieve each channel seperately:
# ch1 = np.array([data[i][0] for i in range(n)]) #channel 1
# ch2 = np.array([data[i][1] for i in range(n)]) #channel 2
# We can then perform a Fourier analysis on the first
# channel to see what the spectrum looks like.

# Calculando la Transformada Rapida de Fourier (FFT) en audio mono.
ch_Fourier = np.fft.fft(new_data_mono)  # ch1

# Solo miramos frecuencia por debajo de Fs/2
# (Nyquist-Shannon) --> Spectrum.
abs_ch_Fourier = np.absolute(ch_Fourier[:n//2])

# Graficamos.
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud', labelpad=10)
plt.xlabel('$f$ (Hz)', labelpad=10)
plt.show()

In [None]:
eps = [1e-5, .02, .041, .063, .086, .101, .123]

# Jugamos con los valores de epsilon (CAMBIAD ESTO).
eps = eps[2]
print(f'Epsilon: {eps}')

# Calculamos el valor de corte para esta energia.
thr_spec_energy = (1 - eps) * np.sum(abs_ch_Fourier)
print(f'Valor de corte para la energia del espectro: {thr_spec_energy}')

# Integral de la frecuencia --> energia del espectro.
spec_energy = np.cumsum(abs_ch_Fourier)

# Mascara (array booleano) que compara el valor
# de corte con la energia del espectro.
frequencies_to_remove = thr_spec_energy < spec_energy  
print(f'Mascara: {frequencies_to_remove}')

# La frecuencia f0 por la que cortamos el espectro.
f0 = (len(frequencies_to_remove) - np.sum(frequencies_to_remove)) * (Fs/2) / (n//2)
print(f'Frecuencia de corte f0 (Hz): {int(f0)}')

# Graficamos.
plt.axvline(f0, color='r')
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud')
plt.xlabel('$f$ (Hz)')
plt.show()

Según el valor de epsilon que uses, el frecuencia de corte será distinta. En este caso si usas eps(1) la frecuencia de corte sera menos que si usaramos eps(2), por tanto tendrá en cuenta menos ondas y el archivo será menor.

Ahora proceremos a comrpimir la onda usando downsampling usando la frecuencia de corte anterior.

In [None]:
# Definimos los nombres de los audios comprimidos.
wav_compressed_file = "mono_compressed.wav"

# Calculamos el factor D de downsampling.
D = int(Fs / f0)
print(f'Factor de downsampling: {D}')

# Obtenemos los nuevos datos (slicing with stride).
new_data = new_data_mono[::D]

# Escribimos los datos a un archivo de tipo wav.
wavfile.write(
    filename=os.path.join(audio_output_path, wav_compressed_file),
    rate=int(Fs/D),
    data=new_data
)

# Cargamos el nuevo archivo.
new_sample_rate, new_audio_data = wavfile.read(filename=os.path.join(audio_output_path, wav_compressed_file))

Mostremos los espectogramas de la banda orginal y de la comprimida.

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

Pxx, freqs, bins, im = ax[0].specgram(new_data_mono, NFFT=1024, Fs=sample_rate, noverlap=512)
ax[0].set_title('Espectograma del audio original')
ax[0].set_ylabel('Frecuencia (Hz)')
ax[0].grid(True)

Pxx, freqs, bins, im = ax[1].specgram(new_audio_data, NFFT=1024, Fs=new_sample_rate, noverlap=512)
ax[1].set_title('Espectrograma del audio reducido/comprimido')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Frecuencia (Hz)')
ax[1].grid(True)

plt.tight_layout()
plt.show()

El espectrograma del audio comprimido sigue siendo muy parecido al espectograma del audi orginal pero podemos ver como se ha reducido.

Los tamaños de ambos audios son los siguientes:  

In [None]:
print(f'- Tamaño:     {new_data_mono.shape}')
print(f'- Tamaño:     {new_audio_data.shape}')

Vemos que el tamaño una vez comprimido el audio disminuye.

Audio original:

In [None]:
IPython.display.Audio(new_data_mono.T, rate=sample_rate)

Audio original:

In [None]:
IPython.display.Audio(new_audio_data.T, rate=new_sample_rate)