# <center> PROCESAMIENTO DIGITAL DE SEÑALES DE AUDIO</center>
## <center> Audio Coding</center>      

In [None]:
%matplotlib inline

import os
import time
import numpy as np
from itertools import zip_longest

import matplotlib.pyplot as plt

from scipy import signal
from scipy.io import wavfile

import IPython.display as ipd

In [None]:
pip install sox

In [None]:
import sox

**NOTA:** *Las siguientes dos celdas solo son necesarias para descargar el archivo de ejemplo. Ignórelas si va a trabajar con sus propios archivos de audio.*

In [None]:
!pip install wget

In [None]:
import wget

### Introducción

#### Descripción

En este ejercicio se estudia la compresión de audio con y sin pérdidas. 

En la **compresión sin pérdidas** es posible obtener el original bit a bit. Se aprovecha la redundancia de la señal (e.g. DPCM, entropía). El estado del arte en compresión sin pérdidas permite tasas de entre 2:1 a 4:1. 

En la **compresión con pérdidas** hay pérdida de información. Se explota la irrelevancia perceptiva a través de modelos psicoacústicos. El estado del arte en compresión con pérdidas permite tasas de entre 10:1 a 25:1.



### Cómo correr el notebook
Se puede bajar y correr el notebook de forma local en una computadora.

O también se puede correr en Google Colab usando el siguiente enlace. 

<table align="center">
  <td>
    <a target="_blank" href="https://colab.research.google.com/github/mrocamora/audio-dsp/blob/main/notebooks/audioDSP-audio_coding_example.ipynb"><img src="https://www.tensorflow.org/images/colab_logo_32px.png" />Run in Google Colab</a>
  </td>
</table>

#### Funciones auxiliares

A continuación se definen dos funciones auxililares para comparar dos archivos de audio: en la primera a través de algunas de sus características (como frecuencia de muestreo, profundida de bit, duración, tamaño en bytes, etc), y en la segunda como una comparación bit a bit.

In [None]:
def compare_audio_files(path1, path2):
    """ compare two audio files by comparing its properties
    
    Parameters
    ----------
    path1 : path to file1
    path2 : path to file2
    
    Returns
    -------
    s : string
        a string with the information of each file    
    """
    
    # string to return
    s = []

    # get the type of encoding
    s.append('{:30} {}'.format('Encoding 1: ', sox.file_info.encoding(path1)))
    s.append('{:30} {}'.format('Encoding 2: ', sox.file_info.encoding(path2)))
    
    # get the sampling rate
    in_srate = sox.file_info.sample_rate(path1)
    out_srate = sox.file_info.sample_rate(path2)  
    s.append('{:30} {:.1f}'.format('Sample rate 1 (Hz): ', (in_srate)))
    s.append('{:30} {:.1f}'.format('Sample rate 2 (Hz): ', (out_srate)))

    # get the number of samples
    in_samples = sox.file_info.num_samples(path1)
    out_samples = sox.file_info.num_samples(path2)

    # compute durations
    s.append('{:30} {:.6f}'.format('Duration 1 (secs): ', (in_samples / in_srate)))
    s.append('{:30} {:.6f}'.format('Duration 2 (secs): ', (out_samples / out_srate)))

    # get the file size in bytes
    in_size = os.path.getsize(path1)
    out_size = os.path.getsize(path2)
    s.append('{:30} {:d}'.format('File size 1 (bytes): ', in_size))
    s.append('{:30} {:d}'.format('File size 1 (bytes): ', out_size))
    
    # compute compression ratio
    s.append('{:30} {:.3f}'.format('Compression ratio (in/out): ', (in_size/out_size)))

    return '\n'.join(s)

In [None]:
def compare_binaries(path1, path2):
    """ compare two binary files
    
    Parameters
    ----------
    path1 : path to file1
    path2 : path to file2
    """
    with open(path1, 'rb') as f1, open(path2, 'rb') as f2:
        for line1, line2 in zip_longest(f1, f2, fillvalue=None):
            if line1 == line2:
                continue
            else:
                return False
        return True

### Parte 1

En esta primera parte se codifica un archivo de audio `.wav` a un archivo `.flac`.

#### Parte 1.1

Siga los pasos detallados a continuación y responda las siguientes preguntas. 

1. Seleccione alguno de los dos archivos de audio disponibles y ejecute el código para codificar.
2. ¿Cuál es la tasa de compresión obtenida? ¿Es similar para los distintos archivos de audio?


In [None]:
# download audio files
wget.download('https://github.com/mrocamora/audio-dsp/blob/main/audio/singing_voice.wav?raw=true')
wget.download('https://github.com/mrocamora/audio-dsp/blob/main/audio/trumpet.wav?raw=true')

In [None]:
# read the audio file
#filename = 'singing_voice'
filename = 'trumpet'

in_filename = filename + '.wav'
out_filename = filename + '.flac'

# create transformer
tfm = sox.Transformer()

In [None]:
# read an input file and create an output file
t = time.time()
tfm.build(in_filename, out_filename)
elapsed = time.time() - t

print('Elapsed time (s): %.6f' % (elapsed))

In [None]:
print(compare_audio_files(in_filename, out_filename))

#### Parte 1.2

En esta parte se estudia si es posible obtener el archivo original a partir del comprimido. 

Siga los pasos detallados a continuación y responda las siguientes preguntas. 

1. Complete el código para obtener un archivo `.wav` a partir del archivo comprimido `.flac`.
2. Compare los archivos `.wav` original y reconstruído. ¿La compresión es con o sin pérdida?

In [None]:
# reconstructed `.wav` file from compressed
rec_flac_filename = filename + '_rec_flac.wav'

# convert flac to wav
tfm.build(?, ?)

# compare binaries
print('Binary files are equal? %s' % (compare_binaries(?, ?)))


### Parte 2

En esta segunfa parte se codifica un archivo de audio `.wav` a un archivo `.ogg`.

#### Parte 2.1

Siga los pasos detallados a continuación y responda las siguientes preguntas. 

1. Repita la codificación, pero indicando la salida como `.ogg`.
2. Compare el tiempo de ejecución con la compresión a `.flac`. ¿A qué se debe la diferencia? 
3. ¿Cuál es la tasa de compresión obtenida? ¿Es similar para los distintos archivos de audio?


In [None]:
# output compressed audio file
out_filename = filename + '.ogg'

# create transformer
tfm = sox.Transformer()

In [None]:
# read an input file and create an output file
t = time.time()
tfm.build(?, ?)
elapsed = time.time() - t

print('Elapsed time (s): %.6f' % (elapsed))

In [None]:
print(compare_audio_files(?, ?))

#### Parte 2.2

En esta parte se estudia si es posible obtener el archivo original a partir del comprimido. 

Siga los pasos detallados a continuación y responda las siguientes preguntas. 

1. Complete el código para obtener un archivo `.wav` a partir del archivo comprimido `.ogg`.
2. Compare los archivos `.wav` original y reconstruído. ¿La compresión es con o sin pérdida?

In [None]:
# reconstructed `.wav` file from compressed
rec_ogg_filename = filename + '_rec_ogg.wav'

# convert ogg to wav
tfm.build(?, ?)

# compare binaries
print('Binary files are equal? %s' % (compare_binaries(?, ?)))


#### Parte 2.3

En esta parte se estudian las diferencias entre los archivos reconstruídos mediante un espectrograma.

Siga los pasos detallados a continuación y responda las siguientes preguntas. 

1. Ejecute el código para obtener los espectrogramas de la señal original y sus reconstrucciones.
2. ¿Qué diferencias observa en los espectrogramas de la reconstrucciones a partir de `.flac` y `.ogg`? 
3. ¿Es capaz de escuchar diferencias al reproducir los archivos? ¿Por qué?


In [None]:
# get the input audio as a numpy array
fs_in, y_in = wavread(in_filename)

# get the reconstructed audio from flac
fs_flac, y_flac = wavread(rec_flac_filename)

# get the reconstructed audio from ogg
fs_ogg, y_ogg = wavread(rec_ogg_filename)

In [None]:
nperseg = 1024
noverlap = 256

# plot audio signal
plt.figure(figsize=(12,6))
#ax1 = plt.subplot(2, 1, 1)
f, t, S = signal.spectrogram(y_in, fs_in, nperseg=nperseg, noverlap=noverlap, mode='psd', window='hann')
plt.pcolormesh(t, f, 20*np.log10(S), cmap='jet')
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.tight_layout()

plt.figure(figsize=(12,6))
#ax1 = plt.subplot(2, 1, 2)
f, t, S = signal.spectrogram(y_flac, fs_flac, nperseg=nperseg, noverlap=noverlap, mode='psd', window='hann')
plt.pcolormesh(t, f, 20*np.log10(S), cmap='jet')
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.tight_layout()

plt.figure(figsize=(12,6))
#ax1 = plt.subplot(2, 1, 2)
f, t, S = signal.spectrogram(y_ogg, fs_ogg, nperseg=nperseg, noverlap=noverlap, mode='psd', window='hann')
plt.pcolormesh(t, f, 20*np.log10(S), cmap='jet')
plt.ylabel('Frequency [Hz]')
plt.xlabel('Time [sec]')
plt.tight_layout()

In [None]:
ipd.Audio(y_in, rate=fs_in)

In [None]:
ipd.Audio(y_flac, rate=fs_flac)

In [None]:
ipd.Audio(y_ogg, rate=fs_ogg)