***

---

# Sesión 3 de SM: Introducción al análisis de audio con Python <img src="img/logo_uex.png" alt="missing" width=22>

Práctica desarrollada por Andres J. Sanchez-Fernandez (sfandres@unex.es) y Juan M. Haut (juanmariohaut@unex.es) para la asignatura Sistemas Multimedia de la Universidad de Extremadura.

---

***

## Organización de la clase

Fecha de la sesión planificada: 27/02/2024.

### Cronología

<table>
  <tr>
    <th>Turno</th>
    <th>Tiempo (')</th>
    <th>Tarea</th>
  </tr>
  <tr>
    <td>Alumnos</td>
    <td>20</td>
    <td>Acceder al <a href="https://github.com/sfandres94/uex-audiopy">GitHub</a> de la práctica y seguir los pasos para replicar mi repositorio<br> en local y echarlo a andar (hay que seguir el apartado <a href="https://github.com/sfandres94/uex-audiopy#getting-started"><i>Getting started</i></a>).</td>
  </tr>
  <tr>
    <td>Profesor</td>
    <td>10</td>
    <td>Introducir el contenido de este notebook.</td>
  </tr>
  <tr>
    <td>Alumnos</td>
    <td>&#8734;</td>
    <td>Realizar el ejercicio de clase que se divide en dos partes: crear un entorno de conda desde cero<br> (apartado <a href="https://github.com/sfandres94/uex-audiopy#working-on-your-own-from-scratch"><i>Working on your own from scratch</i></a>) y analizar ondas de audio con Python3.</td>
  </tr>
</table>

### Objetivos de aprendizaje

Los objetivos de esta práctica son los siguientes:
<ol>
    <li>Trabajar con <b>repositorios de GitHub</b> (Git), entornos virtuales de <b>conda</b> (Anaconda), y notebooks con <b>JupyterLab</b> y <b>Python3</b>.
    <li>Aprender a utilizar las <b>librerías más importantes de Python3</b> para el manejo de audios.</li>
    <li>Saber diferenciar entre sonido <b>estéreo</b> y <b>mono</b>, aprendiendo la conversión entre ambos.</li>
    <li>Entender lo que es una <b>onda de sonido</b> y cómo se realiza el <b>proceso de adquisición</b> de la misma.</li>
</ol>

### Bibliografía consultada

Información consultada para el desarrollo de esta práctica:
<ul>
    <li><em>RouteNote Blog: Understanding sample rates in digital audio by Connor Edney</em> <a href="https://routenote.com/blog/what-is-sample-rate-in-audio/">[Link]</a></li>
    <li><em>MiniTool: What Is Audio Sample Rate & How to Change Sample Rate of Audio by Cora</em> <a href="https://videoconvert.minitool.com/video-converter/audio-sample-rate.html">[Link]</a></li>
    <li>Repositorios de Github:
        <ul>
            <li>Cómo graficar espectrogramas de Audios en Python <a href="https://www.kaggle.com/code/joeportilla/c-mo-graficar-espectrogramas-de-audios-en-python/notebook">[Link]</a></li>
            <li><em>Simple audio compression with Python</em> <a href="https://github.com/jmpion/simple-audio-compression-with-python/blob/master/simple-audio-compression.ipynb">[Link]</a></li>
        </ul>
    </li>
</ul>

***

***

## Introducción

### ¿Qué es un entorno de Anaconda?

<center><img src="img/logo_anaconda.png" alt="missing" width=150></center><br>

Un entorno Conda para Python es un <b>directorio autocontenido que contiene todos los archivos y paquetes necesarios para un proyecto o aplicación Python</b> específica. Te permite instalar y gestionar diferentes versiones de Python y sus dependencias, sin afectar a la instalación global de Python o a otros proyectos en tu sistema.

Conda es un sistema de gestión de paquetes y entornos para cualquier lenguaje de programación. Te permite crear, gestionar y cambiar entre múltiples entornos y compartirlos con otros, lo que facilita la colaboración en proyectos.

### JupyterLab vs Jupyter notebooks

<center><img src="img/logo_jupyter.png" alt="missing" width=250></center><br>

JupyterLab y Jupyter Notebook son entornos informáticos interactivos basados en la web que permiten crear y compartir documentos que contienen código, ecuaciones, visualizaciones y texto narrativo.

<ul>
    <li><b>Jupyter Notebook</b> es el más antiguo de los dos y existe desde 2011. Tiene una interfaz más sencilla y proporciona un documento único donde se puede editar y ejecutar código en celdas, y ver la salida de esas celdas en la misma interfaz. También puedes crear celdas de tipo <i>Markdown</i> para documentar y añadir imágenes, vídeos y otros medios a tu cuaderno. Jupyter Notebook es compatible con más de 40 lenguajes de programación, incluidos Python, R, Julia y Scala.</li>
    <li><b>JupyterLab</b>, por su parte, se lanzó en 2018 y proporciona una interfaz más potente y versátil para la computación interactiva. Tiene una interfaz con varias pestañas que permite trabajar con varios cuadernos y otros archivos al mismo tiempo. JupyterLab tiene un editor de texto integrado, un terminal y un navegador de archivos, y admite arrastrar y soltar archivos entre pestañas. También dispone de funciones más avanzadas, como completado de código, depuración e integración con sistemas de control de versiones como Git. JupyterLab soporta los mismos lenguajes de programación que Jupyter Notebook.</li>
</ul>



<b>En resumen, Jupyter Notebook es una herramienta más sencilla y centrada en la computación interactiva, mientras que JupyterLab proporciona una interfaz más versátil y potente para trabajar con múltiples cuadernos y archivos.</b>


<b>Google Colab</b> es un entorno de cuaderno Jupyter. Está construido sobre la infraestructura de Jupyter Notebook y soporta muchas de las mismas características. Además, ofrece varias características únicas, como la posibilidad de utilizar Google Drive para almacenar y acceder a tus cuadernos, así como ejecutar código en la infraestructura en la nube de Google, incluidas las GPUs y TPUs.

### Breve introducción a Python3

<center><img src="img/logo_python.png" alt="missing" width=220></center>

Las principales ventajas de Python son:

<ul>
<li><b>Fácil de aprender y usar</b>: Python tiene una sintaxis simple y fácil de aprender que lo convierte en un gran lenguaje para principiantes. El código es legible y directo, lo que ayuda a reducir la curva de aprendizaje y facilita la escritura y el mantenimiento del código.</li>

<li><b>Lenguaje interpretado</b>: Python es un lenguaje interpretado, lo que significa que el código se ejecuta línea por línea, haciendo más fácil depurar y probar el código. No es necesario compilar el código antes de ejecutarlo, lo que agiliza el desarrollo y despliegue de aplicaciones.</li>

<li><b>Gran biblioteca estándar</b>: Python viene con una gran biblioteca estándar que proporciona muchos módulos útiles para tareas comunes de programación como el manejo de archivos, redes y acceso a bases de datos. Esto facilita la escritura de programas sin necesidad de instalar bibliotecas de terceros.</li>

<li><b>Bibliotecas de terceros</b>: Python tiene un vasto ecosistema de bibliotecas de terceros que se pueden instalar fácilmente utilizando el gestor de paquetes pip. Estas bibliotecas proporcionan funcionalidad adicional para tareas como la computación científica, el desarrollo web y el aprendizaje automático.</li>

<li><b>Multiplataforma</b>: Python es un lenguaje multiplataforma, lo que significa que el código escrito en un sistema operativo puede ejecutarse en otro sin necesidad de realizar cambios en el código. Esto hace que sea más fácil escribir código que funcione en múltiples plataformas.</li>

<li><b>Orientado a objetos</b>: Python soporta programación orientada a objetos (POO), lo que permite crear código reutilizable que puede organizarse en clases y objetos. Esto facilita la gestión de código complejo y mejora su mantenimiento.</li>
</ul>
    
En definitiva, Python3 y Python en general son lenguajes populares por su sencillez, facilidad de uso y amplia gama de aplicaciones. Con su gran biblioteca estándar y bibliotecas de terceros, Python se puede utilizar para una amplia variedad de tareas y es una gran opción tanto para principiantes como para desarrolladores experimentados.

Esto es una celda y es donde se ejecuta código:

En Python no se le indica el tipo de variable que es:

In [None]:
# int num = 5  # Mal.
num = 5
print(num, type(num))

num = 5.
print(num, type(num))

cad = 'Hola mundo!'
print(cad, type(cad))

En este notebook se utilizan mucho los f-Strings (format string) de Python3:

In [None]:
num = 11
print('Este es mi número favorito:', num)            # Cast automático.
print('Este es mi número favorito: ' + str(num))     # Nosotros hacemos cast.
print('Este es mi número favorito: {}'.format(num))  # Forma más interesante.
print(f'Este es mi número favorito: {num}')  # Aún más interesante y versátil.

***

***

## Primeros pasos con audio: sonido mono vs estéreo

<center><img src="img/mono_vs_stereo_diagram.jpg" alt="missing" width=500></center>

### Importar librerías y módulos de Python

<b>Nota</b>: Estas no son las únicas librerías de Python con las que se pueden trabajar para el procesamiento de archivos de audio (otro ejemplo podría ser <a href="https://librosa.org/doc/latest/index.html">Librosa</a>). Si alguien está familiarizado con otras librerías puede utilizarlas.

Importamos las librerías/módulos específicos de la siguiente forma.

In [None]:
# Importacion.
# import librosa
from scipy.io import wavfile
import IPython
import os
import numpy as np

### Especificar directorios de entrada y salida

Aquí definimos los directorios donde guardaremos los audios con los que vamos a trabajar, así como dónde se van a guardar aquellos que generamos a lo largo de la práctica.

In [None]:
# Directorios que usaremos.
cwd = os.getcwd()
audio_input_path = os.path.join(cwd, os.path.join('audio', '_input'))  # cambiar '_input' por 'examples'
audio_output_path = os.path.join(cwd, os.path.join('audio', '_output'))
print(f'Directorio con los audios de entrada: {audio_input_path}')
print(f'Directorio donde guardaremos los audios generados: {audio_output_path}\n')

### Cargar el archivo de audio

Diferencias entre formatos de archivo para almacenar audio digital.

<ul>
    <li><b>.wav</b>: Archivo de audio sin comprimir (máxima calidad y gran tamaño de archivo). Típicamente utilizado en edición de audio debido a su fidelidad.</li>
    <li><b>.mp3</b> (por ejemplo): Archivo de audio comprimido (con pérdidas pero menor tamaño). Ampliamente usado.</li>
</ul>

Cargamos el archivo de audio .wav en este caso.

In [None]:
# Cargamos el archivo de audio.
filename = os.path.join(audio_input_path, 'sample1_stereo.wav')
# audio_data, sample_rate = librosa.load(filename, sr=None, mono=False)
sample_rate, audio_data = wavfile.read(filename)
print(f'Frecuencia de muestreo (sample rate): {sample_rate/1000} kHz')

Vamos a escucharlo. Para que esto se haga correctamente, hay que indicarle la frecuencia de muestreo (veremos más adelante qué es).

In [None]:
IPython.display.Audio(audio_data.T, rate=sample_rate) # .T se pasa únicamente si es audio estéreo.

### Mostrar principales características de la onda

Vamos a mostrar la información. Nota: es audio estereo (dos canales).

In [None]:
# Mostrar informacion (sonido estéreo).
print('Datos de audio (estereo):')
print(f'- Tamaño:     {audio_data.shape}')
print(f'- 1º canal:   {audio_data[:5, 0]}...')
print(f'- 2º canal:   {audio_data[:5, 1]}...')
print(f'- Resolucion: {type(audio_data[0,0])}\n')

Ahora, por simplificación, vamos a calcular la media por canal para obtener un sonido mono.

In [None]:
# Convertimos a mono mediante la media por canal (simplificacion).
new_data_mono = audio_data.mean(axis=1)  # Column-wise.
print('Nuevos datos de audio (mono):')
print(f'- Nuevo tamaño: {new_data_mono.shape}')
print(f'- Canal unico:  {new_data_mono[:5]}...')

# Mantenemos la misma resolucion que antes.
new_data_mono = new_data_mono.astype(np.int16)
print(f'- Resolucion:   {type(new_data_mono[0])}\n')

Vamos a guardarlo.

In [None]:
# Guardamos el archivo mono a un fichero de tipo wav.
wavfile.write(
    filename=os.path.join(audio_output_path, 'sample1_mono.wav'),
    rate=sample_rate,
    data=new_data_mono
)

Vamos a escucharlo de nuevo.

In [None]:
IPython.display.Audio(new_data_mono, rate=sample_rate)

 Se nota que ahora es sonido mono (sobre todo si utilizais cascos).

<ul>
    <li><b>Mono</b>: se escucha lo mismo por el auricular derecho que por el izquierdo.</li>
    <li><b>Estéreo</b>: no se escucha el mismo sonido por ambos canales, sino que se notan variaciones entre los dos.</li>
</ul>

Vamos a ver las diferencias en tamaño de cada archivo.

In [None]:
!ls -sh audio/_input/sample1_stereo.wav
!ls -sh audio/_output/sample1_mono.wav

Como podemos ver el tamaño se ha reducido a la mitad (manteniendo el la frecuencia de muestreo). Mostramos por pantalla la frecuencia de muestreo (*sample rate*) del archivo de audio: 

In [None]:
print(f'Frecuencia de muestreo (sample rate): {sample_rate/1000} kHz\n')

Muy bien la diferencia entre sonido estéreo y mono pero:

*¿cómo se adquiere esta onda de audio?*, *¿qué significa esta frecuencia de muestreo?*, *¿para que sirve la transformada de Fourier?*, *¿para qué queremos comprimir una onda?*, *etc*.

Todo esto y más lo veremos a la próxima sesión.