# Práctica 3 y 4 - Sistemas Multimedia
### Autor: Álvaro González Antequera
### Fecha: 05/03/2024

## Tarea 3 Parte 1:
#### 1. He creado en GitHub un repositorio vacío y lo he clonado en mi ordenador con el comando ``` git clone (url de mi repositorio) ```.
#### 2. He creado un entorno de conda con el comando ```conda create --name=Practica3```.
#### 3. He creado dentro de mi repositorio local el archivo .gitignore y le he añadido la linea ".ipynb_checkpoints/" para que se ignore dicha carpeta.
#### 4. He activado el entorno de conda creado con el comando ```conda activate Practica3```.
#### 5. He instalado Python, ipykernel y JupyterLab con el comando ```conda install -c conda-forge <package_name>```.
#### 6. He añadido el entorno conda a los kernels de JupyterLab con el comando ```python3 -m ipykernel install --user --name=Practica3```.
#### 7. Este paso lo realice en el ejercicio 5 con el comando ```conda install -c conda-forge JupyterLab```.
#### 8. Para ejecutar JupyterLab, he ejecutado el comando ```jupyter-lab``` desde mi repositorio local.

## Tarea 3 Parte 2:


#### 1. He organizado el notebook utilizando recursos como #, ```, listas ordenadas, etc.

#### 3. He cargado el audio estéreo y he mostrado sus características de la siguiente manera:

In [None]:
pip install scipy #Instalación para que funcionen los import para cargar el audio.

In [None]:
pip install matplotlib #Instalación para que funcionen los import para crear la gráfica.

In [None]:
# Imports:
from scipy.io import wavfile
import IPython
import os
import numpy as np

In [None]:
# Se obtiene el directorio actual y se construyen las rutas al directorio de audios de entrada y de salida
cwd = os.getcwd()
Audios_input_path = os.path.join(cwd, os.path.join('Audios', '_input'))
Audios_output_path = os.path.join(cwd, os.path.join('Audios', '_output'))
print(f'Directorio con los audios de entrada: {Audios_input_path}')
print(f'Directorio donde guardaremos los audios generados: {Audios_output_path}\n')

In [None]:
# Se combina la ruta de entrada con el nombre del audio y se lee el archivo
filename = os.path.join(Audios_input_path, 'interstellar.wav')
sample_rate, audio_data = wavfile.read(filename)

In [None]:
# Se muestra la información del sonido estéreo.
print('Datos de audio (estereo):')
print(f'- Frecuencia de muestreo (sample rate): {sample_rate/1000} kHz')
print(f'- Tamaño:     {audio_data.shape}')
print(f'- 1º canal:   {audio_data[:5, 0]}...')
print(f'- 2º canal:   {audio_data[:5, 1]}...')
print(f'- Resolucion: {type(audio_data[0,0])}\n')

#### 4. He incluido un widget para reproducir el audio estéreo:

In [None]:
IPython.display.Audio(audio_data.T, rate=sample_rate) # Creación del widget para el audio estéreo

#### 5. Convierto el archivo de audio estéreo a mono y muestro sus características de la siguiente manera:

In [None]:
# Se convierte el audio estéreo a mono utilizando la media de los canales
new_data_mono = audio_data.mean(axis=1)  # Calcula el promedio columna por columna
print('Nuevos datos de audio (mono):')
print(f'- Nuevo tamaño: {new_data_mono.shape}')
print(f'- Canal unico:  {new_data_mono[:5]}...')

# Se mantiene la misma resolución que el audio original
new_data_mono = new_data_mono.astype(np.int16)
print(f'- Resolucion:   {type(new_data_mono[0])}')
print(f'- Frecuencia de muestreo (sample rate): {sample_rate/1000} kHz\n')

In [None]:
# Se guarda el archivo mono a un fichero de tipo wav.
wavfile.write(
    filename=os.path.join(Audios_output_path, 'interstellar.wav'),
    rate=sample_rate,
    data=new_data_mono
)

In [None]:
# Se muestra el tamaño de los archivos
!ls -sh Audios/_input/interstellar.wav
!ls -sh Audios/_output/interstellar.wav

#### 6. Vuelvo a incluir un widget, pero ahora para reproducir el audio mono:

In [None]:
IPython.display.Audio(new_data_mono, rate=sample_rate) #Creación del widget para el audio mono

#### 7. Gráfica en el dominio del tiempo para el audio mono y estéreo:

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Configuración de la figura para graficar
plt.figure(figsize=(14, 6))

# Grafica señal estéreo
plt.subplot(2, 1, 1)
if audio_data.ndim > 1:
    for channel in range(audio_data.shape[1]):
        plt.plot(audio_data[:, channel], label=f'Canal {channel + 1}')
    plt.title('Señal de Audio Estéreo')
else:
    plt.plot(audio_data)
    plt.title('Señal de Audio Estéreo (Canal Único)')
plt.xlabel('Índice de Muestra')
plt.ylabel('Amplitud')
plt.legend()

# Grafica señal mono
plt.subplot(2, 1, 2)
plt.plot(new_data_mono)
plt.title('Señal de Audio Mono')
plt.xlabel('Índice de Muestra')
plt.ylabel('Amplitud')

plt.tight_layout()
plt.show()


#### 8. Diferencia entre audio estéreo y mono:

Las principales diferencias entre audio estéreo y mono son:
* El audio mono utiliza un único canal de mientras que el audio estéreo utiliza dos canales (izquierdo y derecho).
* El audio estéreo al utilizar dos canales produce un sonido con sensación de profundidad y más envolvente que el mono, el cuál produce el mismo sonido para varios altavoces.
* El audio estéreo se usa para entretenimiento y escuchar música y el mono para cuando se prefiere un sonido más simple y claro.
* Debido a todo lo anterior el audio mono es menos costoso que el audio estéreo.

## Tarea 4:
#### 2. Gráfica en el dominio del tiempo para el audio mono y estéreo:

In [None]:
# Se obtiene el número de muestras de cada audio
ampl_estereo = len(audio_data)
ampl_mono = len(new_data_mono)
print(f'Número de muestras del audio estéreo (valores de amplitud): {ampl_estereo}')
print(f'Número de muestras del audio mono (valores de amplitud): {ampl_mono}')

In [None]:
# Se construye el array para el eje x que representa el tiempo de la grabación
tEstereo = np.arange(0, ampl_estereo/sample_rate, 1/sample_rate)
tMono = np.arange(0, ampl_mono/sample_rate, 1/sample_rate)

In [None]:
# Se crea la figura.
fig, ax = plt.subplots(2, 1, figsize=(12, 6), sharex=True)

# Solo se muestran las primeras 50 muestras de amplitud (por claridad).
end = 50

# Señal estéreo (2 canales)
ax[0].plot(tEstereo[:end], audio_data[:end, 0], marker='X', color='tab:blue', label='Canal 1')
ax[0].plot(tEstereo[:end], audio_data[:end, 1], marker='o', color='tab:orange', label='Canal 2')
ax[0].set_title(f'Audio estéreo en el dominio del tiempo muestreado a {sample_rate} Hz')
ax[0].set_ylabel('Amplitud')
ax[0].grid(True)
ax[0].legend()

# Señal mono (se utiliza el ratio para ajustar el eje X)
ratio = sample_rate / sample_rate  
ax[1].plot(tMono[:int(end/ratio)], new_data_mono[:int(end/ratio)], c='tab:red', marker='X')
ax[1].set_title(f'Audio mono en el dominio del tiempo muestreado a {sample_rate} Hz')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Amplitud')
ax[1].grid(True)

# Se muestra la figura.
plt.tight_layout()
plt.show()

#### 3. Explicación de frecuencia de muestreo, aliasing, profundidad de bits, ancho de banda y tasa de bits:

* Frecuencia de muestreo: Es el número de muestras de audios que se toman por segundo al convertir un sondio analógico en digital. Mientras más alta sea más precisa es la representación del sonido original.
* Aliasing: Es lo que ocurre cuando la frecuencia de muestreo es demasiado baja para capturar con precisión las frecuencias altas de un audio, esto provoca que se distorsionen.
* Profundidad de bits: Es el número de bits que se usan para representar cada muestra de audio. 
* Ancho de banda: Es el rango de frecuencias que puede reproducir o grabar un sistema. Mientras mayor sea el ancho de banda mayor es el número de frecuencias que se pueden reproducir.
* Tasa de bits: Es la cantidad de datos de audio transmitidos por segundo. A más tasa de bits más calidad.

#### 4. Transformada rápida de Fourier (FFT) aplicada a un audio mono para cambiar al dominio de la frecuencia. Gráfica y por qué:

In [None]:
# Se obtiene la longitud del array de datos y el sample rate (frecuencia de muestreo).
n = len(new_data_mono)
Fs = sample_rate

# Se calcula la Transformada Rapida de Fourier (FFT) en audio mono.
ch_Fourier = np.fft.fft(new_data_mono)

# Solo se mira la frecuencia por debajo de Fs/2
# (Nyquist-Shannon) --> Spectrum.
abs_ch_Fourier = np.absolute(ch_Fourier[:n//2])

# Se muestra la gráfica.
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud', labelpad=10)
plt.xlabel('$f$ (Hz)', labelpad=10)
plt.show()

La FFT se aplica para descomponer un audio en sus componentes de frecuencia básicos y así poder entender mejor sus componentes individuales.

#### 5. Energía del espectrograma y frecuencia de corte (con un epsilon):

In [None]:
# Se definen diferentes epsilons: la parte de la energia del espectro que NO se conserva.
eps = [1e-5, .02, .041, .063, .086, .101, .123, .269]

# Se va variando los valores de epsilon.
eps = eps[7]
print(f'Epsilon: {eps}')

# Se calcula el valor de corte para esta energía.
thr_spec_energy = (1 - eps) * np.sum(abs_ch_Fourier)
print(f'Valor de corte para la energía del espectro: {thr_spec_energy}')

# Integral de la frecuencia --> energía del espectro.
spec_energy = np.cumsum(abs_ch_Fourier)

# Máscara (array booleano) que compara el valor de corte con la energía del espectro.
frequencies_to_remove = thr_spec_energy < spec_energy  
print(f'Mascara: {frequencies_to_remove}')

# Frecuencia f0 por la que se corta el espectro.
f0 = (len(frequencies_to_remove) - np.sum(frequencies_to_remove)) * (Fs/2) / (n//2)
print(f'Frecuencia de corte f0 (Hz): {int(f0)}')

# Se muestra la gráfica
plt.axvline(f0, color='r')
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud')
plt.xlabel('$f$ (Hz)')
plt.show()

#### 6. Comprimo la onda aplicando downsampling (el factor se obtiene a partir de la frecuencia de corte):

In [None]:
# Se definen los nombres de los audios comprimidos.
wav_compressed_file = "interstellar_compressed.wav"

# Se calcula el factor D de downsampling.
D = int(Fs / f0)
print(f'Factor de downsampling: {D}')

# Se obtienen los nuevos datos (slicing with stride).
new_data = new_data_mono[::D]

# Se escriben los datos a un archivo de tipo wav.
wavfile.write(
    filename=os.path.join(Audios_output_path, wav_compressed_file),
    rate=int(Fs/D),
    data=new_data
)

# Se carga el nuevo archivo.
new_sample_rate, new_audio_data = wavfile.read(filename=os.path.join(Audios_output_path, wav_compressed_file))

#### 7. Espectograma de ambas ondas: original y comprimida. Diferencias:

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

Pxx, freqs, bins, im = ax[0].specgram(new_data_mono, NFFT=1024, Fs=sample_rate, noverlap=512)
ax[0].set_title('Espectograma del audio original')
ax[0].set_ylabel('Frecuencia (Hz)')
ax[0].grid(True)

Pxx, freqs, bins, im = ax[1].specgram(new_audio_data, NFFT=1024, Fs=new_sample_rate, noverlap=512)
ax[1].set_title('Espectrograma del audio reducido/comprimido')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Frecuencia (Hz)')
ax[1].grid(True)

plt.tight_layout()
plt.show()

La principal diferencia que se aprecia es que el original muestra información en un rango de frecuencia mayor, se ve más intensidad en los colores y más detallado el original.

#### 8. Tamaño de ambos archivos:

In [None]:
print('Tamaño audio mono original:')
!ls -sh Audios/_input/interstellar.wav
print('Tamaño audio mono comprimido:')
!ls -sh Audios/_output/interstellar_compressed.wav

#### 9. Widgets para reproducir los audios original y comprimido:

In [None]:
print('Audio mono original:')
IPython.display.Audio(new_data_mono, rate=sample_rate)

In [None]:
print('Audio mono comprimido:')
IPython.display.Audio(new_audio_data, rate=new_sample_rate)