## Librerias

In [None]:
from scipy.io import wavfile
import IPython
import os
import numpy as np
import matplotlib.pyplot as plt

## Varibales globales

In [None]:
cwd = os.getcwd()
audioInput = os.path.join(cwd, os.path.join('audio', 'examples')) # Ruta para los archivos de entrada
audioOutput = os.path.join(cwd, os.path.join('audio', 'output')) # Ruta para los archivos de salida

print(f'Ruta de entrada: {audioInput}')
print(f'Ruta de salida: {audioOutput}')

## Carga de audio estéreo

In [None]:
audioName = os.path.join(audioInput, 'interstellar.wav') # Audio elegido

### Mostramos sus características

In [None]:
sample_rate, audio_estereo = wavfile.read(audioName)

print(f'Datos de audio (estéreo)')
print(f'Frecuecia de muestreo: {sample_rate/1000} kHz')
print(f'Canal 1: {audio_estereo[:5, 0]}')
print(f'Canal 2: {audio_estereo[:5, 1]}')
print(f'Tamaño: ')
!powershell -Command "Get-Item audio/examples/interstellar.wav | Select-Object Name, @{Name='Size (MB)';Expression={[math]::round($_.Length / 1MB, 2)}}"

### Widget para reproducir el audio

In [None]:
IPython.display.Audio(audio_estereo.T, rate=sample_rate)

## Conversión a mono

In [None]:
# Convertimos a mono mediante la media por canal (simplificacion).
audio_mono = audio_estereo.mean(axis=1)  # Column-wise.
# Guardamos el audio mono en un fichero .wav
wavfile.write(
    filename = os.path.join(audioOutput, 'audio_mono.wav'),
    rate = sample_rate,
    data = audio_mono
)

print('Nuevos datos de audio (mono):')
print(f'- Nuevo tamaño: {audio_mono.shape}')
print(f'- Canal único:  {audio_mono[:5]}')
print(f'Tamaño: ')
!powershell -Command "Get-Item audio/output/audio_mono.wav | Select-Object Name, @{Name='Size (MB)';Expression={[math]::round($_.Length / 1MB, 2)}}"


### Widget para reproducir el audio

In [None]:
IPython.display.Audio(audio_mono.T, rate=sample_rate)

## Gráficas en el dominio del tiempo

In [None]:
amplitud_mono = len(audio_mono)
amplitud_estereo = len(audio_estereo)

print(f'Número de muestras del audio mono (valores de amplitud): {amplitud_mono}')
print(f'Número de muestras del audio estéreo (valores de amplitud): {amplitud_estereo}')

In [None]:
# Creación del arrya para el eje X
t1 = np.arange(0, amplitud_mono/sample_rate, 1/sample_rate)
t2 = np.arange(0, amplitud_estereo/sample_rate, 1/sample_rate)

print(t1)
print(t2)

### Creación de la gráfica

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(12, 6), sharex=True)

# Audio mono
ax[0].plot(t1[:50], audio_mono[:50], marker='X')
ax[0].set_title(f'Audio mono en el dominio del tiempo muestreado a {sample_rate} Hz')
ax[0].set_ylabel('Amplitud')
ax[0].grid(True)

# Audio estéreo
ax[1].plot(t2[:50], audio_estereo[:50], c='tab:red', marker='X')
ax[1].set_title(f'Audio estéreo en el dominio del tiempo muestreado a {sample_rate} Hz')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Amplitud')
ax[1].grid(True)

plt.tight_layout()
plt.show()

## Conclusión personal

La principal diferencia y que se ve de primeras a través de las gráficas está en el número de canales (2 para estéreo y 1 para mono) y los valores que toma cada uno de ellos obviamente, siendo completamente distintos entre estéreo y mono.

# TAREA 4

## Definiciones

### Frecuecia de muestreo

Número de muestras que se toman por unidad de tiempo de una señal analógica para transformarla en digital.

### Aliasing

Efecto que ocurre cuando no se pueden distinguir dos señales digitales continuas debido a una frecuenca de muestreo muy baja.

### Profundidad de bits

Es el número de bits utilizados para mostrar una señal de audio.

### Ancho de banda

Es la longitud de la extensión de frecuencias en la que se concentra la mayor potencia de la señal.

### Tasa de bits

Es el número de bits que se transmiten por unidad de tiempo a través de un sistema de transmisión digital.

## Transformada de Fouries para audio mono

In [None]:
n = len(audio_mono) # Longitud del array de datos
Fs = sample_rate # Frecuencia de muestreo

ch_Fourier = np.fft.fft(audio_mono) # Cálculo de la Transformada Rápida de Fourier (fft)

abs_ch_Fourier = np.absolute(ch_Fourier[:n//2]) # Sólo frecuencias por debajo de Fs/2

# Pintamos la gráfica
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud', labelpad=10)
plt.xlabel('$f$ (Hz)', labelpad=10)
plt.show()

## Energía del espectograma y frecuencia de corte

In [None]:
eps = [1e-5, 0.02, 0.063] # Definimos diferentes epsilos para pruebas

In [None]:
print(f'Epsilon: {eps[0]}')

thr_spc_energy = (1 - eps[0]) * np.sum(abs_ch_Fourier) # Corte para la energía
spec_energy = np.cumsum(abs_ch_Fourier) # Energía del espectro

mask = thr_spc_energy < spec_energy # (Máscara) Eliminamos las frecuencias superiores al corte
f0 = (len(mask) - np.sum(mask)) * (Fs/2) / (n//2) # Frecuencia de corte del espectro

# Pintamos la gráfica
plt.axvline(f0, color='r')
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud')
plt.xlabel('$f$ (Hz)')
plt.show()

### Probamos con otro epsilon

In [None]:
print(f'Epsilon: {eps[1]}')

thr_spc_energy = (1 - eps[1]) * np.sum(abs_ch_Fourier) # Corte para la energía
spec_energy = np.cumsum(abs_ch_Fourier) # Energía del espectro

mask = thr_spc_energy < spec_energy # (Máscara) Eliminamos las frecuencias superiores al corte
f0 = (len(mask) - np.sum(mask)) * (Fs/2) / (n//2) # Frecuencia de corte del espectro

# Pintamos la gráfica
plt.axvline(f0, color='r')
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud')
plt.xlabel('$f$ (Hz)')
plt.show()

### Probamos con el último epsilon definido

In [None]:
print(f'Epsilon: {eps[2]}')

thr_spc_energy = (1 - eps[2]) * np.sum(abs_ch_Fourier) # Corte para la energía
spec_energy = np.cumsum(abs_ch_Fourier) # Energía del espectro

mask = thr_spc_energy < spec_energy # (Máscara) Eliminamos las frecuencias superiores al corte
f0 = (len(mask) - np.sum(mask)) * (Fs/2) / (n//2) # Frecuencia de corte del espectro

# Pintamos la gráfica
plt.axvline(f0, color='r')
plt.plot(np.linspace(0, Fs/2, n//2), abs_ch_Fourier)
plt.ylabel('Amplitud')
plt.xlabel('$f$ (Hz)')
plt.show()

Observamos que a medida que aumenta en epsilon, la frecuencia de corte disminuye.

## Downsampling

In [None]:
D = int(Fs/f0) # Factor D
new_audio_mono = audio_mono[::D]

# Escribimos los datos en un archivo .wav
wavfile.write(
    filename = os.path.join(audioOutput, "mono_downsampling.wav"),
    rate = int(Fs/D),
    data = new_audio_mono
)

# Cargamos el nuevo audio y reproducimos para ver la diferencia
audio_ds_rate, audio_ds_data = wavfile.read(filename = os.path.join(audioOutput, 'mono_downsampling.wav'))
IPython.display.Audio(audio_ds_data, rate = audio_ds_rate)

## Espectogramas

In [None]:
fig, ax = plt.subplots(2, 1, figsize=(12, 8), sharex=True)

Pxx, freqs, bins, im = ax[0].specgram(audio_mono, NFFT=1024, Fs=sample_rate, noverlap=512)
ax[0].set_title('Espectograma del audio mono original')
ax[0].set_ylabel('Frecuencia (Hz)')
ax[0].grid(True)

Pxx, freqs, bins, im = ax[1].specgram(new_audio_mono, NFFT=1024, Fs=audio_ds_rate, noverlap=512)
ax[1].set_title('Espectrograma del audio mono comprimido')
ax[1].set_xlabel('Tiempo (s)')
ax[1].set_ylabel('Frecuencia (Hz)')
ax[1].grid(True)

plt.tight_layout()
plt.show()

La diferencia está en las frecuencias entre una muestra y otra, mientras que en la original las frecuencias son mucho más altas, en la muestra comprimida son mucho más bajas debido al downsampling calculado con la frecuencia de corte

### Tamaño de ambos archivos

In [None]:
!powershell -Command "Get-Item audio/output/audio_mono.wav | Select-Object Name, @{Name='Size (MB)';Expression={[math]::round($_.Length / 1MB, 2)}}"
!powershell -Command "Get-Item audio/output/mono_downsampling.wav | Select-Object Name, @{Name='Size (MB)';Expression={[math]::round($_.Length / 1MB, 2)}}"

## Widgets para reproducir ambos archivos

In [None]:
# Original
IPython.display.Audio(audio_mono, rate=sample_rate)


In [None]:
# Comprimido
IPython.display.Audio(new_audio_mono, rate=audio_ds_rate)