<p style="font-size:26px; line-height:1.8;">
Perceptual Coding Considering the Threshold of Hearing.
</p>


### 1. Introducción

<p style="font-size:15px; line-height:1.5;">
El objetivo de esta actividad ha sido realizar una comparación subjetiva entre dos métodos de codificación basados en la Transformada Wavelet Discreta (DWT): temporal_overlapped_DWT_coding.py y dyadic_ToH.py. La primera implementación se caracteriza por utilizar un solapado temporal que suaviza los límites entre bloques, mientras que la segunda incorpora un modelo psicoacústico basado en el umbral de audición (Threshold of Hearing, ToH).
</p>

### 2. Metodología

#### 2.1. Selección del material de audio

<p style="font-size:15px; line-height:1.5;">
Para realizar la comparación se seleccionaron dos archivos musicales incluidos en el conjunto de datos: VVV - Invierno Nuclear y Annihilator - Liquid Oval. Se escogieron porque presentan características sonoras diferentes y permiten apreciar mejor cómo responde cada método ante distintas circunstancias.
</p>

#### 2.2. Procedimiento de ejecución

<p style="font-size:15px; line-height:1.5;">
Ambas implementaciones se ejecutaron en dos condiciones distintas. En la primera fase, se utilizaron parámetros definidos manualmente e idénticos para las dos técnicas, con la intención de obtener un entorno controlado y comparable. Posteriormente, se repitió el experimento dejando que cada script utilizara sus propios valores por defecto, ejecutándolo únicamente con el archivo de entrada.
</p>

### 3. Resultados

#### 3.1. Resultados con parámetros definidos

<p style="font-size:15px; line-height:1.5;">
Cuando se probaron ambas implementaciones usando los mismos prámetros, la mayoría del grupo notó diferencias claras entre una y otra. Al escucharlas, dio la sensación de que temporal_overload_DWT_coding.py sonaba un poco mejor y ofrecía un sonido algo más agradable, aunque la diferencia era muy ligera.
</p>

#### 3.2. Resultados con parámetros por defecto

<p style="font-size:15px; line-height:1.5;">
En la segunda prueba, donde se ejecutó cada script únicamente con los valores por defecto, las diferencias se notaron mucho más. Aunque la configuración por defecto en ambos casos es muy similar, el comportamiento perceptual no lo fue tanto: aquí quedó claro que temporal_overlapped_DWT_coding.py ofrecía un resultado mejor para casi todos. El sonido se escuchaba algo más limpio y más estable. En comparación, dyadic_ToH.py perdía un poco de claridad en algunos fragmentos, lo que hacía que su resultado final se sintiera algo menos nítido. En resumen, en esta prueba sin parámetros, la diferencia fue muy evidente y temporal overlapped destacó claramente como la opción que sonaba mejor.
</p>

### 4. Comandos utilizados

<p style="font-size:15px; line-height:1.5;">
Para llevar a cabo las distintas pruebas auditivas, se utilizaron los siguientes comandos ejecutados desde la carpeta src del proyecto. Estos comandos permiten procesar los archivos de audio tanto con temporal_overlapped_DWT_coding.py como con dyadic_ToH.py, usando parámetros definidos manualmente y tambie´n con los valores por defecto.
</p>

<p style="font-size:15px; line-height:1.5;">
Nos vamos a la carpeta src:
</p>

In [2]:
import os
os.chdir("../src")

#### 4.1. Ejecución con parámetros definidos

In [10]:
! python dyadic_ToH.py -f ../data/Annihilator__Liquid_Oval.opus -t 10 -q 8 -s 48000 --show_stats

pygame 2.6.1 (SDL 2.28.4, Python 3.13.7)
Hello from the pygame community. https://www.pygame.org/contribute.html

InterCom parameters:

Namespace(input_device=None, output_device=None, list_devices=False, frames_per_second=48000.0, frames_per_chunk=1024, listening_port=4444, destination_address='localhost', destination_port=4444, filename='../data/Annihilator__Liquid_Oval.opus', reading_time=10, number_of_channels=2, show_stats=True, show_samples=False, show_spectrum=False, buffering_time=150, minimal_quantization_step_size=8, rate_control_period=1, wavelet_name='db5', levels='6')

Using device:

   0 Asignador de sonido Microsoft - Input, MME (2 in, 0 out)
>  1 Varios micrófonos (Intel® Smart, MME (2 in, 0 out)
   2 Auriculares con micrófono (2- W, MME (1 in, 0 out)
   3 Asignador de sonido Microsoft - Output, MME (0 in, 2 out)
<  4 Auriculares (2- WH-CH520), MME (0 in, 2 out)
   5 Altavoces (Realtek(R) Audio), MME (0 in, 2 out)
   6 Controlador primario de captura de sonido, Windows 

  from pkg_resources import resource_stream, resource_exists
(INFO) minimal: A minimal InterCom (no compression, no quantization, no transform, ... only provides a bidirectional (full-duplex) transmission of raw (playable) chunks. 
(INFO) minimal: chunk_time = 0.021333333333333333 seconds
(INFO) minimal: Using "../data/Annihilator__Liquid_Oval.opus" as input
(INFO) minimal: seconds_per_cycle = 1
(INFO) minimal: chunks_per_cycle = 46.875
(INFO) minimal: frames_per_cycle = 48000.0
(INFO) buffer: Over minimal, implements a random access buffer structure for hiding the jitter.
(INFO) buffer: buffering_time = 150 miliseconds
(INFO) buffer: chunks_to_buffer = 8
(INFO) buffer: Using "../data/Annihilator__Liquid_Oval.opus" as input
(INFO) DEFLATE_raw: Compress each raw chunk using DEFLATE.
(INFO) DEFLATE_byteplanes3: Compress the least significant byte planes of the chunks using DEFLATE. The channels are consecutive (serialized). 3 code-streams (one per byte-plane) are generated.
(INFO) BR_con

In [11]:
! python dyadic_ToH.py -f ../data/VVV_InviernoNuclear.oga -t 10 -q 8 -s 48000 --show_stats  

pygame 2.6.1 (SDL 2.28.4, Python 3.13.7)
Hello from the pygame community. https://www.pygame.org/contribute.html

InterCom parameters:

Namespace(input_device=None, output_device=None, list_devices=False, frames_per_second=48000.0, frames_per_chunk=1024, listening_port=4444, destination_address='localhost', destination_port=4444, filename='../data/VVV_InviernoNuclear.oga', reading_time=10, number_of_channels=2, show_stats=True, show_samples=False, show_spectrum=False, buffering_time=150, minimal_quantization_step_size=8, rate_control_period=1, wavelet_name='db5', levels='6')

Using device:

   0 Asignador de sonido Microsoft - Input, MME (2 in, 0 out)
>  1 Varios micrófonos (Intel® Smart, MME (2 in, 0 out)
   2 Auriculares con micrófono (2- W, MME (1 in, 0 out)
   3 Asignador de sonido Microsoft - Output, MME (0 in, 2 out)
<  4 Auriculares (2- WH-CH520), MME (0 in, 2 out)
   5 Altavoces (Realtek(R) Audio), MME (0 in, 2 out)
   6 Controlador primario de captura de sonido, Windows Direct

  from pkg_resources import resource_stream, resource_exists
(INFO) minimal: A minimal InterCom (no compression, no quantization, no transform, ... only provides a bidirectional (full-duplex) transmission of raw (playable) chunks. 
(INFO) minimal: chunk_time = 0.021333333333333333 seconds
(INFO) minimal: Using "../data/VVV_InviernoNuclear.oga" as input
(INFO) minimal: seconds_per_cycle = 1
(INFO) minimal: chunks_per_cycle = 46.875
(INFO) minimal: frames_per_cycle = 48000.0
(INFO) buffer: Over minimal, implements a random access buffer structure for hiding the jitter.
(INFO) buffer: buffering_time = 150 miliseconds
(INFO) buffer: chunks_to_buffer = 8
(INFO) buffer: Using "../data/VVV_InviernoNuclear.oga" as input
(INFO) DEFLATE_raw: Compress each raw chunk using DEFLATE.
(INFO) DEFLATE_byteplanes3: Compress the least significant byte planes of the chunks using DEFLATE. The channels are consecutive (serialized). 3 code-streams (one per byte-plane) are generated.
(INFO) BR_control_no: No 

<p style="font-size:15px; line-height:1.5;">
En estas ejecuciones se ajustaron manualmente los valores de:<br>  
- niveles DWT (-t 10)<br>
- cuantización (-q 8)<br>
- frecuencia de muestreo (-s 48000)  
</p>

#### 4.2. Ejecución con los valores por defecto

In [14]:
! python dyadic_ToH.py -f ../data/Annihilator__Liquid_Oval.opus -t 10 --show_stats

pygame 2.6.1 (SDL 2.28.4, Python 3.13.7)
Hello from the pygame community. https://www.pygame.org/contribute.html

InterCom parameters:

Namespace(input_device=None, output_device=None, list_devices=False, frames_per_second=44100, frames_per_chunk=1024, listening_port=4444, destination_address='localhost', destination_port=4444, filename='../data/Annihilator__Liquid_Oval.opus', reading_time=10, number_of_channels=2, show_stats=True, show_samples=False, show_spectrum=False, buffering_time=150, minimal_quantization_step_size=128, rate_control_period=1, wavelet_name='db5', levels='6')

Using device:

   0 Asignador de sonido Microsoft - Input, MME (2 in, 0 out)
>  1 Varios micrófonos (Intel® Smart, MME (2 in, 0 out)
   2 Auriculares con micrófono (2- W, MME (1 in, 0 out)
   3 Asignador de sonido Microsoft - Output, MME (0 in, 2 out)
<  4 Auriculares (2- WH-CH520), MME (0 in, 2 out)
   5 Altavoces (Realtek(R) Audio), MME (0 in, 2 out)
   6 Controlador primario de captura de sonido, Windows 

  from pkg_resources import resource_stream, resource_exists
(INFO) minimal: A minimal InterCom (no compression, no quantization, no transform, ... only provides a bidirectional (full-duplex) transmission of raw (playable) chunks. 
(INFO) minimal: chunk_time = 0.023219954648526078 seconds
(INFO) minimal: Using "../data/Annihilator__Liquid_Oval.opus" as input
(INFO) minimal: seconds_per_cycle = 1
(INFO) minimal: chunks_per_cycle = 43.06640625
(INFO) minimal: frames_per_cycle = 44100
(INFO) buffer: Over minimal, implements a random access buffer structure for hiding the jitter.
(INFO) buffer: buffering_time = 150 miliseconds
(INFO) buffer: chunks_to_buffer = 7
(INFO) buffer: Using "../data/Annihilator__Liquid_Oval.opus" as input
(INFO) DEFLATE_raw: Compress each raw chunk using DEFLATE.
(INFO) DEFLATE_byteplanes3: Compress the least significant byte planes of the chunks using DEFLATE. The channels are consecutive (serialized). 3 code-streams (one per byte-plane) are generated.
(INFO) BR_

In [13]:
! python dyadic_ToH.py -f ../data/VVV_InviernoNuclear.oga --show_stats  

pygame 2.6.1 (SDL 2.28.4, Python 3.13.7)
Hello from the pygame community. https://www.pygame.org/contribute.html

InterCom parameters:

Namespace(input_device=None, output_device=None, list_devices=False, frames_per_second=44100, frames_per_chunk=1024, listening_port=4444, destination_address='localhost', destination_port=4444, filename='../data/VVV_InviernoNuclear.oga', reading_time=None, number_of_channels=2, show_stats=True, show_samples=False, show_spectrum=False, buffering_time=150, minimal_quantization_step_size=128, rate_control_period=1, wavelet_name='db5', levels='6')

Using device:

   0 Asignador de sonido Microsoft - Input, MME (2 in, 0 out)
>  1 Varios micrófonos (Intel® Smart, MME (2 in, 0 out)
   2 Auriculares con micrófono (2- W, MME (1 in, 0 out)
   3 Asignador de sonido Microsoft - Output, MME (0 in, 2 out)
<  4 Auriculares (2- WH-CH520), MME (0 in, 2 out)
   5 Altavoces (Realtek(R) Audio), MME (0 in, 2 out)
   6 Controlador primario de captura de sonido, Windows Dire

  from pkg_resources import resource_stream, resource_exists
(INFO) minimal: A minimal InterCom (no compression, no quantization, no transform, ... only provides a bidirectional (full-duplex) transmission of raw (playable) chunks. 
(INFO) minimal: chunk_time = 0.023219954648526078 seconds
(INFO) minimal: Using "../data/VVV_InviernoNuclear.oga" as input
(INFO) minimal: seconds_per_cycle = 1
(INFO) minimal: chunks_per_cycle = 43.06640625
(INFO) minimal: frames_per_cycle = 44100
(INFO) buffer: Over minimal, implements a random access buffer structure for hiding the jitter.
(INFO) buffer: buffering_time = 150 miliseconds
(INFO) buffer: chunks_to_buffer = 7
(INFO) buffer: Using "../data/VVV_InviernoNuclear.oga" as input
(INFO) DEFLATE_raw: Compress each raw chunk using DEFLATE.
(INFO) DEFLATE_byteplanes3: Compress the least significant byte planes of the chunks using DEFLATE. The channels are consecutive (serialized). 3 code-streams (one per byte-plane) are generated.
(INFO) BR_control_no: 

### 5. Conclusiones

<p style="font-size:15px; line-height:1.5;">
Aunque durante la práctica no siempre fue sencillo apreciar difencias marcadas entre ambas implementaciones, lo realmente importante fue la comparación realizada utilizando los valores que ajustamos nosotros mismos. Esa configuración es la que permite que las dos técnicas operen bajo las mismas condiciones, y por tanto, la que ofrece una comparación jsuta entre ellas. En ese escenario controlado, el grupo coincidió en que temporal_overlapped_DWT_coding.py proporcionaba un resultado perceptualmente mejor. Las pruebas con los valores por defecto simplemente ayudaron a reforzar esta impresión, pero la conclusió válida es la obtenida con los parámetros que fijamos de forma manual: la versión basada en solapado temporal fue la que ofreció la mejor calidad auditiva.
</p>


### Participantes:<br>


Leilla Benkhajjou Mezgar<br>
Antonio Galindo Pérez<br>
Paola García Cárdenas<br>
Blanca Romero Rodríguez<br>
Francisco Javier Ruiz Veiga<br>


