# Tema 5 Tratamiento Digital del Sonido


update: 6 de noviembre de 2023

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />Este obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional</a>. 

## Introducción

En primer lugar, si trabaja en la cuenta linux de los laboratorios, siempre:

export PATH = "$PATH:/opt/miniconda3/bin" 


Para la realización de los ejercicios necesitará el siguiente material:

* Fichero de audio *confront.wav*.
* Las funciones: *espectro_ventanas*, *energia*, *vozSS*, *myspectra*, *my_spectrogram*, *predlin*, *myceps*, *zcr* que se encuentran en el módulo tds_utils_22.py

## Ejercicio 1. Reproducción de señales de audio

En este ejercicio leerá una señal de audio en formato .wav y la  reproducirá. Existen diferentes forma de realizar una reproducción desde Python. Vamos a utilizar la función Audio del módulo IPython. Si realizó correctamente la instalación del envrionmnet,  ya tendrá instalado el módulo correspondiente.

* 1.1- Lea en primer lugar el fichero de audio **confront.wav**. Puede consultar la ayuda del módulo scipy.io.wavfile.  Puede consultar el JN del tema 4 para recordar cómo se utiliza esta función.



In [2]:
%matplotlib notebook
import numpy as np
import scipy as sc
import matplotlib.pyplot as plt
from IPython.display import Audio
import scipy.io.wavfile as wf

filename = 'confront.wav'
fs,y = wf.read(filename)

print(y.shape)
print(fs)


(19778,)
11000


* 1.2- A continuación reproduzca la señal utilizando Audio. Puede consultar el JN del tema 4 para recordar cómo se utiliza esta función.

$fs$ representa la frecuencia de muestreo de la señal. Este parámetro lo ha obtenido con la lectura del fichero .wav. ¿Cuál es la frecuencia de muestro de esta señal?.

* 1.3- Reproduzca la señal también a la mitad y al doble de la frecuencia de muestreo

In [2]:
#Play the signal at fs

Audio(y,rate = fs)

In [4]:
#Play the signal at fs/2

Audio(y,rate = fs*0.5)

In [5]:
#Play the signal at 2*fs
Audio(y,rate = fs*2)

* 1.4-Visualice la señal de voz. Es decir cree un plot de la señal con un eje de tiempos adecuado. Puede consultar el JN del tema 4 para recordar cómo se crea el eje temporal.

In [4]:
#plot wav signal

#time vector
t=np.arange(0,len(y)/fs, 1/fs)

plt.figure(figsize = (7,5))
plt.plot(t, y)

#plot figure


plt.xlabel('Time [sec]')
plt.ylabel('Amplitude')

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Amplitude')

## Ejercicio 2. Enventanado

* 2.1-Represente en el dominio temporal las ventanas Rectangular y Hamming. Para ello, cree primero las ventanas con los comandos:

```python
import scipy.signal as sig
r = sig.boxcar(N)
h = sig.hamming(N)
```
donde $N$ es el número de muestras de la ventana. Obtenga N para que el tamaño de la ventana sea de 20 msg.

* Obseve sus perfiles, ¿qué ventana introduciría menor distorsión en el dominio temporal?

In [12]:
#import tds.utils.py
import sys
sys.path.append('../') #allows to import a module in a diff folder
from tds_utils_22 import *

import scipy.signal as sig


N = int(0.02*fs) #length in samples

r = sig.boxcar(N)     #rectangular window
h = sig.hamming(N)      #hamming window

t = np.arange(0,len(r))/fs #time in sec

plt.figure(figsize = (7,5))

#plot rectangular window

plt.plot(t,r)
plt.xlabel('Time [sec]')
plt.title('Ventana Rectangular')

plt.figure(figsize = (7,5))


#plot hamming window

plt.plot(t,h)
plt.xlabel('Time [sec]')
plt.title('Ventana Hamming')

  r = sig.boxcar(N)     #rectangular window
  h = sig.hamming(N)      #hamming window


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Text(0.5, 1.0, 'Ventana Hamming')


* 2.2- Para representar las ventanas en el dominio frecuencial utilice la función *espectro_ventanas* del módulo tds_utils.py

```python
espectro_ventanas(r,h)
```
* Compare los espectro de las ventanas: anchura del lóbulo principal, nivel de los lóbulos secundarios.

In [None]:
#windows psd stimation

r_psd_20,h_psd_20, f_20 = 

#plot
plt.figure(figsize = (8,6))

plt.subplot(211)
#plot rectangular window spectrum

plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

plt.subplot(212)
#plot hamming window spectrum


plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

* 2.3- Varíe la longitud de las ventanas (pruebe, por ejemplo una ventana de 10 ms y una de 30 ms) y observe el efecto en los espectros de las ventanas (anchura del lóbulo principal, nivel de los lóbulos secundarios).

In [None]:
# ventana de 10 ms
N= int() #length in samples

r =    #rectangular window
h =  #hamming window

#windows psd stimation
r_psd_10,h_psd_10, f_10 = 

#plot
plt.figure(figsize = (8,6))

plt.subplot(211)
plt.plot(f_10,r_psd_10)
plt.plot(f_20,r_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

plt.subplot(212)
plt.plot(f_10,h_psd_10)
plt.plot(f_20,h_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')


In [None]:
# ventana de 30 ms



## Ejercicio 3. Energía localizada y tasa de cruces por cero

* 3.1- Seleccione el segmento de la señal de voz ($y$) entre las muestras 15500-19500. Obtenga la evolución de la energía con el tiempo utilizando una ventana hamming de 20 ms, utilice para ello la función *energia* del módulo *tds_utils.py*

```python
energia(seg,h)
#seg trama de señal, h ventana
```

In [None]:
%matplotlib notebook
#Localized energy

seg = y[15500:19500+1]

#20 ms window
N= int(0.020*fs) #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = 

#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(211)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(212)
plt.plot(e)
plt.xlabel('samples')

* 3.2- Observe el efecto del tamaño de la ventana ¿Qué ocurre si el tamaño de la ventan es muy pequeño, por ejemplo 5 ms? ¿y si es muy grande, por ejemplo 40 ms?

In [None]:
#5 ms window
N=  #length in samples
h =  #hamming window

#compute energy
e = 

#plot signal and energy


In [None]:
#40 ms window
N=  #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = 

#plot signal and energy



* 3.3- Para visualizar simultáneamente la evolución de la energía y la tasa de cruces por cero de la señal utilice la función *zcr(seg,h)* para obtener la tasa de cruces por cero localizada.  A continuación, represente zcr debajo de la energía.
* 3.4- Identifique los tramso sonoros y sordos de la señal.

In [None]:
#%matplotlib inline
N=  #length in samples
h =  #hamming window

#compute energy
e = 
z =


#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(311)
plt.plot(seg)
plt.subplot(312)
plt.plot(e)
plt.subplot(313)
plt.plot(z)
plt.xlabel('samples')

## Ejercicio 4. Espectrograma

* 4.1-Obtenga un espectrograma de banda ancha (por ejemplo longitud de ventana de 128 muestras) y otro de banda estrecha (por ejemplo longitud de ventana de 1024 muestras) para la señal de audio, *y* (completa confront.wav). Para ello utilice la función *my_spectrogram(sig,N,fs)*, donde $N$ es el tamaño de la ventana en muestras.

* 4.2-¿Cuál tiene mayor resolución en frecuencia? ¿cuál tiene mayor resolución temporal?

In [None]:
import importlib
import tds_utils
importlib.reload(tds_utils)




In [None]:
import importlib
import tds_utils
importlib.reload(tds_utils)


## Ejercicio 5. Predicción Lineal

* 5.1- Obtenga una trama de la señal original (y), entre las muestras 14000:14330 (s2)

* 5.2- Determine aproximadamente el número de coeficientes de predicción lineal ($p$) de la señal de entrada necesarios para representar adecuadamente el efecto del tracto vocal, utilice una ventana Hamming de 30 ms (s) y la función: 
 *predlin(s2,p,h)*

In [None]:
%matplotlib notebook
import sys
import scipy.signal as sig
sys.path.append('../')
from tds_utils import *
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

#obtain frame s2
s2 = 
#set LPC order
p = 2

N=  #length in samples
h =  #hamming window



## Ejercicio 6. Estimación de pitch: autocorrelación, spectrum, cepstrum

* Obtenga dos tramas de la señal original (sig), trama 1: muestras 14200-14475 y trama 2: muestras 9200:9475 y represéntelas en el dominio temporal.
* Obtenga y represente la autocorrelación de ambas tramas con la función:
 *[k,c] = xcorr(trama,trama) *
 
    En *c* se almacenarán los valores de la autocorrelación y en *k* los valores de los desplazamientos.
 
    Determine si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental. 


* Obtenga el espectro de ambas tramas con la función: *myspectra(trama,fs)* 

    Utilice ahora los espectros para determinar si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental.

* Realice un análisis cepstral de ambas tramas utilizando la función:*complex_cepstrum(trama)*

    Utilice ahora el cepstrum para determinar si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental.

* Compare las estimaciones obtenidas utilizando los diferentes métodos.
 

In [None]:
import sys
import scipy.signal
sys.path.append('../')
import tds_utils
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

s1 = 
s2 = 

plt.figure()
plt.subplot(211)
plt.plot(s1)
plt.subplot(212)
plt.plot(s2)


In [None]:
#1 Use correlation

[k1,c1] = 
[k2,c2] = 

plt.figure()
plt.subplot(211)
plt.plot(k1,c1)
plt.subplot(212)
plt.plot(k2,c2)

In [None]:
#2 Use fft

psd1,f1 = 
psd2,f2 = 

idx = f1 >= 0
plt.figure(figsize=(8,6))
plt.subplot(211)

plt.plot(f1[idx],psd1[idx])

plt.subplot(212)
plt.plot(f2[idx],psd2[idx])

In [None]:
#use cepstrum

ceps,ndelay = 
ceps2,ndelay2 = 
plt.close('all')
plt.plot(np.arange(int(len(ceps)/2))/fs,ceps[:int(len(ceps)/2)])

plt.figure()
plt.plot(np.arange(int(len(ceps2)/2))/fs,ceps2[:int(len(ceps2)/2)])

## Ejercicio 7. MFCCS

*En este ejercicio vamos a utilizar el módulo librosa para extraer los mfccs de una señal de audio.

In [None]:
import librosa
import librosa.display
import IPython.display as ipd
import matplotlib.pyplot as plt
import numpy as np

#Load audiofile
audio_file = 'confront.wav'
ipd.Audio(audio_file)

In [None]:
signal, fs = librosa.load(audio_file)
signal.shape

In [None]:
#Extract MFCCs
mfccs= librosa.feature.mfcc(signal,n_mfcc=13, sr=fs)

In [None]:
mfccs.shape

In [None]:
#visualize MFCCs
plt.figure(figsize = (25,10))
librosa.display.specshow(mfccs,x_axis='time',sr=fs)
plt.colorbar(format = "%+2f")
plt.show()

In [None]:
#calculate delta and delta2 MFCCs
delta_mfccs= librosa.feature.delta(mfccs)
delta2_mfccs= librosa.feature.delta(mfccs, order=2)


In [None]:
delta_mfccs.shape

In [None]:
delta2_mfccs.shape

In [None]:
mfccs.shape

In [None]:

plt.figure(figsize = (25,10))
librosa.display.specshow(delta_mfccs,x_axis='time',sr=fs)
plt.colorbar(format = "%+2f")
plt.show()

In [None]:
total_mfccs = np.concatenate((mfccs, delta_mfccs,delta2_mfccs))

In [None]:
total_mfccs.shape