# Tema 5 Tratamiento Digital del Sonido


### Rebeca Goya Esteban y Óscar Barquero Pérez

update: 18 de octubre de 2018

<a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/"><img alt="Licencia de Creative Commons" style="border-width:0" src="https://i.creativecommons.org/l/by-nc-sa/4.0/88x31.png" /></a><br />Este obra está bajo una <a rel="license" href="http://creativecommons.org/licenses/by-nc-sa/4.0/">licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional</a>. 

## Introducción

Para la realización de los ejercicios necesitará el siguiente material:

* Fichero de audio *confront.wav*.
* Las funciones: *espectro_ventanas*, *energia*, *vozSS*, *myspectra*, *my_spectrogram*, *predlin*, *myceps*, *zcr* que se encuentran en el módulo tds_utils.py

## Ejercicio 1. Reproducción de señales de audio

En este ejercicio debera leer una señal de audio en formato .wav y reproducirlo. Existen diferentes forma de realizar una reproducción desde Python. Vamos a utilizar la herramienta del módulo soundevice. Si realizó correctamente la instalación del envrionmnet **tds_18_19**,  ya tendrá instalado el módulo correspondiente.

* 1.1- Lea en primer lugar el fichero de audio **confront.wav**. Deberá consultar la ayuda del módulo scipy.io.wavfile. Después ejecute los siguientes comandos

```python
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

```

In [9]:
%matplotlib notebook
import numpy as np
import scipy as sc
import matplotlib.pyplot as plt

import scipy.io.wavfile as wf
i=1
filename = 'confront.wav'

fs,y = wf.read(filename)



* 1.2- A continuación reproduzca la señal utilizando el siguiente comando

```python
import sounddevice as sd
sd.play(y,fs)
```

donde $fs$ representa la frecuencia de muestreo de la señal. Este parámetro lo ha obtenido con la lectura del fichero .wav. ¿Cuál es la frecuencia de muestro de esta señal?.

* 1.3- Reproduzca la señal también a la mitad y al doble de la frecuencia de muestreo

In [10]:
#Play the signal at fs
import sounddevice as sd
print(fs)
sd.play(y,fs)

44100


In [11]:
#Play the signal at fs/2
import sounddevice as sd
sd.play(y,fs/2)


In [12]:
#Play the signal at 2*fs
import sounddevice as sd
sd.play(y,fs*2)


* 1.4-Visualice la señal de voz. Es decir cree un plot de la señal con un eje de tiempos adecuado

In [13]:
#plot wav signal
import numpy as np

#time vector de y que es mi señal
t= np.arange(0,len(y)/fs,1/fs)
#equivalente a t= np.arange(0,len(y),fs)

plt.figure(figsize = (7,5))

#plot figure
plt.plot(t,y)


plt.xlabel('Time [sec]')
plt.ylabel('Amplitude')

<IPython.core.display.Javascript object>

Text(0,0.5,'Amplitude')

## Ejercicio 2. Enventanado

* 2.1-Represente en el dominio temporal las ventanas Rectangular y Hamming. Para ello, cree primero las ventanas con los comandos:

```python
import scipy.signal as sig
r = sig.boxcar(N)
h = sig.hamming(N)
```
donde $N$ es el número de muestras de la ventana. Obtenga N para que el tamaño de la ventana sea de 20 msg.

* Obseve sus perfiles, ¿qué ventana introduciría menor distorsión en el dominio temporal?

In [14]:
#import tds.utils.py
import sys
sys.path.append('../') #allows to import a module in a diff folder
from tds_utils import *
import scipy.signal as sig

N= int(0.020*fs) #length in samples

r = sig.boxcar(N)    #rectangular window
h = sig.hamming(N)      #hamming window

#La señal es de la misma longitud
t = np.arange(0,len(r))/fs #time in sec

plt.figure(figsize = (7,5))
plt.subplot(211)
plt.plot(t,r)

#plot rectangular window

plt.xlabel('Time [sec]')
plt.title('Ventana Rectangular')

plt.subplot(212)
plt.plot(t,h)

#plot hamming window

plt.xlabel('Time [sec]')
plt.title('Ventana Hamming')

<IPython.core.display.Javascript object>

Text(0.5,1,'Ventana Hamming')


* 2.2- Para representar las ventanas en el dominio frecuencial utilice la función *espectro_ventanas* del módulo tds_utils.py

```python
espectro_ventanas(r,h)
```
* Compare los espectro de las ventanas: anchura del lóbulo principal, nivel de los lóbulos secundarios.

In [15]:
#windows psd stimation

r_psd_20,h_psd_20, f_20 = espectro_ventanas(r,h)

#plot
plt.figure(figsize = (8,6))

plt.subplot(211)
#plot rectangular window spectrum
idx = f_20>=0
plt.plot(f_20[idx],r_psd_20)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

plt.subplot(212)
idx = f_20>=0
#plot hamming window spectrum
plt.plot(f_20[idx],h_psd_20)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

  r_psd = 20*np.log10(np.abs(np.fft.fftshift(Rect_Frec)))
  h_psd = 20*np.log10(np.abs(np.fft.fftshift(Hamm_Frec)))


<IPython.core.display.Javascript object>

Text(0,0.5,'Rect window PSD (dB)')

* 2.3- Varíe la longitud de las ventanas (pruebe, por ejemplo una ventana de 10 ms y una de 30 ms) y observe el efecto en los espectros de las ventanas (anchura del lóbulo principal, nivel de los lóbulos secundarios).

In [16]:
# ventana de 10 ms
N= int(0.01*fs) #length in samples

r =  sig.boxcar(N)     #rectangular window
h =  sig.hamming(N)  #hamming window

#windows psd stimation
r_psd_10,h_psd_10, f_10 = espectro_ventanas(r,h)

#plot
plt.figure(figsize = (8,6))

plt.subplot(211)
plt.plot(f_10,r_psd_10)
plt.plot(f_20,r_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

plt.subplot(212)
plt.plot(f_10,h_psd_10)
plt.plot(f_20,h_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')


<IPython.core.display.Javascript object>

Text(0,0.5,'Rect window PSD (dB)')

In [17]:
# ventana de 30 ms
N= int(0.03*fs) #length in samples

r =  sig.boxcar(N)     #rectangular window
h =  sig.hamming(N)  #hamming window

#windows psd stimation
r_psd_30,h_psd_30, f_30 = espectro_ventanas(r,h)

#plot
plt.figure(figsize = (8,6))

plt.subplot(211)
plt.plot(f_30,r_psd_30)
plt.plot(f_20,r_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')

plt.subplot(212)
plt.plot(f_30,h_psd_30)
plt.plot(f_20,h_psd_20,':',color='grey',linewidth = 0.8)
plt.xlabel('Frequency (Hz)')
plt.ylabel('Rect window PSD (dB)')



<IPython.core.display.Javascript object>

Text(0,0.5,'Rect window PSD (dB)')

## Ejercicio 3. Energía localizada y tasa de cruces por cero

* 3.1- Seleccione el segmento de la señal de voz ($y$) entre las muestras 15500-19500. Obtenga la evolución de la energía con el tiempo utilizando una ventana hamming de 20 ms, utilice para ello la función *energia* del módulo *tds_utils.py*

```python
energia(seg,h)
#s señal, h ventana
```

In [20]:
%matplotlib notebook
#Localized energy

seg = y[1000:2000+1]

#20 ms window
N= int(0.020*fs) #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = energia(seg,h)

#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(211)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(212)
plt.plot(e)
plt.xlabel('samples')

ValueError: operands could not be broadcast together with shapes (882,2) (882,) 

In [19]:
#Mejor utilizar una ventana rectangular para el tiempo
%matplotlib notebook
#Localized energy

seg = y[15500:19500+1]

#20 ms window
N= int(0.020*fs) #length in samples
h = sig.boxcar(N) #hamming window

#compute energy
e = energia(seg,h)

#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(211)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(212)
plt.plot(e)
plt.xlabel('samples')

ValueError: operands could not be broadcast together with shapes (882,2) (882,) 

In [27]:
N

220

* 3.2- Observe el efecto del tamaño de la ventana ¿Qué ocurre si el tamaño de la ventan es muy pequeño, por ejemplo 5 ms? ¿y si es muy grande, por ejemplo 40 ms?

In [19]:
#5 ms window
%matplotlib notebook
#Localized energy

seg = y[15500:19500+1]

#5 ms window
N= int(0.005*fs) #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = energia(seg,h)

#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(211)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(212)
plt.plot(e)
plt.xlabel('samples')


<IPython.core.display.Javascript object>

Text(0.5,0,'samples')

In [20]:
%matplotlib notebook
#Localized energy

seg = y[15500:19500+1]

#40 ms window
N= int(0.04*fs) #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = energia(seg,h)

#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(211)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(212)
plt.plot(e)
plt.xlabel('samples')

<IPython.core.display.Javascript object>

Text(0.5,0,'samples')

* 3.3- Para visualizar simultáneamente la evolución de la energía y la tasa de cruces por cero de la señal utilice la función *zcr(seg,h)* para obtener la tasa de cruces por cero localizada.  A continuación, represente zcr debajo de la energía.
* 3.4- Identifique los tramso sonoros y sordos de la señal.

In [21]:
#%matplotlib inline
N= int(0.020*fs)  #length in samples
h = sig.hamming(N) #hamming window

#compute energy
e = energia(seg,h)
z = zcr(seg,h)


#plot signal and energy
plt.figure(figsize = (8,6))
plt.subplot(311)
plt.plot(seg)
plt.xlabel('samples')
plt.subplot(312)
plt.plot(e)
plt.xlabel('samples')
plt.subplot(313)
plt.plot(z)
plt.xlabel('samples')

<IPython.core.display.Javascript object>

Text(0.5,0,'samples')

## Ejercicio 4. Espectrograma

* 4.1-Obtenga un espectrograma de banda ancha (por ejemplo longitud de ventana de 128 muestras) y otro de banda estrecha (por ejemplo longitud de ventana de 1024 muestras) para la señal de audio, *y* (completa confront.wav). Para ello utilice la función *my_spectrogram(sig,N,fs)*, donde $N$ es el tamaño de la ventana en muestras.

* 4.2-¿Cuál tiene mayor resolución en frecuencia? ¿cuál tiene mayor resolución temporal?

In [22]:
import importlib
import tds_utils
importlib.reload(tds_utils)

#Espectrograma de banda ancha 
#Como varía en el tiempo la envolvente expectral
#Formantes
N= int(128)  #length in samples
my_spectrogram(y,N,fs)

#Espectrograma de banda estrecha
#pitch y armónicos

N2= int(1024)  #length in samples
my_spectrogram(y,N2,fs)




<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

In [None]:
import importlib
import tds_utils
importlib.reload(tds_utils)


## Ejercicio 5. Predicción Lineal

* 5.1- Obtenga una trama de la señal original (y), entre las muestras 14000:14330 (s2)

* 5.2- Determine aproximadamente el número de coeficientes de predicción lineal ($p$) de la señal de entrada necesarios para representar adecuadamente el efecto del tracto vocal, utilice una ventana Hamming de 30 ms (s) y la función: 
 *predlin(s2,p,h)*

In [2]:
%matplotlib notebook
# to match matlab we need to use spectrum module conda install -c conda-forge spectrum 
import sys
import scipy.signal as sig
sys.path.append('../')
from tds_utils import *
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

#obtain frame s2
s2 = y[14000:14330]

#set LPC order
p0 = 13


N= int(0.030*fs) #length in samples
h = sig.hamming(N) #hamming window

lpc=predlin2(s2,p0,h)
print(lpc)
#Resultados
#Señal con la ventana a utilizar
#Señal enventanda
#Prediccion lineal



[-1.90540282  2.40367332 -2.58334168  2.13915501 -1.63762909  0.99478112
 -0.10986951 -0.54009431  1.09907356 -1.30525637  1.21858315 -0.89589288
  0.41409741]


In [24]:
%matplotlib notebook
# to match matlab we need to use spectrum module conda install -c conda-forge spectrum 
import sys
import scipy.signal as sig
sys.path.append('../')
from tds_utils import *
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

#obtain frame s2
s2 = y[14000:14330]
#set LPC order
p1 = 15

N= int(0.030*fs) #length in samples
h = sig.hamming(N) #hamming window

predlin(s2,p1,h)

#Mucho mejor ajustado el espectro con p=15 
#La extracción de características será más precisa

<IPython.core.display.Javascript object>

## Ejercicio 6. Estimación de pitch: autocorrelación, spectrum, cepstrum

* Obtenga dos tramas de la señal original (sig), trama 1: muestras 14200-14475 y trama 2: muestras 9200:9475.
* Obtenga y represente la autocorrelación de ambas tramas con la función:
 *[k,c] = xcorr(trama) *
 
    En *c* se almacenarán los valores de la autocorrelación y en *k* los valores de los desplazamientos.
 
    Determine si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental. 


* Obtenga el espectro de ambas tramas con la función: *my_spectra(trama,fs)* 

    Utilice ahora los espectros para determinar si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental.

* Realice un análisis cepstral de ambas tramas utilizando la función:*complex_cepstrum(trama)*

    Utilice ahora el cepstrum para determinar si se trata de tramas sonoras o sordas. En el caso de que alguna de las tramas sea sonora, estime el pitch o frecuencia fundamental.

* Compare las estimaciones obtenidas utilizando los diferentes métodos.
 

In [25]:
import sys
import scipy.signal
sys.path.append('../')
import tds_utils
import scipy.io.wavfile as wf

filename = 'confront.wav'

fs,y = wf.read(filename)

s1 = y[14200:14475]
s2 = y[9200:9475]


plt.figure()
plt.subplot(211)
plt.plot(s1)
plt.subplot(212)
plt.plot(s2)

#Representacion de tramas
# 1-Sonora, 2-Sorda

#Muestras en el eje X, eje Y amplitud


<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fadb8fc9470>]

In [26]:
#1 Use correlation

#k desplazamiento x
#c valor de la amplitud y

[k1,c1] = xcorr(s1,s1)
[k2,c2] = xcorr(s2,s2)


plt.figure()
plt.subplot(211)
plt.plot(k1,c1)
plt.subplot(212)
plt.plot(k2,c2)

#Se quiere ver la periodicidad de las señales

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fadb8f74a20>]

In [27]:
#2 Use fft

psd1,f1 = my_spectra(s1,fs)
psd2,f2 = my_spectra(s2,fs)

idx = f1 >= 0
plt.figure(figsize=(8,6))
plt.subplot(211)

plt.plot(f1[idx],psd1[idx])

plt.subplot(212)
plt.plot(f2[idx],psd2[idx])

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fadb8e75898>]

In [32]:
#use cepstrum

#tds_utils.complex_cepstrum(trama)
ceps,ndelay = complex_cepstrum(s1)
ceps2,ndelay2 = complex_cepstrum(s2)
plt.close('all')
plt.plot(np.arange(int(len(ceps)/2))/fs,ceps[:int(len(ceps)/2)])

plt.figure()
plt.plot(np.arange(int(len(ceps2)/2))/fs,ceps2[:int(len(ceps2)/2)])

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

[<matplotlib.lines.Line2D at 0x7fadb8cd7ef0>]