# Grupo 7: Identificación de vocales con Naive Bayes

- Con este trabajo analizaremos la voz de varios audios, con el fin de poder identificarlos con la mayor exactitud posible. El algoritmo de Naive Bayes con el de la librería de código que usaremos (Librosa) se encargará de analizar las señales dadas, de las cuales utilizaremos un 75% para entrenamiento y un 25% para test. Este algoritmo comparará los distintos datos obtenidos de los archivos y a partir de la señales, compararemos los distintos valores obtenidos.

- Este trabajo se basara en el análisis de las vocales españolas y sus formantes. Un software informático se encargará de analizar las señales de los audios de las vocales (Xtrain) comparándolas con otras (Xtest). 

- Utilizaremos el algoritmo de Naive Bayes para comparar los distintos datos obtenidos a partir de las señales adquiridas, compararemos los diferentes coeficientes con los distintos valores en frecuencia de los ficheros de audio, para así poder diferenciar las características de cada vocal.


- Primero, se introduce en el código un número de ejemplos cuya etiqueta (vocal) es conocida (proceso de entrenamiento) y se diseña un conjunto de reglas para hallar la función de clasificación, una vez obtenida esta función tendremos la posibilidad de verificar nuestra probabilidad de acierto con los archivos que usaremos en el proceso de test. Las entradas del clasificador serán las características extraídas (los coeficientes de mel y los coeficientes de LCP) de cada archivo de audio. La salida del clasificador será la etiqueta (vocal) al que pertenece cada audio.


- Utilizaremos los dos tipos de coeficientes diferentes para comparar los resultados y ver cuál de los dos coeficientes se adecua mejor a cada audio.

# Metodología

-	Tendremos una carpeta de audios que sera nuestra base de datos que contiene 32 audios en total, de los cuales serán 8 audios de cada vocal en los cuales dirán la vocal en entonaciones y tiempos distintos.

-	Nuestro código tratara de identificar la vocal correspondiente a cada audio. Como  entrada tenemos una  señal de voz en este caso (a_p.wav) y a la salida obtenemos la vocal correspondiente, teniendo como posibles resultados: 'a', 'e', 'i', 'o' y 'u'.

-	En el siguiente hito vamos a poner un ejemplo de un audio de cada vocal en tiempo  y frecuencia, para poder ver sus características de forma representativa.

## Representación en el tiempo

In [5]:
# Importamos todas las librerias que necesitamos
import matplotlib.pyplot as plt
import scipy.io.wavfile as wf
#import sounddevice as sd
import numpy as np
import scipy.signal as sig
import scipy as sc
import tds_utils as tds
import sys
sys.path.append('../') #allows to import a module in a diff folder
from tds_utils import *


# Datos de ejemplo
vocal_a = 'vocals/a_p.wav'
vocal_e = 'vocals/e_p.wav'
vocal_i = 'vocals/i_p.wav'
vocal_o = 'vocals/o_p.wav'
vocal_u = 'vocals/u_p.wav'


# vocal_a será a, vocal_e será e, vocal_i será i, vocal_o será o y vocal_u será u.
fs_a,y_a = wf.read(vocal_a)
fs_e,y_e = wf.read(vocal_e)
fs_o,y_o = wf.read(vocal_i)
fs_i,y_i = wf.read(vocal_o)
fs_u, y_u = wf.read(vocal_u)

y_a = y_a/np.max(y_a)
y_e = y_e/np.max(y_e)
y_i = y_i/np.max(y_i)
y_o = y_o/np.max(y_o)
y_u = y_u/np.max(y_u)

plt.figure(figsize = (25,10))


# Vocal a
t_a = np.arange(0,len(y_a)/fs_a, 1/fs_a)
plt.subplot(5,1,1)
plt.title("Vocals in Time")
plt.plot(t_a, y_a)
plt.ylabel('Amplitude Vocal a')
plt.xlabel('Time[sec]')

# Vocal e
t_e = np.arange(0,len(y_e)/fs_e, 1/fs_e)
plt.subplot(5,1,2)
plt.plot(t_e, y_e)
plt.ylabel('Amplitude Vocal e')
plt.xlabel('Time[sec]')

# Vocal i
t_i = np.arange(0,len(y_i)/fs_i, 1/fs_i)
plt.subplot(5,1,3)
plt.plot(t_i, y_i)
plt.ylabel('Amplitude Vocal i')
plt.xlabel('Time[sec]')

# Vocal o
t_o = np.arange(0,len(y_o)/fs_o, 1/fs_o)
plt.subplot(5,1,4)
plt.plot(t_o, y_o)
plt.ylabel('Amplitude Vocal o')
plt.xlabel('Time[sec]')

# Vocal u

t_u = np.arange(0,len(y_u)/fs_u, 1/fs_u)
plt.subplot(5,1,5)
plt.plot(t_u, y_u)
plt.ylabel('Amplitude Vocal u')
plt.xlabel('Time[sec]')

print('\n Análisis en tiempo(seg) de todos los locutores\n')

ModuleNotFoundError: No module named 'spectrum'

## Representación en frecuencia

In [6]:
# Importamos my spectra desde tds utils
from tds_utils import my_spectra

# Estimación de densidad espectral en potencia de cada vocal(FFT)
psd_a,f_a = my_spectra(y_a,fs_a)
psd_e,f_e = my_spectra(y_e,fs_e)
psd_i,f_i = my_spectra(y_i,fs_i)
psd_o,f_o = my_spectra(y_o,fs_o)
psd_u,f_u = my_spectra(y_u,fs_u)

# Representamos en frecuencias positivas

plt.figure(figsize =(25,10))
psd,f = my_spectra(y_a,fs_a)     # Establecemos una f
idx1 = (f_a>=0)
idx2 = (f_e>=0)
idx3 = (f_i>=0)
idx4 = (f_o>=0)
idx5 = (f_u>=0)

plt.subplot(5,1,1)
plt.title("Vocales en Frecuencia")
plt.plot(f_a[idx1],psd_a[idx1])
plt.ylabel('|FFT| del Vocal a')
plt.xlabel('Frecuencia[Hz]')

plt.subplot(5,1,2)
plt.plot(f_e[idx2],psd_e[idx2])
plt.ylabel('|FFT| de Vocal e')
plt.xlabel('Frecuencia[Hz]')

plt.subplot(5,1,3)
plt.plot(f_i[idx3],psd_i[idx3])
plt.ylabel('|FFT| de Vocal i')
plt.xlabel('Frecuencia[Hz]')

plt.subplot(5,1,4)
plt.plot(f_o[idx4],psd_o[idx4])
plt.ylabel('|FFT| de Vocal o')
plt.xlabel('Frecuencia[Hz]')


plt.subplot(5,1,5)
plt.plot(f_u[idx5],psd_u[idx5])
plt.ylabel('|FFT| de Vocal u')
plt.xlabel('Frecuencia[Hz]')

print('\r\n\r\n Análisis de Espectro en Frecuencia [Hz]')

ModuleNotFoundError: No module named 'spectrum'

## Audios de vocales (Base de datos)

- Lo primero que hacemos es ver todos los archivos de la carpeta y sacar las características de cada audio de forma independiente. Todos nuestros audios están guardados en la carpeta de vocales llamada "vocals".

In [7]:
import os, sys

directorio = os.listdir("vocals/")
Archivos = []

for file in directorio:
    Archivos.append(file)
    
print(Archivos)

['a_p.wav', 'a_g.wav', 'E_Bruno_nr.wav', 'e_p.wav', 'E_Agu_Hablada_nr.wav', 'O_flaco_nr.wav', 'U_Bruno_Hablada_nr.wav', 'U_Bruno_nr.wav', 'E_Mari_nr.wav', 'i_p.wav', 'O_Mari_nr.wav', 'I_Bruno_Hablada_nr.wav', 'u_g.wav', 'o_p.wav', 'o_diego_mono1.wav', 'E_flaco_nr.wav', 'U_Agu_Hablada_nr.wav', 'E_Bruno_Hablada_nr.wav', 'U_Agu_nr.wav', 'u_p.wav', 'O_Bruno_nr.wav', 'o_g.wav', 'i_g.wav', 'A_Agu_nr.wav', 'I_Mari_nr.wav', 'A_Bruno_nr.wav', 'e_g.wav', 'A_Mari_nr.wav', 'A_flaco_nr.wav', 'A_Bruno_Hablada_nr.wav', 'cepstral_2.m', 'U_flaco_nr.wav', 'I_Agu_nr.wav', 'I_Agu_Hablada_nr.wav', 'O_Agu_Hablada_nr.wav', 'vocal_noise.wav', 'O_Bruno_Hablada_nr.wav', 'I_flaco_nr.wav', 'E_Agu_nr.wav']


Cálculo de las características de cada audio

In [8]:

from NaiveVocals import *

model = NaiveVocals('A_Mari_nr.wav')
model._fit_mel()
model._fit_lpc()

print(model.train)# Base de datos completa.

{'E_CY2.wav': {'MEL': [-196.88629828559027, 101.2010498046875, -26.76206292046441, 55.35408189561632, 36.81995985243056, -43.45618353949653, -10.524645487467447, -12.948885599772135, -23.670618693033855, 6.373498704698351, -34.01908704969618, 11.840952555338541, 6.790506150987413, -1.8967361450195312, -1.315187242296007], 'LPC': [-2.5537872397664336, 3.0975812728912837, -3.1854183154013986, 3.3808932848124433, -3.479258140074576, 3.3347414746296797, -2.829582787354029, 2.3284489406721005, -1.741988296078371, 0.8805427781061361, -0.3134752284114261, 0.08879231789872818], 'result': 'e'}, 'U_Bruno_Hablada_nr.wav': {'MEL': [-395.446337890625, 192.74429931640626, 1.8496601104736328, 29.1875732421875, -6.600870513916016, -75.30372314453125, -10.669844818115234, 19.095828247070312, -26.077554321289064, -15.80972900390625, 0.08131208419799804, -17.367999267578124, -20.137322998046876, -23.75025329589844, -25.043313598632814], 'LPC': [-1.745378993325115, 0.568850379873215, -0.4731347547874107, 

### Ejemplo de uso:


In [9]:
# Aquí deberíamos de poner la lista de los coeficientes con el resultado

from NaiveVocals import *

model = NaiveVocals('U_Mari_nr.wav')
model.fit()
model.predict()
model1 = NaiveVocals('I_Bruno_nr.wav')
model1.fit()
model1.predict()
model2 = NaiveVocals('O_Agu_nr.wav')
model2.fit()
model2.predict()



Tu archivo es U_Mari_nr.wav
Predicción coeficientes de MEL: ['u']
Predicción coeficientes LPC: ['a']
Tu archivo es I_Bruno_nr.wav
Predicción coeficientes de MEL: ['i']
Predicción coeficientes LPC: ['e']
Tu archivo es O_Agu_nr.wav
Predicción coeficientes de MEL: ['o']
Predicción coeficientes LPC: ['u']


## Resultado Final

- Primero vamos con la función accuracy a calcular con el porcentaje de precisión que tiene el programa con cada uno de los dos métodos, utlizando los coeficientes LCP o los coecifientes Mel y averiguando con cuál de los dos hay más precisión en cada audio.

- Por último haremos la prueba con tres audios de diferentes vocales, obteniendo la respuesta que da el programa.

Ejemplo de uso de la función accuracy:

In [10]:
from NaiveVocals import *

model = NaiveVocals('A_Mari_nr.wav')

model.accuracy()

Tamaño de entrenamiento: 68
Tamaño de prueba: 28
Total: 96
MEL: ['o', 'o', 'o', 'o', 'o', 'u', 'o', 'a', 'o', 'o', 'e', 'a', 'e', 'e', 'o', 'i', 'i', 'i', 'i', 'u', 'o', 'i', 'i', 'u', 'o', 'a', 'o', 'o']
LPC: ['a', 'i', 'u', 'a', 'o', 'e', 'a', 'a', 'i', 'u', 'o', 'i', 'e', 'i', 'a', 'e', 'e', 'o', 'o', 'u', 'e', 'o', 'e', 'u', 'a', 'a', 'u', 'a']
Resultados: ['i', 'u', 'o', 'o', 'o', 'u', 'a', 'a', 'o', 'o', 'e', 'a', 'i', 'e', 'o', 'i', 'i', 'i', 'i', 'u', 'u', 'i', 'i', 'u', 'o', 'a', 'o', 'e']
Precisión MEL: 0.7857142857142857
Precisión LPC: 0.21428571428571427


In [11]:
from tds_utils import *
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import Audio
import scipy.io.wavfile as wf


filename = 'U_Mari_nr.wav'
fs,y = wf.read(filename)
print(f'El primer audio será: {filename}')
Audio(y,rate = fs)

ModuleNotFoundError: No module named 'spectrum'

In [None]:
from NaiveVocals import *

model = NaiveVocals('U_Mari_nr.wav')
model.fit()
model.predict()

In [12]:
from tds_utils import *
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import Audio
import scipy.io.wavfile as wf

filename = 'I_Bruno_nr.wav'
fs,y = wf.read(filename)
print(f'El segundo audio será: {filename}')
Audio(y,rate = fs)

ModuleNotFoundError: No module named 'spectrum'

In [13]:
from NaiveVocals import *

model = NaiveVocals('I_Bruno_nr.wav')
model.fit()
model.predict()

Tu archivo es I_Bruno_nr.wav
Predicción coeficientes de MEL: ['i']
Predicción coeficientes LPC: ['e']


In [14]:
from tds_utils import *
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import Audio
import scipy.io.wavfile as wf

filename = 'O_Agu_nr.wav'
fs,y = wf.read(filename)
print(f'El tercer audio será: {filename}')
Audio(y,rate = fs)

ModuleNotFoundError: No module named 'spectrum'

In [15]:
from NaiveVocals import *

model= NaiveVocals('O_Agu_nr.wav')
model.fit()
model.predict()

Tu archivo es O_Agu_nr.wav
Predicción coeficientes de MEL: ['o']
Predicción coeficientes LPC: ['u']
