# Taller II: Implementing a simple ASR system using HMM

En este taller implementaremos un sistema de reconocimiento automatico de habla, utilizando modelos ocultos de markov. Para este taller se puede utilizar la libreria [hmmlearn](https://hmmlearn.readthedocs.io/en/latest/tutorial.html#customizing) de Python. Este taller será parte de la nota del proyecto de evaluación del primer corte. Así que se deberá entregar al finalizar la semana 5 junto con el desarrollo del proyecto de evaluación.

En este taller implementaremos un sistema de reconocimiento de habla de palabras aisladas. Esto quiere decir que hay una separación entre cada palabra pronunciada, y no se utilizará  habla fluida continua. La idea es implementar un sistema sencillo con un vocabulario limitado, para qu epuedan entender el principio de funcionamiento de estos sistemas. Para este taller deben seguir lso siguientes pasos:

1. Cree un diccionaro pequeño compuesto de alrededor de 20 palabras. Si desean incluir más palabras no hay problema.
2. Cada una de estas palabras dividalas en fonemas. Asigne a cada fonema un número para facilitar su identificación.
3. Grabé cada una de las palbaras de forma aislada. 
4. Para cada señal de voz grabada calcule el mel espectrograma utilizando 39 componentes (este es el estandar que usan los sistemas modernos).
5. Identifique las secciones del mel spectrograma que corresponden a cada fonema.
6. Modele la distribución de los vectores del Mel espectrograma para cada fonema, esto puede hacerlo usando GMM (Gaussian Mixture Models).
7. Calcule la matrix de probabilidades de transición utilizando el diccionario que ustedes crearón.
8. Implemente el modelo HMM.
9. Pruebe con los datos de entrenamiento si el modelo produce la secuencia de fonemas indicada.
10. Genere un nuevo conjunto de palabras (al menos 10) que se conformen con los fonemas presentes en su diccionario. A partir de la señal de voz de cada una de estas nuevas palabras, trate de predecir la palbara escrita utilizando el modelo implementado.

**NOTA:** Trate de Utilizar fonemas que tengan una única relación con letras (silabas) del alfabeto. Esto disminuirá la tasa de error del modelo.

## Desarrollo

#### Sergio Nicolás Duque Báez 
#### Víctor Samuel Pérez Díaz

In [1]:
# Estas librerias fueron importadas en python 3.8.5. En 3.9 hay problemas.

import sounddevice as sd
import numpy as np
import matplotlib.pyplot as plt
import soundfile as sf
import pandas as pd

from hmmlearn import hmm
from itertools import islice
from librosa import mel_frequencies
from librosa.feature import melspectrogram
from librosa.display import specshow
from scipy.io.wavfile import write
from scipy import signal as sig
from scipy import ndimage as nd
from collections import Counter

from sklearn.mixture import GaussianMixture

In [2]:
dic = ['aspa', 'abeja', 'mama', 'mapa', 'avispa', 'oveja', 'beso', 'peso', 'pata', 'cabo', 'capo', 'escarbar', 'escapar', 
       'borra', 'gorra', 'ancla', 'vista', 'pista', 'papa', 'pasta', 'grama', 'bomba']

dic_phonems = {'aspa': ['a', 's', 'p', 'a'], 'abeja': ['a', 'b', 'e', 'j', 'a'], 'mama': ['m', 'a', 'm', 'a'], 
               'mapa': ['m', 'a', 'p', 'a'], 'avispa': ['a', 'v', 'i', 's', 'p', 'a'], 'oveja': ['o', 'v','e', 'j', 'a'], 
               'beso': ['b', 'e', 's', 'o'], 'peso': ['p', 'e', 's', 'o'], 'pata': ['p', 'a', 't', 'a'], 
               'cabo': ['c', 'a', 'b', 'o'], 'capo': ['c', 'a', 'p', 'o'], 'escarbar': ['e', 's', 'c', 'a', 'r', 'b', 'a', 'r'], 'escapar': ['e', 's', 'c', 'a', 'p', 'a', 'r'], 'borra': ['b', 'o', 'rr', 'a'], 
               'gorra': ['g', 'o', 'rr', 'a'] , 'ancla': ['a', 'n', 'c', 'l', 'a'], 'vista': ['v', 'i', 's', 't', 'a'], 
               'pista': ['p', 'i', 's', 't', 'a'], 'papa': ['p', 'a', 'p', 'a'], 'pasta': ['p', 'a', 's', 't', 'a'], 
               'grama': ['g', 'r', 'a', 'm', 'a'], 'bomba': ['b', 'o', 'm', 'b', 'a']}

phonems = ['a', 's', 'p', 'b', 'e', 'j', 'm', 'v', 'i', 'o', 't', 'c', 'r', 'rr', 'g', 'n', 'l']
phonems.sort()
dic_matrix = {k:[] for k in phonems}

def splitmel(seq, num):
    avg = len(seq) / float(num)
    out = []
    last = 0.0

    while last < len(seq):
        out.append(seq[int(last):int(last + avg)])
        last += avg

    return out

def extract_from_word(y, fs, word, dic_phonems):
    
    env = np.abs(sig.hilbert(y))
    env = nd.uniform_filter1d(env, 500)
    env_mask = env > 0.5
    
    y_talk = y[env_mask]
    
    # Computing
    len_win = int(np.fix(0.02*fs)) # Defining the samples for a 20ms window
    window = np.hanning(len_win) # Computing the window length to compute the spectrogram
    len_over = int(np.fix(0.01*fs)) # Defining number of samples for an overlap of 10ms between consecutive windows
    #nfft = 512 # Number of points for the FFT
    
    # Computing the Mel-Spectrogram
    n_coeff = 39

    Sm = melspectrogram(y=y[env_mask], sr=fs, window = window, win_length = len_win, hop_length=len_over, n_mels = n_coeff)
    fm = mel_frequencies(n_mels=n_coeff, fmin=20, fmax=fs/2, htk=False)
    
    word_phonems = dic_phonems[word]
    split_talk = splitmel(Sm, len(word_phonems))
    
    for p in range(len(word_phonems)):
        #print(word_phonems[p])
        dic_matrix[word_phonems[p]].append(np.average(split_talk[p])) 
        
    return None

def fill_phonems(dir, number, dic):
    # Extracting audio
    for i in range(len(dic)):
        name = dic[i]
        y, fs = sf.read('{}/{}{}.wav'.format(dir, name, number))
        y = y/np.std(y)
        #sd.play(y, fs)

        if len(y.shape) > 1:
            y = y[:,0]

        extract_from_word(y, fs, name, dic_phonems)

In [6]:
fill_phonems('audios2', '2', dic)

In [7]:
dic_matrix

{'a': [1595.8085689262502,
  0.004407669955270669,
  1336.3379734530877,
  8.280689999810806e-05,
  399.1612963340067,
  0.00032515084197015377,
  469.3178314769941,
  0.0006856139747770831,
  2507.0346243035024,
  0.00016369027372931062,
  0.0002486460599617333,
  1263.024660010074,
  0.0016474027332576593,
  587.3919042523503,
  1166.2162773281545,
  46.12615575720718,
  0.12421802471227955,
  62.75252038282814,
  0.12096850314117892,
  0.0009092763734299874,
  0.00042047145219037705,
  1053.3228840551878,
  0.00017536620431519512,
  0.0016376777191796472,
  0.0013430190236223384,
  1219.686776340853,
  0.0016438264232562939,
  2615.5846180293347,
  0.001162758205954301,
  41.968787562303646,
  3.21305422318894e-05,
  3.207642198381709e-05,
  264.5809278988427,
  0.41926747724230845,
  333.84841467802164,
  0.005618967525738665,
  6.5893815107330775,
  0.010972055221268623,
  28.453515952589456,
  0.011844890216651253,
  355.2610685281567,
  0.7266735978008126,
  0.010640901209199652

In [8]:
gm_phon = []
for p in phonems:
    phon = np.array(dic_matrix[p]).reshape(-1, 1)
    gm = GaussianMixture(n_components=2, random_state=0).fit(phon)
    gm_phon.append(gm)

In [9]:
def window(seq, n=2):
    "Sliding window width n from seq.  From old itertools recipes."""
    it = iter(seq)
    result = tuple(islice(it, n))
    if len(result) == n:
        yield result
    for elem in it:
        result = result[1:] + (elem,)
        yield result

In [111]:
pairs= pd.DataFrame()  
for w in dic:
    pairs_i = pd.DataFrame(window(dic_phonems[w]), columns=['state1', 'state2'])
    pairs = pd.concat([pairs,pairs_i])
    
counts = pairs.groupby('state1')['state2'].value_counts() #+ counts
probs = (counts / counts.sum()).unstack()
probs = probs.fillna(0)
g = np.zeros(len(probs))
probs.insert(4, 'g', g)

In [52]:
counts_freqs =  Counter()
for w in dic:
    for i in range(len(dic_phonems[w])):
        counts_freqs.update([dic_phonems[w][i]])

In [67]:
startprob = np.array(list(counts_freqs.values()))/sum(counts_freqs.values())

In [114]:
model = hmm.GMMHMM(n_components=17, covariance_type="full")
model.startprob_ = startprob
model.transmat_ = probs.to_numpy()
model.weights_ = np.array([x.weights_ for x in gm_phon])
model.means_ = np.array([x.means_ for x in gm_phon])
model.covars_ = np.array([x.covariances_ for x in gm_phon])[:,:,:,0]

In [115]:
X, Z = model.sample(100)

ValueError: rows of transmat_ must sum to 1.0 (got [0.19277108 0.08433735 0.06024096 0.07228916 0.02409639 0.03614458
 0.02409639 0.01204819 0.06024096 0.01204819 0.04819277 0.13253012
 0.02409639 0.02409639 0.10843373 0.04819277 0.03614458])

In [124]:
np.sum([0.19277108,0.08433735,0.06024096, 0.07228916, 0.02409639, 0.03614458, 0.02409639,
        0.01204819, 0.06024096, 0.01204819, 0.04819277, 0.13253012,
 0.02409639, 0.02409639, 0.10843373, 0.04819277, 0.03614458])

0.9999999999999999