<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Correspondencia-de-modelos-mirando-los-gráficos" data-toc-modified-id="Correspondencia-de-modelos-mirando-los-gráficos-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Correspondencia de modelos mirando los gráficos</a></span></li><li><span><a href="#Estimación-del-modelo" data-toc-modified-id="Estimación-del-modelo-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Estimación del modelo</a></span></li><li><span><a href="#Recursión-de-Viterbi" data-toc-modified-id="Recursión-de-Viterbi-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Recursión de Viterbi</a></span></li></ul></div>

# Práctica 7: HMM

In [9]:
# Numpy, Scipy: librerías numéricas
import numpy as np
from scipy.linalg import sqrtm
from scipy.io import loadmat

# Matlplotlib: librería para graficar
%matplotlib notebook
from matplotlib import pyplot as plt
from matplotlib import colors as mcolors
from matplotlib.patches import Ellipse
from matplotlib import rcParams
rcParams['figure.figsize'] = (8.0, 4.0)

# Funciones complementarias para el TP
from habla_utils.markov import *

# Comandos especiales para actualizar automáticamente el notebook
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


## Correspondencia de modelos mirando los gráficos

Leemos las secuencias ST1, ..., ST6 y sus respectivas mediciones X1, ..., X6 guardados en el archivo `data.mat` y generamos los modelos hmm1, ..., hmm7 a mano. La idea de esta primera parte es hacer corresponder los modelos hmm1, ..., hmm7 con sus mediciones mirando los gráficos a ojo y calculando la probabilidad conjunta de las secuencias con las mediciones para cada uno de ellos.

In [2]:
# Lectura de las secuencias y las mediciones ya generadas.
x = loadmat('./archivos_p7/data.mat')
X1, X2, X3, X4, X5, X6 = x['X1'], x['X2'], x['X3'], x['X4'], x['X5'], x['X6']
ST1 = x['ST1'].astype(np.int)[0]-1 
ST2 = x['ST2'].astype(np.int)[0]-1
ST3 = x['ST3'].astype(np.int)[0]-1
ST4 = x['ST4'].astype(np.int)[0]-1
ST5 = x['ST5'].astype(np.int)[0]-1
ST6 = x['ST6'].astype(np.int)[0]-1

hmm1, hmm2, hmm3, hmm4, hmm5, hmm6, hmm7 = GenData()

Queremos hacer corresponder las secuencias generadas con los modelos con los cuales fueron generados. Para eso, podemos ver ojo cómo son las secuencias con las funciones `plotseq` y `plotseq2`. 

Por ejemplo vemos que las matrices de transisción de los modelos hmm3 a hmm7 son *left-right* (es decir que no tienen ningún salto de $q_{t-1}=i$ a $q_{t}=j$ con $j<i$), y viendo que ST1 y ST6 son las únicas secuencias que vuelven a estados pasados, estas deben corresponderse con los modelos hmm1 y hmm2. Una forma de ver cuál es cual es viendo cuánto se corresponden las gaussianas del gráfico con las muestras, pero en los gráficos no se distingue muy bien por este método porque son bastante parecidas.

In [3]:
ax1, ax2 = plotseq(hmm1,ST6,X6)
ax = plotseq2(hmm1,ST6,X6,gauss=True)

ax1, ax2 = plotseq(hmm2,ST6,X6)
ax = plotseq2(hmm2,ST6,X6,gauss=True)

ax1, ax2 = plotseq(hmm1,ST1,X1)
ax = plotseq2(hmm1,ST1,X1,gauss=True)

ax1, ax2 = plotseq(hmm2,ST1,X1)
ax = plotseq2(hmm2,ST1,X1,gauss=True)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Por métodos similares podemos comprobar las otras correspondencias. Por ejemplo vemos que las matrices de transisción de hmm3 y hmm4 son parecidas pero los valores de la probabilidad en hmm3 son más uniformes. Dado que también los fonemas son los mismos, esto debería hacer que la secuencia generada por hmm3 parecida pero de menor duración que la de hmm4.

Vemos que con la que mejor se corresponde la secuencia ST2 es con hmm3:

In [4]:
ax1, ax2 = plotseq(hmm3,ST2,X2)
ax = plotseq2(hmm3,ST2,X2,gauss=True)

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Ahora vamos a calcular la probabilidad de que se dé la secuencia ST con las observaciones X, considerando que fueron generados por cada uno de los modelos. La mayor de estas probabilidades debería corresponderse con el modelo que las generó. Este procedimiento se repite para todas las observaciones y secuencias, y así se obtienen todas las correspondencias.

In [5]:
def get_log_prob_X_Q(hmm,X,ST):
    """
        Obtiene la probabilidad de que se haya generado una secuencia dado que se generó 
        con un cierto modelo.
    """
    N = X.shape[0]
    logb = logpdfnorm(hmm.means,hmm.vrs,X)[np.arange(N),np.roll(ST,-1)[:-2]-1]
    a = hmm.trans[ST[:-1],np.roll(ST,-1)[:-1]]
    a[a < 1e-100] = 1e-100
    loga = np.log(a)
    
    return loga.sum() + logb.sum()


# Calculamos las probabilidades de cada modelo y nos quedamos con la máxima:
print('Correspondencias:')
j = 1
for X, ST in zip((X1,X2,X3,X4,X5,X6), (ST1,ST2,ST3,ST4,ST5,ST6)):
    logprob = np.zeros(7)
    i = 0
    for hmm in (hmm1,hmm2,hmm3,hmm4,hmm5,hmm6,hmm7):
        logprob[i] = get_log_prob_X_Q(hmm,X,ST)
        i += 1
    print('ST'+str(j)+' --> '+'hmm'+str(np.argmax(logprob)+1))
    j += 1

Correspondencias:
ST1 --> hmm1
ST2 --> hmm3
ST3 --> hmm5
ST4 --> hmm4
ST5 --> hmm6
ST6 --> hmm2


## Estimación del modelo

La idea ahora es implementar el algoritmo EM para estimar los parámetros del modelo probabilístico de un fonema a partir de un conjunto de observaciones generadas por ese fonema. Esto se hará implementando las recursiones $\alpha, \beta, \gamma$ y $\xi$

In [6]:
# Así se generaron las secuencias de observaciones y de estados que 
# se usaron más adelante. (SE RECOMIENDA NO DESCOMENTAR ESTA CELDA.)

# uno = 0
# dos = 0
# tres = 0
# while uno < 10 or dos < 10 or tres < 10:
#     X, stateSeq = genhmm(hmm6)
#     uno = (stateSeq==1).sum()
#     dos = (stateSeq==2).sum()
#     tres = (stateSeq==3).sum()
# print(stateSeq)
# np.savez('./X_ST.npz',x=X,y=stateSeq)

Implementamos EM para estimar los parámetros del modelo.

In [10]:
LL_old = -np.inf # Loglikelihood inicial
LL = []
epsilon = 1e-4

# Levanto los datos que voy a usar
data = np.load('./X_ST.npz')
X = data['x'] # Muestras
ST = data['y'] # Secuencia temporal
d = X.shape[1]

# Genero el modelo inicial
mu = np.tile(X.mean(axis=0),(3,1)) # Medias iniciales
sigma = np.tile(np.cov(X.T),(3,1,1)) # Varianzas iniciales
trans = np.array([[0., 1., 0., 0., 0.], # Matriz de tranciones iniciales
                  [0., .5, .5, 0., 0.],
                  [0., 0., .5, .5, 0.],
                  [0., 0., 0., .5, .5],
                  [0., 0., 0., 0., 1.]]) 

HMM = hmm(mu,sigma,trans) # Modelo inicial

# Inicialización del gráfico
fig = plt.figure()
ax1 = fig.add_subplot(1,3,(1,2))
ax2 = fig.add_subplot(1,3,3)
plt.ion()
fig.show()
ax1.scatter(X[:,0],X[:,1],s=10)
ax1.set_title('Iteración 0. Loglikelihood = inf')
ax1.grid(True)
ax1.axis('equal')

classes_names = np.array(['Estado 1', 'Estado 2', 'Estado 3'],dtype=object) # Nombre de cada clase
classes_colors = np.array(['#FF0000', '#00FF00', '#0000FF'],dtype=object) # Color de cada clase
for k in range(HMM.numStates-2):
    ax1.scatter(HMM.means[k,0],HMM.means[k,1],marker='x',s=90,color=classes_colors[k])
    covariance_ellipse(HMM.means[k],HMM.vrs[k],ax=ax1,color=classes_colors[k])
fig.canvas.draw()

i = 1
while True:
    
    # LogGamma y  LogXi:
    log_gamma = get_gamma(X,HMM)
    log_xi = get_xi(X,HMM)

    # Actualización de la media y covarianza:
    gamma = np.exp(log_gamma).T
    Nk = gamma.sum(axis=0)[:,np.newaxis]
    HMM.means = (X.T @ gamma).T / Nk
    X_unbiased = X - HMM.means[:,np.newaxis]
    HMM.vrs = np.matmul(np.transpose(X_unbiased,(0,2,1)),np.einsum('ijk,ji->ijk',X_unbiased,gamma)) / Nk[:,np.newaxis]

    # Actualización de la matriz de transición:
    xi = np.exp(log_xi)
    trans = xi.sum(axis=0) / Nk
    zeros = np.zeros(HMM.numStates)
    trans = np.hstack( (np.zeros((HMM.numStates-2,1)),
                        trans,
                        1 - trans.sum(axis=1).reshape(-1,1) ) )
    trans = np.vstack( (zeros, trans, zeros) )
    trans[0,1] = 1
    trans[-1,-1] = 1
    HMM.trans = trans.copy()

    # Loglikelihood:
    _, log_alpha = logfw(X,HMM)
    _, log_beta = logbkw(X,HMM)
    LL_new = logdot(log_alpha[:,-1],log_beta[:,-1])
    LL.append(LL_new)
    
    # Grafico las medias y las muestras clasificadas.
    ax1.cla()
    ax1.grid(True)
    ax1.axis('equal')
    ax1.set_title('Iteración '+str(i)+'. Loglikelihood = '+str(LL_new))
    ax1.scatter(X[:,0],X[:, 1],color=gamma.astype(np.float32),s=10)
    for k in range(HMM.numStates-2):
        ax1.scatter(HMM.means[k,0],HMM.means[k,1],marker='x',s=90,color=classes_colors[k],label=classes_names[k])
        covariance_ellipse(HMM.means[k],HMM.vrs[k],ax=ax1,color=classes_colors[k])
        
    ax1.legend()
    ax2.cla()
    ax2.plot(LL)
    ax2.grid(True)
    ax2.set_title('Loglikelihood')
    fig.canvas.draw()

    # Si el likelihood no varió con respecto a la iteración anterior, me voy.
    if np.abs(LL_new - LL_old) < epsilon:
        break

    # En otro caso, sigo iterando.
    LL_old = LL_new
    i += 1

<IPython.core.display.Javascript object>

## Recursión de Viterbi

Por útlimo implementamos el algoritmo de Viterbi para un modelo conjunto. La idea es generar una secuencia de mediciones y de estados que provengan de un modelo compuesto a su vez por dos de los modelos generados en la parte anterior (para este caso se usó el hmm4 y el hmm6). Con las mediciones generadas y los parámetros del modelo que los generó se implementa Viterbi para encontrar la secuencia de estados más probable correspondiente a esas mediciones. 

Luego se compara la secuencia obtenida con la original para verificar que sea la misma, y finalmente se identifican dentro de esa secuencia qué modelo fue generando las observaciones (es decir, si comenzó por el hmm4 y luego saltó al hmm6 o al revés y después volvió al hmm4, etc.)

In [11]:
# Medias del modelo conjunto
mu = np.vstack((hmm4.means,hmm6.means))

# Varianzas del modelo conjunto
sigma = np.vstack((hmm4.vrs,hmm6.vrs))

# Matriz de transición del modelo conjunto
trans = np.zeros((hmm4.numStates-2 + hmm6.numStates, hmm4.numStates-2 + hmm6.numStates))
trans[1:hmm4.numStates-1,1:hmm4.numStates-1] = hmm4.trans[1:-1,1:-1]
trans[-hmm6.numStates+1:-1,-hmm4.numStates+1:-1] = hmm6.trans[1:-1,1:-1]
trans[0,1] = .5
trans[0,-hmm6.numStates+1] = .5
p = (1-trans[-2,:].sum())/3
trans[-2,hmm4.numStates-1] = p
trans[-2,-1] = p
trans[-2,1] = p
p = (1-trans[-hmm6.numStates,:].sum())/3
trans[-hmm6.numStates,hmm4.numStates-1] = p
trans[-hmm6.numStates,-1] = p
trans[-hmm6.numStates,1] = p
trans[-1,-1] = 1

# Modelo
hmm46 = hmm(mu,sigma,trans)

In [12]:
# Así se generaron las secuencias de observaciones y de estados
# del modelo conjunto. (SE RECOMIENDA NO DESCOMENTAR ESTA CELDA.)

# uno = 0
# dos = 0
# tres = 0
# cuatro = 0
# cinco = 0
# seis = 0
# NN = 30 
# while uno < NN or dos < NN or tres < NN or cuatro < NN or cinco < NN or seis < NN:
#     X, stateSeq = genhmm(hmm46)
#     uno = (stateSeq==1).sum()
#     dos = (stateSeq==2).sum()
#     tres = (stateSeq==3).sum()
#     cuatro = (stateSeq==4).sum()
#     cinco = (stateSeq==5).sum()
#     seis = (stateSeq==6).sum()

# print(stateSeq)

# np.savez('./X_ST_hmm46.npz',x=X,y=stateSeq)

In [13]:
# Leo los datos generados previamente:
data = np.load('./X_ST_hmm46.npz')
X46 = data['x']
stateSeq46 = data['y']

# Algoritmo de Viterbi:
costOpt, seqOpt = logvit(X46,hmm46)

# Comparación de las secuencias:
print('Cantidad de lugares donde no dio igual la secuencia: %d/%d' % ((seqOpt != stateSeq46).sum(), stateSeq46.size))

hmm4_first_state = 1
hmm6_first_state = 4
where_first_state_hmm4 = np.arange(stateSeq46.size)[stateSeq46 == hmm4_first_state]
where_first_state_hmm6 = np.arange(stateSeq46.size)[stateSeq46 == hmm6_first_state]
where_hmm4_started = [where_first_state_hmm4[0]]
where_hmm6_started = [where_first_state_hmm6[0]]

for i in range(1,where_first_state_hmm4.size):
    if where_first_state_hmm4[i]-1 != where_first_state_hmm4[i-1]:
        where_hmm4_started.append(where_first_state_hmm4[i])

for i in range(1,where_first_state_hmm6.size):
    if where_first_state_hmm6[i]-1 != where_first_state_hmm6[i-1]:
        where_hmm6_started.append(where_first_state_hmm6[i])

print('Secuencia estimada:')
print(stateSeq46)
print('Índices de la secuencia correspondientes al comienzo del hmm4: ', where_hmm4_started)
print('Índices de la secuencia correspondientes al comienzo del hmm6: ', where_hmm6_started)

Cantidad de lugares donde no dio igual la secuencia: 0/484
Secuencia estimada:
[0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2
 2 2 2 2 2 2 3 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 3 3 3 3 3 3 3 3
 3 3 3 3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4
 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 4 4 4 4 4 4 4 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5
 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6
 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 6 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 2 2 2 2 2 2 2 3 

Con esto puede deducirse cómo fue la secuencia de modelos. En este caso sería:

hmm4 - hmm6 - hmm4 - hmm4 - hmm6 - hmm6 - hmm4