# **Reconocimiento de Patrones - Investigación Corta 3**
# Modelos Ocultos de Markov aplicados a Machine Learning
# Ing. Daniel Kohkemper

________________________________________________________________________________________________

## 1. Introducción

Ante de comenzar a hablar sobre el tema, es importante definir o refrescar algunos conceptos que provienen de la teoría de probabilidad [1], los cuales nos ayudarán a enteder mejor el concepto detrás de los Modelos Ocultos de Markov.

Una variable aleatoria `X` es una variable cuyo valor probiene de un experimento aleatorio. De estos experimentos resultan las `observaciones`, cuyas posibles combinaciones de resultados conforman el `espacio muestreal`. Estos resultados, y la naturaleza del espacio muestreal puede ser continua o discreta. Por ejemplo, los resultados pueden ser los valores numéricos de las caras de un dado (de 1 a 6) o las dos caras de una moneda (escudo o corona). Se le llama `evento` a un subconjunto del espacio muestreal.

Las probabilidades son números que van de 0 a 1, o bien de 0 a 100%. La `función de probabilidad` o `distribución de probabilidad`, distribuye la masa de probabilidad de 1 a lo largo del espacio muestreal. Se indica a `P(A)` la probabilidad de que el evento A suceda. La probabilidad de todos los posibles eventos debe ser igual a 1.

Se define como `proceso aleatorio` o `proceso estocástico`, como una colección de variables aleatorias indexadas por un conjunto T, que puede ser discreto o continuo, con lo que puede representar instantes en el tiempo o número de experimento. También puede existir una independencia o dependencia en los experimentos. Por ejemplo, el resultado de tirar una moneda es independiente de todos los resultados anteriores, mientras que el precio en el mercado de valores depeden de condiciones anteriores.

Para mayor contexto sobre definiciones y teoría de probabilidad, se recomienda consultar a fuentes más rigurosas y extensas.

### 1.1 Aplicaciones

1. Reconocimiento de voz
2. Síntesis de voz
3. Reconocimiento de escritura
4. Traducción de máquina
5. Criptoanálisis
6. Computación financiera
7. Alineamiento de bio-secuencias
8. Predicción de genes
9. Plegamiento de proteínas
10. Modelización del transporte (forecasting)

## 2. Modelo Oculto de Markov [2]

### 2.1 Propiedad de Markov

Se dice que un proceso estocástico cumple la `propiedad de Markov` si la distribución de probabilidad condicional de estados futuros depende únicamente de la información del estado presente. De esta manera, el sistema se dice que no posee memoria (*memoryless*) ya que el futuro no depende del pasado.

Así mismo, un proceso estocástico que cumpla la propiedad de Markov se dice que es un `proceso o cadena de Markov`. Cabe mencionar que este proceso puede ser de tiempo continuo o discreto.

### 2.2 Modelo de Markov

Una cadena de Markov es el modelo más simple que se puede tener, pero en el sentido más general se le puede llamar `Modelo De Markov`. Una definición más rigurosa podría ser un sistema que posee una función probabilística de un proceso de Markov. 

Es posible además obtener cuatro subsistemas dependiendo de si el sistema es autónomo o no (que no sea autónomo signfica que es parcialmente controlable) o que sea completa o parcialmente observable. 

Para la presente discusión interesan únicamente los modelos que son autónomos así como completamente observable (cadena de Markov o Modelo Visible de Markov) o parcialmente observable (Modelo Oculto de Markov).

### 2.3 Elementos del modelo

1. Hay un número finito *N* de estados en el modelo, en donde la señal posee alguna propiedad mesurable y distintiva.

2. En cada tiempo *t*, se entra a un estado nuevo basado en la distribución de probabilidad de transición, que depende del estado anterior (propiedad de Markov).

3. Después de cada transición, se produce una observación basada en la probabilidad de distribución de la observación. La observación constituye un símbolo de salida.

A continuación se describen los elementos de un HMM.

![Título](fig/variables.gif)

Se utiliza la notación compacta 

![Título](fig/model.gif)

para representar un HMM, el cual involucra escoger la cantidad de estados N, la cantidad de observaciones M y las distribuciones de probabilidad de transición de estado (A), observación (B) y estado inicial (pi). Para la mayoría de aplicaciones, la distribución pi es la menos importante y usualmente se puede escoger un estado inicial fijo.

Finalmente, el modelo se llama oculto ya que en muchas ocasiones, las transiciones son desconocidas (ocultas) y únicamente las observaciones son las visibles.

### 2.3  Los tres problemas de HMM

Dada la descripción del HMM, se derivan tres problemas distitnos que permiten utilizar el modelo en aplicaciones prácticas.

### 2.3.1 Problema 1: Evaluar

Dada la secuencia de observaciones

![Título](fig/observ_seq.gif)

y el modelo

![Título](fig/model.gif)

cómo calcular la probabilidad de la secuencia de observación

![Título](fig/prob_o_lambda.gif)

#### Solución

- Enumerar cada posible secuencia de estados de longitud T. Esta solución es irrealizable.
- Procedimiento *forward-backward*.

### 2.3.1 Problema 2: Descubrir

Dada la secuencia de observaciones

![Título](fig/observ_seq.gif)

cómo escoger la secuencia de estados

![Título](fig/state_seq2.gif)

que es óptima en un sentido significativo

#### Solución

- Algoritmo de Viterbi. Los pasos para encontrar la mejor secuencia de estados es:

1. Paso 1: Inicialización
![Título](fig/vit1.gif)
2. Paso 2: Recursión
![Título](fig/vit2.gif)
3. Paso 3: Terminación
![Título](fig/vit3.gif)
4. Paso 4: Backtrace
![Título](fig/vit4.gif)

### 2.3.1 Problema 3: Optimizar

Cómo ajustar los parámetros del modelo

![Título](fig/model.gif)

para maximizar 

![Título](fig/prob_o_lambda.gif)

#### Solución

- Método Baum-Welsch
- Método Expectation–Maximization  (EM)
- Técnicas de gradiente

### 2.4 Caso de Uso

El HMM se puede utilizar para implementar un esquema de reconocimiento de voz. Asuma que se cuenta con un un HMM de N estados para un vocabulario de V palabras. Mediante la cuantización vectorial (VQ) se representa la señal de habla mediante una serie de símbolos de un libro de códigos (codebook). 

Para la secuencia de entrenamiento, se utiliza para cada palabra de vocabulario, una serie de vocalizaciones de la palabra (por uno o múltiples locutores). Se utiliza la solución del **Problema 3** para obtener los parámetros óptimos del modelo para cada palabra.

Para desarrollar un entendimiento físico de los estados del modelo, se utiliza la solución del **Problema 2**, para segmentar cada una de las secuencias de entrenamiento de cada palabra en estados, y seguidamente estudiar las observaciones realizadas en cada estado. Este estudio realiza mejoras en el modelo.

Finalmente, para reconocer una palabra desconocida, se utiliza la solución del **Problema 1** para puntuar cada modelo de palabra basado en la secuencia de observaciones y seleccionar la palabra cuyo modelo puntúa más.

## 3. Implementación del modelo en Python

### 3.1 Modelo de Markov

A continuación se implementará un simple modelo de Markov (visible) basado en [3]. Primeramente se importan las bibliotecas necesarias.

In [1]:
import numpy as np
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt
import pydot
%matplotlib inline

Seguidamente se definen los estados. Para este ejemplo, tomaremos el modelo de un perro que puede estar haciendo una de tres cosas; dormir, comer o jugar. Se declara el vector *pi* que guarda la probabilidad inicial, es decir, la probabilidad de comenzar en determinado estado. En general, la suma de las probabilidades tiene que ser igual a 1.

In [2]:
# create state space and initial state probabilities

states = ['sleeping', 'eating', 'pooping']
pi = [0.35, 0.35, 0.3]
state_space = pd.Series(pi, index=states, name='states')
print(state_space)
print(state_space.sum())

sleeping    0.35
eating      0.35
pooping     0.30
Name: states, dtype: float64
1.0


Seguidamente se genera la matriz A de distribución de probabilidad de transición de estado. La suma de las filas de esta matriz debe ser igual a 1. 

In [3]:
# create transition matrix
# equals transition probability matrix of changing states given a state
# matrix is size (N x N) where N is number of states

q_df = pd.DataFrame(columns=states, index=states)
q_df.loc[states[0]] = [0.4, 0.2, 0.4]
q_df.loc[states[1]] = [0.45, 0.45, 0.1]
q_df.loc[states[2]] = [0.45, 0.25, .3]

print(q_df)

q = q_df.values
print('\n', q, q.shape, '\n')
print(q_df.sum(axis=1))

         sleeping eating pooping
sleeping      0.4    0.2     0.4
eating       0.45   0.45     0.1
pooping      0.45   0.25     0.3

 [[0.4 0.2 0.4]
 [0.45 0.45 0.1]
 [0.45 0.25 0.3]] (3, 3) 

sleeping    1.0
eating      1.0
pooping     1.0
dtype: float64


Es posible observar todas las combinaciones posibles de estados, dado un estado inicial, junto con la probabilidad de cambiar al estado siguiente.

In [4]:
from pprint import pprint 

# create a function that maps transition probability dataframe 
# to markov edges and weights

def _get_markov_edges(Q):
    edges = {}
    for col in Q.columns:
        for idx in Q.index:
            edges[(idx,col)] = Q.loc[idx,col]
    return edges

edges_wts = _get_markov_edges(q_df)
pprint(edges_wts)

{('eating', 'eating'): 0.45,
 ('eating', 'pooping'): 0.1,
 ('eating', 'sleeping'): 0.45,
 ('pooping', 'eating'): 0.25,
 ('pooping', 'pooping'): 0.3,
 ('pooping', 'sleeping'): 0.45,
 ('sleeping', 'eating'): 0.2,
 ('sleeping', 'pooping'): 0.4,
 ('sleeping', 'sleeping'): 0.4}


El diagrama de estados se observa a continuación:

![](https://static1.squarespace.com/static/53ac905ee4b003339a856a1d/t/58acd0f217bffc7d4100d6e3/1487720703303/?format=500w)

### 3.2 Modelo Oculto de Markov

El modelo anterior describe una simple máquina de estados donde el perro puede estar haciendo diferentes actividades. Se puede considerar que el perro hace alguna actividad debido a un estado oculto que no conocemos, en este caso, que puede estar sano o enfermo. Con esto, las actividades del perro se convierten en las observaciones y su estado de salud en los estados ocultos.

De esta manera se implementa el nuevo vector pi de estado inicial. Para este caso se asigna que el perro puede estar inicialmente sano o enfermo con la misma probabilidad.

In [5]:
# create state space and initial state probabilities

hidden_states = ['healthy', 'sick']
pi_hmm = [0.5, 0.5]
state_space = pd.Series(pi_hmm, index=hidden_states, name='states')
print(state_space)
print('\n', state_space.sum())

healthy    0.5
sick       0.5
Name: states, dtype: float64

 1.0


Los estados ocultos ahora son que el perro está sano o enfermo, con lo que se genera la nueva matrix A de densidad de probabilidad de transición de estado.

In [6]:
# create hidden transition matrix
# a or alpha 
#   = transition probability matrix of changing states given a state
# matrix is size (N x N) where M is number of states

a_df = pd.DataFrame(columns=hidden_states, index=hidden_states)
a_df.loc[hidden_states[0]] = [0.7, 0.3]
a_df.loc[hidden_states[1]] = [0.4, 0.6]

print(a_df)

a = a_df.values
print(a_df.sum(axis=1))

        healthy sick
healthy     0.7  0.3
sick        0.4  0.6
healthy    1.0
sick       1.0
dtype: float64


Seguidamente se crea la matriz B de distribución de probabilidad de observación en el estado j. Esta matriz es de tamaño NxO en donde N es el número de estados (sano, enfermo) y O el número de observaciones (jugando, durmiendo, comiendo). Esta matriz indica la probabilidad de que el perro esté en un estado oculto, dada la observación actual.

In [7]:
# create matrix of observation (emission) probabilities
# b or beta = observation probabilities given state
# matrix is size (N x O) where N is number of states 
# and O is number of different possible observations

observable_states = states

b_df = pd.DataFrame(columns=observable_states, index=hidden_states)
b_df.loc[hidden_states[0]] = [0.2, 0.6, 0.2]
b_df.loc[hidden_states[1]] = [0.4, 0.1, 0.5]

print(b_df)

b = b_df.values
print(b_df.sum(axis=1))

        sleeping eating pooping
healthy      0.2    0.6     0.2
sick         0.4    0.1     0.5
healthy    1.0
sick       1.0
dtype: float64


Es posible imprimir las matrices para poder observar la probabilidad entre las observaciones y los estados.

In [8]:
# create graph edges and weights

hide_edges_wts = _get_markov_edges(a_df)
pprint(hide_edges_wts)

emit_edges_wts = _get_markov_edges(b_df)
pprint(emit_edges_wts)

{('healthy', 'healthy'): 0.7,
 ('healthy', 'sick'): 0.3,
 ('sick', 'healthy'): 0.4,
 ('sick', 'sick'): 0.6}
{('healthy', 'eating'): 0.6,
 ('healthy', 'pooping'): 0.2,
 ('healthy', 'sleeping'): 0.2,
 ('sick', 'eating'): 0.1,
 ('sick', 'pooping'): 0.5,
 ('sick', 'sleeping'): 0.4}


El diagrama de estados se observa a continuaciónn:

![](https://static1.squarespace.com/static/53ac905ee4b003339a856a1d/t/58ace1001b10e36e94edce9c/1487724814740/?format=1000w)

Ahora se puede aplicar la solución de problemas de HMM para encontrar el estado más probable, dada una observación del comportamiento del perro. Para esto se hace una lista de O observaciones y se le asigna un código a cada comportamiento.

In [9]:
# observation sequence of dog's behaviors
# observations are encoded numerically

obs_map = {'sleeping':0, 'eating':1, 'pooping':2}
obs = np.array([1,1,2,1,0,1,2,1,0,2,2,0,1,0,1])

inv_obs_map = dict((v,k) for k, v in obs_map.items())
obs_seq = [inv_obs_map[v] for v in list(obs)]

print( pd.DataFrame(np.column_stack([obs, obs_seq]), 
                columns=['Obs_code', 'Obs_seq']) )

   Obs_code   Obs_seq
0         1    eating
1         1    eating
2         2   pooping
3         1    eating
4         0  sleeping
5         1    eating
6         2   pooping
7         1    eating
8         0  sleeping
9         2   pooping
10        2   pooping
11        0  sleeping
12        1    eating
13        0  sleeping
14        1    eating


Mediante la aplicación del algoritmo de Viterbi se puede hallar la secuencia más probable de estados escondidos dada la secuencia de observaciones.

In [10]:
# define Viterbi algorithm for shortest path
# code adapted from Stephen Marsland's, Machine Learning An Algorthmic Perspective, Vol. 2
# https://github.com/alexsosn/MarslandMLAlgo/blob/master/Ch16/HMM.py

def viterbi(pi, a, b, obs):
    
    nStates = np.shape(b)[0]
    T = np.shape(obs)[0]
    
    # init blank path
    path = np.zeros(T)
    # delta --> highest probability of any path that reaches state i
    delta = np.zeros((nStates, T))
    # phi --> argmax by time step for each state
    phi = np.zeros((nStates, T))
    
    # init delta and phi 
    delta[:, 0] = pi * b[:, obs[0]]
    phi[:, 0] = 0

    print('\nStart Walk Forward\n')    
    # the forward algorithm extension
    for t in range(1, T):
        for s in range(nStates):
            delta[s, t] = np.max(delta[:, t-1] * a[:, s]) * b[s, obs[t]]
            phi[s, t] = np.argmax(delta[:, t-1] * a[:, s])
            print('s={s} and t={t}: phi[{s}, {t}] = {phi}'.format(s=s, t=t, phi=phi[s, t]))
    
    # find optimal path
    print('-'*50)
    print('Start Backtrace\n')
    path[T-1] = np.argmax(delta[:, T-1])
    for t in range(T-2, -1, -1):
        path[t] = phi[int(path[t+1]), [t+1]]
        print('path[{}] = {}'.format(t, path[t]))
        
    return path, delta, phi

Se llama al algoritmo de Viterbi, con las observaciones realizadas y las matrices de probabilidades.

In [11]:
path, delta, phi = viterbi(pi_hmm, a, b, obs)


Start Walk Forward

s=0 and t=1: phi[0, 1] = 0.0
s=1 and t=1: phi[1, 1] = 0.0
s=0 and t=2: phi[0, 2] = 0.0
s=1 and t=2: phi[1, 2] = 0.0
s=0 and t=3: phi[0, 3] = 0.0
s=1 and t=3: phi[1, 3] = 1.0
s=0 and t=4: phi[0, 4] = 0.0
s=1 and t=4: phi[1, 4] = 0.0
s=0 and t=5: phi[0, 5] = 0.0
s=1 and t=5: phi[1, 5] = 1.0
s=0 and t=6: phi[0, 6] = 0.0
s=1 and t=6: phi[1, 6] = 0.0
s=0 and t=7: phi[0, 7] = 0.0
s=1 and t=7: phi[1, 7] = 1.0
s=0 and t=8: phi[0, 8] = 0.0
s=1 and t=8: phi[1, 8] = 0.0
s=0 and t=9: phi[0, 9] = 0.0
s=1 and t=9: phi[1, 9] = 1.0
s=0 and t=10: phi[0, 10] = 1.0
s=1 and t=10: phi[1, 10] = 1.0
s=0 and t=11: phi[0, 11] = 1.0
s=1 and t=11: phi[1, 11] = 1.0
s=0 and t=12: phi[0, 12] = 1.0
s=1 and t=12: phi[1, 12] = 1.0
s=0 and t=13: phi[0, 13] = 0.0
s=1 and t=13: phi[1, 13] = 0.0
s=0 and t=14: phi[0, 14] = 0.0
s=1 and t=14: phi[1, 14] = 1.0
--------------------------------------------------
Start Backtrace

path[13] = 0.0
path[12] = 0.0
path[11] = 1.0
path[10] = 1.0
path[9] = 1.0
path[

In [12]:
print('\nsingle best state path: \n', path)
print('delta:\n', delta)
print('phi:\n', phi)


single best state path: 
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 1. 0. 0. 0.]
delta:
 [[3.00000000e-01 1.26000000e-01 1.76400000e-02 7.40880000e-03
  1.03723200e-03 4.35637440e-04 6.09892416e-05 2.56154815e-05
  3.58616741e-06 5.02063437e-07 7.37725866e-08 2.21317760e-08
  1.59348787e-08 2.23088302e-09 9.36970868e-10]
 [5.00000000e-02 9.00000000e-03 1.89000000e-02 1.13400000e-03
  8.89056000e-04 5.33433600e-05 6.53456160e-05 3.92073696e-06
  3.07385778e-06 9.22157333e-07 2.76647200e-07 6.63953280e-08
  3.98371968e-09 1.91218545e-09 1.14731127e-10]]
phi:
 [[0. 0. 0. 0. 0. 0. 0. 0. 0. 0. 1. 1. 1. 0. 0.]
 [0. 0. 0. 1. 0. 1. 0. 1. 0. 1. 1. 1. 1. 0. 1.]]


Finalmente se pueden tabular los resultados con la observación inicial y los estados encontrados por el algoritmo de Viterbi.

In [13]:
state_map = {0:'healthy', 1:'sick'}
state_path = [state_map[v] for v in path]

(pd.DataFrame()
 .assign(Observation=obs_seq)
 .assign(Best_Path=state_path))

Unnamed: 0,Observation,Best_Path
0,eating,healthy
1,eating,healthy
2,pooping,healthy
3,eating,healthy
4,sleeping,healthy
5,eating,healthy
6,pooping,healthy
7,eating,healthy
8,sleeping,sick
9,pooping,sick


## 4. Conclusiones

En este notebook se presentó la teoría que describe al Modelo Oculto de Markov y se presentó un ejemplo simple en donde se modela el comportamiento de un perro de acuerdo a los estados ocultos de si el perro está sano o enfermo, mediante el algoritmo de Viterbi.

Como trabajo futuro se puede implementar un sistema de reconocimiento de voz mediante la solución a los tres problemas de Markov.

## Referencias

[1] [Foundations of Statistical Natural Language Processing](https://www.cs.vassar.edu/~cs366/docs/Manning_Schuetze_StatisticalNLP.pdf)

[2] [An Introduction to Hidden Markov Model](http://ai.stanford.edu/~pabbeel/depth_qual/Rabiner_Juang_hmms.pdf)

[3] [Introduction to Hidden Markov Models with Python Networkx and Sklearn](http://www.blackarbs.com/blog/introduction-hidden-markov-models-python-networkx-sklearn/2/9/2017)

[4] [Introduction to Hidden Markov Model](http://www.adeveloperdiary.com/data-science/machine-learning/introduction-to-hidden-markov-model/)

