# Modelos secuenciales markovianos

Ahora estudiaremos otra modalidad de NLP, que es el modelado de secuencias categóricas. 

Hasta ahora hemos trabajado con bag-of-words, un modelo en el que se pierde la **información secuencial**, es decir, el orden en el que vienen las palabras. Estudiaremos uno de los modelos secuenciales más populares: el modelo oculto de Markov. 

## La cadena de Markov

Una cadena de Markov formaliza las probabilidades de cambio de estados en un sistema no determinístico. Por ejemplo, supongamos que nuestro sistema es el clima de nuestra localidad, y puede estar en dos estados dependiendo del día: "Lluvioso" (estado ``L``) y "Soleado" (estado ``S``). Observamos empíricamente la siguiente secuencia de estados cada día por 30 días:

``S, S, L, S, S, L, L, S, S, S, L, L, L, S, S, S, S, L, S, L, S, S, L, S, S, L, L, S, S, L``

Existen cuatro transiciones posibles: ``S`` $\rightarrow$ ``S``, ``S`` $\rightarrow$ ``L``, ``L`` $\rightarrow$ ``L`` y ``L`` $\rightarrow$ ``S``. En general, el número de transiciones en una cadena de Markov es de $M^2$ donde $M$ es el número de estados. Las cadenas de Markov cumplen con la llamada **propiedad de Markov**, que dice que, si estamos en un estado $t$, cualquier predicción sobre un estado futuro se hace con base en el estado $t$ y no en la historia completa de estados anteriores. 

Vamos a calcular una matriz de conteos con la secuencia anterior, donde contamos el número de veces que cada transición se da (se toma el índice de fila como el "antes", y el de la columna el "después"):

| | ``L`` | ``S`` |
|---|---|---|
| ``L`` | 4 | 7 |
| ``S`` | 8 | 10 |

Esta matriz la convertimos en una **matriz de transición** dividiendo cada valor el total **de su fila**

| | ``L`` | ``S`` |
|---|---|---|
| ``L`` | 0.36 | 0.64 |
| ``S`` | 0.44 | 0.56 |

De modo que **la suma de cada fila da 1**. En forma gráfica, esta cadena se representaría del siguiente modo:

<img src="resources/mc1.png">

La podemos interpretar de la siguiente manera: **si hoy es un día lluvioso, la probabilidad de que mañana llueva es del 36% y del 64% que sea soleado; asimismo, si hoy es un día soleado, la probabilidad de que mañana llueva es del 44% y del 56% de mantenerse soleado**.

## Modelos ocultos de Markov (HMM)

Continuemos con nuestro ejemplo del clima. Supongamos que, en vez de tener datos sobre si hace o no un día lluvioso, tenemos datos sobre la ropa que una persona se ha puesto cada día, la cual puede ser ``saco``, ``jacket``, ``shorts``, ``bikini``, o ``jeans``. Sabemos bien que el tipo de prenda que una persona escoge está en función del clima que hace afuera, por lo cual podríamos inferir el tipo de clima que hace en base al tipo de prendas observadas. 

Aquí entra **el modelo oculto de Markov**, que es un modelo secuencial Markoviano pero aumentado con **una capa adicional** de **estados ocultos**. Los llamamos "ocultos" porque funcionan como una **variable latente**, que a pesar de que se pueden "ver" en los datos dichos estados **no hay un etiquetado explícito** en ellos.

Volviendo a nuestro ejemplo, tenemos nuestros datos con cinco tipos de observaciones (prendas), pero también vamos a decir que tenemos **dos** estados ocultos: "lluvioso" y "soleado" (esta decisión la tomamos por observación). El modelo resultante tendría dos niveles:

1. El nivel **latente**, en donde nos podemos mover entre el estado oculto ``L`` ("lluvioso") y el estado oculto ``S`` ("soleado"), y modelamos las **probabilidades de transición** de movernos entre ``L`` y ``S``.

2. El nivel **observado**, en donde tenemos las posibles observaciones (``saco``, ``jacket``, ``shorts``, ``bikini`` y ``jeans``) con las probabilidades de que aparezcan, las cuales vienen condicionadas a los estados latentes en los que estamos y se conocen **probabilidades de emisión**. Básicamente, son de la forma "probabilidad de que mañana llueva dado que estamos en el estado invierno".  

Veámoslo gráficamente:

<img src="resources/mc2.png">

Aquí, los círculos representan estados latentes y los cuadrados observaciones. Las líneas sólidas representan probabilidades de transición y las líneas punteadas representan probabilidades de emisión. 

Adicionalmente, también hay un "nivel cero" donde tenemos la probabilidad de comienzo, es decir, la probabilidad de que el primer estado de la secuencia sea un estado latente determinado. 

### Aprendiendo el HMM con ``hmmlearn``

La biblioteca ``scikit-learn`` tenía originalmente HMMs, pero se movieron por completo al paquete ``hmmlearn``. 


In [4]:
#!conda install -c conda-forge hmmlearn
import numpy as np
from hmmlearn import hmm
from sklearn.preprocessing import LabelEncoder

# secuencia de observaciones
x = ['jeans', 'jeans', 'jacket', 'jeans', 'shorts', 'shorts', 'shorts', 'jacket', 'jeans', 'saco', 'shorts', 'bikini', 'shorts', 'jacket', 'shorts', 'bikini', 'bikini', 'shorts', 'saco', 'bikini', 'shorts', 'shorts', 'jacket', 'jeans', 'jeans', 'saco', 'bikini', 'bikini', 'bikini', 'bikini', 'shorts', 'shorts', 'jacket', 'bikini', 'shorts', 'bikini', 'bikini', 'jacket', 'saco', 'jeans', 'jacket', 'jeans', 'bikini', 'bikini', 'bikini', 'jeans', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'jeans', 'shorts', 'bikini', 'bikini', 'shorts', 'jeans', 'bikini', 'shorts', 'bikini', 'saco', 'jeans', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'shorts', 'bikini', 'shorts', 'saco', 'bikini', 'shorts', 'bikini', 'shorts', 'saco', 'jeans', 'saco', 'jacket', 'saco', 'shorts', 'bikini', 'bikini', 'saco', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'jacket', 'shorts', 'bikini', 'bikini', 'shorts', 'jeans', 'bikini', 'bikini', 'shorts', 'saco', 'jeans', 'jeans', 'jeans', 'bikini', 'shorts', 'shorts', 'shorts', 'shorts', 'bikini', 'jeans', 'shorts', 'shorts', 'bikini', 'shorts', 'jeans', 'saco', 'jeans', 'jeans', 'saco', 'bikini', 'shorts', 'bikini', 'saco', 'jeans', 'jeans', 'bikini', 'shorts', 'shorts', 'jeans', 'bikini', 'bikini', 'bikini', 'shorts', 'jeans', 'shorts', 'shorts', 'bikini', 'jacket', 'jeans', 'jeans', 'jeans', 'shorts', 'bikini', 'shorts', 'bikini', 'shorts', 'bikini', 'jacket', 'bikini', 'bikini', 'bikini', 'bikini', 'jeans', 'jeans', 'jeans', 'jacket', 'jeans', 'shorts', 'shorts', 'shorts', 'jacket', 'jeans', 'saco', 'shorts', 'bikini', 'shorts', 'jacket', 'shorts', 'bikini', 'bikini', 'shorts', 'saco', 'bikini', 'shorts', 'shorts', 'jacket', 'jeans', 'jeans', 'saco', 'bikini', 'bikini', 'bikini', 'bikini', 'shorts', 'shorts', 'jacket', 'bikini', 'shorts', 'bikini', 'bikini', 'jacket', 'saco', 'jeans', 'jacket', 'jeans', 'bikini', 'bikini', 'bikini', 'jeans', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'jeans', 'shorts', 'bikini', 'bikini', 'shorts', 'jeans', 'bikini', 'shorts', 'bikini', 'saco', 'jeans', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'shorts', 'bikini', 'shorts', 'saco', 'bikini', 'shorts', 'bikini', 'shorts', 'saco', 'jeans', 'saco', 'jacket', 'saco', 'shorts', 'bikini', 'bikini', 'saco', 'saco', 'saco', 'bikini', 'bikini', 'shorts', 'jacket', 'shorts', 'bikini', 'bikini', 'shorts', 'jeans', 'bikini', 'bikini', 'shorts', 'saco', 'jeans', 'jeans', 'jeans', 'bikini', 'shorts', 'shorts', 'shorts', 'shorts', 'bikini', 'jeans', 'shorts', 'shorts', 'bikini', 'shorts', 'jeans', 'saco', 'jeans', 'jeans', 'saco', 'bikini', 'shorts', 'bikini', 'saco', 'jeans', 'jeans', 'bikini', 'shorts', 'shorts', 'jeans', 'bikini', 'bikini', 'bikini', 'shorts', 'jeans', 'shorts', 'shorts', 'bikini', 'jacket', 'jeans', 'jeans', 'jeans', 'shorts', 'bikini', 'shorts', 'bikini', 'shorts', 'bikini', 'jacket', 'bikini', 'bikini', 'bikini', 'bikini', 'jeans']

# LabelEncoder para codificar la secuencia en enteros {0, 1, 2, 3, 4}
enc = LabelEncoder().fit(x)

# codificamos la secuencia en un arreglo de enteros
x_enc = enc.transform(x).reshape(1, -1)

# entrenamos el modelo
model = hmm.MultinomialHMM(n_components=2, n_iter=100, verbose=True).fit(x_enc)

# veamos las probabilidades de transmisión entre estados
print(model.transmat_)

print("")

# y las probabilidades de emisión
print('Emisión estado 1: ', dict(zip(enc.classes_, model.emissionprob_[0])), '\n')
print('Emisión estado 2: ', dict(zip(enc.classes_, model.emissionprob_[1])), '\n')

[[0.63871414 0.36128586]
 [0.17763275 0.82236725]]

Emisión estado 1:  {'bikini': 0.0002020312802641571, 'jacket': 0.1187653931740253, 'jeans': 0.4927839598111551, 'saco': 0.3880955106637636, 'shorts': 0.0001531050707918985} 

Emisión estado 2:  {'bikini': 0.4927661500547384, 'jacket': 0.04924810698057497, 'jeans': 0.040301046357194135, 'saco': 0.0037528579297541323, 'shorts': 0.41393183867773836} 



         1        -536.0233             +nan
         2        -454.1729         +81.8503
         3        -454.1383          +0.0347
         4        -454.1012          +0.0371
         5        -454.0601          +0.0411
         6        -454.0133          +0.0469
         7        -453.9588          +0.0544
         8        -453.8945          +0.0643
         9        -453.8172          +0.0774
        10        -453.7220          +0.0951
        11        -453.6021          +0.1199
        12        -453.4470          +0.1551
        13        -453.2415          +0.2055
        14        -452.9631          +0.2785
        15        -452.5791          +0.3840
        16        -452.0441          +0.5350
        17        -451.2987          +0.7455
        18        -450.2765          +1.0221
        19        -448.9293          +1.3473
        20        -447.2717          +1.6576
        21        -445.4208          +1.8509
        22        -443.5631          +1.8578
        23

In [5]:
# imprimimos los estados decodificados para cada valor en la secuencia
seq_dec = model.decode(x_enc.T)[1]
print(seq_dec)

[0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1
 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1 1 1
 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 0 1 1
 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 1 1
 1 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1 1
 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1 1
 0 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 1 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1 1
 1 0 1 1 1 1 0 0 0 0 0 1 1 1 0 0 0 1 1 1 0 1 1 1 1 0 1 1 1 0 0 0 0 1 1 1 1
 1 1 1 1 1 1 1 0]


## Generando secuencias a partir de un HMM

Además de la predicción, una de las aplicaciones más comunes de modelos secuenciales (desde HMMs hasta redes neuronales recurrentes) es la generación de contenido. 

In [14]:
citas = [
    'Todo lo que ves aquí fue construido por mi abuelo',
    'Mi abuelo construyó todo lo que ves aquí',
    'Este proyecto de ley será enviado por nuestro presidente al Congreso',
    'Nuestro presidente enviará este proyecto de ley al Congreso',
    'La mantelería ha sido traída especialmente de Bélgica', 
    'Trajeron la mantelería especialmente de Bélgica',
    'Todo el dinero fue depositado el día acordado',
    'Depositaron todo el dinero el día acordado',
    'El gato es alimentado, bañado y paseado por mi mujer',
    'Mi mujer alimenta, baña y pasea al gato',
    'El partido será relatado por los mejores periodistas del canal',
    'Los mejores periodistas del canal relatarán el partido',
    'El auto tuvo que ser reparado por mi mecánico de mayor confianza',
    'Mi mecánico de mayor confianza tuvo que reparar el auto',
    'Toneladas de basura son desperdiciadas diariamente en nuestra ciudad', 
    'Se desperdician diariamente toneladas de basura en nuestra ciudad',
    'La primera pizza con ananá fue inventada aquí',
    'Aquí se inventó la primera pizza con ananá',
    'Todo el cronograma fue entregado por los profesores en tiempo y forma', 
    'Los profesores entregaron todo el cronograma en tiempo y forma',
    'Las próximas cuotas serán abonadas alrededor del día quince', 
    'Abonarán las próximas cuotas alrededor del día quince',
    'La ropa de la reina ha sido confeccionada por un diseñador de modas',
    'Un diseñador de modas confeccionó la ropa de la reina',
    'Este departamento es vendido a una cifra irrisoria',
    'Venden este departamento a una cifra irrisoria',
    'El mecánico fue instruido en la universidad',
    'Instruyeron al mecánico en la universidad',
    'El juego ha sido inventado por los mayas', 
    'Los mayas inventaron el juego',
    'El monumento fue construido en honor al ídolo nacional',
    'Construyeron el monumento en honor al ídolo nacional',
    'La inflación de julio fue superada por la de agosto',
    'La de agosto superó a la inflación de julio',
    'El cese al fuego fue declarado por las dos naciones al mismo tiempo',
    'Declararon el cese al fuego por las dos naciones al mismo tiempo',
    'Las camisas son entregadas día a día, limpias y planchadas',
    'Entregan día a día las camisas limpias y planchadas',
    'La computadora más potente fue construida con tecnología de punta', 
    'Construyeron la computadora más potente con tecnología de punta',
    'Esa taza fue fabricada en 1932',
    'Fabricaron esa taza en 1932',
    'El piano más caro del mundo fue comprado en Australia',
    'Compraron el piano más caro del mundo en Australia',
    'El periódico fue denunciado por calumnias e injurias',
    'Denunciaron por calumnias e injurias al periódico',
    'El equipo francés fue derrotado en cuartos de final',
    'Derrotaron al equipo francés en cuartos de final',
    'El tesoro ha sido encontrado por el perro',
    'El perro encontró el tesoro',
    'Algunas palabras han sido extraídas del libro', 
    'Extrajeron algunas palabras del libro',
    'El gol fue anotado por nuestro mejor jugador',
    'Nuestro mejor jugador anotó el gol',
    'Cuarenta millones de dólares fueron entregados al ganador de la lotería',
    'Entregaron cuarenta millones de dólares al ganador de la lotería',
    'El regalo a mi madre fue comprado el mismo día de su cumpleaños',
    'Compraron el regalo de mi madre el mismo día de su cumpleaños',
    'Dos kilos de narcóticos han sido incautados por la policía en el día de hoy', 
    'La policía incautó dos kilos de narcóticos'
]

citas = [ cita.lower().split() for cita in citas ]

# codificamos
enc = LabelEncoder().fit([y for l in citas for y in l])
citas_enc = np.concatenate([enc.transform(y).reshape(-1, 1) for y in citas])
citas_len = [len(y) for y in citas] # largo de cada cita

# modelo de citas
citas_model = hmm.MultinomialHMM(n_iter=200, n_components=2, verbose=True).fit(citas_enc, citas_len)

         1       -2900.9828             +nan
         2       -2548.7830        +352.1998
         3       -2548.3982          +0.3848
         4       -2547.5124          +0.8858
         5       -2545.4466          +2.0657
         6       -2540.8489          +4.5977
         7       -2532.1051          +8.7438
         8       -2520.1036         +12.0015
         9       -2508.5195         +11.5841
        10       -2497.8957         +10.6237
        11       -2486.3745         +11.5212
        12       -2473.4790         +12.8955
        13       -2460.7724         +12.7066
        14       -2450.0104         +10.7619
        15       -2441.4104          +8.6001
        16       -2433.8936          +7.5168
        17       -2428.0020          +5.8915
        18       -2424.1839          +3.8181
        19       -2420.9943          +3.1896
        20       -2417.8960          +3.0983
        21       -2415.6856          +2.2104
        22       -2414.5051          +1.1805
        23

In [15]:
print(' '.join(enc.inverse_transform(citas_model.sample(3)[0])))
print(' '.join(enc.inverse_transform(citas_model.sample(3)[0])))
print(' '.join(enc.inverse_transform(citas_model.sample(5)[0])))
print(' '.join(enc.inverse_transform(citas_model.sample(7)[0])))
print(' '.join(enc.inverse_transform(citas_model.sample(10)[0])))
print(' '.join(enc.inverse_transform(citas_model.sample(15)[0])))


un taza canal
alimenta, presidente a
día cuarenta palabras superó hoy
ves por ley diariamente primera día la
un dinero libro fue periódico día cumpleaños con de injurias
fuego presidente pasea potente día de final superada su la por inflación cuartos por computadora


  return f(**kwargs)
