# Cadenas de Markov 
Tambi√©n son llamados como procesos de Markov.
## Definici√≥n
Es un proceso estoc√°stico con la propiedad de que para cualquier conjunto sucesivo de 
$n$ tiempos tales que $t_{1} < t_{2} < \dotsc < t_{n}$ se tiene que:
$$
    P_{1 | n - 1}\left(y_{n} , t_{n} | y_{1}, t_{1}; \dotsc ; y_{n - 1}, t_{n-1}\right) = P_{1 | 1}\left( y_n, t_n | y_{n - 1}, t_{n - 1}\right)
$$
Esto es que la densidad de probabilidad condicionada a $t_{n}$ dada el valor $y_{n-1}$ a $t_{n-1}$ est√° un√≠vocamente determinada y no est√° afectada por lo que ocurre a tiempos anteriores. A $P_{1 | 1}$ se le conoce como la **probabilidad de transici√≥n**.
## Definici√≥n (no tan formal).
Una cadena o proceso de **Markov** es un proceso evolutivo que consiste de un n√∫mero finito de estados en cual la probabilidad de que ocurra un evento depende solamente del evento inmediatamente anterior con unas probabilidades que est√°n fijas.


# Ejemplo
## Mercado de valores
![Cadena de Markov](imgs/Finance_Markov_chain_example_state_space.jpg)

Los estados representan si un mercado burs√°til (hipot√©tico) muestra una tendencia alcista, bajista o de estancamiento durante una semana determinada. Seg√∫n la gr√°fica dirigida anterior, s√≠ pasamos una semana con tendencia alcista, entonces hay probabilidad de $90\%$ que la siguiente semana sea con tendencia alcista, $7.5\%$ de que sea una semana con tendencia a la baja y $2.5\%$ de que la siguiente semana se estanque.
Notemos que la gr√°fica anterior cumple lo siguiente:
* **La pesos de todas las aristas que salen del estado $S$, suman $1$.**

*Lo anterior se sigue de la definici√≥n de funci√≥n de probabilidad.*

# Matriz de transici√≥n. 
$$
    A =
    \begin{bmatrix}
        0.9  & 0.075 & 0.025 \\
        0.15 & 0.8   & 0.05 \\
        0.25 & 0.25  & 0.5
    \end{bmatrix}
$$

In [1]:
import numpy as np

matrix_transition = np.matrix([[0.9, 0.075, 0.025], [0.15, 0.8, 0.05], [0.25, 0.25, 0.5]]) # Bull Market Bear Market Stagnant market

def random_walk(num_iter):
    init = np.random.randint(0, 3)
    bull_market = 0
    bear_market = 0
    stagnant_market = 0
    for i in range(num_iter):
        r = np.random.rand()
        if init == 0:
            if r < 0.9:
                bull_market += 1
            elif r >= 0.9 and r < 0.975:
                init = 1
                bear_market += 1
            else:
                init = 2
                stagnant_market += 1
        elif init == 1:
            if r < 0.15:
                init = 0
                bull_market += 1
            elif r >= 0.15 and r < 0.95:
                bear_market += 1
            else: 
                init = 2
                stagnant_market += 1
        else:
            if r < 0.25:
                init = 0
                bull_market += 1
            elif r >= 0.25 and r < 0.5:
                init = 1
                bear_market += 1
            else:
                stagnant_market += 1
    return (bull_market, bear_market, stagnant_market)
    
markets = random_walk(10000000)
total = markets[0] + markets[1] + markets[2]
print("Probabilidad de un mercado alcista:   " + str(markets[0] / total))
print("Probabilidad de un mercado bajista:   " + str(markets[1] / total))
print("Probabilidad de un mercado estancado: " + str(markets[2] / total))

Probabilidad de un mercado alcista:   0.6251513
Probabilidad de un mercado bajista:   0.312436
Probabilidad de un mercado estancado: 0.0624127


# Distribuci√≥n estacionaria
Sea $p^{(t)}$ la probabilidad de la distribuci√≥n despu√©s de $t$ pasos de un *random walk*. Definimos la distribuci√≥n de probabilidad $a^{(t)}$ como sigue:
$$
    a^{(t)} = \frac{1}{t}\left(p^{(0)} + p^{(1)} + \dotsc + p^{(t - 1)}\right)
$$
Es decir, √©sta distribuci√≥n de probabilidad **no cambia con el tiempo** en la cadena de Markov.

# Teorema Fundamental de las cadenas de Markov
Para toda cadena de Markov conectada existe un √∫nico vector $\pi$ de probabilidad que satisface:
$$
    \pi P = \pi
$$
donde $P$ es la matriz de transici√≥n asociada a la cadena de Markov. M√°s a√∫n, para cualquier distribuci√≥n inicial, $\displaystyle\lim_{t \to \infty} a^{t}$ existe y es igual a $\pi$

In [2]:
bull_market = np.array([1, 0, 0]) # Supongamos que en el tiempo t = 0 es una semana con tendencia alcista.

def find_distribution(matrix_transition, init):
    pi = np.dot(init, matrix_transition)
    while (pi != init).any():
        init = pi
        pi = np.dot(init, matrix_transition)
    return pi

print(find_distribution(matrix_transition, bull_market))

[[0.625  0.3125 0.0625]]


Notemos que nuestra aproximaci√≥n ejecutando *random walk*  es bastante buena y que de hecho cada vez que el n√∫mero de iteraciones es m√°s grande se va aproximando m√°s al m√©todo con los vectores.

Notemos que como el vector $\pi$ denota una distribuci√≥n de probabilidad entonces, el total de la suma de sus componentes es $1$.

As√≠ por lo que obtuvimos anteriormente concluimos lo siguiente:
* El $62.5 \%$ de las semanas ser√°n a la alza.
* El $31.25 \%$ de las semanas se estancar√°n.
* El $6.25 \%$ de las semanas ser√°n a la baja.

# Irreducibilidad y Recurrencia
![Cadena de Markov](imgs/cadena_de_markov_1.png)

Veamos el estado $0$.
Notemos que s√≠ hacemos varios *random walk* sobre la cadena de Markov anterior iniciando en el estado $0$, habr√° caminos que no saldr√°n del estado $0$, es decir, se quedar√°n en un **loop** sin embargo habr√°n caminos que saldr√°n del estado $0$ y no volver√°n, ya que no hay ninguna flecha que vaya al estado $0$ desde el estado $1$ o $2$. As√≠ notemos que la probabilidad que tiene un *random walk* de revisitar el estado $0$ es menor que $1$, al estado $0$ se le conoce como **estado transitorio**.

Supongamos ahora que queremos hacer un *random walk* desde el estado $1$, as√≠ podemos notar que despu√©s de un tiempo volvemos a visitar el estado $1$, notemos que √©sto tambi√©n lo cumple el estado $2$. As√≠ la probabilidad de revisitar al estado $1$ es $1$ *(es an√°logo para el estado $2$)*. A estos estados se les conoce como **estados recurrentes**.

## Reducible
Decimos que una cadena de Markov es reducible s√≠ existen en ella **estados transitorios**

Notemos que a la cadena de Markov de √©sta secci√≥n podemos hacer que todos sus estados sean **recurrentes** creando una flecha del estado $2$ al estado $0$.

![Cadena de Markov con estados recurrentes](imgs/cadena_de_markov_2.png)

A √©sto le llamamos que una cadena de Markov sea irreducible, cuando todos sus estados son recurrentes.

## Clases

Una clase en una cadena de Markov es un subcadena de Markov que es irreducible.

![Clases](imgs/cadena_de_markov_3.png)


# Cadenas de Markov en $n$ pasos
## ¬øCu√°l es la probabilidad de alcanzar a un estado $j$ desde un estado $i$ en exactamente $n$ pasos?
As√≠ denotamos a $P_{ij}(n)$ como la probabilidad antes mencionada.
## Ejemplo 
¬øCu√°l es la probabilidad de alcanzar el estado **Bull Market** desde el estado **Stagnant market** en exactamente $1$ paso?
### Respuesta
$0.25$
¬øCu√°l es la probabilidad de alcanzar el estado **Bull Market** desde el estado **Stagnant market** en exactamente $2$ pasos?
### Respuesta
* **Stagnant Market** a **Bull Market** y de **Bull Market** a **Bull Market** esto es igual a $0.25 \times 0.9$
* **Stagnant Market** a **Stagnant Market** y de **Stagnant Market** a **Bull Market** esto es igual a $0.5 \times 0.25$
* **Stagnant Market** a **Bear Market** y de **Bear Market** a **Bull Market** esto es igual a $0.25 \times 0.15$
* **Total:** $0.25 \times 0.9 + 0.5 \times 0.25 + 0.25 \times 0.15 = 0.3875$

Notemos que lo anterior es:
$A_{20} \times A_{00} + A_{22} \times A_{21} + A_{21} \times A_{10}$
Que es igual a:
$$
\begin{bmatrix}
    A_{20} & A_{21} & A_{22}
\end{bmatrix}
\times
\begin{bmatrix}
    A_{00} \\
    A_{10} \\
    A_{20}
\end{bmatrix}
$$
De manera general tenemos que:
$$
    P_{ij}(n) = A^{n}_{ij}
$$

In [3]:
print("Probabilidad para 2 pasos: " +  str(np.linalg.matrix_power(matrix_transition, 2)[0,2]))

Probabilidad para 2 pasos: 0.03875000000000001


In [4]:
def probability_of_n_steps(matrix_transition, n, i, j):
    return np.linalg.matrix_power(matrix_transition, n)[i, j]

print("Probabilidad para los primeros 15 pasos iniciando desde Stagnant market y terminando en Bull market: ")
for i in range(1, 16):
    print("Probabilidad para " + str(i) + " pasos: " + str(probability_of_n_steps(matrix_transition, i, 0, 2)))

Probabilidad para los primeros 15 pasos iniciando desde Stagnant market y terminando en Bull market: 
Probabilidad para 1 pasos: 0.025
Probabilidad para 2 pasos: 0.03875000000000001
Probabilidad para 3 pasos: 0.04675000000000001
Probabilidad para 4 pasos: 0.05167500000000001
Probabilidad para 5 pasos: 0.05486500000000002
Probabilidad para 6 pasos: 0.057018500000000014
Probabilidad para 7 pasos: 0.05851810000000002
Probabilidad para 8 pasos: 0.059585430000000016
Probabilidad para 9 pasos: 0.06035636200000002
Probabilidad para 10 pasos: 0.06091858820000002
Probabilidad para 11 pasos: 0.06133114276000002
Probabilidad para 12 pasos: 0.06163505132400002
Probabilidad para 13 pasos: 0.06185947305040002
Probabilidad para 14 pasos: 0.06202545021032003
Probabilidad para 15 pasos: 0.062148319415248024


Lo anterior es posible gracias al **Teorema Chapman-Kolmogorov** que establece lo siguiente:
$$
    P_{ij}(n) = \sum_{k} P_{ik}(r) \times P_{kj}(n-r)
$$

In [5]:
def limit_n_to_infty(transition_matrix):
    init = transition_matrix
    i = 2
    transition_matrix = np.linalg.matrix_power(transition_matrix, i)
    while (transition_matrix != init).any():
        init = transition_matrix
        i += 1
        transition_matrix = np.linalg.matrix_power(init, i)
    return transition_matrix

# Aplicaci√≥n de la cadenas de Markov: Generaci√≥n de texto.
Las cadenas de Markov nos ayudan a creer modelos de lenguaje.
Para tener una cadena de Markov necesitamos lo siguiente:
* Un conjunto de estados.
* Transiciones entre √©stos estados.

Para generar texto vamos a hacer que las palabras sean estados.
Supongamos que tenemos dos palabras $i$ y $j$ para calcular la probabilidad $P_{ij}$ lo √∫nico que necesitamos realizar es buscar en nuestro texto la probabilidad de que la siguiente palabra sea $j$ dado que la palabra actual es $i$ esto es:
$$
    P_{ij} = P\left( n + 1 = j | n = i \right)
$$
S√≠ no existe que la palabra $j$ est√° despu√©s que la palabra $i$ entonces la probabilidad ser√° $0$
## Ejemplo

*My name is Sherlock Holmes. It is my business to know what other people do not know.*

![Ejemplo](imgs/NPL1.png)

El n√∫mero de cada flecha es el n√∫mero de veces que una palabra aparece previamente a la que apunta.

Para convertir en probabilidades lo anterior entonces por cada flecha que sale de una palabra lo dividiremos entre el n√∫mero total de flechas que sale de √©sta palabra.

![Ejemplo](imgs/NPL2.png)

## ¬øC√≥mo vamos a generar texto nuevo?

Seguiremos las probabilidades dadas por la matriz de transici√≥n para ir de un estado inicial a un estado final y vamos a repetir √©ste proceso tanto como queramos.

# Modelos Ocultos de Markov
![Ejemplo de Modelo Oculto de Markov](imgs/HMM1.png)

![Matriz de transici√≥n y Matriz de emisi√≥n](imgs/transition_matrix_and_emission_matrix.png)

Representamos los estados de la **cadena de markov** mediante la variable aleatoria $X$ y representamos las observaciones mediante la variable aleatoria $Y$.

**Matem√°ticamente** hablando la entrada $(i, j)$ de la **matriz de transici√≥n** nos representa la siguiente probabilidad:
$$
    P\left( X = j \ | \ X = i \right)
$$
Ejemplificando en nuestra matriz transici√≥n la entrada $(2, 3)$ representa la siguiente probabilidad:
**La probabilidad de que hoy sea un d√≠a soleado dado que ayer fue un d√≠a nublado**

Matematicamente hablando ser√≠a:

$P($ ‚òÄÔ∏è $|$ ‚òÅÔ∏è $)$

**Matem√°ticamente** hablando la entrada $(i, j)$ de la **matriz de emisi√≥n** nos representa la siguiente probabilidad:
$$
    P\left( Y = j \ | \ X = i \right)
$$
Ejemplificando en nuestra matriz transici√≥n la entrada $(2, 2)$ representa la siguiente probabilidad:
**La probabilidad de que hoy seamos felices soleado dado que hoy es un d√≠a nublado**

Matematicamente hablando ser√≠a:

$P($ üòÄ  $|$ ‚òÅÔ∏è $)$

In [6]:
import itertools
                            # Rainy  Cloudy Sunny
transition_matrix = np.matrix([[0.5, 0.3, 0.2],  # Rainy 
                               [0.4, 0.2, 0.4],  # Cloudy
                               [0, 0.3, 0.7]])   # Sunny
                            # Sad # Happy
emission_matrix = np.matrix([[0.9, 0.1],    # Rainy 
                             [0.6, 0.4],    # Cloudy
                             [0.2, 0.8]])   # Sunny


"""
    La secuencia de estados seguir√° la siguiente notaci√≥n:

    0 -> Rainy
    1 -> Cloudy
    2 -> Sunny

    Secuencia de observaciones (en columnas) seguir√° la siguiente notaci√≥n:

    0 -> Sad
    1 -> Happy

    Con la notaci√≥n anterior, calcularemos 
    la siguiente probabilidad:
    
    D√≠a 1: Estuvo soleado y fuimos felices.
    D√≠a 2: Estuvo nublado y fuimos felices.
    D√≠a 3: Estuvo soleado y fuimos tristes.
    √âsto se traducte en:
    state_sequence = [2, 1, 2]
    observed_sequence = [1, 1, 0]
"""

'\n    La secuencia de estados seguir√° la siguiente notaci√≥n:\n\n    0 -> Rainy\n    1 -> Cloudy\n    2 -> Sunny\n\n    Secuencia de observaciones (en columnas) seguir√° la siguiente notaci√≥n:\n\n    0 -> Sad\n    1 -> Happy\n\n    Con la notaci√≥n anterior, calcularemos \n    la siguiente probabilidad:\n    \n    D√≠a 1: Estuvo soleado y fuimos felices.\n    D√≠a 2: Estuvo nublado y fuimos felices.\n    D√≠a 3: Estuvo soleado y fuimos tristes.\n    √âsto se traducte en:\n    state_sequence = [2, 1, 2]\n    observed_sequence = [1, 1, 0]\n'

Calculemos la siguiente probabilidad:

![](imgs/probabilidad_de_ejemplo.png)

Matem√°ticamente hablando tenemos que calcular la siguiente probabilidad conjunta:

![](imgs/probabilidad_conjunta.png)

Por la **propiedad de las cadenas de Markov** podemos calcular lo anterior de la siguiente manera:

![](imgs/probabilidad_desglosada.png)


In [7]:
stationary_distribution_of_markov_chain = find_distribution(transition_matrix, np.array([1, 0, 0]))
print("Distribuci√≥n de probabilidad de la cadena de Markov asociada: ")
print(stationary_distribution_of_markov_chain)

Distribuci√≥n de probabilidad de la cadena de Markov asociada: 
[[0.21818182 0.27272727 0.50909091]]


In [8]:
def compute_probability(observed_sequence, state_sequence, stationary_distribution):
    l1 = len(observed_sequence)
    l2 = len(state_sequence)
    if ((l1 < 1 or l2 < 1) or (l1 != l2)):
        raise Exception()
    p = stationary_distribution[0, state_sequence[0]]
    for i in range(1, l2):
        p *= transition_matrix[state_sequence[i - 1], state_sequence[i]]
    for i in range(l1):
        p *= emission_matrix[state_sequence[i], observed_sequence[i]]
    return p

In [9]:
state_sequence = [2, 1, 2]
observed_sequence = [1, 1, 0]
print(compute_probability(observed_sequence, state_sequence, stationary_distribution_of_markov_chain))

0.003909818181818178


Por definici√≥n en el **Modelo Oculto de Markov** no tenemos acceso a los estados entonces tenemos que calcular la secuencia de estados m√°s probable para las observaciones que se nos proporcionan.
En nuestro caso vamos a calcular la secuencia de estado m√°s probable para las observaciones: feliz, feliz, triste.

![](imgs/secuencia_de_observaciones.png)



In [10]:
# ¬øCu√°l es la secuencia m√°s probable de clima para los estados de √°nimo dados?
def compute_maximum_probability(unit_state_sequence, observed_sequence, stationary_distribution):
    n = len(observed_sequence)
    maximum_probability_of_sequence = 0
    maximum_sequence = ()
    for sequence in itertools.product(unit_state_sequence, repeat=n):
        p = compute_probability(observed_sequence, sequence, stationary_distribution)
        if (maximum_probability_of_sequence < p):
            maximum_probability_of_sequence = p
            maximum_sequence = sequence
    return (maximum_probability_of_sequence, maximum_sequence)


def return_states(states_sequence):
    n = len(states_sequence)
    s = ""
    for i in range(n):
        if states_sequence[i] == 0:
            s += " Lluvioso "
        elif states_sequence[i] == 1:
            s += " Nublado "
        else:
            s += " Soleado "
    return s

probability, states = compute_maximum_probability([0, 1, 2], observed_sequence, stationary_distribution_of_markov_chain)
print("La probabilidad m√°s alta para la secuencia de estados de √°nimo: feliz, feliz, triste.")
print(probability)
print("Cuyos estados son: ")
print(return_states(states))

La probabilidad m√°s alta para la secuencia de estados de √°nimo: feliz, feliz, triste.
0.04105309090909086
Cuyos estados son: 
 Soleado  Soleado  Nublado 


# Formalizaci√≥n de los Modelos Ocultos de Markov
## Predicci√≥n de cadenas
## Propiedad de M√°rkov
Suponemos que las variables de emisi√≥n $Y_{i}$ cumplen con la propiedad de M√°rkov, esto es:
$$
    p\left( y_{t} | y_{1}, \dotsc, y_{t - 1} \right) = p\left( y_{t} | y_{t - 1} \right)
$$
## Definici√≥n
Un Modelo Oculto de M√°rkov es una tupla $HMM = \left( X, Y, A, \Pi, B \right)$ donde:
* $X = \{ x_{1}, \dotsc, x_{t} \}$ son observaciones y $Y = \{y_{1}, \dotsc, y_{k} \}$ son emisiones.
* $A_{i,j} = p\left(y_{j} | y_{i} \right)$ y $\Pi_{i} = p(y_{i})$ es el modelo de transici√≥n.
* $A$ matriz.
* $\Pi$ vector.
* $B_{i,j} = p(x_{j}, y_{i})$ es el modelo sensor.
* $B$ matriz.

En nuestro *Modelo Oculto de Markov* 
* $X = \{\text{Triste}, \text{Feliz} \}$
* $Y = \{\text{Lluvioso}, \text{Nublado}, \text{Soleado} \}$
* $A = \begin{bmatrix}
        0.5  & 0.3 & 0.2 \\
        0.4  & 0.2 & 0.4 \\
        0    & 0.3 & 0.7
    \end{bmatrix}$
* $\Pi = \begin{bmatrix}
        1  & 0 & 0
    \end{bmatrix}$
* $B = 
    \begin{bmatrix}
        0.9  & 0.1 \\
        0.6  & 0.4 \\
        0.2  & 0.8
    \end{bmatrix}$

In [45]:
def viterbi(states, 
            stationary_distribution, 
            transition_matrix, 
            emission_matrix, 
            observed_sequence):
    T = len(observed_sequence)
    S = len(states)
    prob = np.zeros((T, S))
    prev = np.zeros((T, S))
    for state in states:
        prob[0, state] = stationary_distribution[0, state] * emission_matrix[state, observed_sequence[0]]
    for t in range(1, T):
        for s in states:
            for r in states:
                new_prob = emission_matrix[s, observed_sequence[t]] * transition_matrix[r, s] * prob[t - 1, r]
                if new_prob > prob[t, s]:
                    prob[t, s] = new_prob
                    prev[t, s] = r
    path = np.array([0] * T, dtype=np.uint32)
    path[T - 1] = np.argmax(prob[T - 1])
    for t in range(T - 2, -1, -1):
        path[t] = prev[t + 1, path[s]]
    return path

In [47]:
most_likely_states_sequence = viterbi([0, 1, 2], 
                                      stationary_distribution_of_markov_chain, 
                                      transition_matrix, 
                                      emission_matrix, 
                                      observed_sequence)
print("La secuencia de estados con probabilidad m√°s alta para la secuencia de observaciones feliz, feliz, triste es: ")
print(return_states(most_likely_states_sequence))

La secuencia de estados con probabilidad m√°s alta para la secuencia de observaciones feliz, feliz, triste es: 
 Soleado  Soleado  Nublado 
