# Modelos Ocultos de Markov (HMM)

En un **Modelo de Cadenas de Markov Ocultas (HMM, por sus siglas en inglés)**, los parámetros fundamentales son **π**, **A** y **B**. Estos son los componentes esenciales que permiten definir completamente el comportamiento del modelo, y cómo se pueden generar las observaciones a partir de los estados ocultos. A continuación, se explica cada uno de estos parámetros:

## 1. **π (Distribución inicial de los estados)**

**π** es un **vector** que describe la **probabilidad inicial** de que el sistema se encuentre en cada uno de los posibles estados ocultos al comienzo del proceso. En otras palabras, π establece cómo se distribuyen las probabilidades de los estados en el tiempo inicial $ t = 0 $.

### Formalmente:
Si $( S_1, S_2, \dots, S_N )$ son los estados ocultos, entonces $ \pi_i $ es la probabilidad de que el sistema comience en el estado $ i $ al inicio (en $ t = 0 $).

### Propiedad:
La suma de todas las probabilidades de $ \pi $ debe ser igual a 1:
$$
\sum_{i=1}^N \pi_i = 1
$$
Es decir, la probabilidad de que el sistema comience en algún estado oculto debe ser 100%.

### Ejemplo:
Imagina que tienes tres posibles estados ocultos, como en el caso de un diagnóstico médico: "Resfriado", "Gripe" y "COVID-19". La distribución inicial $ \pi $ podría ser:
$$
\pi = \left[ 0.5, 0.3, 0.2 \right]
$$
Esto significa que:
- Hay un 50% de probabilidad de que el sistema comience en el estado "Resfriado".
- Hay un 30% de probabilidad de que el sistema comience en el estado "Gripe".
- Hay un 20% de probabilidad de que el sistema comience en el estado "COVID-19".

## 2. **A (Matriz de transición de los estados)**

**A** es una **matriz de transición** que describe las **probabilidades de transición** entre los estados ocultos. Es decir, define las probabilidades de pasar de un estado oculto a otro en el siguiente paso temporal del proceso.

### Formalmente:
$ A_{ij} $ es la probabilidad de transitar del estado oculto $ S_i $ al estado oculto $ S_j $. Cada fila $ i $-ésima de la matriz $ A $ describe cómo el sistema transita desde el estado $ S_i $ hacia cualquier otro estado en el siguiente paso.

### Propiedad:
Cada fila de la matriz $ A $ debe ser una distribución de probabilidad, es decir:
$$
\sum_{j=1}^N A_{ij} = 1
$$
Esto significa que las probabilidades de transición desde cualquier estado $ S_i $ hacia otros estados deben sumar 1.

### Ejemplo:
Si tienes tres estados ocultos y la matriz de transición $ A $ es la siguiente:
$$
A = \begin{bmatrix}
0.7 & 0.2 & 0.1 \\
0.3 & 0.4 & 0.3 \\
0.2 & 0.3 & 0.5
\end{bmatrix}
$$
Esto indica que:
- Si el sistema está en el estado "Resfriado" en un momento dado, tiene un 70% de probabilidad de permanecer en el estado "Resfriado" en el siguiente paso, un 20% de pasar al estado "Gripe" y un 10% de pasar al estado "COVID-19".
- Similarmente, las transiciones entre "Gripe" y "COVID-19" tienen sus respectivas probabilidades de ocurrir.

## 3. **B (Matriz de emisión de observaciones)**

**B** es una **matriz de emisión** que describe las **probabilidades de emisión de observaciones**. Es decir, la probabilidad de observar un evento dado un estado oculto específico. En otras palabras, **B** determina la probabilidad de que un estado oculto genere una observación particular.

### Formalmente:
$ B_{ij} $ es la probabilidad de observar la salida $ O_j $ dado que el sistema se encuentra en el estado oculto $ S_i $. Esto indica cómo un estado oculto $ S_i $ genera las observaciones posibles $( O_1, O_2, ..., O_M )$.

### Propiedad:
Al igual que en $ A $, cada fila de la matriz $ B $ debe ser una distribución de probabilidad, es decir:
$$
\sum_{j=1}^M B_{ij} = 1
$$
donde $ M $ es el número de posibles observaciones.

### Ejemplo:
Imagina que tenemos 3 estados ocultos ("Resfriado", "Gripe", "COVID-19") y 3 posibles observaciones ("tos", "fiebre", "dolor de garganta"). Una posible matriz de emisión $ B $ podría ser:
$$
B = \begin{bmatrix}
0.4 & 0.4 & 0.2 \\
0.5 & 0.3 & 0.2 \\
0.3 & 0.5 & 0.2
\end{bmatrix}
$$
Esto indica que:
- Si el sistema está en el estado "Resfriado", tiene un 40% de probabilidad de observar "tos", un 40% de observar "fiebre" y un 20% de observar "dolor de garganta".
- Si está en "Gripe", tiene un 50% de probabilidad de observar "tos", un 30% de observar "fiebre", y un 20% de observar "dolor de garganta".
- En el estado "COVID-19", tiene un 30% de probabilidad de observar "tos", un 50% de observar "fiebre", y un 20% de observar "dolor de garganta".

## 4. **True Hidden States (Estados Ocultos Verdaderos)**

En el contexto de un modelo de cadenas de Markov ocultas (HMM), los **true hidden states** o **estados ocultos verdaderos** son los estados subyacentes que el modelo trata de inferir, pero que no son observables directamente. Estos estados subyacentes son esenciales para comprender el comportamiento del sistema, pero no pueden ser observados de manera directa desde el exterior.

### Propósito de los true hidden states:
- **Inferencia de estados**: Aunque no podemos observar directamente los estados ocultos verdaderos, el objetivo del modelo es estimarlos a partir de las observaciones disponibles. Estos estados representan, por ejemplo, la condición real de un paciente (como estar en estado de "Resfriado", "Gripe" o "COVID-19"), mientras que las observaciones son síntomas como "tos", "fiebre" y "dolor de garganta".
- **Propósito del modelo**: El modelo de Markov oculto se utiliza para inferir cuál es la secuencia más probable de estos estados ocultos dados las observaciones, utilizando algoritmos como el **algoritmo de Viterbi** para la inferencia de la secuencia de estados más probable.

### Ejemplo:
En un modelo HMM para el diagnóstico de enfermedades, los true hidden states podrían ser los diagnósticos reales ("Resfriado", "Gripe", "COVID-19"), pero solo podemos observar los síntomas (como "tos", "fiebre", "dolor de garganta"). El objetivo del modelo es inferir, con base en los síntomas observados, cuál es la enfermedad subyacente.

### ¿Cómo se infieren los true hidden states?
Aunque no se pueden observar directamente, se pueden estimar usando las probabilidades de transición entre estados (A), las probabilidades de emisión de observaciones (B) y las distribuciones iniciales de los estados (π). Algoritmos como el **algoritmo de Viterbi** (para la secuencia más probable) o el **algoritmo de filtro hacia atrás** se utilizan para inferir estos estados ocultos verdaderos de forma probabilística.

# Algoritmo de Forward en HMM

Para encontrar el vector de probabilidades dado una secuencia de observaciones en un modelo de **Markov oculto (HMM)**, puedes usar el **algoritmo de Forward**. Este algoritmo te permite calcular la probabilidad de observar una secuencia de observaciones específica, dado un modelo HMM con parámetros de transición, emisión y distribución inicial (π).

## 1. Cálculo de la probabilidad en cada estado

Dado un HMM con parámetros:

- **π**: El vector de probabilidades iniciales (distribución de los estados en el primer tiempo).
- **A**: La matriz de transición de estados.
- **B**: La matriz de emisión de observaciones.

El algoritmo **Forward** calcula la probabilidad de observar la secuencia de observaciones $O = [o_1, o_2, \dots, o_T]$ hasta el tiempo $T$, en cada estado del modelo. La idea es calcular $\alpha_t(i)$, que representa la probabilidad de estar en el estado $i$ en el tiempo $t$, dado que se ha observado la secuencia hasta ese punto.

## 2. **Cálculo del vector de probabilidades dado una secuencia**

El algoritmo de **Forward** se puede dividir en tres partes:

### Inicialización

Se inicializa el primer tiempo $t = 0$ usando la distribución inicial y las probabilidades de emisión de la observación:

$$
\alpha_0(i) = \pi_i \cdot B_{i, o_1}
$$

Donde $B_{i, o_1}$ es la probabilidad de observar $o_1$ dado el estado $i$.

### Recursión

Para cada tiempo $t$ de la secuencia, calculamos la probabilidad de estar en el estado $i$ en el tiempo $t$, dado todas las observaciones previas:

$$
\alpha_t(i) = \sum_j \alpha_{t-1}(j) \cdot A_{ji} \cdot B_{i, o_t}
$$

Donde:
- $\alpha_{t-1}(j)$ es la probabilidad de estar en el estado $j$ en el tiempo $t-1$.
- $A_{ji}$ es la probabilidad de transición de estado de $j$ a $i$.
- $B_{i, o_t}$ es la probabilidad de observar $o_t$ dado que estamos en el estado $i$.

### Terminación

La probabilidad de la secuencia completa es la suma de las probabilidades de estar en cualquier estado en el último tiempo $T$:

$$
P(O | \lambda) = \sum_i \alpha_T(i)
$$

Esta es la probabilidad total de observar la secuencia $O$ dada la secuencia de observaciones.

## Resumen

En un **Modelo Oculto de Markov (HMM)**, los tres componentes clave son:

- **π (Distribución inicial)**: Establece las probabilidades de que el sistema comience en cada uno de los estados ocultos.
- **A (Matriz de transición)**: Describe las probabilidades de transición entre los estados ocultos de un paso temporal al siguiente.
- **B (Matriz de emisión)**: Define las probabilidades de observar ciertos eventos o salidas dadas las transiciones entre los estados ocultos.
- **True Hidden States (Estados Ocultos Verdaderos)**: Son los estados subyacentes que no se observan directamente, pero que se infieren utilizando las observaciones y el modelo HMM.

Estos tres componentes son esenciales para modelar un HMM y permitir tareas como:
- Inferir los estados ocultos dados un conjunto de observaciones.
- Predecir observaciones futuras a partir de un modelo entrenado.

In [1]:
import sys

# Add the parent directory to the system path to allow importing from modules located there
sys.path.insert(0, "..")

# Import necessary libraries
from likelihood.models.hmm import HMM
import numpy as np

In [2]:
# Define the HMM class (the one we just created)
# If you haven't already, make sure to define the HMM class with the methods we discussed.

# Define the parameters of the model
n_states = 3  # Sunny (0), Rainy (1), Cloudy (2)
n_observations = 2  # Walk (0), Shop (1)

# Create an HMM instance
hmm = HMM(n_states, n_observations)

# Generate some synthetic observation sequences (e.g., 3 sequences of 5 days)
# Each number represents an observation: 0 -> Walk, 1 -> Shop
sequences = [
    [0, 1, 0, 0, 1],  # Sequence 1: Walk, Shop, Walk, Walk, Shop
    [1, 1, 0, 1, 0],  # Sequence 2: Shop, Shop, Walk, Shop, Walk
    [0, 0, 0, 1, 1],  # Sequence 3: Walk, Walk, Walk, Shop, Shop
]

# Define the true hidden states for the sequences (ground truth for training/testing)
true_states = [
    [0, 0, 0, 1, 2],  # Sequence 1: Sunny, Sunny, Sunny, Rainy, Cloudy
    [1, 1, 0, 1, 2],  # Sequence 2: Rainy, Rainy, Sunny, Rainy, Cloudy
    [0, 0, 0, 1, 2],  # Sequence 3: Sunny, Sunny, Sunny, Rainy, Cloudy
]

# Test various model configurations
state_configs = [2, 3, 4]
observation_configs = [2, 3]
iterations_configs = [20, 50, 100]
best_accuracy = 0
best_config = None

for n_states in state_configs:
    for n_observations in observation_configs:
        for n_iter in iterations_configs:
            hmm = HMM(n_states, n_observations)
            print(
                f"Training HMM with {n_states} states, {n_observations} observations, {n_iter} iterations..."
            )
            hmm.baum_welch(sequences, n_iterations=n_iter)
            accuracy = hmm.decoding_accuracy(sequences, true_states)
            print(f"Decoding Accuracy: {accuracy:.2f}%")
            if accuracy > best_accuracy:
                best_accuracy = accuracy
                best_config = (n_states, n_observations, n_iter)
                hmm.save_model()

print(f"Best configuration: {best_config} with accuracy {best_accuracy:.2f}%")

Iteration 90:
Pi: [0.24996993 0.24966814 0.24975448 0.25060746]
A:
[[0.41779082 0.47506256 0.08063185 0.02651477]
 [0.43302362 0.20388675 0.34632147 0.01676815]
 [0.05776522 0.26247905 0.591388   0.08836772]
 [0.10993781 0.47557343 0.4036911  0.01079767]]
B:
[[0.53740562 0.46259438 0.        ]
 [0.54518243 0.45481757 0.        ]
 [0.5433659  0.4566341  0.        ]
 [0.52223023 0.47776977 0.        ]]


Decoding Accuracy: 20.00%
Best configuration: (3, 2, 100) with accuracy 66.67%


In [3]:
hmm = HMM(n_states, n_observations)
hmm = hmm.load_model()
accuracy = hmm.decoding_accuracy(sequences, true_states)
print(f"Decoding Accuracy (model rebuilt): {accuracy:.2f}%")
test_sequence = [0, 1, 0, 0, 1]  # Test sequence: Walk, Shop, Walk, Walk, Shop
predicted_states = hmm.viterbi(test_sequence)
smoothed_probs = hmm.state_probabilities(test_sequence)
total_prob = hmm.sequence_probability(test_sequence)

print(f"Test Sequence: {test_sequence}")
print(f"Predicted States: {predicted_states}")
print(f"Probabilities States: {smoothed_probs}")
print(f"Total probability: {total_prob}")

Decoding Accuracy (model rebuilt): 66.67%
Test Sequence: [0, 1, 0, 0, 1]
Predicted States: [1 2 0 1 2]
Probabilities States: [[0.28881071 0.29983091 0.41135838]
 [0.39043702 0.4413433  0.16821968]
 [0.205372   0.41355892 0.38106908]
 [0.20307488 0.42611921 0.37080591]
 [0.32762052 0.43253756 0.23984192]]
Total probability: [0.28306303 0.40267798 0.31425899]
