## ⚠️Los Tres Problemas Fundamentales de los HMM

### 1. **Problema de Evaluación (Evaluación de la probabilidad de las observaciones)**

**Descripción del problema:**

Dada una secuencia de observaciones $O = (O_1, O_2, ..., O_T)$ y un modelo $\lambda = (A, B, \pi)$, el **Problema de Evaluación** consiste en calcular la probabilidad $P(O | \lambda)$, que es la probabilidad de observar la secuencia $O$ bajo el modelo HMM $\lambda$, es decir:

$P(O | \lambda) = \sum_{Q} P(O, Q | \lambda)$

Donde $Q = (q_1, q_2, ..., q_T)$ representa una secuencia de estados ocultos (etiquetas POS).

**Solución:**

Este problema se resuelve utilizando el **algoritmo Forward** o el **algoritmo Backward**. Ambos métodos calculan la probabilidad de las observaciones considerando todas las posibles secuencias de estados, pero sin tratar de encontrar la secuencia más probable.

- **Forward Algorithm**: Se usa para calcular la probabilidad de observar una secuencia de palabras dado un modelo HMM. Trabaja recursivamente, sumando probabilidades de los estados previos y las observaciones.
- **Backward Algorithm**: Calcula la probabilidad de observar la secuencia de observaciones a partir de un punto específico en el tiempo hacia atrás.

**En resumen:** Este es el **problema de calcular la probabilidad de las observaciones** dados los parámetros del modelo. El algoritmo de Forward/Backward lo resuelve eficientemente sin tener que recorrer todas las secuencias posibles.

### 2. **Problema de Decodificación (Encontrar la secuencia de estados más probable)**

**Descripción del problema:**

Dada una secuencia de observaciones $O = (O_1, O_2, ..., O_T)$ y un modelo $\lambda = (A, B, \pi)$, el **Problema de Decodificación** consiste en encontrar la secuencia de estados ocultos $Q = (q_1, q_2, ..., q_T)$ que tiene la **mayor probabilidad de haber generado las observaciones**:

$Q = \arg \max_{Q} P(Q | O, \lambda)$

Es decir, nos interesa encontrar la **mejor secuencia de etiquetas POS** dada una secuencia de palabras.

**Solución:**

Este problema se resuelve utilizando el **algoritmo de Viterbi**, que es un **algoritmo de programación dinámica**. Viterbi busca la secuencia de estados más probable, dada la secuencia de observaciones.

La idea es almacenar las **probabilidades parciales** y usar las probabilidades de transición y emisión para encontrar la secuencia óptima de estados, es decir, la mejor secuencia de etiquetas POS que explica las palabras.

**En resumen:** Este es el **problema de encontrar la secuencia más probable de etiquetas** para un conjunto de observaciones. El algoritmo de Viterbi resuelve este problema de manera eficiente, comparando todas las posibles secuencias y manteniendo solo la más probable.

### 3. **Problema de Aprendizaje (Estimación de los parámetros del modelo)**

**Descripción del problema:**

Este problema se presenta cuando se tiene un conjunto de **observaciones etiquetadas** (o no) y se quiere **ajustar** los parámetros del modelo HMM, es decir, calcular $\lambda = (A, B, \pi)$ de tal manera que el modelo ajuste lo mejor posible a los datos observados.

Esto incluye **estimaciones de probabilidades de transición (A)**, probabilidades de emisión (B), y probabilidades iniciales de los estados (π).

**Solución:**

El **Problema de Aprendizaje** se resuelve con el **algoritmo de Baum-Welch**, que es una forma del **algoritmo Expectation-Maximization (EM)**. Este algoritmo ajusta iterativamente los parámetros $A$, $B$  y $\pi$ para maximizar la probabilidad de los datos observados.

**En resumen:** Este es el **problema de estimar los parámetros del modelo HMM** a partir de datos observados. El algoritmo de Baum-Welch permite ajustar esos parámetros sin necesidad de conocer las secuencias de estados, lo cual es útil para el aprendizaje automático.

---

### 🧑‍💻 **Enfoque en el Problema de Decodificación usando Viterbi:**

Dado que estamos trabajando en un **problema de decodificación** para etiquetar una secuencia de palabras con sus correspondientes etiquetas POS, **el algoritmo de Viterbi** es el que más nos interesa.

- En este caso, no necesitamos calcular las probabilidades de todas las secuencias de estados (como en el problema de evaluación), sino que queremos **encontrar la secuencia de estados más probable** que genera nuestra secuencia de observaciones (palabras).

# ✨Algoritmo de Viterbi

El algoritmo de Viterbi es un algoritmo de programación dinámica que encuentra la secuencia de estados ocultos más probable (la "ruta de Viterbi") que resulta en una secuencia de observaciones dada en un HMM.

Los pasos del algoritmo de Viterbi son los siguientes:

### **1. Inicialización (t = 1)**

**Objetivo:**

Para cada estado $S_i \in S$ (en nuestro caso, las etiquetas POS como NOUN, VERB, etc.), calculamos la probabilidad de la secuencia más probable hasta el primer estado dado la primera observación.

**Fórmula:**

$\delta_1(i) = \pi_i \cdot b_i(O_1)$

Donde:

- $\delta_t(i)$ es la probabilidad de la secuencia más probable hasta el tiempo $t$ que termina en el estado $S_i$ (en el paso 1, es solo el primer estado).
- $\pi_i$ es la probabilidad inicial de estar en el estado $S_i$ al inicio de la secuencia (de la matriz $\pi$).
- $b_i(O_1)$ es la probabilidad de emitir la primera observación $O_1$ (en nuestro caso la primera palabra, "Time"), dado que estamos en el estado $S_i$ (de la matriz de emisión $B$).

**Matriz de Backpointers ($\psi_1(i)$):**

- Para $t=1$, inicializamos la matriz de backpointers $\psi_1(i)$ con valores nulos, ya que no tenemos un estado previo para el primer paso.

### **2. Recursión (t = 2 hasta T)**

**Objetivo:**

Para cada tiempo $t$  desde 2 hasta $T$ (la longitud de la secuencia de observaciones), y para cada estado $S_j \in S$, calculamos la probabilidad de llegar al estado $S_j$ en el tiempo $t$ dado cualquier estado $S_i$ en el tiempo $t−1$.

**Fórmula:**

$\delta_t(j) = \max_{1 \leq i \leq N} \left[ \delta_{t-1}(i) \cdot a_{ij} \right] \cdot b_j(O_t)$

Donde:

- $\delta_t(j)$ es la probabilidad máxima de llegar al estado $S_j$ en el tiempo $t$, viniendo de cualquier estado $S_i$ en el tiempo $t−1$, multiplicado por la probabilidad de observar $O_t$ desde el estado $S_j$.
- $a_{ij}$ es la probabilidad de transición de $S_i$ a $S_j$ (de la matriz $A$).
- $b_j(O_t)$ es la probabilidad de emitir la observación $O_t$ (la palabra en ese paso) dado que estamos en el estado $S_j$ (de la matriz $B$).

**Matriz de Backpointers ($\psi_t(j)$):**

- El backpointer $\psi_t(j)$ almacena el estado $S_i$ que generó la probabilidad máxima para $\delta_t(j)$. Es decir:

$\psi_t(j) = \arg\max_{1 \leq i \leq N} \left[ \delta_{t-1}(i) \cdot a_{ij} \right]$

Esto nos permite reconstruir la secuencia de estados más probable al final del algoritmo.

### **3. Terminación (t = T)**

**Objetivo:**

Determinar la probabilidad de la secuencia de estados ocultos más probable y el último estado de esa secuencia.

**Fórmula:**

La probabilidad de la secuencia de estados ocultos más probable es:

$P^* = \max_{1 \leq i \leq N} [\delta_T(i)]$

Donde $\delta_T(i)$ es la probabilidad máxima de que la secuencia de estados más probable termine en el estado $S_i$ en el último paso $T$.

El último estado de la secuencia de estados más probable es:

$q_T^* = \arg\max_{1 \leq i \leq N} [\delta_T(i)]$

### **4. Retroceso (t = T-1 hasta 1)**

**Objetivo:**

Recuperar la secuencia de estados ocultos más probable utilizando los backpointers, empezando desde el último estado $q_T^*$ y retrocediendo.

**Fórmula:**

Reconstituimos la secuencia de estados ocultos más probable utilizando los backpointers:

$q_t^* = \psi_{t+1}(q_{t+1}^*)$

Para $t = T-1, T-2, ..., 1$.

Esto nos da la secuencia de etiquetas más probable de los estados ocultos que generaron las observaciones dadas.

***🧑‍🏫Implementación paso a paso con el caso de POS-tagging***
Ahora que entendemos los pasos teóricos del **algoritmo de Viterbi**, lo siguiente será usar los **valores de π, A y B** (las probabilidades iniciales, de transición y de emisión) que definimos antes, y aplicar este algoritmo a la secuencia de palabras "Time flies like an arrow".

##  👟 **Paso 1: Inicialización**

Primero, debemos crear las matrices **δ (delta)** y **ψ (backpointers)**. La matriz **δ** se usará para almacenar las probabilidades de la secuencia más probable hasta cada estado, y **ψ** para almacenar los backpointers.

### **Datos que necesitamos:**

- Las probabilidades iniciales $\pi$, la matriz de transición $A$ y la matriz de emisión $B$, que ya definimos anteriormente.

### Código para la inicialización:

In [1]:
import numpy as np

# Datos de entrada (observaciones y estados)
sentence = ["Time", "flies", "like", "an", "arrow"]
states = ["NOUN", "VERB", "DET", "PREP"]
observations = sentence

# Índices para facilitar el acceso
state_idx = {s: i for i, s in enumerate(states)}
obs_idx = {w: i for i, w in enumerate(observations)}

# Probabilidades iniciales (π), transiciones (A) y emisiones (B)
pi = np.array([0.4, 0.3, 0.2, 0.1])
A = np.array([
    [0.1, 0.6, 0.2, 0.1],  # desde NOUN
    [0.3, 0.1, 0.1, 0.5],  # desde VERB
    [0.7, 0.1, 0.1, 0.1],  # desde DET
    [0.6, 0.2, 0.1, 0.1],  # desde PREP
])
B = np.array([
    [0.3, 0.2, 0.1, 0.0, 0.4],  # NOUN
    [0.1, 0.6, 0.2, 0.0, 0.1],  # VERB
    [0.0, 0.0, 0.0, 1.0, 0.0],  # DET
    [0.0, 0.0, 0.9, 0.1, 0.0],  # PREP
])

# Número de observaciones y estados
T = len(observations)
N = len(states)

# Inicializamos las matrices δ y ψ
delta = np.zeros((T, N))  # Probabilidades
psi = np.zeros((T, N), dtype=int)  # Backpointers

# Paso 1: Inicialización (t = 1)
for s in range(N):
    delta[0, s] = pi[s] * B[s, obs_idx[observations[0]]]
    psi[0, s] = 0  # No hay backpointer al inicio, pero lo necesitamos para el bucle

# Mostrar la inicialización
print("Matriz δ después de la inicialización:")
print(delta[0])
print("\nMatriz de backpointers ψ después de la inicialización:")
print(psi[0])


Matriz δ después de la inicialización:
[0.12 0.03 0.   0.  ]

Matriz de backpointers ψ después de la inicialización:
[0 0 0 0]


### **Explicación del código:**

1. **Índices**: Utilizamos dos diccionarios (`state_idx` y `obs_idx`) para mapear estados y observaciones a índices. Esto facilita el acceso a los valores en las matrices $A$ y $B$.
2. **Matriz $\delta$**: Al principio (cuando $t=1$), calculamos la probabilidad de cada estado $S_i$ como:
    
    $\delta_1(i) = \pi_i \cdot b_i(O_1)$
    
    Esto corresponde a la probabilidad de que el primer estado sea $S_i$ dado que hemos observado la palabra $O_1$ (en este caso, "Time").
    
3. **Matriz $\psi$**: Los **backpointers** para $t = 1$ se inicializan como cero, ya que no hay estados previos desde los que llegamos.

## **👟Paso 2: Recursión (t = 2 hasta T)**

Aquí es donde vamos a hacer los cálculos para cada paso de la secuencia de observaciones.

### Código para la recursión:

In [2]:
# Paso 2: Recursión (t = 2 hasta T)
for t in range(1, T):
    for s in range(N):
        prob = delta[t-1] * A[:, s] * B[s, obs_idx[observations[t]]]
        delta[t, s] = np.max(prob)
        psi[t, s] = np.argmax(prob)

# Mostrar la matriz δ después de la recursión
print("\nMatriz δ después de la recursión:")
print(delta)
print("\nMatriz de backpointers ψ después de la recursión:")
print(psi)


Matriz δ después de la recursión:
[[1.2000e-01 3.0000e-02 0.0000e+00 0.0000e+00]
 [2.4000e-03 4.3200e-02 0.0000e+00 0.0000e+00]
 [1.2960e-03 8.6400e-04 0.0000e+00 1.9440e-02]
 [0.0000e+00 0.0000e+00 1.9440e-03 1.9440e-04]
 [5.4432e-04 1.9440e-05 0.0000e+00 0.0000e+00]]

Matriz de backpointers ψ después de la recursión:
[[0 0 0 0]
 [0 0 0 0]
 [1 1 0 1]
 [0 0 3 3]
 [2 2 0 0]]


### **Explicación del código:**

- En cada paso $t$, calculamos la probabilidad máxima $\delta_t(j)$ para cada estado $S_j$, viniendo de cualquier estado $S_i$  en el paso anterior, y multiplicado por la probabilidad de emitir la observación $O_t$.
- Usamos **numpy** para calcular estas probabilidades de forma vectorizada y encontrar la probabilidad máxima.

##  **👟Paso 3: Terminación (t = T)**

Al final de la secuencia, necesitamos encontrar cuál es el **estado final más probable** y calcular la probabilidad total.

### Código para la terminación:

In [3]:
# Paso 3: Terminación (t = T)
best_path = np.zeros(T, dtype=int)
best_path[-1] = np.argmax(delta[T-1])

# Mostrar la probabilidad máxima al final
P_star = np.max(delta[T-1])
print(f"\nProbabilidad de la secuencia más probable: {P_star}")


Probabilidad de la secuencia más probable: 0.0005443199999999999


### **Explicación del código:**

- Aquí encontramos el **último estado más probable** utilizando el máximo valor de la última fila de $\delta$.
- La probabilidad total de la secuencia es el valor máximo en $\delta_T$.

## **👟Paso 4: Retroceso (t = T-1 hasta 1)**

Finalmente, recuperamos la secuencia de estados más probable utilizando los **backpointers**.

### Código para el retroceso:

In [4]:
# Paso 4: Retroceso (t = T-1 hasta 1)
for t in range(T-2, -1, -1):
    best_path[t] = psi[t+1, best_path[t+1]]

# Mostrar la secuencia de etiquetas más probable
best_labels = [states[s] for s in best_path]
print("\nSecuencia de etiquetas más probable:")
print(best_labels)


Secuencia de etiquetas más probable:
['NOUN', 'VERB', 'PREP', 'DET', 'NOUN']


### **Explicación del código:**

- Retrocedemos desde el último estado más probable, utilizando los **backpointers** almacenados en la matriz $\psi$.
- La secuencia final de etiquetas corresponde a los estados más probables para cada observación.

La salida:

```python
['NOUN', 'VERB', 'PREP', 'DET', 'NOUN']
```

es **coherente, lógica y esperable**, tanto **lingüística como estadísticamente**, y demuestra que el **algoritmo de Viterbi está funcionando correctamente** con el modelo HMM que construimos.

### 🔍 ¿Cómo interpretar este resultado?

Aplicado a la oración:

```python
Time     flies     like     an     arrow
NOUN     VERB      PREP     DET     NOUN
```

Esto sugiere que:

- `"Time"` es un **sustantivo** (NOUN),
- `"flies"` es un **verbo** (VERB),
- `"like"` es una **preposición** (PREP),
- `"an"` es un **determinante** (DET),
- `"arrow"` es un **sustantivo** (NOUN).

### ✅ ¿Por qué tiene sentido?

1. **"Time flies"** → puede leerse como un sujeto ("time") seguido de un verbo ("flies").
2. **"like an arrow"** → es una frase preposicional común (preposición + determinante + sustantivo).

Esto refleja **una interpretación semántica válida**:

> "El tiempo vuela como una flecha."

Además, el resultado se alinea con las probabilidades que definimos manualmente:

- `"flies"` tenía probabilidad alta tanto como VERB como NOUN → el contexto ayudó a resolver la ambigüedad.
- `"like"` también era ambigua (PREP vs VERB), pero Viterbi prefirió PREP por su conexión con “an arrow”.