## ‚ö†Ô∏èLos Tres Problemas Fundamentales de los HMM

### 1. **Problema de Evaluaci√≥n (Evaluaci√≥n de la probabilidad de las observaciones)**

**Descripci√≥n del problema:**

Dada una secuencia de observaciones $O = (O_1, O_2, ..., O_T)$ y un modelo $\lambda = (A, B, \pi)$, el **Problema de Evaluaci√≥n** consiste en calcular la probabilidad $P(O | \lambda)$, que es la probabilidad de observar la secuencia $O$ bajo el modelo HMM $\lambda$, es decir:

$P(O | \lambda) = \sum_{Q} P(O, Q | \lambda)$

Donde $Q = (q_1, q_2, ..., q_T)$ representa una secuencia de estados ocultos (etiquetas POS).

**Soluci√≥n:**

Este problema se resuelve utilizando el **algoritmo Forward** o el **algoritmo Backward**. Ambos m√©todos calculan la probabilidad de las observaciones considerando todas las posibles secuencias de estados, pero sin tratar de encontrar la secuencia m√°s probable.

- **Forward Algorithm**: Se usa para calcular la probabilidad de observar una secuencia de palabras dado un modelo HMM. Trabaja recursivamente, sumando probabilidades de los estados previos y las observaciones.
- **Backward Algorithm**: Calcula la probabilidad de observar la secuencia de observaciones a partir de un punto espec√≠fico en el tiempo hacia atr√°s.

**En resumen:** Este es el **problema de calcular la probabilidad de las observaciones** dados los par√°metros del modelo. El algoritmo de Forward/Backward lo resuelve eficientemente sin tener que recorrer todas las secuencias posibles.

### 2. **Problema de Decodificaci√≥n (Encontrar la secuencia de estados m√°s probable)**

**Descripci√≥n del problema:**

Dada una secuencia de observaciones $O = (O_1, O_2, ..., O_T)$ y un modelo $\lambda = (A, B, \pi)$, el **Problema de Decodificaci√≥n** consiste en encontrar la secuencia de estados ocultos $Q = (q_1, q_2, ..., q_T)$ que tiene la **mayor probabilidad de haber generado las observaciones**:

$Q = \arg \max_{Q} P(Q | O, \lambda)$

Es decir, nos interesa encontrar la **mejor secuencia de etiquetas POS** dada una secuencia de palabras.

**Soluci√≥n:**

Este problema se resuelve utilizando el **algoritmo de Viterbi**, que es un **algoritmo de programaci√≥n din√°mica**. Viterbi busca la secuencia de estados m√°s probable, dada la secuencia de observaciones.

La idea es almacenar las **probabilidades parciales** y usar las probabilidades de transici√≥n y emisi√≥n para encontrar la secuencia √≥ptima de estados, es decir, la mejor secuencia de etiquetas POS que explica las palabras.

**En resumen:** Este es el **problema de encontrar la secuencia m√°s probable de etiquetas** para un conjunto de observaciones. El algoritmo de Viterbi resuelve este problema de manera eficiente, comparando todas las posibles secuencias y manteniendo solo la m√°s probable.

### 3. **Problema de Aprendizaje (Estimaci√≥n de los par√°metros del modelo)**

**Descripci√≥n del problema:**

Este problema se presenta cuando se tiene un conjunto de **observaciones etiquetadas** (o no) y se quiere **ajustar** los par√°metros del modelo HMM, es decir, calcular $\lambda = (A, B, \pi)$ de tal manera que el modelo ajuste lo mejor posible a los datos observados.

Esto incluye **estimaciones de probabilidades de transici√≥n (A)**, probabilidades de emisi√≥n (B), y probabilidades iniciales de los estados (œÄ).

**Soluci√≥n:**

El **Problema de Aprendizaje** se resuelve con el **algoritmo de Baum-Welch**, que es una forma del **algoritmo Expectation-Maximization (EM)**. Este algoritmo ajusta iterativamente los par√°metros $A$, $B$  y $\pi$ para maximizar la probabilidad de los datos observados.

**En resumen:** Este es el **problema de estimar los par√°metros del modelo HMM** a partir de datos observados. El algoritmo de Baum-Welch permite ajustar esos par√°metros sin necesidad de conocer las secuencias de estados, lo cual es √∫til para el aprendizaje autom√°tico.

---

### üßë‚Äçüíª **Enfoque en el Problema de Decodificaci√≥n usando Viterbi:**

Dado que estamos trabajando en un **problema de decodificaci√≥n** para etiquetar una secuencia de palabras con sus correspondientes etiquetas POS, **el algoritmo de Viterbi** es el que m√°s nos interesa.

- En este caso, no necesitamos calcular las probabilidades de todas las secuencias de estados (como en el problema de evaluaci√≥n), sino que queremos **encontrar la secuencia de estados m√°s probable** que genera nuestra secuencia de observaciones (palabras).

# ‚ú®Algoritmo de Viterbi

El algoritmo de Viterbi es un algoritmo de programaci√≥n din√°mica que encuentra la secuencia de estados ocultos m√°s probable (la "ruta de Viterbi") que resulta en una secuencia de observaciones dada en un HMM.

Los pasos del algoritmo de Viterbi son los siguientes:

### **1. Inicializaci√≥n (t = 1)**

**Objetivo:**

Para cada estado $S_i \in S$ (en nuestro caso, las etiquetas POS como NOUN, VERB, etc.), calculamos la probabilidad de la secuencia m√°s probable hasta el primer estado dado la primera observaci√≥n.

**F√≥rmula:**

$\delta_1(i) = \pi_i \cdot b_i(O_1)$

Donde:

- $\delta_t(i)$ es la probabilidad de la secuencia m√°s probable hasta el tiempo $t$ que termina en el estado $S_i$ (en el paso 1, es solo el primer estado).
- $\pi_i$ es la probabilidad inicial de estar en el estado $S_i$ al inicio de la secuencia (de la matriz $\pi$).
- $b_i(O_1)$ es la probabilidad de emitir la primera observaci√≥n $O_1$ (en nuestro caso la primera palabra, "Time"), dado que estamos en el estado $S_i$ (de la matriz de emisi√≥n $B$).

**Matriz de Backpointers ($\psi_1(i)$):**

- Para $t=1$, inicializamos la matriz de backpointers $\psi_1(i)$ con valores nulos, ya que no tenemos un estado previo para el primer paso.

### **2. Recursi√≥n (t = 2 hasta T)**

**Objetivo:**

Para cada tiempo $t$  desde 2 hasta $T$ (la longitud de la secuencia de observaciones), y para cada estado $S_j \in S$, calculamos la probabilidad de llegar al estado $S_j$ en el tiempo $t$ dado cualquier estado $S_i$ en el tiempo $t‚àí1$.

**F√≥rmula:**

$\delta_t(j) = \max_{1 \leq i \leq N} \left[ \delta_{t-1}(i) \cdot a_{ij} \right] \cdot b_j(O_t)$

Donde:

- $\delta_t(j)$ es la probabilidad m√°xima de llegar al estado $S_j$ en el tiempo $t$, viniendo de cualquier estado $S_i$ en el tiempo $t‚àí1$, multiplicado por la probabilidad de observar $O_t$ desde el estado $S_j$.
- $a_{ij}$ es la probabilidad de transici√≥n de $S_i$ a $S_j$ (de la matriz $A$).
- $b_j(O_t)$ es la probabilidad de emitir la observaci√≥n $O_t$ (la palabra en ese paso) dado que estamos en el estado $S_j$ (de la matriz $B$).

**Matriz de Backpointers ($\psi_t(j)$):**

- El backpointer $\psi_t(j)$ almacena el estado $S_i$ que gener√≥ la probabilidad m√°xima para $\delta_t(j)$. Es decir:

$\psi_t(j) = \arg\max_{1 \leq i \leq N} \left[ \delta_{t-1}(i) \cdot a_{ij} \right]$

Esto nos permite reconstruir la secuencia de estados m√°s probable al final del algoritmo.

### **3. Terminaci√≥n (t = T)**

**Objetivo:**

Determinar la probabilidad de la secuencia de estados ocultos m√°s probable y el √∫ltimo estado de esa secuencia.

**F√≥rmula:**

La probabilidad de la secuencia de estados ocultos m√°s probable es:

$P^* = \max_{1 \leq i \leq N} [\delta_T(i)]$

Donde $\delta_T(i)$ es la probabilidad m√°xima de que la secuencia de estados m√°s probable termine en el estado $S_i$ en el √∫ltimo paso $T$.

El √∫ltimo estado de la secuencia de estados m√°s probable es:

$q_T^* = \arg\max_{1 \leq i \leq N} [\delta_T(i)]$

### **4. Retroceso (t = T-1 hasta 1)**

**Objetivo:**

Recuperar la secuencia de estados ocultos m√°s probable utilizando los backpointers, empezando desde el √∫ltimo estado $q_T^*$ y retrocediendo.

**F√≥rmula:**

Reconstituimos la secuencia de estados ocultos m√°s probable utilizando los backpointers:

$q_t^* = \psi_{t+1}(q_{t+1}^*)$

Para $t = T-1, T-2, ..., 1$.

Esto nos da la secuencia de etiquetas m√°s probable de los estados ocultos que generaron las observaciones dadas.

***üßë‚Äçüè´Implementaci√≥n paso a paso con el caso de POS-tagging***
Ahora que entendemos los pasos te√≥ricos del **algoritmo de Viterbi**, lo siguiente ser√° usar los **valores de œÄ, A y B** (las probabilidades iniciales, de transici√≥n y de emisi√≥n) que definimos antes, y aplicar este algoritmo a la secuencia de palabras "Time flies like an arrow".

##  üëü **Paso 1: Inicializaci√≥n**

Primero, debemos crear las matrices **Œ¥ (delta)** y **œà (backpointers)**. La matriz **Œ¥** se usar√° para almacenar las probabilidades de la secuencia m√°s probable hasta cada estado, y **œà** para almacenar los backpointers.

### **Datos que necesitamos:**

- Las probabilidades iniciales $\pi$, la matriz de transici√≥n $A$ y la matriz de emisi√≥n $B$, que ya definimos anteriormente.

### C√≥digo para la inicializaci√≥n:

In [1]:
import numpy as np

# Datos de entrada (observaciones y estados)
sentence = ["Time", "flies", "like", "an", "arrow"]
states = ["NOUN", "VERB", "DET", "PREP"]
observations = sentence

# √çndices para facilitar el acceso
state_idx = {s: i for i, s in enumerate(states)}
obs_idx = {w: i for i, w in enumerate(observations)}

# Probabilidades iniciales (œÄ), transiciones (A) y emisiones (B)
pi = np.array([0.4, 0.3, 0.2, 0.1])
A = np.array([
    [0.1, 0.6, 0.2, 0.1],  # desde NOUN
    [0.3, 0.1, 0.1, 0.5],  # desde VERB
    [0.7, 0.1, 0.1, 0.1],  # desde DET
    [0.6, 0.2, 0.1, 0.1],  # desde PREP
])
B = np.array([
    [0.3, 0.2, 0.1, 0.0, 0.4],  # NOUN
    [0.1, 0.6, 0.2, 0.0, 0.1],  # VERB
    [0.0, 0.0, 0.0, 1.0, 0.0],  # DET
    [0.0, 0.0, 0.9, 0.1, 0.0],  # PREP
])

# N√∫mero de observaciones y estados
T = len(observations)
N = len(states)

# Inicializamos las matrices Œ¥ y œà
delta = np.zeros((T, N))  # Probabilidades
psi = np.zeros((T, N), dtype=int)  # Backpointers

# Paso 1: Inicializaci√≥n (t = 1)
for s in range(N):
    delta[0, s] = pi[s] * B[s, obs_idx[observations[0]]]
    psi[0, s] = 0  # No hay backpointer al inicio, pero lo necesitamos para el bucle

# Mostrar la inicializaci√≥n
print("Matriz Œ¥ despu√©s de la inicializaci√≥n:")
print(delta[0])
print("\nMatriz de backpointers œà despu√©s de la inicializaci√≥n:")
print(psi[0])


Matriz Œ¥ despu√©s de la inicializaci√≥n:
[0.12 0.03 0.   0.  ]

Matriz de backpointers œà despu√©s de la inicializaci√≥n:
[0 0 0 0]


### **Explicaci√≥n del c√≥digo:**

1. **√çndices**: Utilizamos dos diccionarios (`state_idx` y `obs_idx`) para mapear estados y observaciones a √≠ndices. Esto facilita el acceso a los valores en las matrices $A$ y $B$.
2. **Matriz $\delta$**: Al principio (cuando $t=1$), calculamos la probabilidad de cada estado $S_i$ como:
    
    $\delta_1(i) = \pi_i \cdot b_i(O_1)$
    
    Esto corresponde a la probabilidad de que el primer estado sea $S_i$ dado que hemos observado la palabra $O_1$ (en este caso, "Time").
    
3. **Matriz $\psi$**: Los **backpointers** para $t = 1$ se inicializan como cero, ya que no hay estados previos desde los que llegamos.

## **üëüPaso 2: Recursi√≥n (t = 2 hasta T)**

Aqu√≠ es donde vamos a hacer los c√°lculos para cada paso de la secuencia de observaciones.

### C√≥digo para la recursi√≥n:

In [2]:
# Paso 2: Recursi√≥n (t = 2 hasta T)
for t in range(1, T):
    for s in range(N):
        prob = delta[t-1] * A[:, s] * B[s, obs_idx[observations[t]]]
        delta[t, s] = np.max(prob)
        psi[t, s] = np.argmax(prob)

# Mostrar la matriz Œ¥ despu√©s de la recursi√≥n
print("\nMatriz Œ¥ despu√©s de la recursi√≥n:")
print(delta)
print("\nMatriz de backpointers œà despu√©s de la recursi√≥n:")
print(psi)


Matriz Œ¥ despu√©s de la recursi√≥n:
[[1.2000e-01 3.0000e-02 0.0000e+00 0.0000e+00]
 [2.4000e-03 4.3200e-02 0.0000e+00 0.0000e+00]
 [1.2960e-03 8.6400e-04 0.0000e+00 1.9440e-02]
 [0.0000e+00 0.0000e+00 1.9440e-03 1.9440e-04]
 [5.4432e-04 1.9440e-05 0.0000e+00 0.0000e+00]]

Matriz de backpointers œà despu√©s de la recursi√≥n:
[[0 0 0 0]
 [0 0 0 0]
 [1 1 0 1]
 [0 0 3 3]
 [2 2 0 0]]


### **Explicaci√≥n del c√≥digo:**

- En cada paso $t$, calculamos la probabilidad m√°xima $\delta_t(j)$ para cada estado $S_j$, viniendo de cualquier estado $S_i$  en el paso anterior, y multiplicado por la probabilidad de emitir la observaci√≥n $O_t$.
- Usamos **numpy** para calcular estas probabilidades de forma vectorizada y encontrar la probabilidad m√°xima.

##  **üëüPaso 3: Terminaci√≥n (t = T)**

Al final de la secuencia, necesitamos encontrar cu√°l es el **estado final m√°s probable** y calcular la probabilidad total.

### C√≥digo para la terminaci√≥n:

In [3]:
# Paso 3: Terminaci√≥n (t = T)
best_path = np.zeros(T, dtype=int)
best_path[-1] = np.argmax(delta[T-1])

# Mostrar la probabilidad m√°xima al final
P_star = np.max(delta[T-1])
print(f"\nProbabilidad de la secuencia m√°s probable: {P_star}")


Probabilidad de la secuencia m√°s probable: 0.0005443199999999999


### **Explicaci√≥n del c√≥digo:**

- Aqu√≠ encontramos el **√∫ltimo estado m√°s probable** utilizando el m√°ximo valor de la √∫ltima fila de $\delta$.
- La probabilidad total de la secuencia es el valor m√°ximo en $\delta_T$.

## **üëüPaso 4: Retroceso (t = T-1 hasta 1)**

Finalmente, recuperamos la secuencia de estados m√°s probable utilizando los **backpointers**.

### C√≥digo para el retroceso:

In [4]:
# Paso 4: Retroceso (t = T-1 hasta 1)
for t in range(T-2, -1, -1):
    best_path[t] = psi[t+1, best_path[t+1]]

# Mostrar la secuencia de etiquetas m√°s probable
best_labels = [states[s] for s in best_path]
print("\nSecuencia de etiquetas m√°s probable:")
print(best_labels)


Secuencia de etiquetas m√°s probable:
['NOUN', 'VERB', 'PREP', 'DET', 'NOUN']


### **Explicaci√≥n del c√≥digo:**

- Retrocedemos desde el √∫ltimo estado m√°s probable, utilizando los **backpointers** almacenados en la matriz $\psi$.
- La secuencia final de etiquetas corresponde a los estados m√°s probables para cada observaci√≥n.

La salida:

```python
['NOUN', 'VERB', 'PREP', 'DET', 'NOUN']
```

es **coherente, l√≥gica y esperable**, tanto **ling√º√≠stica como estad√≠sticamente**, y demuestra que el **algoritmo de Viterbi est√° funcionando correctamente** con el modelo HMM que construimos.

### üîç ¬øC√≥mo interpretar este resultado?

Aplicado a la oraci√≥n:

```python
Time     flies     like     an     arrow
NOUN     VERB      PREP     DET     NOUN
```

Esto sugiere que:

- `"Time"` es un **sustantivo** (NOUN),
- `"flies"` es un **verbo** (VERB),
- `"like"` es una **preposici√≥n** (PREP),
- `"an"` es un **determinante** (DET),
- `"arrow"` es un **sustantivo** (NOUN).

### ‚úÖ ¬øPor qu√© tiene sentido?

1. **"Time flies"** ‚Üí puede leerse como un sujeto ("time") seguido de un verbo ("flies").
2. **"like an arrow"** ‚Üí es una frase preposicional com√∫n (preposici√≥n + determinante + sustantivo).

Esto refleja **una interpretaci√≥n sem√°ntica v√°lida**:

> "El tiempo vuela como una flecha."

Adem√°s, el resultado se alinea con las probabilidades que definimos manualmente:

- `"flies"` ten√≠a probabilidad alta tanto como VERB como NOUN ‚Üí el contexto ayud√≥ a resolver la ambig√ºedad.
- `"like"` tambi√©n era ambigua (PREP vs VERB), pero Viterbi prefiri√≥ PREP por su conexi√≥n con ‚Äúan arrow‚Äù.