## üõ†Ô∏è **Primer prototipo o pruebas con datos**

En esta etapa necesitamos:

1. **Cargar** una oraci√≥n de prueba.
2. **Definir** manualmente los par√°metros del HMM (œÄ, A, B).
3. **Preparar estructuras** para procesarlas en c√≥digo.

### üìò TEOR√çA DE HMM (Modelo Oculto de Markov)

Seg√∫n Rabiner:

- Un HMM es un modelo estad√≠stico probabil√≠stico en el que se asume que el sistema que se modela es un proceso de Markov con estados ocultos. donde:
    - El estado actual influye en los estados futuros, pero los estados en s√≠ no son directamente observables.
    - Hay una secuencia de observaciones conocidas, lo que observamos son **emisiones** o **observaciones** que dependen del estado oculto actual.
    - Hay una secuencia de **estados ocultos** desconocidos que queremos inferir.
- Se compone de:
    - **Conjunto de estados ocultos (S):** Un n√∫mero finito de estados que no son directamente observables. En el contexto del POS-tagging, estos estados representar√≠an las posibles etiquetas gramaticales (sustantivo, verbo, adjetivo, etc.).
    - **Conjunto de observaciones (V):** Un n√∫mero finito de s√≠mbolos de observaci√≥n que son las salidas del sistema que podemos observar. En el POS-tagging, estas ser√≠an las palabras del texto que queremos etiquetar.
- Se caracteriza por 3 conjuntos de par√°metros:
    - **Matriz de probabilidades de transici√≥n de estados (A):** Define la probabilidad de transici√≥n entre los estados ocultos. $a_{ij} = P(q_{t+1} = S_j | q_t = S_i)$ es la probabilidad de estar en el estado $S_i$  en el tiempo $t$ y pasar al estado $S_j$ en el tiempo $t+1$.  ***(probabilidad de pasar de una etiqueta a otra)***
    - **Matriz de probabilidades de emisi√≥n (B):** Define la probabilidad de observar un s√≠mbolo particular dado un estado oculto. $b_j(k) = P(O_t = v_k | q_t = S_j)$ es la probabilidad de observar el s√≠mbolo $v_k$ cuando el estado oculto en el tiempo $t$ es $S_j$. ***(probabilidad de que una palabra sea generada por una etiqueta.)***
    - **Vector de probabilidades iniciales de estado (œÄ):** Define la probabilidad de estar en un estado particular en el tiempo inicial ($t=1$).
        
         $\pi_i = P(q_1 = S_i)$ es la probabilidad de que el primer estado oculto sea $S_i$. ***(probabilidad de comenzar en cada etiqueta.)***
        

**HMM de Primer Orden**

Un HMM de primer orden se caracteriza por la **propiedad de Markov de primer orden**, que establece que la probabilidad del estado actual solo depende del estado inmediatamente anterior. Matem√°ticamente, esto se expresa como:

$P(q_t | q_{t-1}, q_{t-2}, ..., q_1) = P(q_t | q_{t-1})$

De manera similar, la probabilidad de una observaci√≥n en un momento dado solo depende del estado oculto en ese mismo momento:

$P(O_t | q_1, ..., q_t, O_1, ..., O_{t-1}) = P(O_t | q_t)$

**HMM para POS-Tagging**

En el contexto del POS-tagging, podemos mapear los componentes de un HMM de la siguiente manera:

- **Estados ocultos (S):** El conjunto de posibles etiquetas gramaticales (e.g., {NOUN, VERB, ADJ, DET}).
- **Observaciones (V):** El vocabulario del idioma (el conjunto de todas las palabras posibles).
- **Probabilidades de transici√≥n (A):** La probabilidad de que una etiqueta gramatical siga a otra (e.g., la probabilidad de que un sustantivo siga a un determinante). Estas probabilidades se pueden estimar a partir de un corpus de texto etiquetado.
- **Probabilidades de emisi√≥n (B):** La probabilidad de que una palabra particular sea generada por una etiqueta gramatical espec√≠fica (e.g., la probabilidad de que la palabra "gato" tenga la etiqueta NOUN). Estas probabilidades tambi√©n se pueden estimar a partir de un corpus de texto etiquetado.
- **Probabilidades iniciales (œÄ):** La probabilidad de que una etiqueta gramatical sea la primera etiqueta en una oraci√≥n (e.g., la probabilidad de que la primera palabra de una oraci√≥n sea un determinante o un sustantivo).

### üß™ PRUEBA PR√ÅCTICA: Implementaci√≥n b√°sica del corpus "Time flies like an arrow"

‚úÖ **¬øQu√© lograramos con esto?**

- Armas el HMM desde cero.
- El c√≥digo es totalmente controlado (no usa librer√≠as externas de NLP).
- Prepara la base para aplicar **el algoritmo de Viterbi en el siguiente paso**.

In [1]:
import numpy as np
import pandas as pd

# Oraci√≥n de prueba
sentence = ["Time", "flies", "like", "an", "arrow"]

# Estados posibles
states = ["NOUN", "VERB", "DET", "PREP"]
observations = sentence

# √çndices
state_idx = {s: i for i, s in enumerate(states)}
obs_idx = {w: i for i, w in enumerate(observations)}

### 1. üîµ œÄ ‚Äì Probabilidades iniciales

In [2]:
# œÄ: Probabilidades iniciales
pi = [0.4, 0.3, 0.2, 0.1]  # [NOUN, VERB, DET, PREP]

### üìå ¬øQu√© representa?

Es la **probabilidad de comenzar** una oraci√≥n con cada una de las etiquetas posibles. Por ejemplo:

- ¬øQu√© tan probable es que la primera palabra de una oraci√≥n sea un **sustantivo** (`NOUN`)? Bastante com√∫n ‚Üí 0.4
- ¬øUn verbo al inicio? Posible pero no tanto ‚Üí 0.3
- ¬øUn determinante (`DET`)? Como "The", "An" ‚Üí 0.2
- ¬øUna preposici√≥n (`PREP`)? Muy raro ‚Üí 0.1

### üìã Criterio usado:

- Uso **intuitivo / heur√≠stico** basado en c√≥mo suelen comenzar las oraciones en ingl√©s.
- No usamos un corpus grande para entrenarlo (a√∫n), as√≠ que lo **asignamos a mano de forma razonada**.

### 2. üîÅ `A` ‚Äì Matriz de transici√≥n de estados

In [3]:
# A: Matriz de transici√≥n
A = np.array([
    [0.1, 0.6, 0.2, 0.1],  # desde NOUN
    [0.3, 0.1, 0.1, 0.5],  # desde VERB
    [0.7, 0.1, 0.1, 0.1],  # desde DET
    [0.6, 0.2, 0.1, 0.1],  # desde PREP
])

### üìå ¬øQu√© representa?

Cada fila dice: "si estoy en la etiqueta X, ¬øa qu√© etiqueta paso despu√©s con qu√© probabilidad?"

### Ejemplos:

- Desde `DET`, la probabilidad de pasar a `NOUN` es alta ‚Üí 0.7 (como en "an arrow").
- Desde `NOUN`, es com√∫n que siga un verbo ‚Üí 0.6
- Desde `VERB`, es com√∫n que venga una preposici√≥n ‚Üí 0.5 (como en "like an arrow").

### üìã Criterio usado:

- Heur√≠stica inspirada en reglas gramaticales t√≠picas del ingl√©s.
- Usamos **conocimiento ling√º√≠stico general** (y un poco de l√≥gica narrativa) para simular lo que har√≠a un corpus entrenado.

### 3. üü£ `B` ‚Äì Matriz de emisi√≥n

In [4]:
# B: Matriz de emisi√≥n
B = np.array([
    [0.3, 0.2, 0.1, 0.0, 0.4],  # NOUN
    [0.1, 0.6, 0.2, 0.0, 0.1],  # VERB
    [0.0, 0.0, 0.0, 1.0, 0.0],  # DET
    [0.0, 0.0, 0.9, 0.1, 0.0],  # PREP
])

### üìå ¬øQu√© representa?

Cada fila te dice: "¬øcu√°l es la probabilidad de que la palabra *X* haya sido generada por esta etiqueta?"

### Ejemplos:

- `"flies"` ‚Üí puede ser `VERB` (0.6) o `NOUN` (0.2) ‚Üí ¬°ambig√ºedad cl√°sica!
- `"like"` ‚Üí puede ser `PREP` (0.9) o `VERB` (0.2)
- `"an"` ‚Üí clar√≠simo que es `DET` (1.0)
- `"arrow"` ‚Üí muy probablemente un `NOUN` (0.4)

### üìã Criterio usado:

- Analizamos sem√°ntica y **ambig√ºedad l√©xica** de cada palabra.
- Los valores se asignan **a mano**, con la idea de **reflejar ambig√ºedad realista**.

In [5]:
# Mostrar matrices
print("Estados:", states)
print("Observaciones:", observations)
print("œÄ:", pi)
print("A:\n", pd.DataFrame(A, index=states, columns=states))
print("B:\n", pd.DataFrame(B, index=states, columns=observations))

Estados: ['NOUN', 'VERB', 'DET', 'PREP']
Observaciones: ['Time', 'flies', 'like', 'an', 'arrow']
œÄ: [0.4, 0.3, 0.2, 0.1]
A:
       NOUN  VERB  DET  PREP
NOUN   0.1   0.6  0.2   0.1
VERB   0.3   0.1  0.1   0.5
DET    0.7   0.1  0.1   0.1
PREP   0.6   0.2  0.1   0.1
B:
       Time  flies  like   an  arrow
NOUN   0.3    0.2   0.1  0.0    0.4
VERB   0.1    0.6   0.2  0.0    0.1
DET    0.0    0.0   0.0  1.0    0.0
PREP   0.0    0.0   0.9  0.1    0.0


## ¬øPor qu√© no usamos datos reales?

Porque estamos en una **fase inicial/prototipo** donde queremos entender bien c√≥mo funciona el modelo. Estos valores nos permiten:

- Testear el algoritmo de Viterbi sin necesidad de entrenamiento.
- Ver c√≥mo cambia la secuencia etiquetada si alteramos las probabilidades