## ✅ ¿Qué haremos en esta parte?

### **Objetivo**:

Usar el **Brown Corpus** (un corpus etiquetado del inglés) para:

- Probar el algoritmo de Viterbi.
- Validar los resultados en una oración real etiquetada.
- Comparar la secuencia etiquetada con la secuencia “verdadera”.

## 🔧 PASOS PARA AVANZAR:

### 📦 Paso 1: Instalar y cargar el corpus Brown

Usaremos **NLTK**, una librería muy común para NLP en Python.

```bash
pip install nltk
```

Código para cargar una parte del corpus:

In [2]:
import nltk
nltk.download('brown')
nltk.download('universal_tagset')


[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Unzipping corpora/brown.zip.
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Unzipping taggers/universal_tagset.zip.


True

### Explicacion del codigo:

- Se importa la biblioteca **NLTK (Natural Language Toolkit)**, una de las bibliotecas más utilizadas en Python para procesamiento de lenguaje natural. Contiene herramientas para tareas como tokenización, etiquetado gramatical (POS tagging), análisis sintáctico, etc.
- Se descarga el **Brown Corpus**, uno de los corpus más antiguos y ampliamente utilizados en lingüística computacional. Es una colección de textos en inglés estadounidense divididos en categorías temáticas. Se usa para entrenar y probar modelos de lenguaje, análisis gramatical, etc.
- Se descarga el **Universal Tagset**, que es un conjunto simplificado y estandarizado de etiquetas gramaticales (como `NOUN`, `VERB`, `ADJ`, etc.). Sirve para facilitar comparaciones entre lenguajes o corpus que utilizan diferentes conjuntos de etiquetas.


✅ **Resumen Visual:**

```
[NLTK] ---> [Brown Corpus 📘] + [Universal POS Tags 🏷️]

```

---

Luego, cargamos las oraciones etiquetadas con un **tagset universal** (simplificado, como NOUN, VERB, etc.):

In [3]:
from nltk.corpus import brown

# Obtener oraciones etiquetadas (solo las 5000 primeras para empezar)
tagged_sents = brown.tagged_sents(tagset='universal')[:5000]
tagged_sents[:1] # Visualizacion de la primera oracion

[[('The', 'DET'),
  ('Fulton', 'NOUN'),
  ('County', 'NOUN'),
  ('Grand', 'ADJ'),
  ('Jury', 'NOUN'),
  ('said', 'VERB'),
  ('Friday', 'NOUN'),
  ('an', 'DET'),
  ('investigation', 'NOUN'),
  ('of', 'ADP'),
  ("Atlanta's", 'NOUN'),
  ('recent', 'ADJ'),
  ('primary', 'NOUN'),
  ('election', 'NOUN'),
  ('produced', 'VERB'),
  ('``', '.'),
  ('no', 'DET'),
  ('evidence', 'NOUN'),
  ("''", '.'),
  ('that', 'ADP'),
  ('any', 'DET'),
  ('irregularities', 'NOUN'),
  ('took', 'VERB'),
  ('place', 'NOUN'),
  ('.', '.')]]

### Explicacion del codigo:

- Se importa el **corpus Brown** desde el módulo `nltk.corpus`. Esto nos da acceso directo al contenido del corpus, como palabras, oraciones y sus etiquetas gramaticales.
- `brown.tagged_sents(tagset='universal')`:
    - Esto obtiene las oraciones del corpus **Brown**, donde cada palabra está **etiquetada gramaticalmente** (por ejemplo: 'the/DET', 'dog/NOUN').
    - El parámetro `tagset='universal'` convierte las etiquetas del corpus a un conjunto **simplificado y estandarizado** de etiquetas gramaticales universales (como `NOUN`, `VERB`, `ADP`, etc.), en lugar del conjunto original del Brown Corpus.
---

### 🧠 Paso 2: Extraer listas de etiquetas y palabras

Vamos a obtener todas las **etiquetas** y **palabras** del corpus y crear un **vocabulario y conjunto de etiquetas únicos**:

In [4]:
# Listas vacías para almacenar
tag_sequences = []
word_sequences = []

for sent in tagged_sents:
    words, tags = zip(*sent)
    word_sequences.append(list(words))
    tag_sequences.append(list(tags))

print("Word despues del Zip", words)
print("Tags despues del Zip", tags)
print("Word secuence", word_sequences[-2:])
print("Tag secuence", tag_sequences[-2:])


# Vocabulario de palabras y etiquetas
all_tags = sorted(set(tag for tags in tag_sequences for tag in tags))
all_words = sorted(set(word.lower() for words in word_sequences for word in words))

# Crear índices
tag2idx = {tag: i for i, tag in enumerate(all_tags)}
word2idx = {word: i for i, word in enumerate(all_words)}

Word despues del Zip ('Does', 'it', 'attack', 'other', 'traditional', 'American', 'institutions', 'with', 'unsupportable', 'and', 'wild', 'charges', '?', '?')
Tags despues del Zip ('VERB', 'PRON', 'VERB', 'ADJ', 'ADJ', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'CONJ', 'ADJ', 'NOUN', '.', '.')
Word secuence [['2', '.'], ['Does', 'it', 'attack', 'other', 'traditional', 'American', 'institutions', 'with', 'unsupportable', 'and', 'wild', 'charges', '?', '?']]
Tag secuence [['NUM', '.'], ['VERB', 'PRON', 'VERB', 'ADJ', 'ADJ', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'CONJ', 'ADJ', 'NOUN', '.', '.']]


In [5]:
print("Todas las palabras", all_words[900:920])
print("Todas las etiquetas", all_tags)
print("Indices de palabras", dict(list(word2idx.items())[900:920]))
print("Indices de etiquetas", tag2idx)

Todas las palabras ['accused', 'ace', 'achaeans', "achaeans'", 'achieve', 'achieved', 'achievement', 'achievements', 'achieves', 'aching', 'acid', 'acknowledge', 'acknowledged', 'acknowledging', 'acknowledgment', 'acquaint', 'acquaintance', 'acquiesce', 'acquiesced', 'acquire']
Todas las etiquetas ['.', 'ADJ', 'ADP', 'ADV', 'CONJ', 'DET', 'NOUN', 'NUM', 'PRON', 'PRT', 'VERB', 'X']
Indices de palabras {'accused': 900, 'ace': 901, 'achaeans': 902, "achaeans'": 903, 'achieve': 904, 'achieved': 905, 'achievement': 906, 'achievements': 907, 'achieves': 908, 'aching': 909, 'acid': 910, 'acknowledge': 911, 'acknowledged': 912, 'acknowledging': 913, 'acknowledgment': 914, 'acquaint': 915, 'acquaintance': 916, 'acquiesce': 917, 'acquiesced': 918, 'acquire': 919}
Indices de etiquetas {'.': 0, 'ADJ': 1, 'ADP': 2, 'ADV': 3, 'CONJ': 4, 'DET': 5, 'NOUN': 6, 'NUM': 7, 'PRON': 8, 'PRT': 9, 'VERB': 10, 'X': 11}


### Explicacion del codigo:

| Parte | Descripción |
| --- | --- |
| `tag_sequences`, `word_sequences` | 📄 Listas para guardar solo las palabras y etiquetas de cada oración |
| `zip(*sent)` | Separa cada oración etiquetada en dos listas: palabras y etiquetas |
| `set(... for ...)` | Extrae todas las **palabras únicas** (en minúscula) y **etiquetas únicas** |
| `enumerate(...)` | Asigna un **índice numérico** a cada palabra y etiqueta |

---

✅ **Resumen visual paso a paso:**

```
1. [('The', 'DET'), ('dog', 'NOUN')] → zip → ['The', 'dog'], ['DET', 'NOUN']
2. word_sequences = [['The', 'dog'], ...]
3. tag_sequences  = [['DET', 'NOUN'], ...]

4. all_words = ['a', 'about', 'accident', ...]  → word2idx = {'a': 0, 'about': 1, ...}
5. all_tags  = ['ADJ', 'ADV', 'DET', ...]      → tag2idx  = {'ADJ': 0, 'ADV': 1, ...}
```
---

## 🎯 Paso 3: Estimar π (probabilidades iniciales)

La probabilidad π representa qué **tan seguido cada etiqueta inicia una oración**:

In [6]:
import numpy as np

num_tags = len(all_tags)
pi = np.zeros(num_tags)

# Contar cuántas veces comienza una oración con cada etiqueta
for tags in tag_sequences:
    first_tag = tags[0]
    pi[tag2idx[first_tag]] += 1

# Normalizar
pi /= pi.sum()



In [7]:
# imprimire pi mostrando a que etiqueta corresponde esa probabilida y cual fue su conteo
for i, p in enumerate(pi):
    print(f"{all_tags[i]}: {p:.4f} ({pi[i] * len(tag_sequences):.0f})")

.: 0.0824 (412)
ADJ: 0.0460 (230)
ADP: 0.1006 (503)
ADV: 0.0578 (289)
CONJ: 0.0380 (190)
DET: 0.2470 (1235)
NOUN: 0.2520 (1260)
NUM: 0.0164 (82)
PRON: 0.0952 (476)
PRT: 0.0272 (136)
VERB: 0.0368 (184)
X: 0.0006 (3)


### Explicacion del codigo:

### Vector de estados iniciales `π`

```python
num_tags = len(all_tags)     # Total de etiquetas (estados)
pi = np.zeros(num_tags)      # Inicializa un vector de ceros
```

Se crea un vector llamado `pi` que guardará **la probabilidad de comenzar una oración con cada etiqueta gramatical**.

Visualmente sería algo así como:

```
pi = [0, 0, 0, 0, ...]  ← uno por cada etiqueta (NOUN, VERB, DET, etc.)
```

### Contar etiquetas iniciales

```python
for tags in tag_sequences:
    first_tag = tags[0]
    pi[tag2idx[first_tag]] += 1
```

Recorre todas las oraciones y **cuenta con qué etiqueta comienza cada una**.

Ejemplo

- Si una oración empieza con `DET`, suma 1 al índice correspondiente en `pi`.

### Normalización

```python
pi /= pi.sum()
```

Convierte los conteos en **probabilidades reales** (todas suman 1).

📊 Ejemplo conceptual:

| Etiqueta inicial | Conteo | Probabilidad (π) |
| --- | --- | --- |
| DET | 2000 | 0.40 |
| NOUN | 1500 | 0.30 |
| VERB | 1500 | 0.30 |

---

## 🔄 Paso 4: Estimar A (matriz de transición)

La matriz A cuenta la frecuencia con que una etiqueta es seguida por otra:

In [8]:
A = np.zeros((num_tags, num_tags))

for tags in tag_sequences:
    for i in range(1, len(tags)):
        prev_tag = tags[i-1]
        curr_tag = tags[i]
        A[tag2idx[prev_tag], tag2idx[curr_tag]] += 1

# Normalizar por filas (para que cada fila sume 1)
A = A / A.sum(axis=1, keepdims=True)


In [9]:
import pandas as pd
#imprimire la matriz A donde las columas y filas tengan de nombre las etiquetas
print(pd.DataFrame(A, index=all_tags, columns=all_tags).round(3))


          .    ADJ    ADP    ADV   CONJ    DET   NOUN    NUM   PRON    PRT  \
.     0.126  0.043  0.107  0.052  0.080  0.120  0.216  0.029  0.067  0.022   
ADJ   0.066  0.062  0.073  0.005  0.026  0.005  0.711  0.018  0.002  0.016   
ADP   0.008  0.079  0.017  0.011  0.001  0.440  0.304  0.055  0.035  0.009   
ADV   0.129  0.123  0.153  0.079  0.017  0.085  0.053  0.023  0.036  0.029   
CONJ  0.018  0.112  0.061  0.059  0.000  0.147  0.336  0.025  0.041  0.025   
DET   0.010  0.236  0.008  0.014  0.000  0.006  0.643  0.018  0.006  0.002   
NOUN  0.251  0.017  0.216  0.021  0.049  0.012  0.254  0.010  0.013  0.017   
NUM   0.230  0.071  0.136  0.038  0.031  0.009  0.413  0.015  0.004  0.007   
PRON  0.066  0.010  0.046  0.056  0.012  0.013  0.007  0.001  0.008  0.020   
PRT   0.040  0.018  0.098  0.031  0.008  0.081  0.041  0.012  0.002  0.009   
VERB  0.065  0.052  0.172  0.076  0.010  0.179  0.126  0.017  0.032  0.066   
X     0.212  0.000  0.071  0.010  0.010  0.000  0.131  0.000  0.

### Explicacion del codigo:

```python
A = np.zeros((num_tags, num_tags))
```

Crea una **matriz de ceros** de tamaño `(número de etiquetas x número de etiquetas)`, es decir, una cuadrícula donde se guardarán las **probabilidades de transición entre etiquetas gramaticales**.

### Recorriendo secuencias para contar transiciones

```python
for tags in tag_sequences:
    for i in range(1, len(tags)):
        prev_tag = tags[i-1]
        curr_tag = tags[i]
        A[tag2idx[prev_tag], tag2idx[curr_tag]] += 1
```

🧩 Por cada oración, compara **pares consecutivos de etiquetas** como:

```python
['DET', 'NOUN', 'VERB']
```

Esto genera transiciones:

- `DET → NOUN`
- `NOUN → VERB`

Y suma 1 en la celda correspondiente de la matriz `A`.

Visualmente:

| De \ A | DET | NOUN | VERB |
| --- | --- | --- | --- |
| **DET** | 0 | 10 | 2 |
| **NOUN** | 1 | 3 | 8 |
| **VERB** | 2 | 1 | 0 |

### 🧪 Normalizar filas

```python
A = A / A.sum(axis=1, keepdims=True)
```

Convierte los conteos en **probabilidades**, de modo que cada fila (transiciones desde una etiqueta) sume 1.

Así, por ejemplo:

```
A[tag2idx['DET']] = [0.05, 0.85, 0.10]
```

Significa:

📌 Si estás en `DET`, hay **85% de chance de ir a NOUN**, 10% a VERB, etc.

---

## 📈 Paso 5: Estimar B (matriz de emisión)

La matriz B cuenta la frecuencia con que una palabra se observa bajo una etiqueta:

In [10]:
num_words = len(all_words)
B = np.zeros((num_tags, num_words))

for words, tags in zip(word_sequences, tag_sequences):
    for word, tag in zip(words, tags):
        w = word.lower()
        B[tag2idx[tag], word2idx[w]] += 1

# Normalizar por filas (cada fila suma 1)
B = B / B.sum(axis=1, keepdims=True)

In [11]:
# imrprimire B para que se visualice en las filas las etiquetas y en las columnas las palabras

print(pd.DataFrame(B, index=all_tags, columns=all_words).round(3))

          !   $1  $1,000  $1,000,000  $1,000,000,000  $1,250,000  $1,500  \
.     0.003  0.0     0.0         0.0             0.0         0.0     0.0   
ADJ   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
ADP   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
ADV   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
CONJ  0.000  0.0     0.0         0.0             0.0         0.0     0.0   
DET   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
NOUN  0.000  0.0     0.0         0.0             0.0         0.0     0.0   
NUM   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
PRON  0.000  0.0     0.0         0.0             0.0         0.0     0.0   
PRT   0.000  0.0     0.0         0.0             0.0         0.0     0.0   
VERB  0.000  0.0     0.0         0.0             0.0         0.0     0.0   
X     0.000  0.0     0.0         0.0             0.0         0.0     0.0   

      $1,50

### Explicacion del codigo:

```python
num_words = len(all_words)
B = np.zeros((num_tags, num_words))
```

Crea una **matriz de emisión** `B`, de tamaño:

```
(num_etiquetas x num_palabras)
```

Cada celda representará:

> ¿Con qué probabilidad una etiqueta (como NOUN) "emite" una palabra (como dog)?
>

### Recorriendo palabras y etiquetas

```python
for words, tags in zip(word_sequences, tag_sequences):
    for word, tag in zip(words, tags):
        w = word.lower()
        B[tag2idx[tag], word2idx[w]] += 1
```

Va palabra por palabra, etiqueta por etiqueta, y suma 1 en la celda correspondiente de la matriz `B`.

Ejemplo:

- Palabra: `"runs"`
- Etiqueta: `"VERB"`
    
    → Suma 1 en: `B[VERB, runs]`
    

### Normalización por filas

```python
B = B / B.sum(axis=1, keepdims=True)
```

Convierte los conteos en **probabilidades reales**.

Cada fila representa una etiqueta (`NOUN`, `VERB`, etc.) y **suma 1**.

Ejemplo visual:

| Etiqueta (fila) | ... 'dog' | 'runs' | 'quickly' | ... |
| --- | --- | --- | --- | --- |
| **NOUN** | 0.045 | 0.001 | 0.000 | ... |
| **VERB** | 0.000 | 0.080 | 0.002 | ... |
| **ADV** | 0.000 | 0.000 | 0.140 | ... |

---

## ✅ Listo! Ya tienemos π, A y B a partir del Brown Corpus

Estos tres componentes ahora nos permiten:

- Usar **el algoritmo de Viterbi con datos reales**.
- Evaluar frases reales del corpus.
- Hacer comparación entre la etiqueta predicha y la verdadera.

### 🚀 **Paso 1: Seleccionar una oración del Brown Corpus**

Vamos a seleccionar una oración del corpus, procesarla y aplicar el algoritmo de Viterbi para obtener la secuencia de etiquetas más probable.

Primero, seleccionamos una oración del corpus:

In [13]:
# Seleccionar la primera oración del Brown Corpus (etiquetada)
sentence = brown.sents()[0]  # Primer oración del corpus
tagged_sentence = brown.tagged_sents(tagset='universal')[0]  # Primer oración etiquetada
print("Oración original:", ' '.join(sentence))
print("Oración etiquetada:", tagged_sentence)

Oración original: The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced `` no evidence '' that any irregularities took place .
Oración etiquetada: [('The', 'DET'), ('Fulton', 'NOUN'), ('County', 'NOUN'), ('Grand', 'ADJ'), ('Jury', 'NOUN'), ('said', 'VERB'), ('Friday', 'NOUN'), ('an', 'DET'), ('investigation', 'NOUN'), ('of', 'ADP'), ("Atlanta's", 'NOUN'), ('recent', 'ADJ'), ('primary', 'NOUN'), ('election', 'NOUN'), ('produced', 'VERB'), ('``', '.'), ('no', 'DET'), ('evidence', 'NOUN'), ("''", '.'), ('that', 'ADP'), ('any', 'DET'), ('irregularities', 'NOUN'), ('took', 'VERB'), ('place', 'NOUN'), ('.', '.')]


### 🧑‍💻 **Paso 2: Aplicar el algoritmo de Viterbi**

Ahora que tenemos las matrices π, A y B, aplicamos el algoritmo de **Viterbi** que ya implementamos, pero esta vez con una **oración del corpus real**.

### Parte 1: **Preparación de los Datos**

In [14]:
# Convertir las palabras de la oración a índices
obs = [word.lower() for word in sentence]  # Convertir palabras a minúsculas
obs_idx = [word2idx[word] if word in word2idx else 0 for word in obs]  # Mapeo a índices

1. **Convertir las palabras de la oración a minúsculas**:
    - Aquí, estamos tomando la **oración original** (que es una lista de palabras) y convirtiendo cada palabra a **minúsculas** para normalizar la entrada. Esto asegura que "Perro" y "perro" se traten igual.
2. **Mapear las palabras a índices**:
    - convertimos cada palabra de la oración **`obs`** a su índice correspondiente en el vocabulario utilizando el diccionario `word2idx`. Si una palabra no está en el vocabulario (por ejemplo, una palabra desconocida o fuera del conjunto de entrenamiento), se asigna el índice 0 (generalmente usado como "palabra desconocida").

### Parte 2: **Inicialización de Variables**

In [15]:
# Número de estados y palabras
T = len(obs)
N = len(all_tags)

# Inicializar matrices delta y backpointers
delta = np.zeros((T, N))
psi = np.zeros((T, N), dtype=int)

1. **Número de estados (N) y observaciones (T)**:
    - **`T`** es el número de palabras (o **observaciones**) en la oración. Esto se obtiene a partir de la longitud de la lista `obs`.
    - **`N`** es el número de posibles **etiquetas** (o **estados**) que puede tener nuestra secuencia, que es igual al número de etiquetas en `all_tags`.
2. **Inicialización de las matrices delta y psi**:
    - **`delta`** es una matriz que almacenará las probabilidades de las secuencias de estados más probables hasta el momento (una especie de "probabilidad acumulada").
    - **`psi`** es una matriz de **backpointers** que nos ayudará a realizar el retroceso (retroceder en el tiempo para encontrar la mejor secuencia de estados).

### Parte 3: **Inicialización de las Matrices (Paso Base)**

In [16]:
# Inicialización
for s in range(N):
    delta[0, s] = pi[s] * B[s, obs_idx[0]]
    psi[0, s] = 0  # No hay backpointer en el primer paso

1. **Inicialización de `delta` y `psi` para el primer estado**:
- Para el primer estado (**t = 0**), se calcula la probabilidad de que cada etiqueta sea el estado inicial dado por la fórmula:
    - **`pi[s]`**: Probabilidad inicial de la etiqueta.
    - **`B[s, obs_idx[0]]`**: Probabilidad de la etiqueta **`s`** dada la primera palabra de la oración (en su índice).
- **`psi[0, s] = 0`**: No se necesita un backpointer en el primer paso porque no hay un paso anterior.