## ✅ ¿Qué haremos en esta parte?

### **Objetivo**:

Usar el **Brown Corpus** (un corpus etiquetado del inglés) para:

- Probar el algoritmo de Viterbi.
- Validar los resultados en una oración real etiquetada.
- Comparar la secuencia etiquetada con la secuencia “verdadera”.

## 🔧 PASOS PARA AVANZAR:

### 📦 Paso 1: Instalar y cargar el corpus Brown

Usaremos **NLTK**, una librería muy común para NLP en Python.

```bash
pip install nltk
```

Código para cargar una parte del corpus:

In [12]:
import nltk
nltk.download('brown')
nltk.download('universal_tagset')


[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!
[nltk_data] Downloading package universal_tagset to /root/nltk_data...
[nltk_data]   Package universal_tagset is already up-to-date!


True

### Explicacion del codigo:

- Se importa la biblioteca **NLTK (Natural Language Toolkit)**, una de las bibliotecas más utilizadas en Python para procesamiento de lenguaje natural. Contiene herramientas para tareas como tokenización, etiquetado gramatical (POS tagging), análisis sintáctico, etc.
- Se descarga el **Brown Corpus**, uno de los corpus más antiguos y ampliamente utilizados en lingüística computacional. Es una colección de textos en inglés estadounidense divididos en categorías temáticas. Se usa para entrenar y probar modelos de lenguaje, análisis gramatical, etc.
- Se descarga el **Universal Tagset**, que es un conjunto simplificado y estandarizado de etiquetas gramaticales (como `NOUN`, `VERB`, `ADJ`, etc.). Sirve para facilitar comparaciones entre lenguajes o corpus que utilizan diferentes conjuntos de etiquetas.


✅ **Resumen Visual:**

```
[NLTK] ---> [Brown Corpus 📘] + [Universal POS Tags 🏷️]

```

---

Luego, cargamos las oraciones etiquetadas con un **tagset universal** (simplificado, como NOUN, VERB, etc.):

In [54]:
from nltk.corpus import brown

# Obtener oraciones etiquetadas (solo las 5000 primeras para empezar)
tagged_sents = brown.tagged_sents(tagset='universal')[:5000]
tagged_sents[:1] # Visualizacion de la primera oracion

[[('The', 'DET'),
  ('Fulton', 'NOUN'),
  ('County', 'NOUN'),
  ('Grand', 'ADJ'),
  ('Jury', 'NOUN'),
  ('said', 'VERB'),
  ('Friday', 'NOUN'),
  ('an', 'DET'),
  ('investigation', 'NOUN'),
  ('of', 'ADP'),
  ("Atlanta's", 'NOUN'),
  ('recent', 'ADJ'),
  ('primary', 'NOUN'),
  ('election', 'NOUN'),
  ('produced', 'VERB'),
  ('``', '.'),
  ('no', 'DET'),
  ('evidence', 'NOUN'),
  ("''", '.'),
  ('that', 'ADP'),
  ('any', 'DET'),
  ('irregularities', 'NOUN'),
  ('took', 'VERB'),
  ('place', 'NOUN'),
  ('.', '.')]]

### Explicacion del codigo:

- Se importa el **corpus Brown** desde el módulo `nltk.corpus`. Esto nos da acceso directo al contenido del corpus, como palabras, oraciones y sus etiquetas gramaticales.
- `brown.tagged_sents(tagset='universal')`:
    - Esto obtiene las oraciones del corpus **Brown**, donde cada palabra está **etiquetada gramaticalmente** (por ejemplo: 'the/DET', 'dog/NOUN').
    - El parámetro `tagset='universal'` convierte las etiquetas del corpus a un conjunto **simplificado y estandarizado** de etiquetas gramaticales universales (como `NOUN`, `VERB`, `ADP`, etc.), en lugar del conjunto original del Brown Corpus.
---

### 🧠 Paso 2: Extraer listas de etiquetas y palabras

Vamos a obtener todas las **etiquetas** y **palabras** del corpus y crear un **vocabulario y conjunto de etiquetas únicos**:

In [55]:
# Listas vacías para almacenar
tag_sequences = []
word_sequences = []

for sent in tagged_sents:
    words, tags = zip(*sent)
    word_sequences.append(list(words))
    tag_sequences.append(list(tags))

print("Word despues del Zip", words)
print("Tags despues del Zip", tags)
print("Word secuence", word_sequences[-2:])
print("Tag secuence", tag_sequences[-2:])


# Vocabulario de palabras y etiquetas
all_tags = sorted(set(tag for tags in tag_sequences for tag in tags))
all_words = sorted(set(word.lower() for words in word_sequences for word in words))

# Crear índices
tag2idx = {tag: i for i, tag in enumerate(all_tags)}
word2idx = {word: i for i, word in enumerate(all_words)}

Word despues del Zip ('Does', 'it', 'attack', 'other', 'traditional', 'American', 'institutions', 'with', 'unsupportable', 'and', 'wild', 'charges', '?', '?')
Tags despues del Zip ('VERB', 'PRON', 'VERB', 'ADJ', 'ADJ', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'CONJ', 'ADJ', 'NOUN', '.', '.')
Word secuence [['2', '.'], ['Does', 'it', 'attack', 'other', 'traditional', 'American', 'institutions', 'with', 'unsupportable', 'and', 'wild', 'charges', '?', '?']]
Tag secuence [['NUM', '.'], ['VERB', 'PRON', 'VERB', 'ADJ', 'ADJ', 'ADJ', 'NOUN', 'ADP', 'ADJ', 'CONJ', 'ADJ', 'NOUN', '.', '.']]


In [58]:
print("Todas las palabras", all_words)
print("Todas las etiquetas", all_tags)
print("Indices de palabras", word2idx)
print("Indices de etiquetas", tag2idx)

Todas las etiquetas ['.', 'ADJ', 'ADP', 'ADV', 'CONJ', 'DET', 'NOUN', 'NUM', 'PRON', 'PRT', 'VERB', 'X']
Indices de etiquetas {'.': 0, 'ADJ': 1, 'ADP': 2, 'ADV': 3, 'CONJ': 4, 'DET': 5, 'NOUN': 6, 'NUM': 7, 'PRON': 8, 'PRT': 9, 'VERB': 10, 'X': 11}


### Explicacion del codigo:

| Parte | Descripción |
| --- | --- |
| `tag_sequences`, `word_sequences` | 📄 Listas para guardar solo las palabras y etiquetas de cada oración |
| `zip(*sent)` | Separa cada oración etiquetada en dos listas: palabras y etiquetas |
| `set(... for ...)` | Extrae todas las **palabras únicas** (en minúscula) y **etiquetas únicas** |
| `enumerate(...)` | Asigna un **índice numérico** a cada palabra y etiqueta |

---

✅ **Resumen visual paso a paso:**

```
1. [('The', 'DET'), ('dog', 'NOUN')] → zip → ['The', 'dog'], ['DET', 'NOUN']
2. word_sequences = [['The', 'dog'], ...]
3. tag_sequences  = [['DET', 'NOUN'], ...]

4. all_words = ['a', 'about', 'accident', ...]  → word2idx = {'a': 0, 'about': 1, ...}
5. all_tags  = ['ADJ', 'ADV', 'DET', ...]      → tag2idx  = {'ADJ': 0, 'ADV': 1, ...}
```