<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 25


# WordNetLemmatizer - Documentación detallada

📌 **Fuente oficial:**  
https://www.nltk.org/api/nltk.stem.WordNetLemmatizer.html

## ¿Qué es lematización?

La **lematización** es el proceso de reducir una palabra a su forma base o "lema" utilizando un diccionario lingüístico. A diferencia del "stemming", que simplemente corta sufijos sin tener en cuenta el contexto gramatical, la lematización produce formas reales de palabras.

Ejemplo:
- Stemming de *"better"* → *"bett"*
- Lematización de *"better"* → *"good"* (basado en el contexto gramatical)

---

## Introducción a `WordNetLemmatizer`

`WordNetLemmatizer` es una clase en `nltk.stem` que utiliza el corpus **WordNet**, una base de datos léxica del inglés, para hacer lematización basada en reglas lingüísticas.

```python
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
```

---

## Método principal: `lemmatize(word, pos='n')`

Este método devuelve el **lema (forma base)** de una palabra dada, considerando opcionalmente su categoría gramatical.

### 🔧 Parámetros

- `word` (`str`): la palabra a lematizar.
- `pos` (`str`, opcional): parte del discurso (part-of-speech). Los valores válidos son:
  - `'n'` → sustantivo *(noun)* (por defecto)
  - `'v'` → verbo *(verb)*
  - `'a'` → adjetivo *(adjective)*
  - `'r'` → adverbio *(adverb)*
  - `'s'` → adjetivo satélite *(adjective satellite)*

### 🔁 Retorno

Devuelve el **lema** de la palabra, es decir, su forma base según WordNet.

---

## 🧪 Ejemplos de uso

```python
lemmatizer.lemmatize("cats")          # 'cat'
lemmatizer.lemmatize("cacti")         # 'cactus'
lemmatizer.lemmatize("geese")         # 'goose'
lemmatizer.lemmatize("rocks")         # 'rock'
lemmatizer.lemmatize("python")        # 'python'
lemmatizer.lemmatize("better", pos="a")  # 'good'
lemmatizer.lemmatize("running", pos="v") # 'run'
```

⚠️ Por defecto, el método trata las palabras como **sustantivos**, por lo que es importante pasar la etiqueta `pos` adecuada para obtener resultados precisos.

---

## 🧠 ¿Cómo mejorar la precisión?

Para lematizar correctamente, especialmente verbos o adjetivos, es recomendable hacer un **etiquetado gramatical (POS tagging)** antes:

```python
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Función para convertir etiquetas POS de nltk a WordNet
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN  # default

# Texto de entrada
text = "The striped bats are hanging on their feet for best"
tokens = word_tokenize(text)
tagged = pos_tag(tokens)

lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(word, get_wordnet_pos(pos)) for word, pos in tagged]
print(lemmatized)
```

---

## 📦 Requisitos previos

Para usar WordNet, necesitas descargar los siguientes recursos:

```python
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')  # Para traducciones y sinónimos
nltk.download('punkt')    # Para tokenizar textos
nltk.download('averaged_perceptron_tagger')  # Para POS tagging
```

---

## 🧭 Diferencias entre lematización y stemming

| Característica       | Lemmatización                   | Stemming                        |
|----------------------|----------------------------------|----------------------------------|
| Usa diccionario real | ✅ Sí                           | ❌ No                            |
| Precisión contextual | ✅ Alta (con POS)               | ❌ Baja                          |
| Velocidad            | ⚠️ Más lenta                   | ✅ Más rápida                    |
| Ejemplo              | "better" → "good"               | "better" → "bett"               |

---

## 🔚 Conclusión

`WordNetLemmatizer` es ideal para tareas de procesamiento de lenguaje natural (NLP) donde se requiere una forma limpia y gramaticalmente válida de las palabras, como:

- Análisis de sentimientos
- Clasificación de texto
- Extracción de entidades
- Traducción automática

---

## 🔗 Referencias útiles

- [Documentación oficial de NLTK](https://www.nltk.org)
- [WordNet en NLTK](https://www.nltk.org/howto/wordnet.html)
- [WordNet API](https://wordnet.princeton.edu/)


In [3]:
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

wnl = WordNetLemmatizer()

print(wnl.lemmatize('dogs'))



[nltk_data] Downloading package wordnet to /root/nltk_data...


dog


In [4]:
print(wnl.lemmatize('churches'))


church


In [5]:
print(wnl.lemmatize('aardwolves'))


aardwolf


In [6]:
print(wnl.lemmatize('abaci'))


abacus


In [9]:
print(wnl.lemmatize('hardrock'))


hardrock


In [12]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([wnl.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [11]:
print(wnl.lemmatize('dies', 'v'))

die


In [13]:
print(wnl.lemmatize('watched', 'v'))

watch


In [14]:
print(wnl.lemmatize('has', 'v'))

have


In [15]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([wnl.lemmatize(a) for a in animals])

['aardwolf', 'mouse', 'goose', 'deer', 'sheep', 'moose', 'ox', 'manatee', 'fish', 'fish', 'wolf', 'leafcutter ants', 'calf', 'hoofed animals', 'octopus', 'octopus', 'cactus', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']


In [16]:
print(wnl.lemmatize('leafcutter ants', 'n'))

leafcutter ants



# PorterStemmer en NLTK - Guía detallada

📌 Basado en la documentación de NLTK: https://www.nltk.org/howto/stem.html

## 🌱 ¿Qué es PorterStemmer?

`PorterStemmer` es una implementación del algoritmo de stemming creado por **Martin Porter** en 1980.  
Su objetivo es reducir una palabra a su **raíz morfológica** (stem) de forma eficiente, aunque sin preocuparse por la corrección gramatical o si el resultado es una palabra real del idioma.

Es uno de los algoritmos de stemming más utilizados en tareas de procesamiento de lenguaje natural (NLP).

---

## 🔧 Cómo importar y usar

```python
from nltk.stem import PorterStemmer

ps = PorterStemmer()
print(ps.stem("running"))   # 'run'
print(ps.stem("flies"))     # 'fli'
print(ps.stem("studies"))   # 'studi'
print(ps.stem("believable"))# 'believ'
```

---

## 🧪 Ejemplo con lista de palabras

```python
words = ["run", "runner", "running", "ran", "runs", "easily", "fairly"]

for word in words:
    print(f"{word} → {ps.stem(word)}")
```

### Salida esperada:
```
run → run
runner → runner
running → run
ran → ran
runs → run
easily → easili
fairly → fairli
```

---

## 📋 Características del algoritmo Porter

- Basado en reglas morfológicas
- No usa diccionarios
- Rápido y eficiente
- Puede generar palabras inexistentes (ej. "easily" → "easili")

---

## 🆚 Comparación con otros stemmers

| Palabra     | Porter    | Lancaster |
|-------------|-----------|-----------|
| studies     | studi     | study     |
| maximum     | maximum   | maxim     |
| swimming    | swim      | swim      |
| possibly    | possibl   | poss      |

---

## 📦 Requisitos para usar

```python
import nltk
nltk.download('punkt')  # Solo si vas a tokenizar
```

---

## 🧭 Cuándo usar PorterStemmer

- Cuando necesitas rapidez y simplicidad
- En análisis de texto donde la precisión gramatical no es crítica
- En sistemas de recuperación de información (IR), búsqueda o clustering

---

## 🔚 Conclusión

`PorterStemmer` es una herramienta confiable y veloz para normalizar palabras en tareas de NLP. Aunque no devuelve formas reales del idioma, es muy útil cuando se requiere agrupar variaciones de una raíz común.

In [17]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
for w in example_words:
    print(ps.stem(w))

python
python
python
python
pythonli


In [18]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([ps.stem(a) for a in animals])

['aardwolv', 'mice', 'gees', 'deer', 'sheep', 'moos', 'oxen', 'manate', 'fish', 'fish', 'wolv', 'leafcutter ', 'calv', 'hoofed anim', 'octopus', 'octopi', 'cacti', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']



# nltk.stem.PorterStemmer

## Clase PorterStemmer

```python
class nltk.stem.PorterStemmer()
```

---

## Descripción

Esta clase implementa el algoritmo **Porter stemming**, uno de los algoritmos de stemming más populares en procesamiento de lenguaje natural.

El algoritmo fue creado por Martin Porter en 1980 y tiene como objetivo recortar los sufijos de las palabras para reducirlas a su raíz o "stem".

El Porter Stemmer no garantiza que el resultado sea una palabra real, pero es eficiente para agrupar palabras similares.

---

## Métodos principales

### `stem(word)`

Reduce la palabra dada a su raíz o stem.

- **Parámetros**:
  - `word` (`str`): La palabra a la que se le aplicará el stemming.

- **Retorna**:
  - `str`: La raíz (stem) de la palabra.

- **Ejemplo**:

```python
from nltk.stem import PorterStemmer
ps = PorterStemmer()
print(ps.stem('running'))  # Salida: run
```

---

## Uso básico

```python
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ['caresses', 'flies', 'dies', 'mules', 'denied', 'died',
         'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
         'siezing', 'itemization', 'sensational', 'traditional',
         'reference', 'colonizer', 'plotted']

for word in words:
    print(f"{word} -> {stemmer.stem(word)}")
```

---

## Referencias

- [Artículo original de Martin Porter (1980)](https://tartarus.org/martin/PorterStemmer/)
- Documentación oficial de NLTK: [PorterStemmer](https://www.nltk.org/api/nltk.stem.PorterStemmer.html)

---

## Notas

- El stemming puede ser muy útil para tareas de minería de texto y recuperación de información.
- Aunque el algoritmo es simple, es efectivo en muchos casos prácticos.

---

In [20]:
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [21]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)


['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [22]:
print([s.stem(w) for w in words])


['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


In [23]:
#Stemmatization algoritmo de Porter tiene las siguientes reglas.
#ALIZE → AL
#ANCE → Borrar
#ICAL → IC

# Ejemplo de stemming con reglas personalizadas (aparentemente solo ilustrativo)
words = ['formalize', 'allowance', 'electricical']
print([s.stem(w) for w in words])  # Esto requiere que definas un stemmer 's'

['formal', 'allow', 'electric']


In [24]:
# Usando PorterStemmer
from nltk.stem import PorterStemmer
s = PorterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([s.stem(w) for w in words])
# Output esperado: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']


In [25]:
# Usando LancasterStemmer
from nltk.stem import LancasterStemmer
l = LancasterStemmer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([l.stem(w) for w in words])
# Output esperado: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']



# POS Tagging (Etiquetado Gramatical)

## ¿Qué es el POS Tagging?

El POS tagging (Part-of-Speech Tagging) es el proceso de asignar una categoría gramatical a cada palabra en una oración, como sustantivo, verbo, adjetivo, etc.

---

## Ejemplo de POS Tagging

Frase: "El gato duerme en la alfombra"

Etiquetas posibles (en inglés):

| Palabra   | Etiqueta | Significado         |
|-----------|----------|---------------------|
| The       | DT       | Determiner          |
| cat       | NN       | Noun, singular      |
| sleeps    | VBZ      | Verb, 3ra pers. sing. presente |
| on        | IN       | Preposition/Subordinating conjunction |
| the       | DT       | Determiner          |
| mat       | NN       | Noun, singular      |

---

## Tabla de etiquetas POS (Penn Treebank)

| Etiqueta | Significado en inglés                 | Traducción / Descripción                         |
|----------|----------------------------------------|--------------------------------------------------|
| CC       | Coordinating conjunction              | Conjunción coordinada (e.g., and, but, or)       |
| CD       | Cardinal number                       | Número cardinal (e.g., one, two)                 |
| DT       | Determiner                            | Determinante (e.g., the, a, an)                  |
| EX       | Existential there                     | "There" existencial                              |
| FW       | Foreign word                          | Palabra extranjera                               |
| IN       | Preposition or subordinating conjunction | Preposición / conjunción subordinante        |
| JJ       | Adjective                             | Adjetivo                                          |
| JJR      | Adjective, comparative                | Adjetivo comparativo (e.g., better)              |
| JJS      | Adjective, superlative                | Adjetivo superlativo (e.g., best)                |
| LS       | List item marker                      | Marcador de ítem en lista                        |
| MD       | Modal                                 | Verbo modal (e.g., can, should)                  |
| NN       | Noun, singular or mass                | Sustantivo singular o incontable                 |
| NNS      | Noun, plural                          | Sustantivo plural                                 |
| NNP      | Proper noun, singular                 | Nombre propio singular (e.g., John)              |
| NNPS     | Proper noun, plural                   | Nombre propio plural                              |
| PDT      | Predeterminer                         | Predeterminante (e.g., all the kids)             |
| POS      | Possessive ending                     | Terminación posesiva (e.g., ’s)                  |
| PRP      | Personal pronoun                      | Pronombre personal (e.g., he, they)              |
| PRP$     | Possessive pronoun                    | Pronombre posesivo (e.g., his, her)              |
| RB       | Adverb                                | Adverbio (e.g., quickly)                         |
| RBR      | Adverb, comparative                   | Adverbio comparativo                             |
| RBS      | Adverb, superlative                   | Adverbio superlativo                             |
| RP       | Particle                              | Partícula (e.g., give up)                        |
| SYM      | Symbol                                | Símbolo                                          |
| TO       | to                                    | “to” como preposición o parte de infinitivo      |
| UH       | Interjection                          | Interjección (e.g., uh, wow)                     |
| VB       | Verb, base form                       | Verbo en infinitivo                              |
| VBD      | Verb, past tense                      | Verbo en pasado                                  |
| VBG      | Verb, gerund/present participle       | Verbo en gerundio                                |
| VBN      | Verb, past participle                 | Participio pasado                                |
| VBP      | Verb, non-3rd pers. sing. present     | Presente simple (yo, tú, nosotros)               |
| VBZ      | Verb, 3rd pers. sing. present         | Presente simple (él, ella, eso)                  |
| WDT      | Wh-determiner                         | Determinante interrogativo (which)               |
| WP       | Wh-pronoun                            | Pronombre interrogativo (who)                    |
| WP$      | Possessive wh-pronoun                 | Pronombre interrogativo posesivo (whose)         |
| WRB      | Wh-adverb                             | Adverbio interrogativo (where, when)             |

---

## Código en Python con NLTK

```python
import nltk

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

# Frase de ejemplo (en inglés)
frase = "The cat sleeps on the mat"

# Tokenización
tokens = nltk.word_tokenize(frase)

# Etiquetado gramatical
etiquetas = nltk.pos_tag(tokens)

# Mostrar resultados
print(etiquetas)
```

### Salida esperada:
```python
[('The', 'DT'), ('cat', 'NN'), ('sleeps', 'VBZ'), ('on', 'IN'), ('the', 'DT'), ('mat', 'NN')]
```

---

## Recursos adicionales

- https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html
- https://www.nltk.org/
- https://spacy.io/models/es


In [26]:
import nltk

# Descargar recursos necesarios
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.


True

In [28]:
nltk.download('averaged_perceptron_tagger_eng')


[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger_eng.zip.


True

In [29]:
# Frase de ejemplo (en inglés)
frase = "The Colosseum was build by the emperor Vespassian"

# Tokenización
tokens = nltk.word_tokenize(frase)

# Etiquetado gramatical
etiquetas = nltk.pos_tag(tokens)

# Mostrar resultados
print(etiquetas)

[('The', 'DT'), ('Colosseum', 'NNP'), ('was', 'VBD'), ('build', 'VBN'), ('by', 'IN'), ('the', 'DT'), ('emperor', 'NN'), ('Vespassian', 'JJ')]



# Codificación de Enteros en PLN

## ¿Qué es la codificación de enteros?

La codificación de enteros convierte palabras en números únicos para que los modelos de aprendizaje automático puedan trabajar con texto.

Este proceso suele incluir los siguientes pasos:
- Preprocesamiento del texto.
- Tokenización.
- Contar la frecuencia de las palabras.
- Filtrar palabras poco frecuentes.
- Asignar índices únicos a las palabras más relevantes.

---

## Código completo con explicaciones de cada librería

# Codificación de Enteros en Procesamiento de Lenguaje Natural

## Paso 1: Carga de librerías necesarias

```python
import nltk
nltk.download('punkt')  # Descarga el modelo de tokenización preentrenado para segmentación
```

- `nltk`: Biblioteca para el procesamiento de lenguaje natural.
- `nltk.download('punkt')`: Descarga los modelos de tokenización por oraciones y palabras (preentrenados).

---

## Paso 2: Importación de funciones clave

```python
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.corpus import stopwords
```

- `sent_tokenize`: Divide un texto en oraciones.
- `word_tokenize`: Divide una oración en palabras.
- `stopwords`: Lista de palabras vacías (como “el”, “la”, “de”, “and”, etc.) en distintos idiomas.

---

## Paso 3: Definir el texto de entrada

```python
text = "A barber is a person. a barber is a good person. a barber is a huge person. he Knew A Secret!. The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
```

Aquí definimos un párrafo con repeticiones y variaciones para observar cómo se tokenizan y codifican las palabras.

---

## Paso 4: Tokenizar el texto por oraciones

```python
text = sent_tokenize(text)
print(text)
```

Resultado:

```python
['A barber is a person.', 'a barber is a good person.', 'a barber is a huge person.', ...]
```

**¿Qué hace esto?**  
Convierte el párrafo completo en una lista de oraciones.

---

## Paso 5: Limpieza y tokenización de palabras

```python
vocab = {}  # Diccionario para contar palabras
sentences = []
stop_words = set(stopwords.words('english'))  # Palabras vacías del inglés

for i in text:
    sentence = word_tokenize(i)  # Tokenizar oración a palabras
    result = []
    for word in sentence:
        word = word.lower()  # Convertir a minúsculas
        if word not in stop_words and len(word) > 2:  # Eliminar stopwords y palabras muy cortas
            result.append(word)
            if word not in vocab:
                vocab[word] = 0
            vocab[word] += 1
    sentences.append(result)

print(sentences)
```

Esto genera una lista de listas, donde cada sublista contiene las palabras relevantes de una oración, sin stopwords ni palabras menores a 3 caracteres.

---

## Paso 6: Conteo de frecuencia de palabras

```python
print(vocab)
```

Resultado esperado:

```python
{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, ...}
```

---

## Paso 7: Ordenar por frecuencia

```python
vocab_sorted = sorted(vocab.items(), key=lambda x: x[1], reverse=True)
print(vocab_sorted)
```

Esto ordena las palabras desde la más frecuente a la menos frecuente.

---

## Paso 8: Asignar índices enteros

```python
word_to_index = {}
i = 0
for (word, frequency) in vocab_sorted:
    if frequency > 1:  # Solo incluir palabras con frecuencia mayor a 1
        i += 1
        word_to_index[word] = i

print(word_to_index)
```

---

## Paso 9: Usar solo las 5 palabras más frecuentes

```python
vocab_size = 5
words_frequency = [w for w, c in word_to_index.items() if c >= vocab_size + 1]
for w in words_frequency:
    del word_to_index[w]

print(word_to_index)
```

Esto filtra para conservar solo las 5 palabras más frecuentes.

---

## Paso 10: Añadir palabra 'OOV' y codificar las oraciones

```python
word_to_index['OOV'] = len(word_to_index) + 1
```

`OOV` (Out-Of-Vocabulary) representa las palabras fuera del vocabulario definido.

```python
encoded = []
for s in sentences:
    temp = []
    for w in s:
        try:
            temp.append(word_to_index[w])
        except KeyError:
            temp.append(word_to_index['OOV'])
    encoded.append(temp)

print(encoded)
```

Este paso convierte cada oración a una lista de enteros. Si una palabra no está en `word_to_index`, se reemplaza por el índice de `OOV`.

---



# 📘 Codificación por Enteros en PLN (Integer Encoding)

Este documento presenta distintas formas de representar texto como números enteros, lo cual es fundamental para tareas de procesamiento de lenguaje natural (PLN). Usaremos diversas bibliotecas de Python: `collections`, `nltk`, `numpy` y `keras`.

---

## 🔹 1. Uso de `Counter` de Python

La clase `Counter` del módulo `collections` permite contar la frecuencia de elementos en una lista de manera muy eficiente.

```python
from collections import Counter

sentences = [['barber', 'person'], ['barber', 'good', 'person'],
             ['barber', 'huge', 'person'], ['knew', 'secret'],
             ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'],
             ['barber', 'kept', 'word'], ['barber', 'kept', 'word'],
             ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving'],
             ['barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]

words = sum(sentences, [])
vocab = Counter(words)
```

`Counter(words)` crea un diccionario donde las claves son las palabras y los valores son sus frecuencias.

---

## 🔹 2. Selección de palabras más frecuentes

```python
vocab_size = 5
vocab = vocab.most_common(vocab_size)
```

El método `.most_common(n)` devuelve una lista con las `n` palabras más frecuentes y sus respectivas frecuencias.

---

## 🔹 3. Asignación de índices a palabras

```python
word_to_index = {}
i = 0
for word, frequency in vocab:
    i += 1
    word_to_index[word] = i
```

Se asigna un índice entero creciente a las palabras más frecuentes. Las palabras menos frecuentes pueden ser descartadas o tratadas como "desconocidas".

---

## 🔹 4. Uso de `FreqDist` de NLTK

NLTK (Natural Language Toolkit) es una biblioteca especializada para PLN. `FreqDist` es una clase de NLTK que cuenta frecuencias al igual que `Counter`, pero está optimizada para tareas de procesamiento de texto.

```python
from nltk import FreqDist
import numpy as np

vocab = FreqDist(np.hstack(sentences))
```

`np.hstack(sentences)` convierte la lista de listas en una lista plana. `FreqDist` luego cuenta las frecuencias.

---

## 🔹 5. Uso de `enumerate`

```python
test = ['a', 'b', 'c']
for index, value in enumerate(test):
    print(index, value)
```

`enumerate` es útil para recorrer listas y al mismo tiempo obtener el índice de cada elemento.

---

## 🔹 6. Tokenización con `Tokenizer` de Keras

Keras es una biblioteca de alto nivel para redes neuronales que incluye utilidades para preprocesamiento de texto. `Tokenizer` convierte texto en secuencias de enteros.

```python
from tensorflow.keras.preprocessing.text import Tokenizer

tokenizer = Tokenizer()
tokenizer.fit_on_texts(sentences)
```

- `.word_index` devuelve un diccionario de palabras con su índice asignado.
- `.word_counts` devuelve las frecuencias.
- `.texts_to_sequences(sentences)` convierte cada oración en una secuencia de enteros según el índice de cada palabra.

---

## 🔹 Resultado de Tokenizer

```python
tokenizer.word_index
# {'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, ...}

tokenizer.texts_to_sequences(sentences)
# [[1, 5], [1, 8, 5], [1, 3, 5], ...]
```

Esto permite representar texto como vectores numéricos, requisito esencial para que los modelos de aprendizaje automático puedan procesar texto.

---
