<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 25


# WordNetLemmatizer - Documentación detallada

📌 **Fuente oficial:**  
https://www.nltk.org/api/nltk.stem.WordNetLemmatizer.html

## ¿Qué es lematización?

La **lematización** es el proceso de reducir una palabra a su forma base o "lema" utilizando un diccionario lingüístico. A diferencia del "stemming", que simplemente corta sufijos sin tener en cuenta el contexto gramatical, la lematización produce formas reales de palabras.

Ejemplo:
- Stemming de *"better"* → *"bett"*
- Lematización de *"better"* → *"good"* (basado en el contexto gramatical)

---

## Introducción a `WordNetLemmatizer`

`WordNetLemmatizer` es una clase en `nltk.stem` que utiliza el corpus **WordNet**, una base de datos léxica del inglés, para hacer lematización basada en reglas lingüísticas.

```python
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
```

---

## Método principal: `lemmatize(word, pos='n')`

Este método devuelve el **lema (forma base)** de una palabra dada, considerando opcionalmente su categoría gramatical.

### 🔧 Parámetros

- `word` (`str`): la palabra a lematizar.
- `pos` (`str`, opcional): parte del discurso (part-of-speech). Los valores válidos son:
  - `'n'` → sustantivo *(noun)* (por defecto)
  - `'v'` → verbo *(verb)*
  - `'a'` → adjetivo *(adjective)*
  - `'r'` → adverbio *(adverb)*
  - `'s'` → adjetivo satélite *(adjective satellite)*

### 🔁 Retorno

Devuelve el **lema** de la palabra, es decir, su forma base según WordNet.

---

## 🧪 Ejemplos de uso

```python
lemmatizer.lemmatize("cats")          # 'cat'
lemmatizer.lemmatize("cacti")         # 'cactus'
lemmatizer.lemmatize("geese")         # 'goose'
lemmatizer.lemmatize("rocks")         # 'rock'
lemmatizer.lemmatize("python")        # 'python'
lemmatizer.lemmatize("better", pos="a")  # 'good'
lemmatizer.lemmatize("running", pos="v") # 'run'
```

⚠️ Por defecto, el método trata las palabras como **sustantivos**, por lo que es importante pasar la etiqueta `pos` adecuada para obtener resultados precisos.

---

## 🧠 ¿Cómo mejorar la precisión?

Para lematizar correctamente, especialmente verbos o adjetivos, es recomendable hacer un **etiquetado gramatical (POS tagging)** antes:

```python
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Función para convertir etiquetas POS de nltk a WordNet
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN  # default

# Texto de entrada
text = "The striped bats are hanging on their feet for best"
tokens = word_tokenize(text)
tagged = pos_tag(tokens)

lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(word, get_wordnet_pos(pos)) for word, pos in tagged]
print(lemmatized)
```

---

## 📦 Requisitos previos

Para usar WordNet, necesitas descargar los siguientes recursos:

```python
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')  # Para traducciones y sinónimos
nltk.download('punkt')    # Para tokenizar textos
nltk.download('averaged_perceptron_tagger')  # Para POS tagging
```

---

## 🧭 Diferencias entre lematización y stemming

| Característica       | Lemmatización                   | Stemming                        |
|----------------------|----------------------------------|----------------------------------|
| Usa diccionario real | ✅ Sí                           | ❌ No                            |
| Precisión contextual | ✅ Alta (con POS)               | ❌ Baja                          |
| Velocidad            | ⚠️ Más lenta                   | ✅ Más rápida                    |
| Ejemplo              | "better" → "good"               | "better" → "bett"               |

---

## 🔚 Conclusión

`WordNetLemmatizer` es ideal para tareas de procesamiento de lenguaje natural (NLP) donde se requiere una forma limpia y gramaticalmente válida de las palabras, como:

- Análisis de sentimientos
- Clasificación de texto
- Extracción de entidades
- Traducción automática

---

## 🔗 Referencias útiles

- [Documentación oficial de NLTK](https://www.nltk.org)
- [WordNet en NLTK](https://www.nltk.org/howto/wordnet.html)
- [WordNet API](https://wordnet.princeton.edu/)


In [3]:
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

wnl = WordNetLemmatizer()

print(wnl.lemmatize('dogs'))



[nltk_data] Downloading package wordnet to /root/nltk_data...


dog


In [4]:
print(wnl.lemmatize('churches'))


church


In [5]:
print(wnl.lemmatize('aardwolves'))


aardwolf


In [6]:
print(wnl.lemmatize('abaci'))


abacus


In [9]:
print(wnl.lemmatize('hardrock'))


hardrock


In [12]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([wnl.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [11]:
print(wnl.lemmatize('dies', 'v'))

die


In [13]:
print(wnl.lemmatize('watched', 'v'))

watch


In [14]:
print(wnl.lemmatize('has', 'v'))

have


In [15]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([wnl.lemmatize(a) for a in animals])

['aardwolf', 'mouse', 'goose', 'deer', 'sheep', 'moose', 'ox', 'manatee', 'fish', 'fish', 'wolf', 'leafcutter ants', 'calf', 'hoofed animals', 'octopus', 'octopus', 'cactus', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']


In [16]:
print(wnl.lemmatize('leafcutter ants', 'n'))

leafcutter ants



# PorterStemmer en NLTK - Guía detallada

📌 Basado en la documentación de NLTK: https://www.nltk.org/howto/stem.html

## 🌱 ¿Qué es PorterStemmer?

`PorterStemmer` es una implementación del algoritmo de stemming creado por **Martin Porter** en 1980.  
Su objetivo es reducir una palabra a su **raíz morfológica** (stem) de forma eficiente, aunque sin preocuparse por la corrección gramatical o si el resultado es una palabra real del idioma.

Es uno de los algoritmos de stemming más utilizados en tareas de procesamiento de lenguaje natural (NLP).

---

## 🔧 Cómo importar y usar

```python
from nltk.stem import PorterStemmer

ps = PorterStemmer()
print(ps.stem("running"))   # 'run'
print(ps.stem("flies"))     # 'fli'
print(ps.stem("studies"))   # 'studi'
print(ps.stem("believable"))# 'believ'
```

---

## 🧪 Ejemplo con lista de palabras

```python
words = ["run", "runner", "running", "ran", "runs", "easily", "fairly"]

for word in words:
    print(f"{word} → {ps.stem(word)}")
```

### Salida esperada:
```
run → run
runner → runner
running → run
ran → ran
runs → run
easily → easili
fairly → fairli
```

---

## 📋 Características del algoritmo Porter

- Basado en reglas morfológicas
- No usa diccionarios
- Rápido y eficiente
- Puede generar palabras inexistentes (ej. "easily" → "easili")

---

## 🆚 Comparación con otros stemmers

| Palabra     | Porter    | Lancaster |
|-------------|-----------|-----------|
| studies     | studi     | study     |
| maximum     | maximum   | maxim     |
| swimming    | swim      | swim      |
| possibly    | possibl   | poss      |

---

## 📦 Requisitos para usar

```python
import nltk
nltk.download('punkt')  # Solo si vas a tokenizar
```

---

## 🧭 Cuándo usar PorterStemmer

- Cuando necesitas rapidez y simplicidad
- En análisis de texto donde la precisión gramatical no es crítica
- En sistemas de recuperación de información (IR), búsqueda o clustering

---

## 🔚 Conclusión

`PorterStemmer` es una herramienta confiable y veloz para normalizar palabras en tareas de NLP. Aunque no devuelve formas reales del idioma, es muy útil cuando se requiere agrupar variaciones de una raíz común.

In [17]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
for w in example_words:
    print(ps.stem(w))

python
python
python
python
pythonli


In [18]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([ps.stem(a) for a in animals])

['aardwolv', 'mice', 'gees', 'deer', 'sheep', 'moos', 'oxen', 'manate', 'fish', 'fish', 'wolv', 'leafcutter ', 'calv', 'hoofed anim', 'octopus', 'octopi', 'cacti', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']



# nltk.stem.PorterStemmer

## Clase PorterStemmer

```python
class nltk.stem.PorterStemmer()
```

---

## Descripción

Esta clase implementa el algoritmo **Porter stemming**, uno de los algoritmos de stemming más populares en procesamiento de lenguaje natural.

El algoritmo fue creado por Martin Porter en 1980 y tiene como objetivo recortar los sufijos de las palabras para reducirlas a su raíz o "stem".

El Porter Stemmer no garantiza que el resultado sea una palabra real, pero es eficiente para agrupar palabras similares.

---

## Métodos principales

### `stem(word)`

Reduce la palabra dada a su raíz o stem.

- **Parámetros**:
  - `word` (`str`): La palabra a la que se le aplicará el stemming.

- **Retorna**:
  - `str`: La raíz (stem) de la palabra.

- **Ejemplo**:

```python
from nltk.stem import PorterStemmer
ps = PorterStemmer()
print(ps.stem('running'))  # Salida: run
```

---

## Uso básico

```python
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ['caresses', 'flies', 'dies', 'mules', 'denied', 'died',
         'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
         'siezing', 'itemization', 'sensational', 'traditional',
         'reference', 'colonizer', 'plotted']

for word in words:
    print(f"{word} -> {stemmer.stem(word)}")
```

---

## Referencias

- [Artículo original de Martin Porter (1980)](https://tartarus.org/martin/PorterStemmer/)
- Documentación oficial de NLTK: [PorterStemmer](https://www.nltk.org/api/nltk.stem.PorterStemmer.html)

---

## Notas

- El stemming puede ser muy útil para tareas de minería de texto y recuperación de información.
- Aunque el algoritmo es simple, es efectivo en muchos casos prácticos.

---

In [20]:
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [21]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)


['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [22]:
print([s.stem(w) for w in words])


['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']
