<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_jun/blob/main/04pln/clase_25.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 25


# WordNetLemmatizer - Documentaci√≥n detallada

üìå **Fuente oficial:**  
https://www.nltk.org/api/nltk.stem.WordNetLemmatizer.html

## ¬øQu√© es lematizaci√≥n?

La **lematizaci√≥n** es el proceso de reducir una palabra a su forma base o "lema" utilizando un diccionario ling√º√≠stico. A diferencia del "stemming", que simplemente corta sufijos sin tener en cuenta el contexto gramatical, la lematizaci√≥n produce formas reales de palabras.

Ejemplo:
- Stemming de *"better"* ‚Üí *"bett"*
- Lematizaci√≥n de *"better"* ‚Üí *"good"* (basado en el contexto gramatical)

---

## Introducci√≥n a `WordNetLemmatizer`

`WordNetLemmatizer` es una clase en `nltk.stem` que utiliza el corpus **WordNet**, una base de datos l√©xica del ingl√©s, para hacer lematizaci√≥n basada en reglas ling√º√≠sticas.

```python
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()
```

---

## M√©todo principal: `lemmatize(word, pos='n')`

Este m√©todo devuelve el **lema (forma base)** de una palabra dada, considerando opcionalmente su categor√≠a gramatical.

### üîß Par√°metros

- `word` (`str`): la palabra a lematizar.
- `pos` (`str`, opcional): parte del discurso (part-of-speech). Los valores v√°lidos son:
  - `'n'` ‚Üí sustantivo *(noun)* (por defecto)
  - `'v'` ‚Üí verbo *(verb)*
  - `'a'` ‚Üí adjetivo *(adjective)*
  - `'r'` ‚Üí adverbio *(adverb)*
  - `'s'` ‚Üí adjetivo sat√©lite *(adjective satellite)*

### üîÅ Retorno

Devuelve el **lema** de la palabra, es decir, su forma base seg√∫n WordNet.

---

## üß™ Ejemplos de uso

```python
lemmatizer.lemmatize("cats")          # 'cat'
lemmatizer.lemmatize("cacti")         # 'cactus'
lemmatizer.lemmatize("geese")         # 'goose'
lemmatizer.lemmatize("rocks")         # 'rock'
lemmatizer.lemmatize("python")        # 'python'
lemmatizer.lemmatize("better", pos="a")  # 'good'
lemmatizer.lemmatize("running", pos="v") # 'run'
```

‚ö†Ô∏è Por defecto, el m√©todo trata las palabras como **sustantivos**, por lo que es importante pasar la etiqueta `pos` adecuada para obtener resultados precisos.

---

## üß† ¬øC√≥mo mejorar la precisi√≥n?

Para lematizar correctamente, especialmente verbos o adjetivos, es recomendable hacer un **etiquetado gramatical (POS tagging)** antes:

```python
from nltk import pos_tag
from nltk.corpus import wordnet
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# Funci√≥n para convertir etiquetas POS de nltk a WordNet
def get_wordnet_pos(treebank_tag):
    if treebank_tag.startswith('J'):
        return wordnet.ADJ
    elif treebank_tag.startswith('V'):
        return wordnet.VERB
    elif treebank_tag.startswith('N'):
        return wordnet.NOUN
    elif treebank_tag.startswith('R'):
        return wordnet.ADV
    else:
        return wordnet.NOUN  # default

# Texto de entrada
text = "The striped bats are hanging on their feet for best"
tokens = word_tokenize(text)
tagged = pos_tag(tokens)

lemmatizer = WordNetLemmatizer()
lemmatized = [lemmatizer.lemmatize(word, get_wordnet_pos(pos)) for word, pos in tagged]
print(lemmatized)
```

---

## üì¶ Requisitos previos

Para usar WordNet, necesitas descargar los siguientes recursos:

```python
import nltk
nltk.download('wordnet')
nltk.download('omw-1.4')  # Para traducciones y sin√≥nimos
nltk.download('punkt')    # Para tokenizar textos
nltk.download('averaged_perceptron_tagger')  # Para POS tagging
```

---

## üß≠ Diferencias entre lematizaci√≥n y stemming

| Caracter√≠stica       | Lemmatizaci√≥n                   | Stemming                        |
|----------------------|----------------------------------|----------------------------------|
| Usa diccionario real | ‚úÖ S√≠                           | ‚ùå No                            |
| Precisi√≥n contextual | ‚úÖ Alta (con POS)               | ‚ùå Baja                          |
| Velocidad            | ‚ö†Ô∏è M√°s lenta                   | ‚úÖ M√°s r√°pida                    |
| Ejemplo              | "better" ‚Üí "good"               | "better" ‚Üí "bett"               |

---

## üîö Conclusi√≥n

`WordNetLemmatizer` es ideal para tareas de procesamiento de lenguaje natural (NLP) donde se requiere una forma limpia y gramaticalmente v√°lida de las palabras, como:

- An√°lisis de sentimientos
- Clasificaci√≥n de texto
- Extracci√≥n de entidades
- Traducci√≥n autom√°tica

---

## üîó Referencias √∫tiles

- [Documentaci√≥n oficial de NLTK](https://www.nltk.org)
- [WordNet en NLTK](https://www.nltk.org/howto/wordnet.html)
- [WordNet API](https://wordnet.princeton.edu/)


In [3]:
import nltk
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

wnl = WordNetLemmatizer()

print(wnl.lemmatize('dogs'))



[nltk_data] Downloading package wordnet to /root/nltk_data...


dog


In [4]:
print(wnl.lemmatize('churches'))


church


In [5]:
print(wnl.lemmatize('aardwolves'))


aardwolf


In [6]:
print(wnl.lemmatize('abaci'))


abacus


In [9]:
print(wnl.lemmatize('hardrock'))


hardrock


In [12]:
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print([wnl.lemmatize(w) for w in words])

['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


In [11]:
print(wnl.lemmatize('dies', 'v'))

die


In [13]:
print(wnl.lemmatize('watched', 'v'))

watch


In [14]:
print(wnl.lemmatize('has', 'v'))

have


In [15]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([wnl.lemmatize(a) for a in animals])

['aardwolf', 'mouse', 'goose', 'deer', 'sheep', 'moose', 'ox', 'manatee', 'fish', 'fish', 'wolf', 'leafcutter ants', 'calf', 'hoofed animals', 'octopus', 'octopus', 'cactus', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']


In [16]:
print(wnl.lemmatize('leafcutter ants', 'n'))

leafcutter ants



# PorterStemmer en NLTK - Gu√≠a detallada

üìå Basado en la documentaci√≥n de NLTK: https://www.nltk.org/howto/stem.html

## üå± ¬øQu√© es PorterStemmer?

`PorterStemmer` es una implementaci√≥n del algoritmo de stemming creado por **Martin Porter** en 1980.  
Su objetivo es reducir una palabra a su **ra√≠z morfol√≥gica** (stem) de forma eficiente, aunque sin preocuparse por la correcci√≥n gramatical o si el resultado es una palabra real del idioma.

Es uno de los algoritmos de stemming m√°s utilizados en tareas de procesamiento de lenguaje natural (NLP).

---

## üîß C√≥mo importar y usar

```python
from nltk.stem import PorterStemmer

ps = PorterStemmer()
print(ps.stem("running"))   # 'run'
print(ps.stem("flies"))     # 'fli'
print(ps.stem("studies"))   # 'studi'
print(ps.stem("believable"))# 'believ'
```

---

## üß™ Ejemplo con lista de palabras

```python
words = ["run", "runner", "running", "ran", "runs", "easily", "fairly"]

for word in words:
    print(f"{word} ‚Üí {ps.stem(word)}")
```

### Salida esperada:
```
run ‚Üí run
runner ‚Üí runner
running ‚Üí run
ran ‚Üí ran
runs ‚Üí run
easily ‚Üí easili
fairly ‚Üí fairli
```

---

## üìã Caracter√≠sticas del algoritmo Porter

- Basado en reglas morfol√≥gicas
- No usa diccionarios
- R√°pido y eficiente
- Puede generar palabras inexistentes (ej. "easily" ‚Üí "easili")

---

## üÜö Comparaci√≥n con otros stemmers

| Palabra     | Porter    | Lancaster |
|-------------|-----------|-----------|
| studies     | studi     | study     |
| maximum     | maximum   | maxim     |
| swimming    | swim      | swim      |
| possibly    | possibl   | poss      |

---

## üì¶ Requisitos para usar

```python
import nltk
nltk.download('punkt')  # Solo si vas a tokenizar
```

---

## üß≠ Cu√°ndo usar PorterStemmer

- Cuando necesitas rapidez y simplicidad
- En an√°lisis de texto donde la precisi√≥n gramatical no es cr√≠tica
- En sistemas de recuperaci√≥n de informaci√≥n (IR), b√∫squeda o clustering

---

## üîö Conclusi√≥n

`PorterStemmer` es una herramienta confiable y veloz para normalizar palabras en tareas de NLP. Aunque no devuelve formas reales del idioma, es muy √∫til cuando se requiere agrupar variaciones de una ra√≠z com√∫n.

In [17]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize
ps = PorterStemmer()
example_words = ["python","pythoner","pythoning","pythoned","pythonly"]
for w in example_words:
    print(ps.stem(w))

python
python
python
python
pythonli


In [18]:
animals = [
    "aardwolves",
    "mice",
    "geese",
    "deer",
    "sheep",
    "moose",
    "oxen",
    "manatees",
    "fish",
    "fishes",
    "wolves",
    "leafcutter ants",
    "calves",
    "hoofed animals",
    "octopuses",
    "octopi",
    "cacti",
    "fungi",
    "platypuses",
    "platypi",
    "larvae",
    "bacteria"
]

print([ps.stem(a) for a in animals])

['aardwolv', 'mice', 'gees', 'deer', 'sheep', 'moos', 'oxen', 'manate', 'fish', 'fish', 'wolv', 'leafcutter ', 'calv', 'hoofed anim', 'octopus', 'octopi', 'cacti', 'fungi', 'platypus', 'platypi', 'larva', 'bacteria']



# nltk.stem.PorterStemmer

## Clase PorterStemmer

```python
class nltk.stem.PorterStemmer()
```

---

## Descripci√≥n

Esta clase implementa el algoritmo **Porter stemming**, uno de los algoritmos de stemming m√°s populares en procesamiento de lenguaje natural.

El algoritmo fue creado por Martin Porter en 1980 y tiene como objetivo recortar los sufijos de las palabras para reducirlas a su ra√≠z o "stem".

El Porter Stemmer no garantiza que el resultado sea una palabra real, pero es eficiente para agrupar palabras similares.

---

## M√©todos principales

### `stem(word)`

Reduce la palabra dada a su ra√≠z o stem.

- **Par√°metros**:
  - `word` (`str`): La palabra a la que se le aplicar√° el stemming.

- **Retorna**:
  - `str`: La ra√≠z (stem) de la palabra.

- **Ejemplo**:

```python
from nltk.stem import PorterStemmer
ps = PorterStemmer()
print(ps.stem('running'))  # Salida: run
```

---

## Uso b√°sico

```python
from nltk.stem import PorterStemmer

stemmer = PorterStemmer()

words = ['caresses', 'flies', 'dies', 'mules', 'denied', 'died',
         'agreed', 'owned', 'humbled', 'sized', 'meeting', 'stating',
         'siezing', 'itemization', 'sensational', 'traditional',
         'reference', 'colonizer', 'plotted']

for word in words:
    print(f"{word} -> {stemmer.stem(word)}")
```

---

## Referencias

- [Art√≠culo original de Martin Porter (1980)](https://tartarus.org/martin/PorterStemmer/)
- Documentaci√≥n oficial de NLTK: [PorterStemmer](https://www.nltk.org/api/nltk.stem.PorterStemmer.html)

---

## Notas

- El stemming puede ser muy √∫til para tareas de miner√≠a de texto y recuperaci√≥n de informaci√≥n.
- Aunque el algoritmo es simple, es efectivo en muchos casos pr√°cticos.

---

In [20]:
import nltk
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

In [21]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

s = PorterStemmer()
text = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
words = word_tokenize(text)
print(words)


['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']


In [22]:
print([s.stem(w) for w in words])


['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']
