<h3>Stemming (Derivación) en NLTK</h3>

In [1]:
import nltk
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\theso\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [2]:
from nltk.stem import SnowballStemmer

# Crear el stemmer en español
stemmer_es = SnowballStemmer("spanish")

# Probarlo en la palabra "caminar"
print(stemmer_es.stem("caminando"))
print(stemmer_es.stem("caminar"))
print(stemmer_es.stem("caminó"))

# Como se puede ver, el stemmer no es perfecto y solo elimino los sufijos ando, ar y ó

camin
camin
camin


In [3]:
# Otro ejemplo mediante una lista de palabras usando un bucle
words = ["comer", "come", "comiendo", "comió", "navegando", "conocer", "reunirse"]

for word in words:
    print(word, " -> ", stemmer_es.stem(word))

comer  ->  com
come  ->  com
comiendo  ->  com
comió  ->  com
navegando  ->  naveg
conocer  ->  conoc
reunirse  ->  reun


<h3>Lemmatization (Lematización) con Spacy</h3>
<p>Las lematización es el proceso de convertir una palabra a su forma base. Por ejemplo, "corriendo" se lematiza como "correr".</p>

In [4]:
import spacy

In [5]:
!python -m spacy download es_core_news_sm -q

[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')



[notice] A new release of pip is available: 23.2.1 -> 24.0
[notice] To update, run: python.exe -m pip install --upgrade pip


In [6]:
# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

# Crear un documento
doc = nlp("caminando caminar caminó comer comiendo comió navegando conocer reunirse")


for token in doc:
    print(token, " -> ", token.lemma_)

caminando  ->  caminar
caminar  ->  caminar
caminó  ->  caminar
comer  ->  comer
comiendo  ->  comer
comió  ->  comer
navegando  ->  navegar
conocer  ->  conocer
reunirse  ->  reunir él


<h3>Personalización del lematizador</h3>
<p>Spacy permite personalizar el lematizador mediante el uso de reglas. Por ejemplo, si queremos que "Carnal" y "Bro" se lematizen como "Hermano", podemos agregar una regla al lematizador.</p>

In [7]:
nlp.pipe_names

['tok2vec', 'morphologizer', 'parser', 'attribute_ruler', 'lemmatizer', 'ner']

In [8]:
ar = nlp.get_pipe('attribute_ruler')

ar.add([[{"TEXT":"Carnal"}],[{"TEXT":"Bro"}]],{"LEMMA":"Hermano"})
ar.add([[{"TEXT":"digas"}]],{"LEMMA":"decir"})

doc = nlp("Carnal, quieres ir? ¡Bro, no digas que no! - Estoy durmiendo.")
for token in doc:
    print(token.text, " -> ", token.lemma_)

Carnal  ->  Hermano
,  ->  ,
quieres  ->  querer
ir  ->  ir
?  ->  ?
¡  ->  ¡
Bro  ->  Hermano
,  ->  ,
no  ->  no
digas  ->  decir
que  ->  que
no  ->  no
!  ->  !
-  ->  -
Estoy  ->  estar
durmiendo  ->  dormir
.  ->  .


In [9]:
doc[0]

Carnal

In [10]:
doc[0].lemma_

'Hermano'