<h3>Stemming (Derivación) en NLTK</h3>

Cargar el corpus tokenizado sin stopwords desde el archivo JSON:

In [1]:
import json

with open('recursos/corpus_NOstopword_tokenizado.json', 'r', encoding='utf-8') as file:
    tokenized_corpus = json.load(file)

Aplicar el stemming utilizando NLTK:

In [3]:
import nltk
from nltk.stem import SnowballStemmer

# Descargar los recursos necesarios de NLTK
nltk.download('wordnet')

# Crear el stemmer en español
stemmer_es = SnowballStemmer("spanish")

stemmed_corpus = []
for documento in tokenized_corpus:
    stemmed_tokens = [stemmer_es.stem(token) for token in documento["tokens_sin_stopwords"]]
    stemmed_corpus.append({
        "grado": documento["grado"],
        "materia": documento["materia"],
        "archivo": documento["archivo"],
        "tokens_stemmed": stemmed_tokens
    })

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\theso\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


Probar el stemming con algunas palabras de corpus:

In [7]:
# Imprimimos los primeros 10 tokens de cada documento
for documento in stemmed_corpus:
    print(documento["materia"], "-", documento["tokens_stemmed"][:10])

ciencias_1 - ['explor', 'naturalez', 'socied', 'grad', 'indic', 'present', 'conoc', 'libr', 'bloqu', 'cuid']
civica_1 - ['formacion', 'civic', 'etic', 'grad', 'indic', 'bloqu', 'bloqu', 'conoc', 'libr', 'conozc']
español_1 - ['espanol', 'libr', 'alumn', 'grad', 'espanol', 'libr', 'alumn', 'grad', 'obra', 'ilustr']
español_2 - ['espanol', 'libr', 'lectur', 'grad', 'vist', 'tijer', 'fern', 'krahn', 'busc', 'bibliotec']
matematicas_1 - ['desafi', 'matemat', 'libr', 'alumn', 'grad', 'desafi', 'matemat', 'grad', 'present', 'introduccion']
ciencias_2 - ['explor', 'naturalez', 'socied', 'grad', 'indic', 'present', 'conoc', 'libr', 'bloqu', 'vid']
civica_2 - ['formacion', 'civic', 'etic', 'grad', 'indic', 'bloqu', 'bloqu', 'present', 'conoc', 'libr']
español_2_1 - ['espanol', 'libr', 'alumn', 'grad', 'utiliz', 'icon', 'libr', 'leccion', 'encontr', 'icon']
español_2_2 - ['espanol', 'libr', 'lectur', 'grad', 'indic', 'gust', 'perr', 'huel', 'cigarr', 'hormig']
matematicas_2 - ['desafi', 'mat

In [21]:
# Seleccionar indice del documento a utilizar
indice = 21

# Imprimir el documento original y el documento con stemming usando un bucle
for token in range(20):
    print(tokenized_corpus[indice]["tokens_sin_stopwords"][token], " -> ", stemmed_corpus[indice]["tokens_stemmed"][token])

desafios  ->  desafi
matematicos  ->  matemat
libro  ->  libr
alumno  ->  alumn
cuarto  ->  cuart
grado  ->  grad
indice  ->  indic
introduccion  ->  introduccion
bloque  ->  bloqu
libreros  ->  librer
suma  ->  sum
productos  ->  product
decimos  ->  dec
centesimos  ->  centes
milesimos  ->  miles
expresiones  ->  expresion
punto  ->  punt
fabrica  ->  fabric
tapetes  ->  tapet
fiesta  ->  fiest


<h3>Lemmatization (Lematización) con Spacy</h3>
<p>Las lematización es el proceso de convertir una palabra a su forma base. Por ejemplo, "corriendo" se lematiza como "correr".</p>

In [13]:
import spacy

# Cargar el modelo en español
nlp = spacy.load("es_core_news_sm")

lemmatized_corpus = []
for documento in tokenized_corpus:
    doc = nlp(" ".join(documento["tokens_sin_stopwords"]))
    lemmatized_tokens = [token.lemma_ for token in doc]
    lemmatized_corpus.append({
        "grado": documento["grado"],
        "materia": documento["materia"],
        "archivo": documento["archivo"],
        "tokens_lemmatized": lemmatized_tokens
    })

In [14]:
# Imprimimos los primeros 10 tokens de cada documento
for documento in lemmatized_corpus:
    print(documento["materia"], "-", documento["tokens_lemmatized"][:10])

ciencias_1 - ['exploracion', 'naturaleza', 'sociedad', 'grado', 'indecir', 'presentacion', 'conocer', 'libro', 'blocar', 'cuidado']
civica_1 - ['formacion', 'civicar', 'etico', 'grado', 'indecir', 'bloque', 'bloque', 'conocer', 'libro', 'conocer']
español_1 - ['espanol', 'libro', 'alumno', 'grado', 'espanol', 'libro', 'alumno', 'grado', 'obra', 'ilustro']
español_2 - ['espanol', 'libro', 'lectura', 'grado', 'visto', 'tijera', 'fernando', 'krahn', 'buscar', 'biblioteca']
matematicas_1 - ['desafio', 'matematico', 'libro', 'alumno', 'grado', 'desafio', 'matematico', 'grado', 'presentacion', 'introduccion']
ciencias_2 - ['exploracion', 'naturaleza', 'sociedad', 'grado', 'indecir', 'presentacion', 'conocer', 'libro', 'bloque', 'vida']
civica_2 - ['formacion', 'civicar', 'etico', 'grado', 'indecir', 'bloque', 'bloque', 'presentacion', 'conocer', 'libro']
español_2_1 - ['espanol', 'libro', 'alumno', 'grado', 'utilizar', 'icono', 'libro', 'lección', 'encontrara', 'icono']
español_2_2 - ['e

In [19]:
# Seleccionar indice del documento a utilizar
indice = 21

# Imprimir el documento original y el documento con lematización usando un bucle
for token in range(20):
    print(tokenized_corpus[indice]["tokens_sin_stopwords"][token], " -> ", lemmatized_corpus[indice]["tokens_lemmatized"][token])

desafios  ->  desafio
matematicos  ->  matematico
libro  ->  libro
alumno  ->  alumno
cuarto  ->  cuarto
grado  ->  grado
indice  ->  indecir
introduccion  ->  introduccion
bloque  ->  bloque
libreros  ->  librero
suma  ->  sumar
productos  ->  producto
decimos  ->  decir
centesimos  ->  centesimo
milesimos  ->  milesir
expresiones  ->  expresión
punto  ->  punto
fabrica  ->  fabricar
tapetes  ->  tapetes
fiesta  ->  fiesta
