<a href="https://colab.research.google.com/github/apchavezr/19.-Procesamiento-del-Lenguaje-Natural/blob/main/preprocesamiento_texto_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 📓 Preprocesamiento de texto con NLTK

Este notebook muestra paso a paso cómo aplicar técnicas básicas de preprocesamiento de texto utilizando la librería **NLTK** en Python.

**Objetivo**

Implementar un flujo de preprocesamiento de texto en Python con NLTK, para que el estudiante comprenda y experimente de manera práctica las principales técnicas aplicadas en PLN.

In [6]:
# Instalar NLTK si no está en el entorno
# !pip install nltk

import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


## 1. Texto de ejemplo

In [5]:
texto = "Los estudiantes estaban corriendo rápidamente hacia la universidad, \
pero algunos ya habían corrido antes."

print("Texto original:")
print(texto)

Texto original:
Los estudiantes estaban corriendo rápidamente hacia la universidad, pero algunos ya habían corrido antes.


## 2. Tokenización

In [8]:
tokens = word_tokenize(texto.lower(), language='spanish')
print("Tokens generados:")
print(tokens)

Tokens generados:
['los', 'estudiantes', 'estaban', 'corriendo', 'rápidamente', 'hacia', 'la', 'universidad', ',', 'pero', 'algunos', 'ya', 'habían', 'corrido', 'antes', '.']


## 3. Eliminación de stopwords

In [9]:
stop_words = set(stopwords.words('spanish'))
tokens_sin_stop = [palabra for palabra in tokens if palabra not in stop_words and palabra.isalpha()]
print("Tokens sin stopwords:")
print(tokens_sin_stop)

Tokens sin stopwords:
['estudiantes', 'corriendo', 'rápidamente', 'hacia', 'universidad', 'corrido']


🔎 Observe cómo la oración se segmenta en palabras y signos de puntuación.

## 4. Stemming

In [11]:
stemmer = SnowballStemmer('spanish')
tokens_stem = [stemmer.stem(palabra) for palabra in tokens_sin_stop]
print("Stemming aplicado:")
print(tokens_stem)

Stemming aplicado:
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


🔎 Palabras como “los”, “la” y “pero” fueron eliminadas por ser stopwords.

## 5. Lematización

In [13]:
# Stemming con el algoritmo Snowball para español
stemmer = SnowballStemmer('spanish')
tokens_stem = [stemmer.stem(palabra) for palabra in tokens_sin_stop]

print("Stemming aplicado:")
print(tokens_stem)


Stemming aplicado:
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


🔎 Observe que algunas palabras se reducen a raíces como “corr” para “corriendo” y “corrido”.

## 6. Lematización (ejemplo en inglés)

NLTK no tiene un lematizador robusto en español, por lo que se ejemplifica en inglés:

In [14]:
lemmatizer = WordNetLemmatizer()

tokens_en = ["running", "ran", "runs"]
tokens_lem = [lemmatizer.lemmatize(pal, 'v') for pal in tokens_en]

print("Lematización en inglés:")
print(tokens_lem)


Lematización en inglés:
['run', 'run', 'run']


🔎 En este caso, todas las variantes verbales se reducen correctamente a “run”.

## 7. Flujo completo

In [12]:
print("Texto procesado final (stemming aplicado):")
print(tokens_stem)

Texto procesado final (stemming aplicado):
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


## Conclusiones  

Al comparar los resultados de la eliminación de stopwords, el stemming y la lematización, se evidencia que el vocabulario del texto se transforma de manera significativa. La eliminación de stopwords reduce la cantidad de palabras al descartar términos poco informativos, el stemming recorta palabras a formas más simples aunque a veces poco naturales, y la lematización devuelve la forma base correcta de cada término. Estas diferencias muestran que la elección de una técnica u otra depende del objetivo del análisis y del equilibrio entre precisión lingüística y eficiencia computacional.

📚 **Referencia**: Bird, S., Klein, E., & Loper, E. (2009). *Natural Language Processing with Python*. O’Reilly Media.