<a href="https://colab.research.google.com/github/apchavezr/19.-Procesamiento-del-Lenguaje-Natural/blob/main/preprocesamiento_texto_nltk.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üìì Preprocesamiento de texto con NLTK

Este notebook muestra paso a paso c√≥mo aplicar t√©cnicas b√°sicas de preprocesamiento de texto utilizando la librer√≠a **NLTK** en Python.

**Objetivo**

Implementar un flujo de preprocesamiento de texto en Python con NLTK, para que el estudiante comprenda y experimente de manera pr√°ctica las principales t√©cnicas aplicadas en PLN.

In [6]:
# Instalar NLTK si no est√° en el entorno
# !pip install nltk

import nltk
nltk.download('punkt')
nltk.download('stopwords')
nltk.download('wordnet')
nltk.download('punkt_tab')

from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, WordNetLemmatizer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


## 1. Texto de ejemplo

In [5]:
texto = "Los estudiantes estaban corriendo r√°pidamente hacia la universidad, \
pero algunos ya hab√≠an corrido antes."

print("Texto original:")
print(texto)

Texto original:
Los estudiantes estaban corriendo r√°pidamente hacia la universidad, pero algunos ya hab√≠an corrido antes.


## 2. Tokenizaci√≥n

In [8]:
tokens = word_tokenize(texto.lower(), language='spanish')
print("Tokens generados:")
print(tokens)

Tokens generados:
['los', 'estudiantes', 'estaban', 'corriendo', 'r√°pidamente', 'hacia', 'la', 'universidad', ',', 'pero', 'algunos', 'ya', 'hab√≠an', 'corrido', 'antes', '.']


## 3. Eliminaci√≥n de stopwords

In [9]:
stop_words = set(stopwords.words('spanish'))
tokens_sin_stop = [palabra for palabra in tokens if palabra not in stop_words and palabra.isalpha()]
print("Tokens sin stopwords:")
print(tokens_sin_stop)

Tokens sin stopwords:
['estudiantes', 'corriendo', 'r√°pidamente', 'hacia', 'universidad', 'corrido']


üîé Observe c√≥mo la oraci√≥n se segmenta en palabras y signos de puntuaci√≥n.

## 4. Stemming

In [11]:
stemmer = SnowballStemmer('spanish')
tokens_stem = [stemmer.stem(palabra) for palabra in tokens_sin_stop]
print("Stemming aplicado:")
print(tokens_stem)

Stemming aplicado:
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


üîé Palabras como ‚Äúlos‚Äù, ‚Äúla‚Äù y ‚Äúpero‚Äù fueron eliminadas por ser stopwords.

## 5. Lematizaci√≥n

In [13]:
# Stemming con el algoritmo Snowball para espa√±ol
stemmer = SnowballStemmer('spanish')
tokens_stem = [stemmer.stem(palabra) for palabra in tokens_sin_stop]

print("Stemming aplicado:")
print(tokens_stem)


Stemming aplicado:
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


üîé Observe que algunas palabras se reducen a ra√≠ces como ‚Äúcorr‚Äù para ‚Äúcorriendo‚Äù y ‚Äúcorrido‚Äù.

## 6. Lematizaci√≥n (ejemplo en ingl√©s)

NLTK no tiene un lematizador robusto en espa√±ol, por lo que se ejemplifica en ingl√©s:

In [14]:
lemmatizer = WordNetLemmatizer()

tokens_en = ["running", "ran", "runs"]
tokens_lem = [lemmatizer.lemmatize(pal, 'v') for pal in tokens_en]

print("Lematizaci√≥n en ingl√©s:")
print(tokens_lem)


Lematizaci√≥n en ingl√©s:
['run', 'run', 'run']


üîé En este caso, todas las variantes verbales se reducen correctamente a ‚Äúrun‚Äù.

## 7. Flujo completo

In [12]:
print("Texto procesado final (stemming aplicado):")
print(tokens_stem)

Texto procesado final (stemming aplicado):
['estudi', 'corr', 'rapid', 'haci', 'univers', 'corr']


## Conclusiones  

Al comparar los resultados de la eliminaci√≥n de stopwords, el stemming y la lematizaci√≥n, se evidencia que el vocabulario del texto se transforma de manera significativa. La eliminaci√≥n de stopwords reduce la cantidad de palabras al descartar t√©rminos poco informativos, el stemming recorta palabras a formas m√°s simples aunque a veces poco naturales, y la lematizaci√≥n devuelve la forma base correcta de cada t√©rmino. Estas diferencias muestran que la elecci√≥n de una t√©cnica u otra depende del objetivo del an√°lisis y del equilibrio entre precisi√≥n ling√º√≠stica y eficiencia computacional.

üìö **Referencia**: Bird, S., Klein, E., & Loper, E. (2009). *Natural Language Processing with Python*. O‚ÄôReilly Media.