<a href="https://colab.research.google.com/github/cbadenes/curso-pln/blob/main/notebooks/01_Preprocesamiento_Datos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Técnicas de Preprocesamiento de Texto en PLN


 Este notebook demuestra las principales técnicas de preprocesamiento de texto
 utilizadas en Procesamiento de Lenguaje Natural (PLN).


#1 Configuración del Entorno

In [5]:
# Primero instalamos las bibliotecas necesarias
!pip install -U spacy==3.7.6 nltk
!python -m spacy download es_core_news_sm

import spacy
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')

Collecting es-core-news-sm==3.7.0
  Using cached https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.7.0/es_core_news_sm-3.7.0-py3-none-any.whl (12.9 MB)
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

#2. Datos de Ejemplo

In [2]:
texto_ejemplo = """El procesamiento de lenguaje natural es fascinante.
Los investigadores están desarrollando nuevas técnicas cada día.
El aprendizaje automático ha revolucionado este campo de estudio."""

print("Texto de ejemplo:")
print(texto_ejemplo)

Texto de ejemplo:
El procesamiento de lenguaje natural es fascinante. 
Los investigadores están desarrollando nuevas técnicas cada día.
El aprendizaje automático ha revolucionado este campo de estudio.


#3. Tokenización

##3.1 Utilizando NLTK

In [11]:
# Tokenización por palabras usando NLTK
tokens_palabras = word_tokenize(texto_ejemplo, language='spanish')
print("\nTokenización por palabras (NLTK):")
print(tokens_palabras)

# Tokenización por oraciones usando NLTK
oraciones = sent_tokenize(texto_ejemplo, language='spanish')
print("\nTokenización por oraciones (NLTK):")
for i, oracion in enumerate(oraciones, 1):
    print(f"Oración {i}: {oracion}")


Tokenización por palabras (NLTK):
['El', 'procesamiento', 'de', 'lenguaje', 'natural', 'es', 'fascinante', '.', 'Los', 'investigadores', 'están', 'desarrollando', 'nuevas', 'técnicas', 'cada', 'día', '.', 'El', 'aprendizaje', 'automático', 'ha', 'revolucionado', 'este', 'campo', 'de', 'estudio', '.']

Tokenización por oraciones (NLTK):
Oración 1: El procesamiento de lenguaje natural es fascinante.
Oración 2: Los investigadores están desarrollando nuevas técnicas cada día.
Oración 3: El aprendizaje automático ha revolucionado este campo de estudio.


##3.2 Utilizando spaCy

In [10]:
nlp = spacy.load('es_core_news_sm')
doc = nlp(texto_ejemplo)
tokens_spacy = [token.text for token in doc]

print("\nTokenización con spaCy:")
print(tokens_spacy)


Tokenización con spaCy:
['El', 'procesamiento', 'de', 'lenguaje', 'natural', 'es', 'fascinante', '.', '\n', 'Los', 'investigadores', 'están', 'desarrollando', 'nuevas', 'técnicas', 'cada', 'día', '.', '\n', 'El', 'aprendizaje', 'automático', 'ha', 'revolucionado', 'este', 'campo', 'de', 'estudio', '.']


#4. Stemming

In [12]:
# Usando Porter Stemmer de NLTK
stemmer = PorterStemmer()
stems = [stemmer.stem(token) for token in tokens_palabras]

print("\nPalabras originales vs stems:")
for original, stem in list(zip(tokens_palabras, stems))[:10]:
    print(f"{original:15} -> {stem}")


Palabras originales vs stems:
El              -> el
procesamiento   -> procesamiento
de              -> de
lenguaje        -> lenguaj
natural         -> natur
es              -> es
fascinante      -> fascinant
.               -> .
Los             -> lo
investigadores  -> investigador


#5. Lematización

In [14]:
lemmas_spacy = [token.lemma_ for token in doc]

print("\nPalabras originales vs lemas (spaCy):")
for original, lemma in list(zip(tokens_spacy, lemmas_spacy)):
    print(f"{original:15} -> {lemma}")



Palabras originales vs lemas (spaCy):
El              -> el
procesamiento   -> procesamiento
de              -> de
lenguaje        -> lenguaje
natural         -> natural
es              -> ser
fascinante      -> fascinante
.               -> .

               -> 

Los             -> el
investigadores  -> investigador
están           -> estar
desarrollando   -> desarrollar
nuevas          -> nuevo
técnicas        -> técnica
cada            -> cada
día             -> día
.               -> .

               -> 

El              -> el
aprendizaje     -> aprendizaje
automático      -> automático
ha              -> haber
revolucionado   -> revolucionar
este            -> este
campo           -> campo
de              -> de
estudio         -> estudio
.               -> .


#6. Etiquetado POS (Part-of-Speech)

In [15]:
print("\nEtiquetado POS con spaCy:")
for token in list(doc)[:10]:
    print(f"{token.text:15} -> {token.pos_:10} -> {token.dep_}")



Etiquetado POS con spaCy:
El              -> DET        -> det
procesamiento   -> NOUN       -> nsubj
de              -> ADP        -> case
lenguaje        -> NOUN       -> nmod
natural         -> ADJ        -> amod
es              -> AUX        -> cop
fascinante      -> ADJ        -> ROOT
.               -> PUNCT      -> punct

               -> SPACE      -> dep
Los             -> DET        -> det


#7. Ejemplo Práctico

In [16]:
texto_analisis = """El pequeño gato negro saltaba alegremente por el jardín.
Los pájaros volaban asustados mientras el gato jugaba."""

doc_analisis = nlp(texto_analisis)

print("\nAnálisis completo del texto:")
print("Token\t\tLema\t\tPOS\t\tDependencia")
print("-" * 60)
for token in doc_analisis:
    print(f"{token.text:12} {token.lemma_:12} {token.pos_:12} {token.dep_:12}")



Análisis completo del texto:
Token		Lema		POS		Dependencia
------------------------------------------------------------
El           el           DET          det         
pequeño      pequeño      ADJ          amod        
gato         gato         NOUN         nsubj       
negro        negro        ADJ          amod        
saltaba      saltar       VERB         ROOT        
alegremente  alegremente  ADV          advmod      
por          por          ADP          case        
el           el           DET          det         
jardín       jardín       NOUN         obl         
.            .            PUNCT        punct       

            
            SPACE        dep         
Los          el           DET          det         
pájaros      pájaro       NOUN         nsubj       
volaban      volar        VERB         ROOT        
asustados    asustado     ADJ          obj         
mientras     mientras     SCONJ        mark        
el           el           DET          det     

#8. Funciones de Utilidad

In [17]:
def analizar_texto(texto, nlp):
    """
    Realiza un análisis completo de un texto usando spaCy.

    Args:
        texto (str): Texto a analizar
        nlp: Modelo de spaCy cargado

    Returns:
        dict: Diccionario con los resultados del análisis
    """
    doc = nlp(texto)

    return {
        'tokens': [token.text for token in doc],
        'lemas': [token.lemma_ for token in doc],
        'pos': [token.pos_ for token in doc],
        'dependencias': [token.dep_ for token in doc],
        'oraciones': [str(sent) for sent in doc.sents],
        'entidades': [(ent.text, ent.label_) for ent in doc.ents]
    }

# Ejemplo de uso de la función de utilidad
texto_prueba = "María estudia ingeniería en la Universidad Politécnica de Madrid."
resultados = analizar_texto(texto_prueba, nlp)

print("\nResultados del análisis automático:")
for key, value in resultados.items():
    print(f"\n{key.capitalize()}:")
    print(value)


Resultados del análisis automático:

Tokens:
['María', 'estudia', 'ingeniería', 'en', 'la', 'Universidad', 'Politécnica', 'de', 'Madrid', '.']

Lemas:
['María', 'estudiar', 'ingeniería', 'en', 'el', 'Universidad', 'Politécnica', 'de', 'Madrid', '.']

Pos:
['PROPN', 'VERB', 'NOUN', 'ADP', 'DET', 'PROPN', 'PROPN', 'ADP', 'PROPN', 'PUNCT']

Dependencias:
['nsubj', 'ROOT', 'obj', 'case', 'det', 'obl', 'flat', 'case', 'flat', 'punct']

Oraciones:
['María estudia ingeniería en la Universidad Politécnica de Madrid.']

Entidades:
[('Universidad Politécnica de Madrid', 'ORG')]


#10. Ejercicios para practicar:

1. Tokenización:
   - Prueba diferentes textos y compara los resultados de NLTK vs spaCy
   - Implementa un tokenizador personalizado para un caso específico

2. Stemming y Lematización:
   - Compara los resultados de stemming vs lematización
   - Analiza casos donde cada técnica podría ser más apropiada

3. Análisis POS:
   - Identifica patrones gramaticales comunes
   - Extrae frases nominales o verbales
   - Crea estadísticas sobre el uso de diferentes partes del discurso

4. Proyecto Integrado:
   - Desarrolla un analizador de textos que combine todas las técnicas
   - Aplícalo a un conjunto de documentos reales
   - Genera visualizaciones de los resultados