El preprocesamiento de texto es el conjunto de pasos previos que aplicamos a un texto antes de poder usarlo en tareas de análisis, clasificación o entrenamiento de modelos de NLP.

🎯 Objetivo del preprocesamiento:
Transformar el texto crudo en una versión más limpia, estandarizada y útil para análisis.

Primera etapa del preprocesamiento:
🧽 ¿Qué es la normalización de texto?
Es el proceso de transformar el texto crudo en una forma estándar y coherente.
Lo hacemos para que los modelos no se confundan con variaciones irrelevantes (como “Hola” vs “hola”) y para facilitar los siguientes pasos del pipeline.

In [1]:
with open (r'C:\Proyectos_DS\nlp-lab\data\Caballero_Cap_1.txt', 'r', encoding='utf-8') as archivo:
    texto = archivo.read()
print(texto[:500])

Hace ya mucho tiempo, en una tierra muy lejana, vivía un caballero que pensaba que era bueno, generoso y
amoroso. Hacía todo lo que suelen hacer los caballeros buenos, generosos y amorosos. Luchaba contra sus
enemigos, que era malos, mezquinos y odiosos. Mataba a dragones y rescataba a damiselas en apuros.
Cuando en el asunto de la caballería había crisis, tenía la mala costumbre de rescatar damiselas incluso
cuando ellas no deseaban ser rescatadas y, debido a esto, aunque muchas damas le estaba


In [2]:
texto_normalizado = texto

In [3]:
import unicodedata
import re

def eliminar_tildes(texto_normalizado):
    texto_normalizado = unicodedata.normalize('NFD', texto_normalizado)
    texto_normalizado = ''.join(
        c for c in texto_normalizado if unicodedata.category(c) != 'Mn'
    )
    return texto_normalizado

In [4]:
texto_normalizado = eliminar_tildes(texto_normalizado)

print(texto_normalizado[:500])

Hace ya mucho tiempo, en una tierra muy lejana, vivia un caballero que pensaba que era bueno, generoso y
amoroso. Hacia todo lo que suelen hacer los caballeros buenos, generosos y amorosos. Luchaba contra sus
enemigos, que era malos, mezquinos y odiosos. Mataba a dragones y rescataba a damiselas en apuros.
Cuando en el asunto de la caballeria habia crisis, tenia la mala costumbre de rescatar damiselas incluso
cuando ellas no deseaban ser rescatadas y, debido a esto, aunque muchas damas le estaba


In [5]:
texto_normalizado = re.sub(r'[^\w\s]', '', texto_normalizado)
print(texto_normalizado[:500])
#Esto elimina todo caracter que no sea alfanumerico o un espacio

Hace ya mucho tiempo en una tierra muy lejana vivia un caballero que pensaba que era bueno generoso y
amoroso Hacia todo lo que suelen hacer los caballeros buenos generosos y amorosos Luchaba contra sus
enemigos que era malos mezquinos y odiosos Mataba a dragones y rescataba a damiselas en apuros
Cuando en el asunto de la caballeria habia crisis tenia la mala costumbre de rescatar damiselas incluso
cuando ellas no deseaban ser rescatadas y debido a esto aunque muchas damas le estaban agradecidas


In [6]:

texto_normalizado = re.sub(r'\s+', ' ', texto_normalizado).strip()
print(texto_normalizado[:500])
#Esto elimina todo espacio doble

Hace ya mucho tiempo en una tierra muy lejana vivia un caballero que pensaba que era bueno generoso y amoroso Hacia todo lo que suelen hacer los caballeros buenos generosos y amorosos Luchaba contra sus enemigos que era malos mezquinos y odiosos Mataba a dragones y rescataba a damiselas en apuros Cuando en el asunto de la caballeria habia crisis tenia la mala costumbre de rescatar damiselas incluso cuando ellas no deseaban ser rescatadas y debido a esto aunque muchas damas le estaban agradecidas


In [7]:
import spacy
nlp = spacy.load('es_core_news_sm')

In [8]:
doc = nlp(texto_normalizado)
tokens = [token.text for token in doc if not token.is_stop]
print(tokens[:200])
#Tokenization con spacy

['tiempo', 'tierra', 'lejana', 'vivia', 'caballero', 'pensaba', 'generoso', 'amoroso', 'suelen', 'caballeros', 'generosos', 'amorosos', 'Luchaba', 'enemigos', 'malos', 'mezquinos', 'odiosos', 'Mataba', 'dragones', 'rescataba', 'damiselas', 'apuros', 'asunto', 'caballeria', 'crisis', 'tenia', 'mala', 'costumbre', 'rescatar', 'damiselas', 'deseaban', 'rescatadas', 'damas', 'agradecidas', 'tantas', 'mostraban', 'furiosas', 'caballero', 'aceptaba', 'filosofia', 'contentar', 'mundo', 'caballero', 'famoso', 'armadura', 'Reflejaba', 'rayos', 'luz', 'brillantes', 'gente', 'pueblo', 'juraba', 'visto', 'sol', 'salir', 'norte', 'ponerse', 'caballero', 'partia', 'batalla', 'partia', 'batalla', 'frecuencia', 'mera', 'mencion', 'cruzada', 'caballero', 'ponia', 'armadura', 'entusiasmado', 'montaba', 'caballo', 'cabalgaba', 'direccion', 'entusiasmo', 'partia', 'direcciones', 'facil', 'anos', 'caballero', 'esforzo', 'numero', 'reino', 'batalla', 'ganar', 'dragon', 'matar', 'damisela', 'rescatar', 'caba

In [9]:
doc = nlp(texto)
lemas = [token.lemma_ for token in doc if not token.is_punct and not token.is_stop and not token.is_space]
print(lemas[:200])
#Lematizacion

['tiempo', 'tierra', 'lejano', 'vivir', 'caballero', 'pensar', 'generoso', 'amoroso', 'hacer', 'soler', 'caballero', 'generoso', 'amoroso', 'luchar', 'enemigo', 'malo', 'mezquino', 'odioso', 'matar', 'dragón', 'rescatar', 'dami él él', 'apuro', 'asunto', 'caballería', 'crisis', 'malo', 'costumbre', 'rescatar', 'dami él él', 'desear', 'rescatar', 'dama', 'agradecido', 'tanto', 'mostrar', 'furiosa', 'caballero', 'aceptar', 'filosofía', 'contentar', 'mundo', 'caballero', 'famoso', 'armadura', 'reflejar', 'rayo', 'luz', 'brillante', 'gente', 'pueblo', 'jurar', 'ver', 'sol', 'salir', 'norte', 'poner él', 'caballero', 'partir', 'batalla', 'partir', 'batalla', 'frecuencia', 'mero', 'mención', 'cruzada', 'caballero', 'poner', 'armadura', 'entusiasmado', 'montar', 'caballo', 'cabalgar', 'dirección', 'entusiasmo', 'partir', 'dirección', 'fácil', 'año', 'caballero', 'esforzar', 'número', 'reino', 'batalla', 'ganar', 'dragón', 'matar', 'damisela', 'rescatar', 'caballero', 'mujer', 'fiel', 'toleran

In [10]:
doc = nlp(texto)
for token in doc:
    print(token.pos_)

VERB
ADV
DET
NOUN
PUNCT
ADP
DET
NOUN
ADV
ADJ
PUNCT
VERB
DET
NOUN
PRON
VERB
SCONJ
AUX
ADJ
PUNCT
ADJ
CCONJ
SPACE
ADJ
PUNCT
VERB
DET
PRON
PRON
VERB
VERB
DET
NOUN
ADJ
PUNCT
NOUN
CCONJ
NOUN
PUNCT
VERB
ADP
DET
SPACE
NOUN
PUNCT
PRON
AUX
ADJ
PUNCT
NOUN
CCONJ
NOUN
PUNCT
VERB
ADP
NOUN
CCONJ
VERB
ADP
VERB
ADP
NOUN
PUNCT
SPACE
SCONJ
ADP
DET
NOUN
ADP
DET
NOUN
AUX
NOUN
PUNCT
VERB
DET
ADJ
NOUN
ADP
VERB
VERB
ADV
SPACE
SCONJ
PRON
ADV
VERB
AUX
VERB
CCONJ
PUNCT
ADJ
ADP
PRON
PUNCT
SCONJ
DET
NOUN
PRON
AUX
ADJ
PUNCT
SPACE
DET
DET
PRON
VERB
NOUN
ADP
DET
NOUN
PUNCT
PRON
PRON
VERB
ADP
NOUN
PUNCT
ADV
ADP
PRON
PUNCT
ADV
PRON
AUX
SPACE
VERB
ADP
DET
DET
NOUN
PUNCT
SPACE
DET
NOUN
AUX
ADJ
ADP
DET
NOUN
PUNCT
VERB
DET
NOUN
ADP
NOUN
ADV
ADJ
SCONJ
DET
NOUN
ADP
SPACE
NOUN
VERB
ADV
AUX
VERB
DET
NOUN
VERB
ADP
DET
NOUN
CCONJ
VERB
ADP
DET
NOUN
SCONJ
DET
NOUN
VERB
ADP
DET
NOUN
PUNCT
SPACE
CCONJ
VERB
ADP
DET
NOUN
ADP
DET
NOUN
PUNCT
ADP
DET
ADJ
NOUN
ADP
DET
NOUN
PUNCT
DET
NOUN
PRON
VERB
DET
SPACE
NOUN
ADJ
PUNCT
VERB
DET
NOUN
CC

In [11]:
doc = nlp(texto)
Pos_tag = [token.pos_ for token in doc if not token.is_stop and not token.is_punct and not token.is_space]
print(Pos_tag[:200])

['NOUN', 'NOUN', 'ADJ', 'VERB', 'NOUN', 'VERB', 'ADJ', 'ADJ', 'VERB', 'VERB', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'VERB', 'VERB', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'ADJ', 'NOUN', 'VERB', 'VERB', 'VERB', 'VERB', 'NOUN', 'ADJ', 'DET', 'VERB', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'ADJ', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'VERB', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'ADJ', 'VERB', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'ADJ', 'ADJ', 'PROPN', 'VERB', 'NOUN', 'ADJ', 'VERB', 'NOUN', 'ADJ', 'NOUN', 'NOUN', 'NOUN', 'NOUN', 'ADJ', 'PROPN', 'VERB', 'ADJ', 'ADJ', 'NOUN', 'PROPN', 'PROPN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'NOUN', 'VERB', 'VERB', 'ADJ', 'VERB', 'NOUN', 'VERB', 'NOUN', 'NOUN', 'NOUN',

In [14]:
from spacy import displacy
doc = nlp('Hace ya mucho tiempo, en una tierra muy lejana, vivía un caballero que pensaba que era bueno, generoso y amoroso.')
displacy.serve(doc, style='dep')



ImportError: cannot import name 'display' from 'IPython.core.display' (c:\Proyectos_DS\nlp-lab\AV_NLP_LAB\Lib\site-packages\IPython\core\display.py)