# Introducción

## Descripción
Con este notebook de Python se busca introducir las técnicas de procesamiento de texto más comunes con 4 de las librerías más populares en la actualidad. El estudiante podrá aprender a realizar diferentes transformaciones sobre el texto que serán útiles para la creación de modelos que resuelvan tareas de PLN como la clasificación y la generación de texto.

Las técnicas de procesamiento de texto que se verán, son:
* Tokenización
* Eliminación de palabras de parada
* Lematización
* Stemming

Las librerías de PLN que se revisarán, son:
* NLTK
* TextBlob
* Stanza
* spaCy

**Los objetivos de aprendizaje son**:

1. Poner en práctica técnicas de procesamiento de texto.
2. Conocer las librerías más populares actualmente en el área.

## Metodología
Este notebook será un tutorial para aprender a instalar y usar algunas librerías de Python que permitan aplicar diferentes técnicas de procesamiento de texto.
Con este fin se verán ejemplos de uso de las librerías con los mismos textos de muestra para comparar los resultados obtenidos, y se referirá al estudiante a la documentación de las librerías y de los métodos vistos para que pueda ampliar la información sobre su uso.

# Librerías populares para realizar el procesamiento de texto

## Textos de ejemplo a procesar

In [1]:
# Ejemplos en inglés

text_corpus_en = [
    "Human machine interface for lab abc computer applications",
    "A survey of user opinion of computer system response time",
    "The EPS user interface management system",
    "System and human system engineering testing of EPS",
    "Relation of user perceived response time to error measurement",
    "The generation of random binary unordered trees",
    "The intersection graph of paths in trees",
    "Graph minors IV Widths of trees and well quasi ordering",
    "Graph minors A survey",
]

In [2]:
# Ejemplos en español

text_corpus_es = [
    "Colombia, oficialmente República de Colombia, es un país soberano situado en la región noroccidental de América del Sur",
    "Es la única nación de América del Sur que tiene costas en el océano Pacífico y acceso al Atlántico a través del mar Caribe",
    "Es el vigesimoctavo país más poblado del mundo, con una población de 51 millones de habitantes",
    "La presencia humana en Colombia se remonta a más de 10.000 años",
    "Colombia tiene una economía diversificada y posee un importante componente de servicios",
    "Es la segunda nación más biodiversa del mundo, contando con 54871 especies registradas",
    "La denominación de Colombia proviene del apellido del explorador genovés del siglo XV Cristóbal Colón (en italiano: Cristoforo Colombo, en latín Christophorus Columbus)",
    "El estudio de los primeros pobladores del territorio que hoy comprende la Nación se ha dividido en tres etapas de la época precolombina",
]

# NLTK Library

**NLTK** es una librería para trabajar con lenguaje natural. Es comunmente utilizada para realizar procesamiento de texto, ya que su suite soporta clasificación de texto, tokenización, stemming, tagging, parsing, entre otros.

Puede ver la documentación [aquí](https://www.nltk.org/) <br>
O aprender más sobre cómo procesar texto con su [libro](https://www.nltk.org/book/ch03.html)

In [3]:
import nltk

# Descargar corpus de texto y modelos entrenados
nltk.download('punkt') # Modelo para tokenizar por oraciones basado en caracteres de puntuación
nltk.download('stopwords') # Corpus con palabras de parada para cada lenguaje
nltk.download('wordnet') # Gran base de datos léxica en inglés con las relaciones entre palabras

[nltk_data] Downloading package punkt to /home/erich/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /home/erich/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /home/erich/nltk_data...


True

Puede ver todos los corpus y modelos entrenados disponibles para descargar [aquí](https://www.nltk.org/nltk_data/).

## Tokenización

El método word_tokenize nos permite tokenizar texto en palabras, separando las contracciones de texto, los signos de puntuación, entre otros.
Más información en la [documentación](https://www.nltk.org/api/nltk.tokenize.word_tokenize.html).

In [4]:
word_tok_nltk_en = [nltk.word_tokenize(doc) for doc in text_corpus_en]
print(word_tok_nltk_en)

[['Human', 'machine', 'interface', 'for', 'lab', 'abc', 'computer', 'applications'], ['A', 'survey', 'of', 'user', 'opinion', 'of', 'computer', 'system', 'response', 'time'], ['The', 'EPS', 'user', 'interface', 'management', 'system'], ['System', 'and', 'human', 'system', 'engineering', 'testing', 'of', 'EPS'], ['Relation', 'of', 'user', 'perceived', 'response', 'time', 'to', 'error', 'measurement'], ['The', 'generation', 'of', 'random', 'binary', 'unordered', 'trees'], ['The', 'intersection', 'graph', 'of', 'paths', 'in', 'trees'], ['Graph', 'minors', 'IV', 'Widths', 'of', 'trees', 'and', 'well', 'quasi', 'ordering'], ['Graph', 'minors', 'A', 'survey']]


In [5]:
word_tok_nltk_es = [nltk.word_tokenize(doc) for doc in text_corpus_es]
print(word_tok_nltk_es)

# Notese que preserva los signos de puntuacion - lo cual está bien

[['Colombia', ',', 'oficialmente', 'República', 'de', 'Colombia', ',', 'es', 'un', 'país', 'soberano', 'situado', 'en', 'la', 'región', 'noroccidental', 'de', 'América', 'del', 'Sur'], ['Es', 'la', 'única', 'nación', 'de', 'América', 'del', 'Sur', 'que', 'tiene', 'costas', 'en', 'el', 'océano', 'Pacífico', 'y', 'acceso', 'al', 'Atlántico', 'a', 'través', 'del', 'mar', 'Caribe'], ['Es', 'el', 'vigesimoctavo', 'país', 'más', 'poblado', 'del', 'mundo', ',', 'con', 'una', 'población', 'de', '51', 'millones', 'de', 'habitantes'], ['La', 'presencia', 'humana', 'en', 'Colombia', 'se', 'remonta', 'a', 'más', 'de', '10.000', 'años'], ['Colombia', 'tiene', 'una', 'economía', 'diversificada', 'y', 'posee', 'un', 'importante', 'componente', 'de', 'servicios'], ['Es', 'la', 'segunda', 'nación', 'más', 'biodiversa', 'del', 'mundo', ',', 'contando', 'con', '54871', 'especies', 'registradas'], ['La', 'denominación', 'de', 'Colombia', 'proviene', 'del', 'apellido', 'del', 'explorador', 'genovés', 'del'

Se puede tokenizar el texto usando una expresión regular personalizada según las necesidades que se tengan.
[Aquí](https://www.nltk.org/api/nltk.tokenize.RegexpTokenizer.html) puede consultar la documentación de la clase RegexpTokenizer.


In [6]:
# Remover signos de puntuación

tokenizer = nltk.RegexpTokenizer(r'\w+') # Se pasa el regex que identifica los tokens en el texto como un secuencia de caractateres alfanúmericos, los demás caracteres son ignorados.
word_tok_nltk_es_2 = [tokenizer.tokenize(doc) for doc in text_corpus_es]
print(word_tok_nltk_es_2)

[['Colombia', 'oficialmente', 'República', 'de', 'Colombia', 'es', 'un', 'país', 'soberano', 'situado', 'en', 'la', 'región', 'noroccidental', 'de', 'América', 'del', 'Sur'], ['Es', 'la', 'única', 'nación', 'de', 'América', 'del', 'Sur', 'que', 'tiene', 'costas', 'en', 'el', 'océano', 'Pacífico', 'y', 'acceso', 'al', 'Atlántico', 'a', 'través', 'del', 'mar', 'Caribe'], ['Es', 'el', 'vigesimoctavo', 'país', 'más', 'poblado', 'del', 'mundo', 'con', 'una', 'población', 'de', '51', 'millones', 'de', 'habitantes'], ['La', 'presencia', 'humana', 'en', 'Colombia', 'se', 'remonta', 'a', 'más', 'de', '10', '000', 'años'], ['Colombia', 'tiene', 'una', 'economía', 'diversificada', 'y', 'posee', 'un', 'importante', 'componente', 'de', 'servicios'], ['Es', 'la', 'segunda', 'nación', 'más', 'biodiversa', 'del', 'mundo', 'contando', 'con', '54871', 'especies', 'registradas'], ['La', 'denominación', 'de', 'Colombia', 'proviene', 'del', 'apellido', 'del', 'explorador', 'genovés', 'del', 'siglo', 'XV', 

## Eliminación de palabras de parada

Este paso de procesamiento de texto es útil para remover palabras que no cargan con significado (aunque son palabras importantes estructuralmente) y que tienen poca relevancia su inclusión para algunas tareas, como por ejemplo, clasificación de texto.

In [8]:
nltk_stop_words_en = set(nltk.corpus.stopwords.words("english")) # Palabras de parada como you, are, is, ...
word_tok_nltk_en_sw = [[token for token in doc if token not in nltk_stop_words_en] for doc in word_tok_nltk_en]
print("Stopwords removal English")
print(word_tok_nltk_en_sw)

nltk_stop_words_es = set(nltk.corpus.stopwords.words("spanish")) # Palabras de parada como de, la, que, ...
word_tok_nltk_es_sw = [[token for token in doc if token not in nltk_stop_words_es] for doc in word_tok_nltk_es_2 ]
print("Stopwords removal Spanish")
print(word_tok_nltk_es_sw)

Stopwords removal English
[['Human', 'machine', 'interface', 'lab', 'abc', 'computer', 'applications'], ['A', 'survey', 'user', 'opinion', 'computer', 'system', 'response', 'time'], ['The', 'EPS', 'user', 'interface', 'management', 'system'], ['System', 'human', 'system', 'engineering', 'testing', 'EPS'], ['Relation', 'user', 'perceived', 'response', 'time', 'error', 'measurement'], ['The', 'generation', 'random', 'binary', 'unordered', 'trees'], ['The', 'intersection', 'graph', 'paths', 'trees'], ['Graph', 'minors', 'IV', 'Widths', 'trees', 'well', 'quasi', 'ordering'], ['Graph', 'minors', 'A', 'survey']]
Stopwords removal Spanish
[['Colombia', 'oficialmente', 'República', 'Colombia', 'país', 'soberano', 'situado', 'región', 'noroccidental', 'América', 'Sur'], ['Es', 'única', 'nación', 'América', 'Sur', 'costas', 'océano', 'Pacífico', 'acceso', 'Atlántico', 'través', 'mar', 'Caribe'], ['Es', 'vigesimoctavo', 'país', 'poblado', 'mundo', 'población', '51', 'millones', 'habitantes'], ['L

## Stemming
Stemming consiste en recortar las palabras mediante unas reglas que se construyen para cada lenguaje, lo que nos permiten reducir el tamaño del vocabulario.

La clase PorterStemmer nos permite usar el álgoritmo creado por Martin Porter para realizar stemming.<br>Para más información sobre la clase vaya al siguiente [enlace](https://www.nltk.org/api/nltk.stem.porter.html) o consulte información sobre el álgoritmo en [esta página](https://tartarus.org/martin/PorterStemmer/)

In [9]:
p_stemmer = nltk.stem.porter.PorterStemmer()
nltk_stemedList_en = [[p_stemmer.stem(word) for word in doc] for doc in word_tok_nltk_en_sw]

print(nltk_stemedList_en)

[['human', 'machin', 'interfac', 'lab', 'abc', 'comput', 'applic'], ['a', 'survey', 'user', 'opinion', 'comput', 'system', 'respons', 'time'], ['the', 'ep', 'user', 'interfac', 'manag', 'system'], ['system', 'human', 'system', 'engin', 'test', 'ep'], ['relat', 'user', 'perceiv', 'respons', 'time', 'error', 'measur'], ['the', 'gener', 'random', 'binari', 'unord', 'tree'], ['the', 'intersect', 'graph', 'path', 'tree'], ['graph', 'minor', 'iv', 'width', 'tree', 'well', 'quasi', 'order'], ['graph', 'minor', 'a', 'survey']]


La clase SnowballStemmer es una versión mejorada del algoritmo PorterStemmer también creado por Martin Porter, que además soporta varios lenguajes. La documentación de la clase la encuentra en [este enlace](https://www.nltk.org/api/nltk.stem.SnowballStemmer.html), y más información del algoritmo puede hayarla [aquí](https://snowballstem.org/algorithms/).

In [10]:
stemmer_es = nltk.stem.SnowballStemmer("spanish")
nltk_stemedList_es = [[stemmer_es.stem(word) for word in doc] for doc in word_tok_nltk_es_sw]

print(nltk_stemedList_es)

[['colombi', 'oficial', 'republ', 'colombi', 'pais', 'soberan', 'situ', 'region', 'noroccidental', 'amer', 'sur'], ['es', 'unic', 'nacion', 'amer', 'sur', 'cost', 'ocean', 'pacif', 'acces', 'atlant', 'traves', 'mar', 'carib'], ['es', 'vigesimoctav', 'pais', 'pobl', 'mund', 'poblacion', '51', 'millon', 'habit'], ['la', 'presenci', 'human', 'colombi', 'remont', '10', '000', 'años'], ['colombi', 'econom', 'diversific', 'pose', 'import', 'component', 'servici'], ['es', 'segund', 'nacion', 'biodivers', 'mund', 'cont', '54871', 'especi', 'registr'], ['la', 'denomin', 'colombi', 'provien', 'apell', 'explor', 'genoves', 'sigl', 'xv', 'cristobal', 'colon', 'italian', 'cristofor', 'colomb', 'latin', 'christophorus', 'columbus'], ['el', 'estudi', 'primer', 'poblador', 'territori', 'hoy', 'comprend', 'nacion', 'divid', 'tres', 'etap', 'epoc', 'precolombin']]


## Lematizacion
La lematización permite reducir las formas flexivas/variantes de las palabras a su forma base.

La clase WordNetLemmatizer hace uso de las reglas de desacople desarrolladas por WordNet de la Universidad de Princeton.<br>
La documentación de la clase puede hayarla [aquí](https://www.nltk.org/api/nltk.stem.WordNetLemmatizer.html), y más información sobre las reglas de desacople usadas por WordNet puede verlas en [este enlace](https://wordnet.princeton.edu/documentation/morphy7wn).

In [11]:
wordnet_lemmatizer = nltk.stem.WordNetLemmatizer()
nltk_lemmaList = [[wordnet_lemmatizer.lemmatize(word) for word in doc] for doc in word_tok_nltk_en_sw]

print(nltk_lemmaList)

[['Human', 'machine', 'interface', 'lab', 'abc', 'computer', 'application'], ['A', 'survey', 'user', 'opinion', 'computer', 'system', 'response', 'time'], ['The', 'EPS', 'user', 'interface', 'management', 'system'], ['System', 'human', 'system', 'engineering', 'testing', 'EPS'], ['Relation', 'user', 'perceived', 'response', 'time', 'error', 'measurement'], ['The', 'generation', 'random', 'binary', 'unordered', 'tree'], ['The', 'intersection', 'graph', 'path', 'tree'], ['Graph', 'minor', 'IV', 'Widths', 'tree', 'well', 'quasi', 'ordering'], ['Graph', 'minor', 'A', 'survey']]


# TextBlob

**TextBlob** es una librería para procesar texto. Provee un API para realizar tareas comunes de PLN como tagging, análisis de sentimientos, y traducción.

Puede ver la documentación [aquí](https://textblob.readthedocs.io/en/dev/)

In [16]:
import textblob

## Tokenización

La clase [TextBlob](https://textblob.readthedocs.io/en/dev/api_reference.html#textblob.blob.TextBlob) se incializa con un texto y te da acceso a diferentes métodos y atributos útiles.

Para tokenizar el texto en palabras puedes acceder al atributo words y obtienes una [WordList](https://textblob.readthedocs.io/en/dev/api_reference.html#textblob.blob.WordList).

In [17]:
text_block_en = textblob.TextBlob(text_corpus_en[0])
text_block_en.words

WordList(['Human', 'machine', 'interface', 'for', 'lab', 'abc', 'computer', 'applications'])

In [18]:
text_block_es = textblob.TextBlob(text_corpus_es[0])
text_block_es.words

WordList(['Colombia', 'oficialmente', 'República', 'de', 'Colombia', 'es', 'un', 'país', 'soberano', 'situado', 'en', 'la', 'región', 'noroccidental', 'de', 'América', 'del', 'Sur'])

Para tokenizar por oraciones puede usar el atributo sentences de TextBlob, este atributo retorna una lista de objetos tipo [Sentence](https://textblob.readthedocs.io/en/dev/api_reference.html#textblob.blob.Sentence)

In [19]:
text_block_en = textblob.TextBlob('. '.join(text_corpus_en)) # Se une la lista de textos con un punto y un espacio para simular un parrafo de texto.
text_block_en.sentences

[Sentence("Human machine interface for lab abc computer applications."),
 Sentence("A survey of user opinion of computer system response time."),
 Sentence("The EPS user interface management system."),
 Sentence("System and human system engineering testing of EPS."),
 Sentence("Relation of user perceived response time to error measurement."),
 Sentence("The generation of random binary unordered trees."),
 Sentence("The intersection graph of paths in trees."),
 Sentence("Graph minors IV Widths of trees and well quasi ordering."),
 Sentence("Graph minors A survey")]

In [20]:
text_block_es = textblob.TextBlob('. '.join(text_corpus_es)) # Se une la lista de textos con un punto y un espacio para simular un parrafo de texto.
text_block_es.sentences

[Sentence("Colombia, oficialmente República de Colombia, es un país soberano situado en la región noroccidental de América del Sur."),
 Sentence("Es la única nación de América del Sur que tiene costas en el océano Pacífico y acceso al Atlántico a través del mar Caribe."),
 Sentence("Es el vigesimoctavo país más poblado del mundo, con una población de 51 millones de habitantes."),
 Sentence("La presencia humana en Colombia se remonta a más de 10.000 años."),
 Sentence("Colombia tiene una economía diversificada y posee un importante componente de servicios."),
 Sentence("Es la segunda nación más biodiversa del mundo, contando con 54871 especies registradas."),
 Sentence("La denominación de Colombia proviene del apellido del explorador genovés del siglo XV Cristóbal Colón (en italiano: Cristoforo Colombo, en latín Christophorus Columbus)."),
 Sentence("El estudio de los primeros pobladores del territorio que hoy comprende la Nación se ha dividido en tres etapas de la época precolombina")]

## Stemming

El objeto WordList nos da acceso al algoritmo de stemming (PorterStemmer de **nltk** por defecto) mediante el metodo **stem**.

In [21]:
text_block_en.words.stem()

WordList(['human', 'machin', 'interfac', 'for', 'lab', 'abc', 'comput', 'applic', 'a', 'survey', 'of', 'user', 'opinion', 'of', 'comput', 'system', 'respons', 'time', 'the', 'ep', 'user', 'interfac', 'manag', 'system', 'system', 'and', 'human', 'system', 'engin', 'test', 'of', 'ep', 'relat', 'of', 'user', 'perceiv', 'respons', 'time', 'to', 'error', 'measur', 'the', 'gener', 'of', 'random', 'binari', 'unord', 'tree', 'the', 'intersect', 'graph', 'of', 'path', 'in', 'tree', 'graph', 'minor', 'iv', 'width', 'of', 'tree', 'and', 'well', 'quasi', 'order', 'graph', 'minor', 'a', 'survey'])

In [22]:
SnowballStemmer = nltk.stem.snowball.SnowballStemmer("spanish") # Se debe buscar un stemmer que soporte el lenguaje de español
text_block_es.words.stem(stemmer=SnowballStemmer)

WordList(['colombi', 'oficial', 'republ', 'de', 'colombi', 'es', 'un', 'pais', 'soberan', 'situ', 'en', 'la', 'region', 'noroccidental', 'de', 'amer', 'del', 'sur', 'es', 'la', 'unic', 'nacion', 'de', 'amer', 'del', 'sur', 'que', 'tien', 'cost', 'en', 'el', 'ocean', 'pacif', 'y', 'acces', 'al', 'atlant', 'a', 'traves', 'del', 'mar', 'carib', 'es', 'el', 'vigesimoctav', 'pais', 'mas', 'pobl', 'del', 'mund', 'con', 'una', 'poblacion', 'de', '51', 'millon', 'de', 'habit', 'la', 'presenci', 'human', 'en', 'colombi', 'se', 'remont', 'a', 'mas', 'de', '10.000', 'años', 'colombi', 'tien', 'una', 'econom', 'diversific', 'y', 'pose', 'un', 'import', 'component', 'de', 'servici', 'es', 'la', 'segund', 'nacion', 'mas', 'biodivers', 'del', 'mund', 'cont', 'con', '54871', 'especi', 'registr', 'la', 'denomin', 'de', 'colombi', 'provien', 'del', 'apell', 'del', 'explor', 'genoves', 'del', 'sigl', 'xv', 'cristobal', 'colon', 'en', 'italian', 'cristofor', 'colomb', 'en', 'latin', 'christophorus', 'colu

## Lematización

Cada palabra en TextBlob.words es un objeto [Word](https://textblob.readthedocs.io/en/dev/api_reference.html#textblob.blob.Word) (una subclase de unicode) con métodos últiles como lematización.

La lematización en TextBlob hace uso de WordNet al igual que WordNetLemmatizer de NLTK.

In [23]:
textblob_lemmaList = [[textblob.Word(word).lemmatize() for word in doc] for doc in word_tok_nltk_en_sw]
print(textblob_lemmaList)

[['Human', 'machine', 'interface', 'lab', 'abc', 'computer', 'application'], ['A', 'survey', 'user', 'opinion', 'computer', 'system', 'response', 'time'], ['The', 'EPS', 'user', 'interface', 'management', 'system'], ['System', 'human', 'system', 'engineering', 'testing', 'EPS'], ['Relation', 'user', 'perceived', 'response', 'time', 'error', 'measurement'], ['The', 'generation', 'random', 'binary', 'unordered', 'tree'], ['The', 'intersection', 'graph', 'path', 'tree'], ['Graph', 'minor', 'IV', 'Widths', 'tree', 'well', 'quasi', 'ordering'], ['Graph', 'minor', 'A', 'survey']]


In [24]:
nltk_lemmaList == textblob_lemmaList

True

# Stanza

**Stanza** es una librería creada por la Universidad de Standford, con herramientas eficientes para realizar análisis lingüístico de lenguaje natural. Stanza permite realizar tareas de PLN como análisis sintáctico, y reconocimiento de entidades en varios lenguajes.

Puede consultar su documentación [aquí](https://stanfordnlp.github.io/stanza/)

![Estructura de la librería](https://stanfordnlp.github.io/stanza/assets/images/pipeline.png)

In [26]:
import stanza

  from .autonotebook import tqdm as notebook_tqdm


In [27]:
# Descargar los procesadores de texto a usar, en este caso el tokenizador y el lematizador, específicando el lenguaje de español.
stanza.download('es', processors='tokenize,lemma')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 433kB [00:00, 25.8MB/s]                    
2025-08-20 20:17:27 INFO: Downloaded file to /home/erich/stanza_resources/resources.json
2025-08-20 20:17:27 INFO: Downloading these customized packages for language: es (Spanish)...
| Processor | Package           |
---------------------------------
| tokenize  | combined          |
| mwt       | combined          |
| lemma     | combined_nocharlm |

Downloading https://huggingface.co/stanfordnlp/stanza-es/resolve/v1.10.0/models/tokenize/combined.pt: 100%|██████████| 664k/664k [00:00<00:00, 1.66MB/s]
2025-08-20 20:17:28 INFO: Downloaded file to /home/erich/stanza_resources/es/tokenize/combined.pt
Downloading https://huggingface.co/stanfordnlp/stanza-es/resolve/v1.10.0/models/mwt/combined.pt: 100%|██████████| 634k/634k [00:00<00:00, 2.77MB/s]
2025-08-20 20:17:29 INFO: Downloaded file to /home/erich/stanza_resources/es/mwt/combined.pt
Downloa

La lista de todos los modelos y lenguajes disponibles puede verla [aquí](https://stanfordnlp.github.io/stanza/models#downloading-and-using-models).

La clase [Pipeline](https://stanfordnlp.github.io/stanza/pipeline.html#pipeline) nos permite encadenar precesamientos de texto de manera secuencial.

El Pipeline devuelve un objeto tipo [documento](https://stanfordnlp.github.io/stanza/data_objects#document) que contienen todas las etiquetas del documento.

## Tokenización

Creamos dos pipelines, una para el procesamiento de textos en inglés y otra en español. Mediante estas pipelines tenemos acceso a las etiquetas y tokenización generada para el texto.

In [28]:
nlp_en = stanza.Pipeline('en', processors='tokenize,lemma') # No es necesario especificar los pasos de procesamiento que se quieren aplicar.
nlp_es = stanza.Pipeline('es', processors='tokenize,lemma')

2025-08-20 20:17:33 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES
Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json: 433kB [00:00, 12.2MB/s]                    
2025-08-20 20:17:33 INFO: Downloaded file to /home/erich/stanza_resources/resources.json
Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.10.0/models/tokenize/combined.pt: 100%|██████████| 651k/651k [00:02<00:00, 268kB/s]
Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.10.0/models/mwt/combined.pt: 100%|██████████| 509k/509k [00:00<00:00, 557kB/s]
Downloading https://huggingface.co/stanfordnlp/stanza-en/resolve/v1.10.0/models/lemma/combined_nocharlm.pt: 100%|██████████| 4.27M/4.27M [00:03<00:00, 1.30MB/s]
2025-08-20 20:17:43 INFO: Loading these models for language: en (English):
| Processor | P

In [29]:
doc_en = nlp_en('. '.join(text_corpus_en)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.
for sentence in doc_en.sentences: # Tokenización por oraciones
  print(sentence.text)
  print([word.text for word in sentence.words]) # Tokenización por palabras

Human machine interface for lab abc computer applications.
['Human', 'machine', 'interface', 'for', 'lab', 'abc', 'computer', 'applications', '.']
A survey of user opinion of computer system response time.
['A', 'survey', 'of', 'user', 'opinion', 'of', 'computer', 'system', 'response', 'time', '.']
The EPS user interface management system.
['The', 'EPS', 'user', 'interface', 'management', 'system', '.']
System and human system engineering testing of EPS.
['System', 'and', 'human', 'system', 'engineering', 'testing', 'of', 'EPS', '.']
Relation of user perceived response time to error measurement.
['Relation', 'of', 'user', 'perceived', 'response', 'time', 'to', 'error', 'measurement', '.']
The generation of random binary unordered trees.
['The', 'generation', 'of', 'random', 'binary', 'unordered', 'trees', '.']
The intersection graph of paths in trees.
['The', 'intersection', 'graph', 'of', 'paths', 'in', 'trees', '.']
Graph minors IV Widths of trees and well quasi ordering.
['Graph', '

In [30]:
doc_es = nlp_es('. '.join(text_corpus_es)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.
for sentence in doc_es.sentences: # Tokenización por oraciones
  print(sentence.text)
  print([word.text for word in sentence.words]) # Tokenización por palabras

Colombia, oficialmente República de Colombia, es un país soberano situado en la región noroccidental de América del Sur.
['Colombia', ',', 'oficialmente', 'República', 'de', 'Colombia', ',', 'es', 'un', 'país', 'soberano', 'situado', 'en', 'la', 'región', 'noroccidental', 'de', 'América', 'de', 'el', 'Sur', '.']
Es la única nación de América del Sur que tiene costas en el océano Pacífico y acceso al Atlántico a través del mar Caribe.
['Es', 'la', 'única', 'nación', 'de', 'América', 'de', 'el', 'Sur', 'que', 'tiene', 'costas', 'en', 'el', 'océano', 'Pacífico', 'y', 'acceso', 'a', 'el', 'Atlántico', 'a', 'través', 'de', 'el', 'mar', 'Caribe', '.']
Es el vigesimoctavo país más poblado del mundo, con una población de 51 millones de habitantes.
['Es', 'el', 'vigesimoctavo', 'país', 'más', 'poblado', 'de', 'el', 'mundo', ',', 'con', 'una', 'población', 'de', '51', 'millones', 'de', 'habitantes', '.']
La presencia humana en Colombia se remonta a más de 10.000 años.
['La', 'presencia', 'humana

## Lematización

Del objeto [Word](https://stanfordnlp.github.io/stanza/data_objects.html#word) se puede obtener el lema de la palabra mediante el atributo **lema**, junto con otra serie de etiquetas.

In [31]:
for sentence in doc_en.sentences:
  print([word.lemma for word in sentence.words])

['human', 'machine', 'interface', 'for', 'lab', 'abc', 'computer', 'application', '.']
['a', 'survey', 'of', 'user', 'opinion', 'of', 'computer', 'system', 'response', 'time', '.']
['the', 'eps', 'user', 'interface', 'management', 'system', '.']
['system', 'and', 'human', 'system', 'engineering', 'testing', 'of', 'eps', '.']
['relation', 'of', 'user', 'perceive', 'response', 'time', 'to', 'error', 'measurement', '.']
['the', 'generation', 'of', 'random', 'binary', 'unordered', 'tree', '.']
['the', 'intersection', 'graph', 'of', 'path', 'in', 'tree', '.']
['graph', 'minor', 'iv', 'width', 'of', 'tree', 'and', 'well', 'quasi', 'order', '.']
['graph', 'minor', 'a', 'survey']


In [32]:
for sentence in doc_es.sentences:
  print([word.lemma for word in sentence.words])

['Colombia', ',', 'oficialmente', 'república', 'de', 'Colombia', ',', 'ser', 'uno', 'país', 'soberano', 'situar', 'en', 'el', 'región', 'noroccidental', 'de', 'américa', 'de', 'el', 'sur', '.']
['ser', 'el', 'único', 'nación', 'de', 'américa', 'de', 'el', 'sur', 'que', 'tener', 'costa', 'en', 'el', 'océano', 'pacífico', 'y', 'acceso', 'a', 'el', 'Atlántico', 'a', 'través', 'de', 'el', 'mar', 'caribe', '.']
['ser', 'el', 'vigesimoctavo', 'país', 'más', 'poblado', 'de', 'el', 'mundo', ',', 'con', 'uno', 'población', 'de', '51', 'millón', 'de', 'habitante', '.']
['el', 'presencia', 'humano', 'en', 'Colombia', 'él', 'remontar', 'a', 'más', 'de', '10000', 'año', '.']
['Colombia', 'tener', 'uno', 'economía', 'diversificado', 'y', 'poseer', 'uno', 'importante', 'componente', 'de', 'servicio', '.']
['ser', 'el', 'segundo', 'nación', 'más', 'biodiversa', 'de', 'el', 'mundo', ',', 'contar', 'con', '54871', 'especie', 'registrar', '.']
['el', 'denominación', 'de', 'Colombia', 'provenir', 'de', 'e

# Spacy

**spaCy** es una librería robusta de PLN, con las siguientes principales características:

* Soporte para más de 73 idiomas.
* 84 pipelines entrenados para 25 idiomas.
* Aprendizaje multi-tarea con modelos preentrenados como BERT.
* Vectores de palabras preentrenados.
* Velocidad de vanguardia.
* Sistema de entrenamiento listo para producción.
* Tokenización motivada lingüísticamente.
* Componentes para reconocimiento de entidades nombradas, etiquetado de partes de la oración, análisis de dependencias, segmentación de oraciones, clasificación de texto, lematización, análisis morfológico, vinculación de entidades y más.

Consulte más información en la [página oficial](https://spacy.io/).

In [35]:
import spacy

Los pipelines previamente entrenados por spaCy pueden descargarse como paquetes de Python.

Para más información sobre los distintos modos de descarga de los pipelines y ver los modelos disponibles, consulte el siguiente [enlace](https://spacy.io/usage/models).

In [36]:
!python -m spacy download es_core_news_sm
!python -m spacy download en_core_web_sm

Now using node v22.17.0 (npm v10.9.2)
Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m9.1 MB/s[0m  [33m0:00:01[0mm0:00:01[0m00:01[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
Now using node v22.17.0 (npm v10.9.2)
Collecting en-core-web-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.8.0/en_core_web_sm-3.8.0-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m11.5 MB/s[0m  [33m0:00:01[0m eta [36m0:00:01[0m
[?25hInstalling collected packages: en-core-web-sm
Successfully installed en-c

In [37]:
# Cargue los pipelines descargados
nlp_spacy_es = spacy.load("es_core_news_sm")
nlp_spacy_en = spacy.load('en_core_web_sm')


Los pipelines entrenados procesan el texto primero tokenizandolo, y luego normalmente aplican una secuencia de procesamiento que consiste en taggeo, lematización, parseo, e identificación de entidades.

![Secuencia de procesamiento de texto de los pipelines](https://spacy.io/images/pipeline.svg)

Se puede acceder a las etiquetas del texto mediante los atributos de los tokens.

## Tokenización

Al pasar texto al pipeline cargado, obtenemos una secuencia de [Tokens](https://spacy.io/api/token) que nos dan acceso a diferentes etiquetas sobre el texto.

Por medio del atributo text del objeto token, obtenemos la tokenización por palabras del texto.

In [38]:
doc_en = nlp_spacy_en('. '.join(text_corpus_en)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.

words = []
for token in doc_en:
  words.append(token.text)

words[:10]

['Human',
 'machine',
 'interface',
 'for',
 'lab',
 'abc',
 'computer',
 'applications',
 '.',
 'A']

In [39]:
doc_es = nlp_spacy_es('. '.join(text_corpus_es)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.

words = []
for token in doc_es:
  words.append(token.text)

words[:10]

['Colombia',
 ',',
 'oficialmente',
 'República',
 'de',
 'Colombia',
 ',',
 'es',
 'un',
 'país']

Para lograr una tokenización por oración, podemos acceder al atributo **sent** de cada token para obtener la oración a la cual pertenece el token.

In [40]:
doc_en = nlp_spacy_en('. '.join(text_corpus_en)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.

sentences = []
for token in doc_en:
  # Por cada token obten la oración a la que pertenece y se agrega al listado de oraciones
  sentences.append(token.sent)
# Se eliminan las repeticiones de las mismas oraciones
set(sentences)

{Human machine interface for lab abc computer applications.,
 A survey of user opinion of computer system response time.,
 The EPS user interface management system.,
 System and human system engineering testing of EPS.,
 Relation of user perceived response time to error measurement.,
 The generation of random binary unordered trees.,
 The intersection graph of paths in trees.,
 Graph minors IV Widths of trees and well quasi ordering.,
 Graph minors A survey}

In [41]:
doc_es = nlp_spacy_es('. '.join(text_corpus_es)) # Se unen el listado de frases con un punto y un espacio para simular un parrafo.

sentences = []
for token in doc_es:
  # Por cada token obten la oración a la que pertenece y se agrega al listado de oraciones
  sentences.append(token.sent)
# Se eliminan las repeticiones de las mismas oraciones
set(sentences)

{Colombia, oficialmente República de Colombia, es un país soberano situado en la región noroccidental de América del Sur.,
 Es la única nación de América del Sur que tiene costas en el océano Pacífico y acceso al Atlántico a través del mar Caribe.,
 Es el vigesimoctavo país más poblado del mundo, con una población de 51 millones de habitantes.,
 La presencia humana en Colombia se remonta a más de 10.000 años.,
 Colombia tiene una economía diversificada y posee un importante componente de servicios.,
 Es la segunda nación más biodiversa del mundo, contando con 54871 especies registradas.,
 La denominación de Colombia proviene del apellido del explorador genovés del siglo XV Cristóbal Colón (en italiano: Cristoforo Colombo, en latín Christophorus Columbus).,
 El estudio de los primeros pobladores del territorio que hoy comprende la Nación se ha dividido en tres etapas de la época precolombina}

## Eliminación de palabras de parada

Cada Token posee un atributo llamado is_stop que nos indica si el token hace parte de las palabras de parada definidas para el lenguaje.

In [42]:
[token.text for token in doc_en if not token.is_stop][:10] # Solo se muestran las primeras 10 palabras del texto

['Human',
 'machine',
 'interface',
 'lab',
 'abc',
 'computer',
 'applications',
 '.',
 'survey',
 'user']

In [43]:
[token.text for token in doc_es if not token.is_stop][:10] # Solo se muestran las primeras 10 palabras del texto

['Colombia',
 ',',
 'oficialmente',
 'República',
 'Colombia',
 ',',
 'país',
 'soberano',
 'situado',
 'región']

Adicionalmente, se pueden eliminar los tokens que perteneces a signos de puntuación.

In [44]:
[token.text for token in doc_en if not token.is_stop and not token.is_punct][:10] # Solo se muestran las primeras 10 palabras del texto

['Human',
 'machine',
 'interface',
 'lab',
 'abc',
 'computer',
 'applications',
 'survey',
 'user',
 'opinion']

In [45]:
[token.text for token in doc_es if not token.is_stop and not token.is_punct][:10] # Solo se muestran las primeras 10 palabras del texto

['Colombia',
 'oficialmente',
 'República',
 'Colombia',
 'país',
 'soberano',
 'situado',
 'región',
 'noroccidental',
 'América']

## Lematización

Para acceder al lema de cada palabra podemos usar el atributo **lemma_** de cada token.

In [46]:
[token.lemma_ for token in doc_en if not token.is_stop and not token.is_punct][:10] # Solo se muestran las primeras 10 palabras del texto


['human',
 'machine',
 'interface',
 'lab',
 'abc',
 'computer',
 'application',
 'survey',
 'user',
 'opinion']

In [47]:
[token.lemma_ for token in doc_es if not token.is_stop and not token.is_punct][:10] # Solo se muestran las primeras 10 palabras del texto

['Colombia',
 'oficialmente',
 'República',
 'Colombia',
 'país',
 'soberano',
 'situado',
 'región',
 'noroccidental',
 'América']

# Pueden crear sus propias funciones personalizadas al problema

Para problemas específicos se puede cambiar o extender la funcionalidad de las librerías vistas, o también se puede crear una secuencia de procesamiento desde cero según las necesidades que se tengan.

In [50]:
'''
* processing_text: Toma un texto de entrada y devuelve un texto procesado
* @param texto str
* @return processed_feature str
'''
import re
def processing_text(texto):
    # Paso 1: Remover con un expresión regular carateres especiales (no palabras).
    processed_feature = re.sub(r'\W', ' ', str(texto))
    # Paso 2: Remover ocurrencias de caracteres individuales
    processed_feature= re.sub(r'\s+[a-zA-Z]\s+', ' ', processed_feature)
    processed_feature = re.sub(r'\^[a-zA-Z]\s+', ' ', processed_feature)
    # Paso 3: Remover números (Ocurrencias muy esporádicas en nuestro dataset)
    processed_feature = re.sub(r'[0-9]+', ' ', processed_feature)
    # Paso 4: Simplificar espacios concecutivos a un único espacio entre palabras
    processed_feature = re.sub(' +', ' ', processed_feature)
    # Paso 5: Pasar todo el texto a minúsculas
    processed_feature = processed_feature.lower()
    # Paso 6: Aplicar stemming. Es una forma de enviar las palabras a una raiz común simplificando de esta manera el vocabulario.
    #         por ejemplo las palabras (absurdo, absurdos) que estan en el review 2895 seran llevados a la raiz común "absurd"
    #         y de esta forma se evita tener dos palabras diferentes con el mismo significado en nuestro vocabulario.
    processed_feature = " ".join([stemmer_es.stem(i) for i in processed_feature.split()])


    return processed_feature

In [51]:
print("Sin procesar:")
print(text_corpus_es[0])
print("---------------------------------")
print("Procesado:")
print(processing_text(text_corpus_es[0]))

Sin procesar:
Colombia, oficialmente República de Colombia, es un país soberano situado en la región noroccidental de América del Sur
---------------------------------
Procesado:
colombi oficial republ de colombi es un pais soberan situ en la region noroccidental de amer del sur


# Conclusiones

Hay una amplia oferta de opciones que nos permiten aplicar técnicas de procesamiento de texto. Debemos escoger la librería que mejor se adecúe a la situación particular a la que nos enfrentemos, entiendiendo que cada una de ellas tienen ventajas y desventajas frente a la eficiencia de los algoritmos implementados, facilidad de uso, configuración y extensión de las funciones y métodos que proveen, entre otros.