Instalación de librerias necesarias:

- Unidecode: herramienta util que eliminará acentos y otros caracteres especiales en el lenguaje español como el caracter ñ.



In [46]:
!pip install unidecode



In [52]:
# Importación de bibliotecas necesarias
from unidecode import unidecode
# Para manipulación de datos con DataFrames
import pandas as pd
# Operaciones numéricas
import numpy as np
# Biblioteca de graficos
import matplotlib.pyplot as plt
# Manejo de expresiones regulares
import re

# Biblioteca de procesamiento de lenguaje natural
import nltk
# Importación de tokenizadores
from nltk.tokenize import sent_tokenize, word_tokenize
from nltk.tokenize import TweetTokenizer
from nltk.stem import SnowballStemmer

# Descarga de recursos adicionales para NLTK
# Descarga de modelos para tokenización de oraciones y palabras
nltk.download('punkt')
# Descarga de la lista de palabras vacías (stopwords)
nltk.download('stopwords')

# Descarga de recursos para WordNet
nltk.download('wordnet')

# Importación de la lista de palabras vacías
from nltk.corpus import stopwords

# Importación de lematizador basado en WordNet
from nltk.stem import WordNetLemmatizer

# Importación de steemer (raíz de palabras) de nltk
from nltk.stem import PorterStemmer

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


## **1. Carga de datos**
---
En el repositorio compartido se encuentra la base de datos temporal que se utilizara para el desarrollo de este notebook

In [7]:
# URL del repositorio donde se encuentra alojado el dataset
url = 'https://raw.githubusercontent.com/CDspana/Especializacion/main/DB_temp/temporal_dataset.csv'

In [8]:
# Se realiza la lectura del archivo con la ayuda de pandas
df = pd.read_csv(url)
df

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Date,Media,Title,Article,Summary
0,0,0,Hace 36 minutos,Europa Press,Petro asegura que Venezuela será uno de los mo...,"Maduro promete hacer ""lo posible para que el p...",Maduro ha subrayado que Colombia y Venezuela h...
1,1,1,Hace 37 minutos,EL PAÍS,Un día en la vida del ministro Bonilla,Texto en el que el autor aboga por ideas y sac...,Texto en el que el autor aboga por ideas y sac...
2,2,2,Hace 37 minutos,EL PAÍS,La violencia simbólica contra el Gobierno de G...,La violencia simbólica contra el Gobierno de G...,"La semana que termina, particularmente violent..."
3,3,3,Hace 37 minutos,EL PAÍS,Videoanálisis | Un acuerdo nacional pero con l...,La periodista Diana Calderón recuerda que la c...,La periodista Diana Calderón recuerda que la c...
4,4,4,Hace 1 hora,AS Colombia,"Resultados Miss Universo 2023: Nicaragua, gana...",Así se definió Miss Universo 2023\n\nEl moment...,Así se definió Miss Universo 2023El momento ex...
...,...,...,...,...,...,...,...
490,490,16,Hace 8 meses,Pulzo,Encuentre las principales noticias de economía...,SUSCRÍBETE A NUESTROS BOLETINES\n\nPara que es...,SUSCRÍBETE A NUESTROS BOLETINESPara que estés ...
491,491,17,Hace 8 meses,Compartir Palabra Maestra,Blogs,La distancia entre ciencia y espiritualidad es...,La distancia entre ciencia y espiritualidad es...
492,492,18,Hace 12 meses,RCN Radio,Estilo de vida,Los mejores trabajos del futuro: grandes sueld...,Los mejores trabajos del futuro: grandes sueld...
493,493,19,Hace 12 meses,El Espectador,"Hay 2.000 cupos para estudiar, gratis, program...",La formación será en línea. Foto: Getty Images...,"Las clases son 100% virtuales y en vivo, acerc..."


## **2. Estructura Típica de Preprocesamiento**
---

En este caso se exponen algunas de las operaciones más comunes en distintos preprocesamientos de información textual. Es necesario resaltar que no en todos los casos se necesitará aplicar todas las técnicas e incluso en alguna aplicación específica se necesita estrategias más especializadas, no obstante, lo que se presenta a continuación aplica de forma general a la gran mayoría de aplicaciones de Procesamiento de Lenguaje Natural.

Para estos ejemplos se diseñó el preprocesamiento para un único documento y, posteriormente, se aplicará todo el **preprocesamiento** al _corpus_

In [20]:
# texto que se utilizará para exponer las tecnicas de pre procesamiento
text = df['Article'].iloc[100]
print(text)

¡Llega una nueva jornada de Eliminatorias Sudamericanas! La Selección Colombia quiere dar un paso importante en la búsqueda de la clasificación al Mundial de Estados Unidos - México - Canadá de 2026 y este jueves recibe la Selección de Brasil por la quinta fecha en el estadio Metropolitano Roberto Meléndez (7:00 p.m.). El equipo nacional buscará su primera victoria en la historia de los clasificatorios ante los pentacampeones.

Los dirigidos por Néstor Lorenzo se ubican en la quinta casilla de la tabla de posiciones con 6 puntos luego de un partido ganado y tres empatados. Son junto a Argentina las dos únicas selecciones que se mantienen invictas, mientras que la Canarinha es tercera con una unidad más, tras dos victorias, un empate y una derrota. Por el momento ambos seleccionados se mantienen en zona de clasificación al Mundial.

La Selección Colombia, que solamente le ha ganado tres veces en toda la historia a Brasil (dos en la Copa América y una en un encuentro amistoso) buscará su

## **3. Tokenizado del Texto**
---

El proceso de tokenizado consiste en separar el texto en unidades lógicas (caracteres, palabras, oraciones).

In [21]:
# sentencias
print('Tokenización por sentencias:\n')
sentences = sent_tokenize(text)
for sentence in sentences:
    print(sentence,'\n')
print('Tokenización por sentencias:\n')
print(sent_tokenize(text))

# palabras
tokens = word_tokenize(text)
print('\n Tokenización por palabras:')
for token in tokens:
    print(token, end =' ')
print('')
print('\n Tokenización por palabras:')
print(word_tokenize(text))

# caracteres
chars = [char for char in text]
print('\n Tokenización por caracteres:')
for char in chars:
    print(char, end =' ')
print('')
print('\n Tokenización por caracteres:')
print(chars)

Tokenización por sentencias:

¡Llega una nueva jornada de Eliminatorias Sudamericanas! 

La Selección Colombia quiere dar un paso importante en la búsqueda de la clasificación al Mundial de Estados Unidos - México - Canadá de 2026 y este jueves recibe la Selección de Brasil por la quinta fecha en el estadio Metropolitano Roberto Meléndez (7:00 p.m.). 

El equipo nacional buscará su primera victoria en la historia de los clasificatorios ante los pentacampeones. 

Los dirigidos por Néstor Lorenzo se ubican en la quinta casilla de la tabla de posiciones con 6 puntos luego de un partido ganado y tres empatados. 

Son junto a Argentina las dos únicas selecciones que se mantienen invictas, mientras que la Canarinha es tercera con una unidad más, tras dos victorias, un empate y una derrota. 

Por el momento ambos seleccionados se mantienen en zona de clasificación al Mundial. 

La Selección Colombia, que solamente le ha ganado tres veces en toda la historia a Brasil (dos en la Copa América y 

Comunmente los Large Language Models (LLMS) utilizan tokenización por palabra, lo cual tambien se optara por implementar en este proyecto


In [28]:
# palabras
tokens = word_tokenize(text)
print('\n Tokenización por palabras:')
for token in tokens:
    print(token, end =' ')
print('')
print('\n Tokenización por palabras:')
print(word_tokenize(text))


 Tokenización por palabras:
¡Llega una nueva jornada de Eliminatorias Sudamericanas ! La Selección Colombia quiere dar un paso importante en la búsqueda de la clasificación al Mundial de Estados Unidos - México - Canadá de 2026 y este jueves recibe la Selección de Brasil por la quinta fecha en el estadio Metropolitano Roberto Meléndez ( 7:00 p.m. ) . El equipo nacional buscará su primera victoria en la historia de los clasificatorios ante los pentacampeones . Los dirigidos por Néstor Lorenzo se ubican en la quinta casilla de la tabla de posiciones con 6 puntos luego de un partido ganado y tres empatados . Son junto a Argentina las dos únicas selecciones que se mantienen invictas , mientras que la Canarinha es tercera con una unidad más , tras dos victorias , un empate y una derrota . Por el momento ambos seleccionados se mantienen en zona de clasificación al Mundial . La Selección Colombia , que solamente le ha ganado tres veces en toda la historia a Brasil ( dos en la Copa América y 

## **2. Filtrado de Palabras**
---

Una práctica común en el preprocesamiento de textos es el filtrado de _tokens_ según distintas condiciones.


Por ejemplo, se puede eliminar todas las palabras que sean _stopwords_

In [32]:
# Obtener stopwords en español
stop_words_espanol = set(stopwords.words('spanish'))

# Condición para eliminar stopword
condition = lambda token: token.lower() not in stop_words_espanol
# Filtrar tokens eliminando stopwords
filtered_tokens = list(filter(condition, tokens))

# Imprimir los tokens filtrados
print("Tokens originales:", tokens)
print("Tokens filtrados:", filtered_tokens)

Tokens originales: ['¡Llega', 'una', 'nueva', 'jornada', 'de', 'Eliminatorias', 'Sudamericanas', '!', 'La', 'Selección', 'Colombia', 'quiere', 'dar', 'un', 'paso', 'importante', 'en', 'la', 'búsqueda', 'de', 'la', 'clasificación', 'al', 'Mundial', 'de', 'Estados', 'Unidos', '-', 'México', '-', 'Canadá', 'de', '2026', 'y', 'este', 'jueves', 'recibe', 'la', 'Selección', 'de', 'Brasil', 'por', 'la', 'quinta', 'fecha', 'en', 'el', 'estadio', 'Metropolitano', 'Roberto', 'Meléndez', '(', '7:00', 'p.m.', ')', '.', 'El', 'equipo', 'nacional', 'buscará', 'su', 'primera', 'victoria', 'en', 'la', 'historia', 'de', 'los', 'clasificatorios', 'ante', 'los', 'pentacampeones', '.', 'Los', 'dirigidos', 'por', 'Néstor', 'Lorenzo', 'se', 'ubican', 'en', 'la', 'quinta', 'casilla', 'de', 'la', 'tabla', 'de', 'posiciones', 'con', '6', 'puntos', 'luego', 'de', 'un', 'partido', 'ganado', 'y', 'tres', 'empatados', '.', 'Son', 'junto', 'a', 'Argentina', 'las', 'dos', 'únicas', 'selecciones', 'que', 'se', 'manti

Como se puede observar, se eliminaron\ _tokens_ como `"a"`, `"las"`, `"y"`, `"los"`, entre otras que son muy comunes (y poco informativas) en Español.

También es posible filtrar palabras por longitud, por ejemplo, en español la palabra más larga tiene 23 letras (electroencefalografista), por ello, podemos definir una condición para filtrar palabras que tengan una longitud en un rango dado:

In [35]:
condition = lambda token: len(token) > 1 and len(token) < 24

Filtramos los tokens:

In [44]:
filtered_tokens2 = list(filter(condition, filtered_tokens))
filtered_tokens2 = " ".join(filtered_tokens2)
print(filtered_tokens2)

¡Llega nueva jornada Eliminatorias Sudamericanas Selección Colombia quiere dar paso importante búsqueda clasificación Mundial Unidos México Canadá 2026 jueves recibe Selección Brasil quinta fecha estadio Metropolitano Roberto Meléndez 7:00 p.m. equipo nacional buscará primera victoria historia clasificatorios pentacampeones dirigidos Néstor Lorenzo ubican quinta casilla tabla posiciones puntos luego partido ganado tres empatados junto Argentina dos únicas selecciones mantienen invictas mientras Canarinha tercera unidad tras dos victorias empate derrota momento ambos seleccionados mantienen zona clasificación Mundial Selección Colombia solamente ganado tres veces toda historia Brasil dos Copa América encuentro amistoso buscará primer triunfo Eliminatorias balance momento empates derrotas compromisos clasificatorios Tricolor solo convertido cinco tantos recibido 21 Colombia Brasil bajas afrontar partido Además bajas hacer Colombia Brasil convocatoria lesiones caso Santiago Arias Mateo Ca

## **3. Normalización de Caracteres**
---

En muchos idiomas tienen caracteres modificadores de vocales o letras. Por ejemplo, el español tiene las tildes y la letra "ñ"; o en el caso del portugués se tiene tres tipos de acentos.

Este tipo de variaciones pueden ser eliminadas en un proceso de normalización de los textos con distintos tipos de codificaciones. Para el español es muy común usar la librería `unidecode`:

In [49]:
norm_text = unidecode(filtered_tokens2)
print(norm_text)

!Llega nueva jornada Eliminatorias Sudamericanas Seleccion Colombia quiere dar paso importante busqueda clasificacion Mundial Unidos Mexico Canada 2026 jueves recibe Seleccion Brasil quinta fecha estadio Metropolitano Roberto Melendez 7:00 p.m. equipo nacional buscara primera victoria historia clasificatorios pentacampeones dirigidos Nestor Lorenzo ubican quinta casilla tabla posiciones puntos luego partido ganado tres empatados junto Argentina dos unicas selecciones mantienen invictas mientras Canarinha tercera unidad tras dos victorias empate derrota momento ambos seleccionados mantienen zona clasificacion Mundial Seleccion Colombia solamente ganado tres veces toda historia Brasil dos Copa America encuentro amistoso buscara primer triunfo Eliminatorias balance momento empates derrotas compromisos clasificatorios Tricolor solo convertido cinco tantos recibido 21 Colombia Brasil bajas afrontar partido Ademas bajas hacer Colombia Brasil convocatoria lesiones caso Santiago Arias Mateo Ca

## **4. Modificación de la Grafía**
---

Normalmente, los textos se suelen procesar en minúsculas. Con esto eliminamos modificadores relacionados con el inicio de un texto, palabras capitalizadas luego de signos de puntuación, entre otras cosas.

En este caso, se convierte el texto a minúsculas:

In [51]:
lower_text = norm_text.lower()
print(lower_text)

!llega nueva jornada eliminatorias sudamericanas seleccion colombia quiere dar paso importante busqueda clasificacion mundial unidos mexico canada 2026 jueves recibe seleccion brasil quinta fecha estadio metropolitano roberto melendez 7:00 p.m. equipo nacional buscara primera victoria historia clasificatorios pentacampeones dirigidos nestor lorenzo ubican quinta casilla tabla posiciones puntos luego partido ganado tres empatados junto argentina dos unicas selecciones mantienen invictas mientras canarinha tercera unidad tras dos victorias empate derrota momento ambos seleccionados mantienen zona clasificacion mundial seleccion colombia solamente ganado tres veces toda historia brasil dos copa america encuentro amistoso buscara primer triunfo eliminatorias balance momento empates derrotas compromisos clasificatorios tricolor solo convertido cinco tantos recibido 21 colombia brasil bajas afrontar partido ademas bajas hacer colombia brasil convocatoria lesiones caso santiago arias mateo ca

## **5. Limpieza con Regex**
---

Comúnmente se suelen aplicar expresiones regulares para eliminar caracteres o secuencias de caracteres no deseadas. Se aplicará una expresión regular para eliminar todos los caracteres que no sean espacios ni letras minúsculas.

Se define una expresión regular que cumpla con los criterios mencionados:

In [53]:
pat = re.compile(r"[^a-z ]")

In [54]:
clean_text = re.sub(pat, "", lower_text)
print(clean_text)

llega nueva jornada eliminatorias sudamericanas seleccion colombia quiere dar paso importante busqueda clasificacion mundial unidos mexico canada  jueves recibe seleccion brasil quinta fecha estadio metropolitano roberto melendez  pm equipo nacional buscara primera victoria historia clasificatorios pentacampeones dirigidos nestor lorenzo ubican quinta casilla tabla posiciones puntos luego partido ganado tres empatados junto argentina dos unicas selecciones mantienen invictas mientras canarinha tercera unidad tras dos victorias empate derrota momento ambos seleccionados mantienen zona clasificacion mundial seleccion colombia solamente ganado tres veces toda historia brasil dos copa america encuentro amistoso buscara primer triunfo eliminatorias balance momento empates derrotas compromisos clasificatorios tricolor solo convertido cinco tantos recibido  colombia brasil bajas afrontar partido ademas bajas hacer colombia brasil convocatoria lesiones caso santiago arias mateo cassierra eders

Como se puede ver, se ha eliminado caracteres coomo `"!"` y numeros como `"2026"`, `"7:00"`. Ademas, se tiene espacios repetidos (ya que algunos _tokens_ se eliminaron), se usará una

---

segunda expresión regular para eliminar espacios repetidos:

In [55]:
spaces = re.compile(r"\s{2,}")

In [56]:
spaces_text = re.sub(spaces, " ", clean_text)
print(spaces_text)

llega nueva jornada eliminatorias sudamericanas seleccion colombia quiere dar paso importante busqueda clasificacion mundial unidos mexico canada jueves recibe seleccion brasil quinta fecha estadio metropolitano roberto melendez pm equipo nacional buscara primera victoria historia clasificatorios pentacampeones dirigidos nestor lorenzo ubican quinta casilla tabla posiciones puntos luego partido ganado tres empatados junto argentina dos unicas selecciones mantienen invictas mientras canarinha tercera unidad tras dos victorias empate derrota momento ambos seleccionados mantienen zona clasificacion mundial seleccion colombia solamente ganado tres veces toda historia brasil dos copa america encuentro amistoso buscara primer triunfo eliminatorias balance momento empates derrotas compromisos clasificatorios tricolor solo convertido cinco tantos recibido colombia brasil bajas afrontar partido ademas bajas hacer colombia brasil convocatoria lesiones caso santiago arias mateo cassierra ederson 

## **6. Preprocesamiento Completo**
---

Como se puede ver desde el paso anterior, se tiene un texto más limpio que puede llegar a ser más fácil de analizar de manera automática.

Se continua con la aplicación del preprocesamiento sobre el _corpus_ completo. Para ello, se define la función `preprocess` la cual toma como entrada un documento cualquiera y retorna un documento preprocesado:

In [60]:
pat = re.compile(r"[^a-z ]")
spaces = re.compile(r"\s{2,}")

def preprocess(text, min_len=1, max_len=23):

    # Se crean los Tokens de palabras
    tokens = word_tokenize(text)

    # Se eliminan stopwords
    filtered_tokens = filter(
            lambda token: token.lower() not in stop_words_espanol,
            tokens
            )

    # Se filtran palabras por longitud
    filtered_tokens2 = filter(
            lambda token: len(token) > min_len and len(token) <= max_len,
            filtered_tokens
        )
    # Se pasa a los tokens a cada de string
    norm_text = " ".join(filtered_tokens2)
    # Normalización del texto
    norm_text = unidecode(norm_text)
    # Eliminación de grafía
    lower_text = norm_text.lower()
    # Se remueven caracteres especiales
    clean_text = re.sub(pat, "", lower_text)
    # Se remueven espacios duplicados
    spaces_text = re.sub(spaces, " ", clean_text)
    return spaces_text.strip()

In [68]:
# Aplicar la función preprocess sobre el dataframe
df['preprocess'] = df['Article'].apply(preprocess)

# Imprimir el DataFrame resultante con los tokens lematizados
display(df[['Article', 'preprocess']])

Unnamed: 0,Article,preprocess
0,"Maduro promete hacer ""lo posible para que el p...",maduro promete hacer posible proyecto paz tota...
1,Texto en el que el autor aboga por ideas y sac...,texto autor aboga ideas saca conclusiones basa...
2,La violencia simbólica contra el Gobierno de G...,violencia simbolica gobierno gustavo petro agu...
3,La periodista Diana Calderón recuerda que la c...,periodista diana calderon recuerda caida pib t...
4,Así se definió Miss Universo 2023\n\nEl moment...,asi definio miss universo momento exacto sheyn...
...,...,...
490,SUSCRÍBETE A NUESTROS BOLETINES\n\nPara que es...,suscribete boletines bien informado invitamos ...
491,La distancia entre ciencia y espiritualidad es...,distancia ciencia espiritualidad evidente meno...
492,Los mejores trabajos del futuro: grandes sueld...,mejores trabajos futuro grandes sueldos alta d...
493,La formación será en línea. Foto: Getty Images...,formacion linea foto getty images si buscando ...


Como se puede ver, se ha obtenido un _corpus_ más estandarizado y compacto con un flujo típico de preprocesamiento.

In [70]:
prep_corpus = df['Article'].apply(preprocess).tolist()

In [72]:
print(prep_corpus[:10])

['maduro promete hacer posible proyecto paz total llegue temprano tarde territorio colombiano petro propone eeuu programa humanizacion exodo gestionar migracion madrid nov europa press presidente colombia gutavo petro asegurado sabado venezuela motores reactivacion economia colombiana tras reunirse homologo venezolano nicolas maduro visita oficial caracas ano entrante quiza pura paradoja venezuela va ser motores reactivacion economia colombiana aseverado mandatario colombiano matizado asi si cosas van bien logran sacar adelante serie esfuerzos comunes segun comunicado ministerio exteriores colombia cuarta visita oficial petro servido ampliar mapa cooperacion estrategica ambas naciones solo terminos economicos sino materia comercio integracion turismo maduro subrayado colombia venezuela ido paso paso avanzando debe ser relacion hermandad cooperacion paz prosperidad conjunta senalado puede hacer sectores asimismo lider gobierno venezolano manifestado apoyo irrestricto consolidacion paz t