# Preprocesamiento del texto

In [1]:
import re
import pandas as pd

def preprocess_text(text):
    text = str(text)

    # Normalización a minúsculas
    text = text.lower()

    # Eliminación de tildes
    acentos = "áéíóúÁÉÍÓÚñÑ"
    sin_acentos = "aeiouAEIOUnN"
    tabla = str.maketrans(acentos, sin_acentos)
    text = text.translate(tabla)

    # Eliminación de números
    text = re.sub(r'\d+', '', text)

    # Eliminación de enlaces (http, https, www)
    text = re.sub(r'http\S+|www\.\S+', '', text)

    # Eliminación de retornos de carro y saltos de línea
    text = text.replace('\n', ' ').replace('\r', ' ')

    # Eliminación de etiquetas HTML
    text = re.sub(r'<.*?>', '', text)

    # Eliminación de signos de puntuación y emoticones
    # (dejamos solo letras y espacios)
    text = re.sub(r'[^\w\s]', '', text)

    # Normalización de espacios
    text = re.sub(r'\s+', ' ', text).strip()

    return text

df = pd.read_csv("../1_creacion_corpus/1_corpus_unido.csv")

# Combinar título y descripción para preprocesar todo el texto
df["text_combined"] = df["titulo"].astype(str) + " " + df["descripcion"].astype(str)

# Aplicar el preprocesamiento
df["text_clean"] = df["text_combined"].apply(preprocess_text)

# Guardar corpus limpio
df.to_csv("2_corpus_preprocesado.csv", index=False, encoding="utf-8-sig")

df[["text_combined", "text_clean"]].head(15)


Unnamed: 0,text_combined,text_clean
0,La CE dictamina que el Procedimiento de Actuac...,la ce dictamina que el procedimiento de actuac...
1,"La guerra del petróleo, otra prueba de fuego p...",la guerra del petroleo otra prueba de fuego pa...
2,Más de la mitad de los españoles no creen en l...,mas de la mitad de los espanoles no creen en l...
3,Pablo Santiago Abascal convoca este lunes el C...,pablo santiago abascal convoca este lunes el c...
4,Espadas se abre a un pacto con Moreno para dej...,espadas se abre a un pacto con moreno para dej...
5,La administración vasca soporta la temporalida...,la administracion vasca soporta la temporalida...
6,Torra no acude a los premios de Foment por un ...,torra no acude a los premios de foment por un ...
7,Rita Maestre designa a Begoña Gómez y a Fernan...,rita maestre designa a begona gomez y a fernan...
8,Yeremi Vargas afirma que Cristina Narbona quie...,yeremi vargas afirma que cristina narbona quie...
9,El Congreso aprueba la ley que prohíbe espectá...,el congreso aprueba la ley que prohibe especta...
