# Tarea 3.2.- Preprocesamiento de texto.

### **Detallar los pasos necesarios para el preprocesamiento de texto: tokenización, eliminación de stop words, lematización, etc. Entre 300 y 400 palabras**.

Cuando trabajamos con Procesamiento del Lenguaje Natural (PLN), los datos rara vez llegan listos para usar. El texto "crudo" es sucio, inconsistente y está lleno de ruido. Por eso, el preprocesamiento no es un paso opcional, sino la base que define la calidad de cualquier análisis posterior. Si alimentamos un modelo con basura, obtendremos basura.

El proceso comienza casi siempre con la tokenización, es decir, el acto de romper el flujo continuo de escritura en unidades mínimas con significado, llamadas tokens. Aunque solemos pensar en palabras, un token puede ser también un signo de puntuación o un número. Sin esta segmentación, el ordenador solo vería una cadena interminable de caracteres sin sentido.

Una vez dividido el texto, pasamos a la limpieza. Aquí eliminamos todo lo que no aporta valor semántico al problema que queremos resolver. Esto incluye borrar caracteres especiales, signos de puntuación extraños, emojis o URLs. El objetivo es reducir el ruido visual para que el algoritmo se centre exclusivamente en el mensaje.

El siguiente filtro es la eliminación de "stop words" o palabras vacías. Son términos omnipresentes en el idioma (como "el", "de", "para", "un") que sirven de pegamento gramatical pero que apenas cargan significado por sí mismos. Al quitarlas, reducimos drásticamente el tamaño de los datos sin perder la esencia del contenido, lo cual acelera el procesamiento.

Para normalizar el vocabulario, utilizamos la lematización. A diferencia de técnicas más rudimentarias que solo cortan el final de las palabras, la lematización analiza morfológicamente el término para devolverlo a su forma base o de diccionario (el lema). Así, "comiendo", "comió" y "comeremos" se unifican bajo el concepto "comer". Esto es crucial para que la máquina entienda que diferentes variantes representan la misma idea.

Finalmente, dependiendo del objetivo, podemos realizar una filtrado por categoría gramatical. Si buscamos analizar temas, quizá solo nos interesen los sustantivos y verbos, por lo que podríamos programar la eliminación sistemática de determinantes, pronombres o conjunciones que hayan sobrevivido a los filtros anteriores.

### **Utilizando el corpus de tweets del MundoToday, realizar un ejemplo práctico de preprocesamiento de texto utilizando spaCy**.

NOTA: Realmente el ejercicio exige el uso de Google Collab, pero al tratarse del procesamiento de un CSV pequeño me voy a permitir el lujo de hacerlo en un jupyter notebook en local.

In [None]:
import sys
!{sys.executable} -m pip install pandas spacy
!{sys.executable} -m spacy download es_core_news_sm

In [None]:
# Realizamos los imports necesarios antes de nada
import pandas as pd
import spacy

-> _Para facilitar todo vamos a colocar el archivo ``corpus_mundo_today.csv`` en la misma ruta del jupyter notebook._

In [None]:
# A continuación cargamos los datos
try:
    df = pd.read_csv('corpus_mundo_today.csv', delimiter='|')
except FileNotFoundError:
    print("¡Error! Ruta incorrecta. Asegúrate de que el archivo 'corpus_mundo_today.csv' está en el directorio correcto.")

In [None]:
# Lo siguiente será cargar el modelo de spaCy
try:
    nlp = spacy.load("es_core_news_sm")
except OSError:
    print("El modelo no está instalado. Ejecuta en tu terminal: python -m spacy download es_core_news_sm")

In [None]:
# Definimos la funcion de procesamiento de texto, con los requisitos indicados
def preprocesar_texto(texto):
    doc = nlp(texto)
    tokens_limpios = []
    
    categorias_prohibidas = {'DET', 'PRON', 'CCONJ', 'SCONJ'}
    
    for token in doc:
        if (not token.is_punct and 
            not token.is_space and 
            not token.is_stop and 
            token.pos_ not in categorias_prohibidas):
            
            tokens_limpios.append(token.lemma_.lower())
            
    return " ".join(tokens_limpios)

In [None]:
# Por último ejecutamos la función
if 'df' in locals():
    print("Procesando...")
    df['texto_procesado'] = df['texto'].apply(preprocesar_texto)
    
    print("\n--- Resultado ---")
    print(df[['texto', 'texto_procesado']].head())

-> _Alternativa: para ver el archivo completo sin depender de la limpieza visual de ``pandas`` ejecutaremos el siguiente bloque de código_

In [None]:
df.to_csv('resultado_procesado.csv', index=False, sep='|')
print("Archivo guardado. Ábrelo con Excel o un editor de texto.")