# Práctica Integrada: Pipeline de Preprocesamiento para Análisis de Feedback en E-Commerce

Esta práctica busca crear un pipeline robusto que preserve formatos útiles y limpie lo irrelevante.

## Fase 0: Importacion de librerias

In [1]:
%pip install emoji
%pip install dateparser

Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


Note: you may need to restart the kernel to use updated packages.



[notice] A new release of pip available: 22.3 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [2]:
import json
import re
import emoji
import dateparser
import spacy

## Fase 1: Limpieza Contextual de Texto

In [3]:
# Cargar datos
with open("validation_samples.json", "r", encoding="utf-8") as f:
    samples = json.load(f)
print(samples[0])


{'input': '🔥¡OFERTA! Compre 2x zapatos Nike a $99.99 (antes $150) 👟. ¡Válido hasta el 30/11/2023! Visita https://marketmind.com/oferta-nike. Atención @MariaP: ¿Envío gratis? 😃 #ModaDeportiva2023.'}


Texto de muestra a limpiar

`🔥¡OFERTA! Compre 2x zapatos Nike a $99.99 (antes $150) 👟. ¡Válido hasta el 30/11/2023! Visita https://marketmind.com/oferta-nike. Atención @MariaP: ¿Envío gratis? 😃 #ModaDeportiva2023.`

In [4]:

def limpiar_texto(texto):
    protegidos = []

    def proteger(match):
        protegidos.append(match.group(0))
        return f"__PROT{len(protegidos)-1}__"

    # Regex para detectar $99.99, 25%, 3/4, etc.
    texto = re.sub(r"\$?\d+(?:[.,]\d+)?%?|\d+/\d+", proteger, texto)

    # Eliminar URLs y handles
    texto = re.sub(r"https?://\S+|www\.\S+|@\w+", "", texto)
    
    # Eliminar signos de puntuación no deseados (excepto ! ? % $ /)
    texto = re.sub(r"[\.,;:()\[\]\"'\\]", "", texto)
    
    # Unificar espacios
    texto = re.sub(r"\s+", " ", texto).strip()

    for i, val in enumerate(protegidos):
        texto = texto.replace(f"__PROT{i}__", val)
    
    return texto


In [5]:

print(limpiar_texto(samples[0]["input"]))


🔥¡OFERTA! Compre 2x zapatos Nike a $99.99 antes $150 👟 ¡Válido hasta el 30/11/2023! Visita Atención ¿Envío gratis? 😃 #ModaDeportiva2023


## 🔄 Fase 2: Normalización de Números y Unidades

In [6]:

def normalizar_numeros(texto):
    # Normalizar fechas
    fechas = re.findall(r"\b\d{2}/\d{2}/\d{4}\b", texto)
    for fecha in fechas:
        try:
            fecha_iso = dateparser.parse(fecha).strftime("%Y-%m-%d")
            texto = texto.replace(fecha, fecha_iso)
        except:
            continue 

    # Monedas
    texto = re.sub(r"\$\s?(\d+(\.\d{1,2})?)", r"<USD>\1", texto)
    texto = re.sub(r"(\d+(\.\d{1,2})?)\$", r"<USD>\1", texto)
    texto = re.sub(r"(\d+(\.\d{1,2})?)€", r"<EUR>\1", texto)
    
    # Unidades
    texto = re.sub(r"\b(\d+)x\b", r"\1_unidades", texto)  # 2x → 2_unidades
    texto = re.sub(r"\b(\d+)(kg|ml)\b", r"\1_\2", texto)  # 3kg → 3_kg

    # Reemplazar números sueltos (≥2 dígitos) que no estén ya como unidades, monedas o fechas
    # Protegemos lo que ya se ha normalizado
    protegidos = re.findall(r"<USD>\d+(?:[\.,]\d+)?|<EUR>\d+(?:[\.,]\d+)?|\d+_(?:unidades|kg|ml)|\d{4}-\d{2}-\d{2}", texto)
    tokens_protegidos = {p: f"__PROT{idx}__" for idx, p in enumerate(protegidos)}
    for original, marcador in tokens_protegidos.items():
        texto = texto.replace(original, marcador)

    # Ahora sí: reemplazar números sueltos de ≥2 dígitos
    texto = re.sub(r"\b\d{2,}\b", "<NUM>", texto)

    # Restaurar protegidos
    for original, marcador in tokens_protegidos.items():
        texto = texto.replace(marcador, original)


    return texto


In [7]:
texto = limpiar_texto(samples[0]["input"])
print(normalizar_numeros(texto))


🔥¡OFERTA! Compre 2_unidades zapatos Nike a <USD>99.99 antes <USD>150 👟 ¡Válido hasta el 2023-11-30! Visita Atención ¿Envío gratis? 😃 #ModaDeportiva2023


## 🔤 Fase 3: Normalización de Mayúsculas con Reconocimiento de Entidades

In [14]:
!python -m spacy download es_core_news_lg

Collecting es-core-news-lg==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_lg-3.8.0/es_core_news_lg-3.8.0-py3-none-any.whl (568.0 MB)
     -------------------------------------- 568.0/568.0 MB 5.5 MB/s eta 0:00:00
Installing collected packages: es-core-news-lg
Successfully installed es-core-news-lg-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_lg')



[notice] A new release of pip available: 22.3 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


In [20]:
nlp = spacy.load("es_core_news_lg")

# Diccionario personalizado de marcas (simulado)
marcas_manual = {"algo"}
# {"Zara", "Nike", "Adidas", "iPhone"}

def normalizar_mayusculas(texto):
    doc = nlp(texto)
    resultado = []

    for token in doc:
        if token.text in marcas_manual:
            resultado.append(token.text)
        elif token.ent_type_ in {"ORG", "LOC", "PRODUCT", "GPE"}:
            resultado.append(token.text)
        elif token.text.startswith("#"):
            resultado.append(token.text)
        else:
            resultado.append(token.text.lower())
    
    return " ".join(resultado)


In [21]:

texto_final = normalizar_mayusculas(normalizar_numeros(limpiar_texto(samples[0]["input"])))
print(texto_final)


🔥 ¡ oferta ! compre 2_unidades zapatos Nike a < usd>99.99 antes < USD>150 👟 ¡ válido hasta el 2023-11-30 ! visita atención ¿ envío gratis ? 😃 # ModaDeportiva2023


## ✅ Verificación Final


El resultado esperado debe conservar formatos y significado semántico útil para análisis de feedback comercial.  
Ejemplo de salida:

```
🔥 oferta compre 2_unidades zapatos Nike a <USD>99.99 antes <NUM> 👟
válido hasta el 2023-11-30 atención ¿envío gratis 😃 #ModaDeportiva2023
```
