**PrÃ¡ctica Integrada: Pipeline de Preprocesamiento para AnÃ¡lisis de Feedback en E-Commerce**  
**Contexto Empresarial Real:**  
Eres parte del equipo de NLP de **MarketMind**, una empresa de e-commerce que analiza millones de comentarios de clientes (inglÃ©s/espaÃ±ol) y tweets para detectar tendencias de productos. **Problema actual:** El modelo GPT-4 fine-tuned genera resÃºmenes errÃ³neos porque el texto crudo contiene URLs, precios, y emoticones mal normalizados.  

---

### **Fase 1: Limpieza Contextual de Texto**  
**Objetivo:** Crear una funciÃ³n que procese texto crudo preservando informaciÃ³n crÃ­tica para anÃ¡lisis comercial.  

#### **Datos de Entrada:**  

Archivo -> validation_samples.json

#### **Requisitos:**  
1. **Eliminar:**  
   - URLs, handles de usuario (@MariaP), y signos de puntuaciÃ³n *excepto* `!`, `?`, `%`, `$`, `/`.  
   - ParÃ©ntesis `()` y corchetes `[]`.  
2. **Preservar:**  
   - Emoticones (ðŸ˜ƒ, ðŸ”¥), hashtags (#ModaDeportiva2023), y formatos comerciales (`2x`, `$99.99`).  
   - Fechas (`30/11/2023`), horas (`18:30`), y porcentajes (`15%`).  
3. **Normalizar:**  
   - Unificar espacios mÃºltiples y saltos de lÃ­nea.  

#### **Pistas de ImplementaciÃ³n:**  
- Usar regex con grupos capturadores para fechas (`\b\d{2}/\d{2}/\d{4}\b`).  
- Para emoticones, usar la librerÃ­a `emoji` (no eliminar ðŸš«â†’ âœ…).  
- Preservar `$`, `%`, y `/` solo si estÃ¡n adyacentes a nÃºmeros: `\$?\d+(\.\d+)?%?`.  

#### **VerificaciÃ³n:**  
El texto procesado debe quedar:  
```  
ðŸ”¥ OFERTA Compre 2x zapatos Nike a $99.99 antes $150 ðŸ‘Ÿ  
VÃ¡lido hasta el 30/11/2023 AtenciÃ³n Â¿EnvÃ­o gratis ðŸ˜ƒ #ModaDeportiva2023  
```  

In [7]:
import re
import json
import emoji
import random

def clean_text(text):
    """FunciÃ³n de limpieza de texto para anÃ¡lisis de feedback en e-commerce.
    
    ParÃ¡metros:
    text (str): Texto a limpiar
    
    Returns:
    str: Texto limpio y normalizado
    """
    # 1. Identificar y marcar elementos a preservar
    
    # Patrones para elementos a preservar
    patterns_to_preserve = [
        # Hashtags
        (r'(#\w+)', r' \1 '),
        
        # Fechas en formato DD/MM/YYYY o YYYY-MM-DD
        (r'(\b\d{2}/\d{2}/\d{4}\b|\b\d{4}-\d{2}-\d{2}\b)', r' \1 '),
        
        # Horas en formato HH:MM
        (r'(\b\d{1,2}:\d{2}\b)', r' \1 '),
        
        # Formatos comerciales: 2x, $99.99, 15%, etc.
        (r'(\b\d+x\b)', r' \1 '),  # Preservar formatos como 2x
        (r'(\$?\d+(\.\d+)?(â‚¬|USD)?)', r' \1 '),  # Preservar precios
        (r'(\d+(\.\d+)?%)', r' \1 ')  # Preservar porcentajes
    ]
    
    # Aplicar patrones de preservaciÃ³n
    for pattern, replacement in patterns_to_preserve:
        text = re.sub(pattern, replacement, text)
    
    # 2. Eliminar elementos no deseados
    
    # Eliminar URLs
    text = re.sub(r'https?://\S+|www\.\S+', ' ', text)
    
    # Eliminar handles de usuario (@usuario)
    text = re.sub(r'@\w+', ' ', text)
    
    # Eliminar parÃ©ntesis y corchetes pero preservar su contenido
    text = re.sub(r'[\(\)\[\]{}]', ' ', text)
    
    # 3. Crear una lista de caracteres a mantener (emojis y puntuaciÃ³n permitida)
    chars_to_keep = ['!', '?', '%', '$', '/', 'â‚¬']
    
    # 4. Procesar el texto caracter por caracter
    result = []
    for char in text:
        # Mantener emojis
        if char in emoji.EMOJI_DATA:
            result.append(char)
        # Mantener puntuaciÃ³n permitida
        elif char in chars_to_keep:
            result.append(char)
        # Mantener letras, nÃºmeros y espacios
        elif char.isalnum() or char.isspace():
            result.append(char)
        # Reemplazar otra puntuaciÃ³n con espacio
        else:
            result.append(' ')
    
    # 5. Normalizar espacios mÃºltiples y saltos de lÃ­nea
    processed_text = ''.join(result)
    processed_text = re.sub(r'\s+', ' ', processed_text).strip()
    
    return processed_text

# Cargar los datos de ejemplo para pruebas
with open('validation_samples.json', 'r', encoding='utf-8') as f:
    samples = json.load(f)

# Seleccionar un ejemplo aleatorio para verificaciÃ³n
random_sample = random.choice(samples)
ejemplo = random_sample['input']

print("== VerificaciÃ³n Aleatoria ==")
print("\nTexto original:")
print(ejemplo)
print("\nTexto limpio:")
print(clean_text(ejemplo))

== VerificaciÃ³n Aleatoria ==

Texto original:
Received package late. Tracking number: #123ABC. Contacted @support, no reply ðŸ˜¡.

Texto limpio:
Received package late Tracking number 123 ABC Contacted no reply ðŸ˜¡
