# üß© 1.6 ‚Äì Reemplazos y limpieza de texto con Expresiones Regulares

En este notebook aprender√°s a **modificar texto** mediante expresiones regulares:
- Sustituciones simples (`re.sub`)
- Sustituciones con **grupos** y **funciones personalizadas**
- Normalizaci√≥n de datos reales (espacios, emails, logs)

---
## ÔøΩÔøΩ Objetivos
- Comprender el uso de `re.sub()` y `re.subn()`.
- Usar grupos capturados en reemplazos.
- Limpiar y normalizar datos de texto comunes.

In [1]:
import re
print('‚úÖ M√≥dulo re cargado correctamente.')

‚úÖ M√≥dulo re cargado correctamente.


---
## 1Ô∏è‚É£ `re.sub()` ‚Äì reemplazos directos

`re.sub(patr√≥n, reemplazo, texto)` devuelve una **nueva cadena** donde todas las coincidencias del patr√≥n se reemplazan.

Ejemplo: eliminar espacios m√∫ltiples o s√≠mbolos repetidos.

In [3]:
texto = 'Hola     mundo!!!   Python    es  genial!!!'

# Reemplazar varios espacios por uno solo
texto = re.sub(r'\s+', ' ', texto) # sustituye una o m√°s repeticiones de espacio en blanco por un solo espacio
# Reemplazar m√∫ltiples ! por solo uno
texto = re.sub(r'!+', '!', texto)
print(texto)

Hola mundo! Python es genial!


‚úÖ `\s+` ‚Üí uno o m√°s espacios en blanco.

‚úÖ `!+` ‚Üí una o m√°s exclamaciones repetidas.

---
## 2Ô∏è‚É£ `re.subn()` ‚Äì reemplazo con contador

`re.subn()` funciona igual que `re.sub()`, pero devuelve **una tupla** con el texto resultante y el n√∫mero de reemplazos realizados.

In [4]:
texto = 'Error Error Error'
nuevo, num = re.subn(r'Error', 'OK', texto)
print(nuevo)
print(f'Reemplazos: {num}')

OK OK OK
Reemplazos: 3


In [9]:
texto = 'Error Error Error'
nuevo = re.subn(r'Error', 'OK', texto)
print("Nuevo texto:", nuevo[0])
print("N√∫mero de sustituciones:", nuevo[1])

Nuevo texto: OK OK OK
N√∫mero de sustituciones: 3


---
## 3Ô∏è‚É£ Reemplazo usando grupos capturados

Puedes **reorganizar partes del texto** usando grupos `()` en el patr√≥n y referencias `\1`, `\2`, etc. en el reemplazo.

In [13]:
texto = 'Apellido: Garc√≠a, Nombre: Ana'

# Intercambiamos el orden usando grupos
resultado = re.sub(r'Apellido: (\w+), Nombre: (\w+)', r'\2 \1', texto) # busca apellido y nombre y lo da la vuelta
print(resultado)

Ana Garc√≠a


‚úÖ `\1` y `\2` hacen referencia al **primer y segundo grupo** capturado respectivamente.

---
## 4Ô∏è‚É£ Reemplazo din√°mico con funci√≥n

`re.sub()` acepta una **funci√≥n** como segundo argumento.
La funci√≥n recibe el objeto `Match` y debe devolver el texto reemplazado.

Ejemplo: transformar todos los n√∫meros del texto a su doble.

In [14]:
def duplicar(match):
    num = int(match.group())
    return str(num * 2)

texto = 'Hay 3 gatos, 5 perros y 1 tortuga.'
resultado = re.sub(r'\d+', duplicar, texto)
print(resultado)

Hay 6 gatos, 10 perros y 2 tortuga.


‚úÖ Cada n√∫mero encontrado se pasa a la funci√≥n `duplicar`, que devuelve el doble.

Esto permite crear reemplazos **inteligentes y personalizados**.

---
## 5Ô∏è‚É£ Limpieza de emails o URLs

Ejemplo de anonimizaci√≥n de datos personales.

In [15]:
texto = 'Usuarios: ana@gmail.com, pedro@hotmail.com'

# Reemplazar emails por [EMAIL]
resultado = re.sub(r'[\w\.-]+@[\w\.-]+', '[EMAIL]', texto)
print(resultado)

Usuarios: [EMAIL], [EMAIL]


‚úÖ Patr√≥n `[\w\.-]+@[\w\.-]+` captura direcciones de correo de forma gen√©rica.

---
## 6Ô∏è‚É£ Normalizaci√≥n de texto (pipeline)

Ejemplo completo de **limpieza secuencial** con varios pasos:
1. Quitar etiquetas HTML.
2. Eliminar espacios y signos extra.
3. Pasar todo a min√∫sculas.
4. Sustituir n√∫meros por `#`.

In [17]:
texto = '<b>¬°Hola   Mundo!</b>   En 2025 tendremos  3 lanzamientos!!!'

def limpiar_texto(t):
    t = re.sub(r'<[^>]+>', '', t)           # quitar etiquetas HTML
    t = re.sub(r'!+', '!', t)              # colapsar signos
    t = re.sub(r'\s+', ' ', t)            # espacios extra
    t = re.sub(r'\d+', '#', t)            # sustituir n√∫meros
    return t.strip().lower()              # .strip() elimina los espacios en blanco del principio y del final

print(limpiar_texto(texto))

¬°hola mundo! en # tendremos # lanzamientos!


---
## 7Ô∏è‚É£ Ejercicio pr√°ctico ‚Äì Limpieza de logs

Dado el texto siguiente:
```
[2025-10-31 10:00] INFO user=ana IP=10.0.0.1
[2025-10-31 10:02] ERROR user=luis IP=192.168.1.5
```
Queremos:
- Reemplazar las IP por `[ANON]`
- Convertir todo a min√∫sculas
- Eliminar etiquetas `[INFO]` o `[ERROR]`

üí° *Pista:* encadena varios `re.sub()`.

In [18]:
texto = '[2025-10-31 10:00] INFO user=ana IP=10.0.0.1,[2025-10-31 10:02] ERROR user=luis IP=192.168.1.5'

def limpieza_logs(t):
    t = re.sub(r'IP=[\d\.]+', 'IP=[ANON]', t)
    t = re.sub(r'\[INFO\]|\[ERROR]', '', t)
    t = texto.strip().lower()
    return t

limpieza_logs(texto)

'[2025-10-31 10:00] info user=ana ip=10.0.0.1,[2025-10-31 10:02] error user=luis ip=192.168.1.5'

In [19]:
logs = '''[2025-10-31 10:00] INFO user=ana IP=10.0.0.1\n
[2025-10-31 10:02] ERROR user=luis IP=192.168.1.5'''

limpio = re.sub(r'\d+\.\d+\.\d+\.\d+', '[ANON]', logs)
limpio = re.sub(r'\[(INFO|ERROR)\]\s*', '', limpio)
print(limpio.lower())

[2025-10-31 10:00] info user=ana ip=[anon]

[2025-10-31 10:02] error user=luis ip=[anon]


---
## 8Ô∏è‚É£ Resumen del notebook

- `re.sub()` permite reemplazos est√°ticos o din√°micos.
- Los grupos `()` y funciones personalizadas ampl√≠an su poder.
- Se usa frecuentemente en limpieza de texto, ETL y anonimizaci√≥n.

---
**Fin del notebook 1.6 ‚Äì Reemplazos y limpieza de texto.**