# üß© 1.4 ‚Äì Funciones del m√≥dulo `re`: findall, match, search, split, sub


En este notebook aprender√°s las **funciones principales del m√≥dulo `re`** y sus diferencias pr√°cticas.

Conocerlas a fondo te permitir√° elegir la adecuada seg√∫n la tarea: **buscar, extraer, separar o reemplazar texto.**


## üéØ Objetivos
- Dominar las funciones: `findall`, `match`, `search`, `split`, `sub`.
- Comprender qu√© devuelve cada una y cu√°ndo usarla.
- Aplicarlas en ejemplos sobre texto real (logs, frases, listas).

> üí° **Consejo:** ejecuta las celdas en orden o usa *Ejecutar todo* (`Ctrl+Shift+Enter`).


## 1Ô∏è‚É£ `findall()` ‚Äì todas las coincidencias

Devuelve una **lista** con todas las coincidencias encontradas.

Ejemplo: buscar todos los n√∫meros (`\\d+`) y todas las palabras (`\\w+`) de un texto.

In [2]:
import re

texto = "Error 404 en /api/login el 12/03/2025 a las 10:32"
print(re.findall(r"\\d+", texto))  # todos los n√∫meros
print(re.findall(r"[a-zA-Z]+", texto))  # todas las palabras

[]
['Error', 'en', 'api', 'login', 'el', 'a', 'las']


‚úÖ `findall()` es ideal cuando quieres **extraer todas las apariciones** del patr√≥n sin m√°s contexto.\n
\n
Si usas **grupos `( )`**, devolver√° una **lista de tuplas** con las partes capturadas.

---\n
## 2Ô∏è‚É£ `match()` ‚Äì solo al inicio del texto\n
\n
Comprueba si el patr√≥n **coincide desde el inicio**.\n
\n
Devuelve un objeto `Match` o `None`.

In [None]:
texto = "INFO: proceso iniciado"\n
\n
m1 = re.match(r"INFO", texto)\n
m2 = re.match(r"ERROR", texto)\n
\n
print("Resultado 1:", m1)\n
print("Resultado 2:", m2)

‚úÖ `match` solo tiene √©xito si el texto **empieza** con el patr√≥n.\n
\n
En este ejemplo, `INFO` coincide, pero `ERROR` no.

---\n
## 3Ô∏è‚É£ `search()` ‚Äì primera coincidencia en cualquier parte\n
\n
Busca el **primer** patr√≥n encontrado, sin importar la posici√≥n.\n
Tambi√©n devuelve un objeto `Match` con informaci√≥n detallada.

In [None]:
texto = "ERROR: fallo en el proceso PID=3421"\n
m = re.search(r"PID=(\\d+)", texto)\n
\n
if m:\n
    print("Coincidencia completa:", m.group(0))\n
    print("Grupo 1 (PID):", m.group(1))

‚úÖ `search()` se usa cuando solo te interesa **la primera coincidencia**.\n
\n
Si quieres todas, usa `findall()`.

---\n
## 4Ô∏è‚É£ `split()` ‚Äì dividir texto por un patr√≥n\n
\n
`re.split(patron, texto)` divide el texto en partes **usando el patr√≥n como separador**.\n
\n
Ejemplo: dividir un log por s√≠mbolos de puntuaci√≥n o espacios m√∫ltiples.

In [None]:
texto = "INFO - usuario: ana | ID:123 | ESTADO:OK"\n
partes = re.split(r"\\s*[\-|:|\|]\\s*", texto)\n
print(partes)

‚úÖ `split()` es ideal para **preprocesamiento de texto** o limpiar separadores inconsistentes.

---\n
## 5Ô∏è‚É£ `sub()` ‚Äì reemplazo de texto\n
\n
Permite reemplazar todas las coincidencias de un patr√≥n por un texto o incluso una **funci√≥n**.\n
\n
Ejemplo: anonimizar direcciones IP en logs.

In [None]:
texto = "Conexi√≥n desde 192.168.0.10 y 10.0.0.1"\n
\n
# reemplazo directo\n
anon = re.sub(r"\\d+\\.\\d+\\.\\d+\\.\\d+", "[IP]", texto)\n
print(anon)\n
\n
# reemplazo din√°mico con funci√≥n\n
def ocultar_ip(match):\n
    return "[IP_anon]"\n
\n
anon2 = re.sub(r"\\d+\\.\\d+\\.\\d+\\.\\d+", ocultar_ip, texto)\n
print(anon2)

‚úÖ `sub()` puede recibir una **funci√≥n** para realizar reemplazos personalizados, lo que la hace muy potente.

---\n
## 6Ô∏è‚É£ Ejercicio tem√°tico ‚Äì Procesamiento de logs\n
\n
Dado un texto con registros de log como:\n
\n
`[2025-10-31 10:00] INFO user=ana IP=10.0.0.1`\n
\n
Queremos:\n
1. Extraer todos los usuarios.\n
2. Extraer todas las IPs.\n
3. Reemplazar las IPs por `[ANON]`.\n
\n
üí° *Pista:* usa `findall()` con `user=(\\w+)` y `IP=(\\d+\\.\\d+\\.\\d+\\.\\d+)`.

In [None]:
texto = """[2025-10-31 10:00] INFO user=ana IP=10.0.0.1\n
[2025-10-31 10:02] ERROR user=luis IP=192.168.1.20\n
[2025-10-31 10:03] INFO user=maria IP=172.16.0.2"""\n
\n
# TODO: extrae usuarios e IPs, y reemplaza las IPs\n
# usuarios = re.findall(...)\n
# ips = re.findall(...)\n
# anonimo = re.sub(...)\n
\n
# print('Usuarios:', usuarios)\n
# print('IPs:', ips)\n
# print('\nTexto anonimizado:\n', anonimo)

---\n
## 7Ô∏è‚É£ Soluci√≥n sugerida

In [None]:
usuarios = re.findall(r"user=(\\w+)", texto)\n
ips = re.findall(r"IP=(\\d+\\.\\d+\\.\\d+\\.\\d+)", texto)\n
anonimo = re.sub(r"\\d+\\.\\d+\\.\\d+\\.\\d+", "[ANON]", texto)\n
\n
print('Usuarios:', usuarios)\n
print('IPs:', ips)\n
print('\nTexto anonimizado:\n', anonimo)

---\n
## 8Ô∏è‚É£ Resumen del notebook\n
\n
| Funci√≥n | Descripci√≥n | Devuelve |\n
|:--------|:-------------|:----------|\n
| `findall()` | Todas las coincidencias | Lista |\n
| `match()` | Solo al inicio del texto | Objeto `Match` o `None` |\n
| `search()` | Primera coincidencia | Objeto `Match` o `None` |\n
| `split()` | Divide texto por el patr√≥n | Lista de partes |\n
| `sub()` | Reemplaza coincidencias | Nuevo texto |\n
\n
Estas funciones son el **n√∫cleo pr√°ctico** del m√≥dulo `re`.\n
Las usar√°s constantemente en procesamiento de texto, validaciones y ETL.\n
\n
---\n
**Fin del notebook 1.4 ‚Äì Funciones del m√≥dulo `re`.**