# üß© 1.7 ‚Äì Reto Global del M√≥dulo de Expresiones Regulares

En este reto pondr√°s en pr√°ctica **todas las t√©cnicas aprendidas**:

‚úÖ B√∫squeda y coincidencias con `findall`

‚úÖ Grupos y cuantificadores avanzados

‚úÖ Validaciones de formato (`match`, `fullmatch`)

‚úÖ Reemplazos y limpieza de texto (`sub`, funciones din√°micas)

---
## üéØ Objetivo
Procesar un registro de logs simulados que contienen **usuarios, emails, fechas y errores**, limpiarlos y generar un resumen estructurado.

Al finalizar obtendr√°s:
- Una lista de usuarios v√°lidos
- Fechas normalizadas
- Emails anonimizados
- Conteo de errores

---
## üß∞ Dataset inicial

Cada l√≠nea del log contiene informaci√≥n desordenada y ruidosa.
```
[2025-10-31 09:10] user=ana EMAIL=ana@gmail.com ERROR=0
[2025-10-31 09:15] user=luis EMAIL=luis@hotmail.com ERROR=1
[2025/10/31 09:20] user=MAR√çA EMAIL=invalid_email ERROR=0
[2025-10-31 09:25] user=pepe EMAIL=pepe@empresa.es ERROR=1
[2025-10-31 09:40] user=SOFIA EMAIL=sofia@data.es ERROR=2
[2025-10-31 10:00] user=juan EMAIL=juan@@example.com ERROR=1
```

In [None]:
logs = '''[2025-10-31 09:10] user=ana EMAIL=ana@gmail.com ERROR=0\n[2025-10-31 09:15] user=luis EMAIL=luis@hotmail.com ERROR=1\n[2025/10/31 09:20] user=MAR√çA EMAIL=invalid_email ERROR=0\n[2025-10-31 09:25] user=pepe EMAIL=pepe@empresa.es ERROR=1\n[2025-10-31 09:40] user=SOFIA EMAIL=sofia@data.es ERROR=2\n[2025-10-31 10:00] user=juan EMAIL=juan@@example.com ERROR=1'''

---
## 1Ô∏è‚É£ Limpieza inicial

1. Normaliza el formato de fechas (`/` ‚Üí `-`).
2. Convierte todo el texto a min√∫sculas.
3. Elimina dobles espacios.

üëâ *Utiliza `re.sub()` para aplicar estos reemplazos secuenciales.*

In [None]:
import re

texto = logs
texto = re.sub(r'/', '-', texto)
texto = texto.lower()
texto = re.sub(r'\s+', ' ', texto)
print(texto)

---
## 2Ô∏è‚É£ Extracci√≥n de campos con grupos

Usa una **expresi√≥n regular con grupos nombrados** para extraer los datos:
- `fecha`
- `user`
- `email`
- `error`

üí° *Sugerencia:* `(?P<nombre>...)` define un grupo con nombre.

In [None]:
patron = r'\[(?P<fecha>\d{4}-\d{2}-\d{2})[^]]*\]\s*user=(?P<user>\w+)\s*email=(?P<email>[\w@\.]+)\s*error=(?P<error>\d+)'
coincidencias = [m.groupdict() for m in re.finditer(patron, texto)]
coincidencias[:3]

---
## 3Ô∏è‚É£ Validaci√≥n de emails

Aplica un patr√≥n para filtrar solo emails v√°lidos.
```python
^[\w\.-]+@[\w\.-]+\.\w+$
```

In [None]:
patron_email = r'^[\w\.-]+@[\w\.-]+\.\w+$'
validos = [r for r in coincidencias if re.fullmatch(patron_email, r['email'])]
print(f'Emails v√°lidos: {len(validos)} / {len(coincidencias)}')

---
## 4Ô∏è‚É£ Anonimizaci√≥n de emails

Usa `re.sub()` con grupos para reemplazar los emails por su dominio y ocultar el nombre.

Ejemplo: `ana@gmail.com` ‚Üí `[anon]@gmail.com`

In [None]:
def anonimizar_email(match):
    return '[anon]@' + match.group(2)

texto_anon = re.sub(r'([\w\.-]+)@([\w\.-]+)', anonimizar_email, texto)
print(texto_anon.split('\n')[0:3])

---
## 5Ô∏è‚É£ Conteo de errores por usuario

Genera un diccionario `{usuario: total_errores}` a partir del texto.
üí° Usa `re.findall()` para obtener tuplas `(usuario, error)` y agrupa con `dict` o `defaultdict`.

In [None]:
from collections import defaultdict

errores = defaultdict(int)
for user, num in re.findall(r'user=(\w+)\s+email=[^ ]+\s+error=(\d+)', texto):
    errores[user] += int(num)

print(dict(errores))

---
## 6Ô∏è‚É£ Resultado final

Combina todos los pasos anteriores para mostrar un resumen:

| Usuario | Email | Errores |
|:--------|:-------|:--------|
| ana | [anon]@gmail.com | 0 |
| luis | [anon]@hotmail.com | 1 |
| pepe | [anon]@empresa.es | 1 |
| sofia | [anon]@data.es | 2 |

---
## üß† Reto adicional (opcional)

1. A√±ade una validaci√≥n de fechas reales (usa `datetime.strptime`).
2. Exporta el resultado como CSV.
3. Crea una funci√≥n `procesar_logs(texto)` que devuelva todo el resumen final.

---
‚úÖ **Fin del m√≥dulo 1 ‚Äì Expresiones Regulares**

Has aprendido a:
- Buscar y agrupar patrones.
- Validar y limpiar datos.
- Reemplazar texto de forma din√°mica.
- Procesar datasets reales con expresiones regulares.