# ## 13. Regular Expressions

Patrones para buscar, validar y manipular texto con flexibilidad

## Resumen - ¿Por qué Expresiones Regulares?

### Conceptos Clave
- **Búsqueda flexible:** Encontrar patrones complejos en texto
- **Validación:** Verificar que un texto cumple cierto formato
- **Extracción:** Capturar partes específicas del texto
- **Sustitución:** Reemplazar texto que coincida con patrones
- **Raw strings:** Usar prefijo `r"..."` para evitar conflictos con escapes

## 1️⃣ Introducción - Raw Strings

Las **raw strings** (prefijo `r`) tratan caracteres de escape literalmente. Sin ellas, `\d` se interpretaría como una cadena normal.

In [7]:
import re

# Raw string: la barra invertida es literal
patron = r"\d{3}"  # Busca 3 dígitos
print(f"Patrón: {patron}\n")

# Búsqueda básica
texto = "Tengo 25 años"
if re.search(r"\d+", texto):
    print(f"✅ Encontrado número en: '{texto}'")

# Email simple
email = "usuario@ejemplo.com"
if re.search(r"@", email):
    print(f"✅ Email válido: {email}")

Patrón: \d{3}

✓ Encontrado número en: 'Tengo 25 años'
✓ Email válido: usuario@ejemplo.com


## 2️⃣ Elementos de Expresiones Regulares

### Literales
Coinciden exactamente: `hola`, `test`, `.com`

### Metacaracteres
- `.` - Cualquier carácter excepto salto de línea
- `\d` - Dígito (0-9)
- `\w` - Alfanumérico (letras, dígitos, _)
- `\s` - Espacio en blanco
- `\D`, `\W`, `\S` - Negaciones

### Clases
- `[aeiou]` - Cualquier vocal
- `[a-z]` - Letras minúsculas
- `[0-9]` - Dígitos
- `[^abc]` - Cualquier carácter excepto a, b, c

### Cuantificadores
- `*` - Cero o más
- `+` - Una o más
- `?` - Cero o una
- `{n}` - Exactamente n
- `{n,m}` - Entre n y m

### Anclajes
- `^` - Inicio de cadena
- `$` - Fin de cadena
- `\b` - Límite de palabra

### Grupos y Captura
- `(abc)` - Grupo capturador
- `(?:abc)` - Grupo NO capturador

### Alternancia
- `a|b` - Coincide con a O b

## 3️⃣ Modificadores (Flags)

Cambian cómo se interpreta el patrón

In [8]:
import re

texto = "Python PYTHON python"

# Sin modificador: case-sensitive
resultados_sin = re.findall(r"python", texto)
print(f"Sin (?i): {len(resultados_sin)} coincidencias")

# Con (?i): case-insensitive
resultados_con = re.findall(r"(?i)python", texto)
print(f"Con (?i): {len(resultados_con)} coincidencias\n")

# Otros modificadores
print("Modificadores comunes:")
print("  (?i) = Case-insensitive")
print("  (?m) = Multiline (^ y $ por línea)")
print("  (?s) = Dot matches newline")
print("  (?:...) = Grupo no capturador")
print("  (?!...) = Negative lookahead")

Sin (?i): 1 coincidencias
Con (?i): 3 coincidencias

Modificadores comunes:
  (?i) = Case-insensitive
  (?m) = Multiline (^ y $ por línea)
  (?s) = Dot matches newline
  (?:...) = Grupo no capturador
  (?!...) = Negative lookahead


## 4️⃣ Tablas de Referencia

### Símbolos Principales

| Símbolo | Significado |
|---------|-------------|
| `.` | Cualquier carácter |
| `^` | Inicio de cadena |
| `$` | Fin de cadena |
| `\d` | Dígito |
| `\D` | No dígito |
| `\w` | Alfanumérico |
| `\W` | No alfanumérico |
| `\s` | Espacio en blanco |
| `\S` | No espacio |
| `\|` | Alternancia (OR) |
| `()` | Grupo capturador |
| `(?:)` | Grupo NO capturador |
| `[]` | Clase de caracteres |

### Cuantificadores

| Símbolo | Significado |
|---------|-------------|
| `*` | Cero o más |
| `+` | Una o más |
| `?` | Cero o una |
| `{n}` | Exactamente n |
| `{n,}` | Al menos n |
| `{n,m}` | Entre n y m |

## 5️⃣ Ejemplos Prácticos

### 1️⃣ Validar Email

**Patrón:** `^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$`

**Desglose del patrón:**
- `^` - Inicio de la cadena
- `[a-zA-Z0-9._%+-]+` - Una o más letras, números o caracteres especiales (antes de @)
- `@` - Símbolo @ literal
- `[a-zA-Z0-9.-]+` - Dominio (letras, números, puntos o guiones)
- `\.` - Punto literal (escapado)
- `[a-zA-Z]{2,}` - Al menos 2 letras para el TLD (.com, .es, etc.)
- `$` - Fin de la cadena

In [9]:
import re

patron = r"^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$"

def validar_email(email):
    return bool(re.match(patron, email))

# Probar con diferentes emails
pruebas = ["usuario@ejemplo.com", "juan@mail.co", "invalido@", "sin@dominio"]

print("Validación de emails:\n")
for email in pruebas:
    resultado = "✅" if validar_email(email) else "❌"
    print(f"  {resultado} {email}")

Validación de emails:

  ✓ usuario@ejemplo.com
  ✓ juan@mail.co
  ✗ invalido@
  ✗ sin@dominio


### 2️⃣ Extraer Fecha (DD/MM/YYYY)

**Patrón:** `(\d{2})/(\d{2})/(\d{4})`

**Desglose del patrón:**
- `(\d{2})` - Grupo 1: exactamente 2 dígitos para el día
- `/` - Barra literal
- `(\d{2})` - Grupo 2: exactamente 2 dígitos para el mes
- `/` - Barra literal
- `(\d{4})` - Grupo 3: exactamente 4 dígitos para el año

**Uso de grupos:** Los paréntesis `()` capturan partes del patrón. Con `.groups()` obtenemos una tupla con cada grupo.

In [10]:
import re

patron = r"(\d{2})/(\d{2})/(\d{4})"

def extraer_fecha(texto):
    m = re.search(patron, texto)
    if m:
        dia, mes, año = m.groups()
        return {"dia": int(dia), "mes": int(mes), "año": int(año)}
    return None

# Ejemplos de extracción
textos = [
    "La reunión es el 25/12/2023",
    "Fecha: 01/01/2024",
    "Sin fecha aquí"
]

print("Extracción de fechas:\n")
for texto in textos:
    resultado = extraer_fecha(texto)
    if resultado:
        print(f"  ✅ {texto}")
        print(f"    → {resultado}\n")
    else:
        print(f"  ❌ {texto} (no encontrada)\n")

Extracción de fechas:

  ✓ La reunión es el 25/12/2023
    → {'dia': 25, 'mes': 12, 'año': 2023}

  ✓ Fecha: 01/01/2024
    → {'dia': 1, 'mes': 1, 'año': 2024}

  ✗ Sin fecha aquí (no encontrada)



### 3️⃣ Extraer URLs

**Patrón:** `https?://\S+`

**Desglose del patrón:**
- `https?` - "http" seguido de "s" opcional (http o https)
- `://` - Literal: ://
- `\S+` - Una o más caracteres que no sean espacios

Este patrón es simple pero funcional para la mayoría de URLs comunes.

In [11]:
import re

patron = r"https?://\S+"

texto = "Visita https://www.ejemplo.com y http://otro-sitio.es para más info"

urls = re.findall(patron, texto)

print("Extracción de URLs:\n")
print(f"Texto: {texto}\n")
print("URLs encontradas:")
for url in urls:
    print(f"  • {url}")

Extracción de URLs:

Texto: Visita https://www.ejemplo.com y http://otro-sitio.es para más info

URLs encontradas:
  • https://www.ejemplo.com
  • http://otro-sitio.es


## 6️⃣ Funciones del Módulo `re`

| Función | Descripción |
|---------|-------------|
| `re.search()` | Encuentra la PRIMERA coincidencia |
| `re.match()` | Coincide SOLO en el inicio |
| `re.findall()` | Encuentra TODAS las coincidencias |
| `re.finditer()` | Itera sobre las coincidencias |
| `re.sub()` | Reemplaza coincidencias |
| `re.split()` | Divide usando un patrón |
| `re.compile()` | Compila patrón para reutilizar |

### Cuándo usar cada una:

- **search()** - ¿Existe este patrón en algún lugar?
- **match()** - ¿Comienza así?
- **findall()** - Dame TODOS los que encuentres
- **sub()** - Reemplaza coincidencias
- **split()** - Divide por patrón

### Consejo: Uso de `re.compile()`

Si usas el mismo patrón múltiples veces, compílalo primero:

```python
patron_compilado = re.compile(r"\d{3}")
patron_compilado.findall(texto)  # Reutilizable
```