# Expresiones Regulares en Python

Patricio Araneda García

Marzo, 2024


Este cuaderno explica en profundidad cómo funcionan las expresiones regulares (regex) y cómo usarlas en Python usando el módulo `re`. Presenta ejemplos de complejidad creciente — desde búsquedas simples hasta técnicas avanzadas como grupos nombrados, lookahead/lookbehind y compilación con flags — con explicaciones y pruebas ejecutables.

Contenido:
- Introducción y conceptos clave
- Sintaxis básica y metacaracteres
- Uso de `re.search`, `re.match`, `re.findall`, `re.finditer`, `re.sub`, `re.split`
- Grupos, grupos nombrados y referencias
- Modificadores (flags) y compilación
- Lookahead/Lookbehind y atajos
- Ejemplos prácticos (al menos 15)
- Buenas prácticas y rendimiento

## Conceptos clave

- Literal: caracteres que coinciden exactamente con ellos mismos (ej: `a`, `1`, `@`).
- Metacaracteres: caracteres con significado especial (`. ^ $ * + ? { } [ ] \ | ( )`).
- Cuantificadores: `*` (0+), `+` (1+), `?` (0 o 1), `{m,n}` (rango).
- Clases de caracteres: `[abc]`, `[a-z]`, `\d` (dígitos), `\w` (word chars), `\s` (espacios).
- Anclas: `^` (inicio), `$` (fin), `\b` (límite de palabra).
- Grupos: `( )` capturan subcoincidencias; `(?: )` grupo sin captura.
- Flags: `re.IGNORECASE`, `re.MULTILINE`, `re.DOTALL`, etc.

Carácteres especiales en cadenas raw (raw strings) en Python:

- r'\d+': Busca uno o más dígitos

- \d = cualquier dígito (0-9)

- + = uno o más ocurrencias

- r'' = cadena raw (no interpreta escapes)

- r'\\d+': INCORRECTO - busca literalmente "\d" seguido de "+"

- \\ = barra invertida literal

- d = carácter "d"

- + = uno o más ocurrencias del patrón anterior

## Preparación: importar `re` y patrón básico

Usamos el módulo estándar `re`. Recomendación: para patrones complejos, compilar el patrón con `re.compile()` y reusar el objeto compilado para ganar rendimiento y claridad.


In [1]:
import re

# Ejemplo mínimo: buscar la primera aparición de 'cat' en un texto
text = 'The cat sat on the catalog of categories.'
m = re.search(r'cat', text)
print('match:', m.group(0) if m else None)
print('span:', m.span() if m else None)


match: cat
span: (4, 7)


## Ejemplos (complejidad creciente)
A continuación verás 18 ejemplos prácticos, cada uno con explicación y demostración ejecutable.

### Ejemplo 1 — Búsqueda simple (`re.search`)
Buscar si una subcadena aparece en un texto.

In [12]:
# Ejemplo 1
import re
text = 'Mi número de teléfono es 555-1234.'
m = re.search(r'\d{3}-\d{4}', text)
print(m.group(0) if m else 'No encontrado')

555-1234


In [4]:
# Buscar una palabra en un texto
texto = "Python es un lenguaje de programación poderoso"
patron = r"Python"
resultado = re.search(patron, texto)
print(f"Ejemplo 1: {resultado.group() if resultado else 'No encontrado'}")

Ejemplo 1: Python


In [5]:
# Buscar varias opciones usando |
texto = "El gato y el perro son mascotas"
patron = r"gato|perro|pájaro"
resultados = re.findall(patron, texto)
print(f"Ejemplo 2: {resultados}")

Ejemplo 2: ['gato', 'perro']


In [6]:
# Buscar dígitos y letras
texto = "Producto A123, Precio: $45.99"
digitos = re.findall(r"\d+", texto)  # \d coincide con dígitos
letras = re.findall(r"[A-Za-z]+", texto)  # [A-Za-z] coincide con letras
print(f"Ejemplo 3 - Dígitos: {digitos}")
print(f"Ejemplo 3 - Letras: {letras}")

Ejemplo 3 - Dígitos: ['123', '45', '99']
Ejemplo 3 - Letras: ['Producto', 'A', 'Precio']


In [7]:
# Buscar dígitos y letras
texto = "Producto A123, Precio: $45.99"
digitos = re.findall(r"\d+", texto)  # \d coincide con dígitos
letras = re.findall(r"[A-Za-z]+", texto)  # [A-Za-z] coincide con letras
print(f"Ejemplo 3 - Dígitos: {digitos}")
print(f"Ejemplo 3 - Letras: {letras}")

Ejemplo 3 - Dígitos: ['123', '45', '99']
Ejemplo 3 - Letras: ['Producto', 'A', 'Precio']


## Busquedas avanzadas
### lookahead y lookbehind

In [14]:
# lokkahead positivo
# Encontrar números seguidos de unidades
texto = "10kg 20lb 30cm 40m"
patron = r"\d+(?=kg|lb)"  # Números seguidos de kg o lb
resultados = re.findall(patron, texto)
print(f"Ejemplo 9: {resultados}")

Ejemplo 9: ['10', '20']


In [15]:
# lokkahead negativo
# Encontrar números NO seguidos de kg
texto = "10kg 20lb 30cm 40m"
patron = r"\d+(?!kg)"  # Números NO seguidos de kg
resultados = re.findall(patron, texto)
print(f"Ejemplo 10: {resultados}")

Ejemplo 10: ['1', '20', '30', '40']


In [None]:
# lokkbehind positivo
# Encontrar texto precedido por un patrón específico
texto = "Precio: $100 Costo: €200 Valor: ¥300"
patron = r"(?<=\$)\d+"  # Números precedidos por $
resultados = re.findall(patron, texto)
print(f"Ejemplo 11: {resultados}")

### Ejemplo 2 — Todas las coincidencias (`re.findall`)
Extraer todas las direcciones de correo sencillas de un texto.

In [3]:
# Ejemplo 2
import re
text = 'Contacta a ana@example.com, soporte@ejemplo.org o info@test.co'
emails = re.findall(r'[\w.-]+@[\w.-]+\.\w+', text)
print(emails)


['ana@example.com', 'soporte@ejemplo.org', 'info@test.co']


In [None]:
# *, +, ?, {n,m}
# cuantificadores básicos
texto = "col colour color colors"
patron1 = r"colou?r"  # ?: 0 o 1 vez
patron2 = r"colors?"  # s?: la 's' es opcional
print(f"Ejemplo 4.1: {re.findall(patron1, texto)}")
print(f"Ejemplo 4.2: {re.findall(patron2, texto)}")

Ejemplo 4.1: ['colour', 'color', 'color']
Ejemplo 4.2: ['color', 'colors']


In [9]:
# Extraer información estructurada
texto = "Juan Pérez: 30 años, María García: 25 años"
patron = r"([A-Za-zñÑáéíóúÁÉÍÓÚ\s]+):\s*(\d+)\s*años"
resultados = re.findall(patron, texto)
print(f"Ejemplo 5: {resultados}")

Ejemplo 5: [('Juan Pérez', '30'), (' María García', '25')]


In [10]:
# Usar (?:) para grupos que no queremos capturar
texto = "abc123 xyz789 def456"
patron = r"(?:abc|xyz)(\d+)"  # Solo capturamos los números
resultados = re.findall(patron, texto)
print(f"Ejemplo 6: {resultados}")

Ejemplo 6: ['123', '789']


### Ejemplo 3 — Iterador con posiciones (`re.finditer`)
Obtener las posiciones (span) y el texto de cada coincidencia.

In [None]:
# Ejemplo 3
# Ejemplo 3 - Versión detallada
import re

text = 'aa1 bb22 cc333 dd4444'
print(f"Texto: '{text}'")
print("Longitud del texto:", len(text))

# Patrón corregido para buscar números
patron = r'\d+'
print(f"\nPatrón usado: {patron}")

print("\nResultados:")
for i, match in enumerate(re.finditer(patron, text), 1):
    numero = match.group(0)
    inicio, fin = match.span()
    print(f"  {i}. Número: '{numero}'")
    print(f"     Posición: {inicio}-{fin}")
    print(f"     Contexto: '{text[max(0,inicio-2):fin+2]}'")

In [7]:
# inicio y fin de linea
# ^ para inicio, $ para fin
lineas = ["Python es genial", "Me encanta Python", "Python"]
patron = r"^Python"  # Palabras que empiezan con Python
resultados = [linea for linea in lineas if re.search(patron, linea)]
print(f"Ejemplo 7: {resultados}")

Ejemplo 7: ['Python es genial', 'Python']


In [11]:
# limites de palabra
# \b para límites de palabra
texto = "cat category catfish concatenate"
patron = r"\bcat\b"  # Solo la palabra exacta "cat"
resultados = re.findall(patron, texto)
print(f"Ejemplo 8: {resultados}")

Ejemplo 8: ['cat']


### Ejemplo 4 — Validación completa (`^...$`)
Comprobar si una cadena es exactamente un número de 4 dígitos.

In [13]:
# Ejemplo 4
import re
def es_cuatro_digitos(s):
    return bool(re.match(r'^\\d{4}$', s))

print(es_cuatro_digitos('1234'))
print(es_cuatro_digitos('01234'))
print(es_cuatro_digitos('12a4'))

False
False
False


### Ejemplo 5 — Grupos y capture groups
Extraer día, mes y año de una fecha `DD/MM/YYYY` usando grupos.

In [None]:
# Ejemplo 5
import re
text = 'Hoy es 05/10/2025 y mañana será 06/10/2025.'
pat = re.compile(r'(\\d{2})/(\\d{2})/(\\d{4})')
for m in pat.finditer(text):
    dia, mes, anio = m.groups()
    print(dia, mes, anio)

### Ejemplo 6 — Grupos nombrados
Usar grupos nombrados para mayor claridad: `(?P<name>...)`.

In [None]:
# Ejemplo 6
import re
text = 'Fecha: 07/10/2025'
pat = re.compile(r'(?P<dia>\\d{2})/(?P<mes>\\d{2})/(?P<anio>\\d{4})')
m = pat.search(text)
if m:
    print(m.group('dia'), m.group('mes'), m.group('anio'))
    print(m.groupdict())


### Ejemplo 7 — Reemplazo con `re.sub` (sustituciones)
Normalizar formatos de teléfono reemplazando separadores.

In [None]:
# Ejemplo 7
import re
text = 'Teléfonos: 555.1234, 555-2345, 555 3456'
normalized = re.sub(r'[.\\s-]+', '-', text)
print(normalized)


### Ejemplo 8 — Splitting con `re.split`
Dividir un texto por múltiples separadores (coma, punto y coma, barra).

In [None]:
# Ejemplo 8
import re
text = 'manzana, naranja; pera/uva  limón'
parts = re.split(r'[,;/\\s]+', text)
print(parts)


### Ejemplo 9 — Flags y `re.IGNORECASE`/`re.MULTILINE`
Buscar insensible a mayúsculas y rodeado de anclas multilinea.

In [None]:
# Ejemplo 9
import re
text = 'Linea1: start\nLINEA2: Start\nLinea3: other'
pat = re.compile(r'^start', re.IGNORECASE | re.MULTILINE)
print([m.group(0) for m in pat.finditer(text)])


### Ejemplo 10 — Lookahead positivo y negativo
Buscar 'foo' seguido por 'bar' (lookahead positivo) y 'foo' no seguido por 'bar' (lookahead negativo).

In [None]:
# Ejemplo 10
import re
text = 'foo bar foo baz foo'
pos = re.findall(r'foo(?=\\sbar)', text)
neg = re.findall(r'foo(?!\\sbar)', text)
print('lookahead +:', pos)
print('lookahead -:', neg)


### Ejemplo 11 — Lookbehind (anticipación)
Capturar números que estén precedidos por un signo $ (p. ej. precios).

In [None]:
# Ejemplo 11
import re
text = 'Costos: $10, $200 y 300'
prices = re.findall(r'(?<=\\$)\\d+', text)
print(prices)


### Ejemplo 12 — Backreferences (referencias a grupos)
Detectar palabras duplicadas consecutivas, p. ej. 'la la' usando backreference `\\1`.

In [None]:
# Ejemplo 12
import re
text = 'Esta es es una prueba. Hola hola mundo.'
dups = re.findall(r'\\b(\\w+)\\s+\\1\\b', text, flags=re.IGNORECASE)
print(dups)


### validacion de email

In [16]:
# validacion de email
def validar_email(email):
    patron = r'^[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}$'
    return bool(re.match(patron, email))

emails = ["usuario@example.com", "invalid.email", "nombre.apellido@company.co.uk"]
for email in emails:
    valido = validar_email(email)
    print(f"Ejemplo 12 - {email}: {'Válido' if valido else 'Inválido'}")

Ejemplo 12 - usuario@example.com: Válido
Ejemplo 12 - invalid.email: Inválido
Ejemplo 12 - nombre.apellido@company.co.uk: Válido


### Extraccion de url

In [None]:
texto = "Visita https://www.example.com y http://sub.dominio.org/path"
patron = r'https?://(?:[-\w.]|(?:%[\da-fA-F]{2}))+[/\w\.-]*'
urls = re.findall(patron, texto)
print(f"Ejemplo 13: {urls}")

### Análisis de logs

In [17]:
log_data = """
2024-01-15 10:30:15 INFO: User login successful
2024-01-15 10:31:22 ERROR: Database connection failed
2024-01-15 10:32:45 WARNING: High memory usage
"""

patron = r'(\d{4}-\d{2}-\d{2}\s\d{2}:\d{2}:\d{2})\s+(\w+):\s+(.+)'
logs = re.findall(patron, log_data)
print("Ejemplo 14:")
for timestamp, nivel, mensaje in logs:
    print(f"  {timestamp} - {nivel}: {mensaje}")

Ejemplo 14:
  2024-01-15 10:30:15 - INFO: User login successful
  2024-01-15 10:31:22 - ERROR: Database connection failed


### Ejemplo 13 — Validar una dirección IP (regex intermedia)
Validar IPv4 simple (no estricta en rango 0-255, pero bien formada).

In [None]:
# Ejemplo 13
import re
ip_pat = re.compile(r'^(?:\\d{1,3}\\.){3}\\d{1,3}$')
tests = ['192.168.0.1', '256.100.1.1', '10.0.0', '1.2.3.4']
for t in tests:
    print(t, bool(ip_pat.match(t)))


### Ejemplo 14 — Patrón complejo para fechas (validación básica)
Validar formato `YYYY-MM-DD` con rangos simples para mes/día (no perfecto, pero útil).

In [None]:
# Ejemplo 14
import re
date_pat = re.compile(r'^(\\d{4})-(0[1-9]|1[0-2])-(0[1-9]|[12]\\d|3[01])$')
tests = ['2025-10-22', '2025-13-01', '2025-02-30']
for t in tests:
    print(t, bool(date_pat.match(t)))


### Ejemplo 15 — Usar `re.compile` y reutilizar patrón
Compilar un patrón con flags y usar `sub` y `finditer` para tareas repetidas.

In [None]:
# Ejemplo 15
import re
pattern = re.compile(r'\\b(https?)://([\\w.-]+)([:\\d]*)?(/\\S*)?', re.IGNORECASE)
text = 'Visita http://example.com, https://sub.domain.org:8080/path?x=1 y también http://test.'
for m in pattern.finditer(text):
    print(m.groups())

# Reusar para reemplazar urls simplificando
clean = pattern.sub(r'[URL:\2]', text)
print(clean)


### Ejemplo 16 — Escapar metacaracteres con `re.escape`
Cuando se busca texto literal que puede contener metacaracteres.

In [None]:
# Ejemplo 16
import re
literal = 'precio? (oferta)*^$'
pat = re.compile(re.escape(literal))
text = 'El texto contiene precio? (oferta)*^$ y más.'
print(bool(pat.search(text)))


### Ejemplo 17 — Uso de funciones en `re.sub` para transformaciones
Reemplazar fechas `DD/MM/YYYY` por `YYYY-MM-DD` usando una función de reemplazo.

In [None]:
# Ejemplo 17
import re
def reformat(m):
    d, mo, y = m.groups()
    return f'{y}-{mo}-{d}'

text = 'Fechas: 05/10/2025 y 06/11/2024'
new = re.sub(r'(\\d{2})/(\\d{2})/(\\d{4})', reformat, text)
print(new)


### Ejemplo 18 — Seguridad y límites: evitar backtracking excesivo
Cuando uses patrones con cuantificadores y alternancia, sé consciente del rendimiento; usa cuantificadores no-greedy `?` y patrones más específicos cuando sea posible.

In [None]:
# Ejemplo 18 (demostración simple de greediness)
import re, time
text = '<a>' + 'x'*10000 + '</a>'
pat_greedy = re.compile(r'<a>.*</a>')
pat_lazy = re.compile(r'<a>.*?</a>')
t0 = time.time(); pat_greedy.search(text); g = time.time()-t0
t0 = time.time(); pat_lazy.search(text); l = time.time()-t0
print('greedy time', g, 'lazy time', l)


### Procesamiento de texto complejo

In [18]:
# Extraer información de un texto estructurado
texto = """
Cliente: Juan Pérez
Teléfono: +34 912 345 678
Email: juan.perez@email.com
Pedidos: PED-001, PED-002, PED-005
"""

patron_cliente = r"Cliente:\s*([^\n]+)"
patron_telefono = r"Teléfono:\s*([+\d\s]+)"
patron_email = r"Email:\s*([^\n]+)"
patron_pedidos = r"Pedidos:\s*((?:[A-Z]+-\d+,\s*)*[A-Z]+-\d+)"

cliente = re.search(patron_cliente, texto).group(1) if re.search(patron_cliente, texto) else "No encontrado"
telefono = re.search(patron_telefono, texto).group(1) if re.search(patron_telefono, texto) else "No encontrado"
email = re.search(patron_email, texto).group(1) if re.search(patron_email, texto) else "No encontrado"
pedidos_match = re.search(patron_pedidos, texto)
pedidos = pedidos_match.group(1).split(', ') if pedidos_match else []

print("Ejemplo 15:")
print(f"  Cliente: {cliente}")
print(f"  Teléfono: {telefono}")
print(f"  Email: {email}")
print(f"  Pedidos: {pedidos}")

Ejemplo 15:
  Cliente: Juan Pérez
  Teléfono: +34 912 345 678

  Email: juan.perez@email.com
  Pedidos: ['PED-001', 'PED-002', 'PED-005']


### Comparación de Métodos Principales

In [19]:
texto = "Python 3.10 es mejor que Python 2.7"
patron = r"Python\s+(\d+\.\d+)"

print("Métodos del módulo re:")
print(f"search(): {re.search(patron, texto).groups()}")
print(f"findall(): {re.findall(patron, texto)}")
print(f"finditer(): {[match.group() for match in re.finditer(patron, texto)]}")

# Reemplazo con sub()
nuevo_texto = re.sub(patron, "Java", texto)
print(f"sub(): {nuevo_texto}")

# División con split()
partes = re.split(r"\s+", texto)
print(f"split(): {partes}")

Métodos del módulo re:
search(): ('3.10',)
findall(): ['3.10', '2.7']
finditer(): ['Python 3.10', 'Python 2.7']
sub(): Java es mejor que Java
split(): ['Python', '3.10', 'es', 'mejor', 'que', 'Python', '2.7']


### Optimización y Mejores Prácticas
#### Compilación de Patrones

In [None]:
# Para patrones que se usan múltiples veces, es mejor compilarlos
textos = [
    "Python es rápido",
    "Java es robusto", 
    "Python es fácil de aprender"
]

# Sin compilar
for texto in textos:
    if re.search(r"Python", texto):
        print(f"Sin compilar - Encontrado: {texto}")

# Con compilación (más eficiente)
patron_compilado = re.compile(r"Python")
for texto in textos:
    if patron_compilado.search(texto):
        print(f"Con compilación - Encontrado: {texto}")

#### Flags útiles en expresiones regulares

In [None]:
texto = "Python\njava\nPYTHON\nJAVA"

# IGNORECASE - Ignorar mayúsculas/minúsculas
resultados = re.findall(r"python", texto, re.IGNORECASE)
print(f"IGNORECASE: {resultados}")

# MULTILINE - ^ y $ coinciden con inicio/fin de línea
resultados = re.findall(r"^[A-Z]+$", texto, re.MULTILINE)
print(f"MULTILINE: {resultados}")

# DOTALL - . coincide con cualquier carácter incluyendo \n
html = "<div>Hola\nMundo</div>"
resultado = re.search(r"<div>(.*)</div>", html, re.DOTALL)
print(f"DOTALL: {resultado.group(1) if resultado else 'No encontrado'}")

## Buenas prácticas y conclusiones
- Usa `re.compile` cuando vayas a reutilizar patrones.
- Escapa texto literal con `re.escape`.
- Prefiere patrones precisos sobre `.*` para evitar backtracking.
- Para validaciones estrictas (ej. IPs, fechas), combina regex con comprobaciones adicionales en Python cuando el patrón sea complejo.
- Usa tests y benchmarks si procesas textos grandes.

Este cuaderno proporcionó 18 ejemplos prácticos y explicaciones para usar expresiones regulares en Python. Puedes ejecutar cada celda para ver resultados y modificar los patrones para experimentar.