# Expresiones Regulares en Python


Este cuaderno explica qué son las **expresiones regulares** (regex) y cómo utilizarlas en Python con el módulo estándar `re`. Incluye ejemplos prácticos y ejercicios.

## ¿Qué son las expresiones regulares?
Son patrones que describen conjuntos de cadenas. Permiten **buscar**, **validar**, **extraer** y **transformar** texto de manera muy flexible. Se usan ampliamente para:
- Validar formatos (correos, teléfonos, fechas).
- Extraer información estructurada de texto libre (logs, HTML, CSV problemático).
- Buscar y reemplazar de forma avanzada.

## Módulo `re` básico
- `re.search(patron, texto)`: devuelve la primera coincidencia en cualquier parte del texto.
- `re.match(patron, texto)`: coincide solo desde el **inicio**.
- `re.findall(patron, texto)`: lista con **todas** las coincidencias no superpuestas.
- `re.sub(patron, reemplazo, texto)`: reemplaza coincidencias.
- `re.split(patron, texto)`: divide por patrón.

### Metacaracteres y conceptos clave
`.` (cualquiera), `^` (inicio), `$` (fin), `*` (0+), `+` (1+), `?` (0/1), `{m,n}` (rango), `[]` (clase), `|` (alternativa), `()` (grupo/captura), `\b` (límite de palabra).

### Flags comunes
- `re.IGNORECASE` o `re.I`: ignora mayúsculas/minúsculas.
- `re.MULTILINE` o `re.M`: `^` y `$` funcionan por **línea**.
- `re.DOTALL` o `re.S`: `.` también coincide con salto de línea.


In [1]:
import re
from pprint import pprint


## Ejemplo 1: `search` vs `match`

In [2]:
texto = 'ID: ABC123 está aprobado'
print('search:', re.search(r'ABC\d+', texto))  # busca en cualquier parte
print('match :', re.match(r'ABC\d+', texto))   # solo desde el inicio


search: <re.Match object; span=(4, 10), match='ABC123'>
match : None


## Ejemplo 2: Clases de caracteres y rangos `[]`

In [3]:
texto = 'Producto XZ-19 versión 3.2'
print(re.findall(r'[A-Z]{2}-\d+', texto))  # Dos mayúsculas, guion y dígitos


['XZ-19']


## Ejemplo 3: Cuantificadores `{m,n}`

In [4]:
texto = 'Códigos: A1, A12, A1234, A123456'
print(re.findall(r'A\d{2,4}', texto))  # A seguido de 2 a 4 dígitos


['A12', 'A1234', 'A1234']


## Ejemplo 4: Anclas `^` y `$`

In [5]:
print(bool(re.match(r'^[A-Za-z]+$', 'SoloLetras')))   # Solo letras de inicio a fin
print(bool(re.match(r'^[A-Za-z]+$', 'Con espacios'))) # Falso por el espacio


True
False


## Ejemplo 5: Límite de palabra `\b`

In [6]:
texto = 'Concatenar y gato (cat)'
print(re.findall(r'\bcat\b', texto))  # solo 'cat' como palabra completa


['cat']


## Ejemplo 6: Grupos y alternación `(|)`

In [7]:
texto = 'Prefiero perros y gatos'
print(re.findall(r'(perro|gato)s?', texto))

['perro', 'gato']


## Ejemplo 7: Grupos con nombre

In [8]:
telefono = 'Tel: 604-555-1234'
m = re.search(r'(?P<area>\d{3})-(?P<pre>\d{3})-(?P<num>\d{4})', telefono)
print(m.group('area'), m.group('pre'), m.group('num'))

604 555 1234


## Ejemplo 8: `findall` vs `finditer`

In [9]:
texto = 'IDs: X1, X22, X333'
print('findall:', re.findall(r'X\d+', texto))
print('finditer:')
for m in re.finditer(r'X\d+', texto):
    print(m.group(), 'en', m.span())

findall: ['X1', 'X22', 'X333']
finditer:
X1 en (5, 7)
X22 en (9, 12)
X333 en (14, 18)


## Ejemplo 9: `re.sub` (enmascarar correos)

In [10]:
texto = 'Contactos: ana.perez@example.com, juan@empresa.co'
patron = r'[\w.-]+@[\w.-]+'  # simple (no perfecto)
print(re.sub(patron, '[email oculto]', texto))

Contactos: [email oculto], [email oculto]


## Ejemplo 10: `re.split` por múltiples separadores

In [11]:
texto = 'uno,dos; tres|cuatro  cinco'
print(re.split(r'[;,|\s]+', texto))

['uno', 'dos', 'tres', 'cuatro', 'cinco']


In [13]:
import re

correo_regex = r'^[\w\.-]+@[\w\.-]+\.\w{2,}$'

# Ejemplo de uso
mails = ["juan.perez@mail.com", "maria@mail", "test@dominio.co"]
for c in mails:
    print(c, bool(re.match(correo_regex, c)))


juan.perez@mail.com True
maria@mail False
test@dominio.co True


^ → inicio de la cadena.

[\w\.-]+ → letras, números, guiones o puntos (nombre de usuario).

@ → símbolo arroba obligatorio.

[\w\.-]+ → dominio (ejemplo: gmail, empresa).

\. → punto.

\w{2,} → extensión con al menos 2 caracteres (ej: .com, .co, .org).

$ → fin de la cadena.

In [14]:
celular_regex = r'^(3\d{9})$'

# Ejemplo de uso
telefonos = ["3001234567", "3229876543", "1234567890"]
for t in telefonos:
    print(t, bool(re.match(celular_regex, t)))


3001234567 True
3229876543 True
1234567890 False


^ → inicio.

3 → el celular colombiano empieza con 3.

\d{9} → exactamente 9 dígitos más (para total de 10).

$ → fin de la cadena.

## Ejemplo 11: Flag `IGNORECASE`

In [15]:
texto = 'Linea1\nLinea2 Palabra\nlinea3'
print('IGNORECASE:', bool(re.search(r'palabra', texto, re.I)))

IGNORECASE: True


In [17]:
#EJERCICIO
texto = """
Nombre: Ana Gómez | Correo: ana.gomez@empresa.co | Cel: 300-123-4567
Nombre: Carlos Perez | Correo: carlos@mail | Cel: 3229876543
Nombre: María Lopez | Correo: maria.lopez@dominio.com | Cel: 315 555 4444
Nombre: Juan Ramírez | Correo: juan.ramirez@EXAMPLE.ORG | Cel: +57 3007778888
"""

Tareas

Correos válidos:
Encuentra solo los correos electrónicos válidos (ignorar carlos@mail porque no tiene dominio correcto).

Celulares válidos:
Extrae celulares colombianos (10 dígitos, empiezan en 3).

Acepta separadores - o espacio.

Acepta el prefijo opcional +57.

Devuelve el número normalizado en formato 3XXXXXXXXX.

Nombres:
Captura los nombres y normalízalos a Title Case (Ana Gómez, Carlos Perez, etc.).

In [18]:
import re

# 1) Correos válidos
correo_re = r'[\w\.-]+@[\w\.-]+\.\w{2,}'
correos = re.findall(correo_re, texto, flags=re.I)

# 2) Celulares (normalizados)
cel_re = r'(?:\+57\s*)?(3\d{2})[-\s]?(\d{3})[-\s]?(\d{4})'
celulares_raw = re.findall(cel_re, texto)
celulares = ["".join(grupo) for grupo in celulares_raw]

# 3) Nombres (captura)
nombres_raw = re.findall(r'Nombre:\s*([^|]+)\|', texto)
nombres = [n.strip().title() for n in nombres_raw]

print("Correos válidos:", correos)
print("Celulares normalizados:", celulares)
print("Nombres:", nombres)


Correos válidos: ['ana.gomez@empresa.co', 'maria.lopez@dominio.com', 'juan.ramirez@EXAMPLE.ORG']
Celulares normalizados: ['3001234567', '3229876543', '3155554444', '3007778888']
Nombres: ['Ana Gómez', 'Carlos Perez', 'María Lopez', 'Juan Ramírez']


Supongamos que tenemos un texto con contactos mezclados (correos y celulares).
Queremos:

Usar expresiones regulares para encontrar todos los correos y celulares.

Guardar cada coincidencia en una lista simplemente ligada.

Recorrer la lista e imprimir los datos.

In [19]:
import re

# ========= Lista simplemente ligada =========
class Nodo:
    def __init__(self, dato: str):
        self.dato = dato
        self.sig = None

class ListaSimple:
    def __init__(self):
        self.cabeza = None

    def insertar(self, dato: str):
        nuevo = Nodo(dato)
        if not self.cabeza:
            self.cabeza = nuevo
            return
        actual = self.cabeza
        while actual.sig:
            actual = actual.sig
        actual.sig = nuevo

    def listar(self):
        if not self.cabeza:
            print("Lista vacía.")
            return
        i, actual = 1, self.cabeza
        while actual:
            print(f"{i:02d}. {actual.dato}")
            i += 1
            actual = actual.sig

# ========= Regex sencillas =========
# Correo (simple y práctica)
CORREO_RE = r'^[\w\.-]+@[\w\.-]+\.\w{2,}$'
# Celular Colombia: exactamente 10 dígitos y empieza en 3 (formato simple, sin separadores)
CELULAR_RE = r'^3\d{9}$'

def menu():
    lista = ListaSimple()

    while True:
        print("\n=== MENÚ ===")
        print("1) Agregar CORREO (valida con regex)")
        print("2) Agregar CELULAR (valida con regex)")
        print("3) Listar nodos")
        print("0) Salir")
        op = input("Opción: ").strip()

        if op == "1":
            correo = input("Correo: ").strip()
            if re.fullmatch(CORREO_RE, correo, flags=re.I):
                lista.insertar(f"Correo: {correo}")
                print("✅ Agregado.")
            else:
                print("❌ Correo inválido según la regex.")

        elif op == "2":
            cel = input("Celular (10 dígitos, inicia en 3): ").strip()
            if re.fullmatch(CELULAR_RE, cel):
                lista.insertar(f"Celular: {cel}")
                print("✅ Agregado.")
            else:
                print("❌ Celular inválido según la regex.")

        elif op == "3":
            lista.listar()

        elif op == "0":
            print("Adiós 👋")
            break

        else:
            print("Opción inválida.")

if __name__ == "__main__":
    menu()



=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
❌ Correo inválido según la regex.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELULAR (valida con regex)
3) Listar nodos
0) Salir
Opción inválida.

=== MENÚ ===
1) Agregar CORREO (valida con regex)
2) Agregar CELU