# Expresiones Regulares (Regex)

Las expresiones regulares son patrones que se usan para buscar, validar y manipular texto. Son muy potentes para procesar datos.

## 1. Conceptos Básicos

Una expresión regular es una secuencia de caracteres que define un patrón de búsqueda. En Python usamos el módulo `regex` o `re`.

In [3]:
import regex

texto = "Mi texto"
reemplazo = "Nuevo texto"

# Compilar un patrón
patron = regex.compile(r"patrón")

# Métodos principales
patron.findall(texto)      # Encuentra TODAS las coincidencias
patron.search(texto)       # Encuentra la PRIMERA coincidencia
patron.match(texto)        # Busca al INICIO del texto
patron.sub(reemplazo, texto)  # Reemplaza coincidencias

'Mi texto'



## 2. Caracteres Especiales (Metacaracteres)

| Símbolo | Significado | Ejemplo |
|---------|-------------|---------|
| `.` | Cualquier carácter excepto salto de línea | `a.c` → "abc", "adc" |
| `*` | 0 o más repeticiones | `ab*c` → "ac", "abc", "abbc" |
| `+` | 1 o más repeticiones | `ab+c` → "abc", "abbc" (NO "ac") |
| `?` | 0 o 1 repetición (opcional) | `ab?c` → "ac", "abc" |
| `^` | Inicio de línea/texto | `^Python` → "Python" al inicio |
| `$` | Fin de línea/texto | `python$` → "python" al final |
| `\|` | OR (alternancia) | `gato\|perro` → "gato" o "perro" |
| `( )` | Grupo/captura | `(ab)+` → "ab", "abab" |
| `[ ]` | Conjunto de caracteres | `[abc]` → "a", "b" o "c" |
| `[^ ]` | Negación (NO estos) | `[^abc]` → cualquier carácter excepto a,b,c |
| `\` | Escape (literal) | `\.` → punto literal |

## 3. Cuantificadores

Indican cuántas veces se repite un patrón:



In [None]:
import regex

texto = "aaa bb c"

# * (cero o más)
regex.findall(r"a*", texto)      # ['aaa', '', '', ' ', '', '', '']

# + (uno o más)
regex.findall(r"a+", texto)      # ['aaa']

# ? (cero o uno)
regex.findall(r"a?", texto)      # ['a', 'a', 'a', '', '', '', '']

# {n} (exactamente n veces)
regex.findall(r"a{2}", texto)    # ['aa']

# {n,m} (entre n y m veces)
regex.findall(r"a{1,2}", texto)  # ['aa', 'a']

# {n,} (n o más veces)
regex.findall(r"a{2,}", texto)   # ['aaa']



## 4. Clases de Caracteres



In [None]:
import regex

texto = "Hola123mundo"

# \d - Dígitos (0-9)
regex.findall(r"\d", texto)      # ['1', '2', '3']

# \D - NO dígitos
regex.findall(r"\D", texto)      # ['H', 'o', 'l', 'a', 'm', ...]

# \w - Palabra (letras, números, guión bajo)
regex.findall(r"\w", texto)      # ['H', 'o', 'l', 'a', '1', '2', '3', ...]

# \W - NO palabra
regex.findall(r"\W", texto)      # [] (no hay caracteres especiales)

# \s - Espacios en blanco
regex.findall(r"\s", "a b c")    # [' ', ' ']

# \S - NO espacios en blanco
regex.findall(r"\S", "a b c")    # ['a', 'b', 'c']



## 5. Conjuntos [ ]



In [None]:
import regex

texto = "abc123XYZ"

# [abc] - Solo a, b o c
regex.findall(r"[abc]", texto)   # ['a', 'b', 'c']

# [a-z] - Rango: letras minúsculas
regex.findall(r"[a-z]", texto)   # ['a', 'b', 'c']

# [A-Z] - Rango: letras mayúsculas
regex.findall(r"[A-Z]", texto)   # ['X', 'Y', 'Z']

# [0-9] - Rango: dígitos
regex.findall(r"[0-9]", texto)   # ['1', '2', '3']

# [a-zA-Z0-9] - Combinación de rangos
regex.findall(r"[a-zA-Z0-9]", texto)  # Todos

# [^abc] - Negación (TODO EXCEPTO a, b, c)
regex.findall(r"[^abc]", texto)  # ['1', '2', '3', 'X', 'Y', 'Z']



## 6. Anclas y Límites



In [None]:
import regex

texto = "Python es Python"

# ^ - Inicio
regex.findall(r"^Python", texto)  # ['Python'] (solo si está al inicio)

# $ - Final
regex.findall(r"Python$", texto)  # ['Python'] (solo si está al final)

# \b - Límite de palabra (antes/después de palabra)
regex.findall(r"\bPython\b", texto)  # ['Python', 'Python']

# \B - NO límite de palabra
regex.findall(r"\BPython\B", "MyPython")  # [] (no hay coincidencia)



## 7. Grupos y Captura



In [None]:
import regex

texto = "Juan: 123, María: 456"

# ( ) - Grupo: captura el contenido
resultado = regex.findall(r"(\w+): (\d+)", texto)
# [('Juan', '123'), ('María', '456')]

# (?:...) - Grupo NO capturador
resultado = regex.findall(r"(?:\w+): (\d+)", texto)
# ['123', '456'] (solo captura el número)



## 8. Alternancia |



In [None]:
import regex

texto = "Me gusta el gato y el perro"

# | (OR)
regex.findall(r"gato|perro", texto)  # ['gato', 'perro']

# Con grupos
regex.findall(r"(gato|perro)", texto)  # ['gato', 'perro']



## 9. Flags (Modificadores)



In [None]:
import regex

texto = "PYTHON python Python"

# regex.IGNORECASE - Ignora mayúsculas/minúsculas
regex.findall(r"python", texto, regex.IGNORECASE)
# ['PYTHON', 'python', 'Python']

# regex.MULTILINE - ^ y $ funcionan con líneas
# regex.DOTALL - . incluye saltos de línea
# regex.VERBOSE - Permite espacios y comentarios en el patrón



## 10. Ejemplos Prácticos

### Email


In [None]:
patron = regex.compile(r"[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}")
texto = "Contacta a juan@example.com o maria@example.org"
resultado = patron.findall(texto)
# ['juan@example.com', 'maria@example.org']



### Teléfono


In [None]:
patron = regex.compile(r"\+\d{1,3}\s?\d{3}\s?\d{3}\s?\d{3}")
texto = "Mi teléfono es +34 123 456 789"
resultado = patron.findall(texto)
# ['+34 123 456 789']



### URL


In [None]:
patron = regex.compile(r"https?://[^\s]+")
texto = "Visita https://www.google.com para buscar"
resultado = patron.findall(texto)
# ['https://www.google.com']



### Fecha DD/MM/YYYY


In [None]:
patron = regex.compile(r"\d{2}/\d{2}/\d{4}")
texto = "Nací el 15/08/1990"
resultado = patron.findall(texto)
# ['15/08/1990']



### IP Address


In [None]:
patron = regex.compile(r"\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}")
texto = "Servidor: 192.168.1.1"
resultado = patron.findall(texto)
# ['192.168.1.1']



## 11. Métodos Principales



In [None]:
import regex

texto = "Python es genial. Python es poderoso."
patron = regex.compile(r"Python")

# findall() - Lista de TODAS las coincidencias
patron.findall(texto)  # ['Python', 'Python']

# search() - PRIMER coincidencia (objeto Match)
resultado = patron.search(texto)
print(resultado.group())  # 'Python'
print(resultado.start())  # 0
print(resultado.end())    # 6

# match() - Coincidencia al INICIO
patron.match(texto)  # Match object (coincide)

# sub() - REEMPLAZAR
patron.sub("Java", texto)
# 'Java es genial. Java es poderoso.'

# split() - DIVIDIR por patrón
regex.split(r"\s+", "uno  dos   tres")  # ['uno', 'dos', 'tres']



Esta es una base sólida para trabajar con regex. ¿Necesitas ayuda con algún patrón específico?