## Introducción a las Expresiones Regulares en Python

Las **expresiones regulares** (a menudo abreviadas como regex o regexp) son secuencias de caracteres que forman un patrón de búsqueda. Son una herramienta increíblemente poderosa para la manipulación de cadenas de texto, permitiéndonos buscar, reemplazar, extraer o validar patrones específicos dentro de un texto. En Python, trabajamos con ellas a través del módulo `re`.

### ¿Por qué son útiles las Expresiones Regulares?

*   **Validación de entradas**: ¿Es un correo electrónico válido? ¿Tiene una contraseña al menos 8 caracteres, una mayúscula y un número?
*   **Extracción de información**: Sacar números de teléfono, fechas o URLs de un texto grande.
*   **Búsqueda y reemplazo avanzado**: Encontrar todas las ocurrencias de una palabra (ignorando mayúsculas/minúsculas) y reemplazarlas por otra.
*   **Análisis de texto**: Identificar patrones en datos no estructurados.

Aunque al principio pueden parecer un poco intimidantes debido a su sintaxis concisa, una vez que entiendes los conceptos básicos, se vuelven una herramienta indispensable para cualquier programador.

### Temario:

1.  **El módulo `re` en Python**
2.  **Conceptos Básicos y Sintaxis**
    *   Caracteres literales
    *   Metacaracteres especiales
        *   `.` (cualquier carácter)
        *   `^` y `$` (inicio y fin de cadena)
        *   `*`, `+`, `?` (cuantificadores)
        *   `{m,n}` (cuantificador de rango)
    *   Clases de caracteres `[]`
        *   `\d`, `\D` (dígitos y no dígitos)
        *   `\w`, `\W` (caracteres de palabra y no palabra)
        *   `\s`, `\S` (espacios en blanco y no espacios en blanco)
    *   Agrupación `()`
    *   Alternación `|`
    *   Escape de caracteres `\`
3.  **Funciones Clave del módulo `re`**
    *   `re.search()`
    *   `re.match()`
    *   `re.fullmatch()`
    *   `re.findall()`
    *   `re.finditer()`
    *   `re.sub()`
    *   `re.split()`
    *   `re.compile()`
4.  **Ejemplos Prácticos**

### 1. El Módulo `re` en Python

Python tiene un módulo incorporado llamado `re` (abreviatura de "regular expression") que proporciona todas las funcionalidades necesarias para trabajar con expresiones regulares. Para usarlo, simplemente lo importamos:


In [1]:
import re

print("Módulo 're' importado correctamente.")

Módulo 're' importado correctamente.


### 2. Conceptos Básicos y Sintaxis

#### Caracteres Literales

La forma más simple de una expresión regular es un carácter literal. Coincide exactamente con ese carácter en la cadena. Por ejemplo, `'a'` coincidirá con la letra 'a'.


In [23]:
texto = "manzana y banana"
patron = "ana"

# re.search busca la primera ocurrencia del patrón en la cadena.
coincidencia = re.search(patron, texto)

if coincidencia:
    print(f"Encontrado '{patron}' en '{texto}' en la posición: {coincidencia.start()} hasta {coincidencia.end()-1}")
else:
    print(f"'{patron}' no encontrado en '{texto}'.")

Encontrado 'ana' en 'manzana y banana' en la posición: 4 hasta 6


#### Metacaracteres Especiales

Los metacaracteres son caracteres con un significado especial en las expresiones regulares.

##### `.` (Punto) - Cualquier Carácter (excepto nueva línea)

El punto `.` coincide con cualquier carácter individual excepto un salto de línea (`\n`).


In [3]:
texto = "cat, sat, mat, fat, bat"
patron = ".at"

matches = re.findall(patron, texto) # re.findall encuentra todas las ocurrencias
print(f"Patrón '{patron}' en '{texto}': {matches}")

texto_multilinea = "foo\nbar"
patron = ".ar"
match_multilinea = re.search(patron, texto_multilinea)
print(f"Patrón '{patron}' en '{texto_multilinea}': {match_multilinea.group() if match_multilinea else 'No encontrado'}")

patron_con_dotall = ".ar" # re.DOTALL hace que '.' también coincida con nueva línea
match_dotall = re.search(patron_con_dotall, texto_multilinea, re.DOTALL)
print(f"Patrón '{patron_con_dotall}' (con DOTALL) en '{texto_multilinea}': {match_dotall.group() if match_dotall else 'No encontrado'}")

Patrón '.at' en 'cat, sat, mat, fat, bat': ['cat', 'sat', 'mat', 'fat', 'bat']
Patrón '.ar' en 'foo
bar': bar
Patrón '.ar' (con DOTALL) en 'foo
bar': bar


##### `^` (Inicio de Cadena) y `$` (Fin de Cadena)

*   `^`: Coincide con el comienzo de la cadena.
*   `$`: Coincide con el final de la cadena.


In [4]:
texto1 = "Hola mundo"
texto2 = "mundo, hola"

patron_inicio = "^Hola"
match1 = re.search(patron_inicio, texto1)
match2 = re.search(patron_inicio, texto2)
print(f"'{patron_inicio}' en '{texto1}': {match1.group() if match1 else 'No encontrado'}")
print(f"'{patron_inicio}' en '{texto2}': {match2.group() if match2 else 'No encontrado'}")

patron_fin = "mundo$"
match3 = re.search(patron_fin, texto1)
match4 = re.search(patron_fin, texto2)
print(f"'{patron_fin}' en '{texto1}': {match3.group() if match3 else 'No encontrado'}")
print(f"'{patron_fin}' en '{texto2}': {match4.group() if match4 else 'No encontrado'}")

'^Hola' en 'Hola mundo': Hola
'^Hola' en 'mundo, hola': No encontrado
'mundo$' en 'Hola mundo': mundo
'mundo$' en 'mundo, hola': No encontrado


##### Cuantificadores: `*`, `+`, `?`

Estos metacaracteres controlan cuántas veces puede aparecer un carácter, grupo o clase de caracteres.

*   `*` (Cero o más): Coincide con cero o más ocurrencias del elemento anterior.
*   `+` (Uno o más): Coincide con una o más ocurrencias del elemento anterior.
*   `?` (Cero o una): Coincide con cero o una ocurrencia del elemento anterior (lo hace opcional).


In [5]:
texto = "aaab, aab, ab, b"

# * : cero o más 'a' seguidas de 'b'
patron_asterisco = "a*b"
matches_asterisco = re.findall(patron_asterisco, texto)
print(f"Patrón '{patron_asterisco}' en '{texto}': {matches_asterisco}")

# + : una o más 'a' seguidas de 'b'
patron_mas = "a+b"
matches_mas = re.findall(patron_mas, texto)
print(f"Patrón '{patron_mas}' en '{texto}': {matches_mas}")

# ? : cero o una 'a' seguida de 'b'
patron_interrogacion = "a?b"
matches_interrogacion = re.findall(patron_interrogacion, texto)
print(f"Patrón '{patron_interrogacion}' en '{texto}': {matches_interrogacion}")

Patrón 'a*b' en 'aaab, aab, ab, b': ['aaab', 'aab', 'ab', 'b']
Patrón 'a+b' en 'aaab, aab, ab, b': ['aaab', 'aab', 'ab']
Patrón 'a?b' en 'aaab, aab, ab, b': ['ab', 'ab', 'ab', 'b']


##### `{m,n}` - Cuantificador de Rango

Permite especificar un número exacto, un mínimo o un rango de ocurrencias:

*   `{n}`: Coincide exactamente `n` veces.
*   `{n,}`: Coincide al menos `n` veces.
*   `{,n}`: Coincide como máximo `n` veces.
*   `{n,m}`: Coincide entre `n` y `m` veces (inclusive).


In [6]:
texto = "aaaab, aaab, aab, ab, b"

# {3} : exactamente 3 'a's seguidas de 'b'
patron_3 = "a{3}b"
matches_3 = re.findall(patron_3, texto)
print(f"Patrón '{patron_3}' en '{texto}': {matches_3}")

# {2,} : al menos 2 'a's seguidas de 'b'
patron_2_mas = "a{2,}b"
matches_2_mas = re.findall(patron_2_mas, texto)
print(f"Patrón '{patron_2_mas}' en '{texto}': {matches_2_mas}")

# {1,2} : entre 1 y 2 'a's seguidas de 'b'
patron_1_2 = "a{1,2}b"
matches_1_2 = re.findall(patron_1_2, texto)
print(f"Patrón '{patron_1_2}' en '{texto}': {matches_1_2}")

Patrón 'a{3}b' en 'aaaab, aaab, aab, ab, b': ['aaab', 'aaab']
Patrón 'a{2,}b' en 'aaaab, aaab, aab, ab, b': ['aaaab', 'aaab', 'aab']
Patrón 'a{1,2}b' en 'aaaab, aaab, aab, ab, b': ['aab', 'aab', 'aab', 'ab']


#### Clases de Caracteres `[]`

Las clases de caracteres `[]` permiten definir un conjunto de caracteres con los que quieres que coincida. Dentro de los corchetes, los metacaracteres pierden su significado especial (excepto `^` al inicio para negación y `-` para rangos).

*   `[abc]`: Coincide con 'a', 'b' o 'c'.
*   `[a-z]`: Coincide con cualquier letra minúscula.
*   `[A-Z]`: Coincide con cualquier letra mayúscula.
*   `[0-9]`: Coincide con cualquier dígito.
*   `[a-zA-Z0-9_]`: Coincide con caracteres alfanuméricos y guion bajo.
*   `[^abc]`: Coincide con cualquier carácter EXCEPTO 'a', 'b' o 'c' (negación).


In [7]:
texto = "color, flavour, gray, grey"

# Coincide con 'color' o 'colour'
patron_color = "colou?r"
matches_color = re.findall(patron_color, texto)
print(f"Patrón '{patron_color}' en '{texto}': {matches_color}")

# Coincide con 'gray' o 'grey'
patron_grey = "gr[ae]y"
matches_grey = re.findall(patron_grey, texto)
print(f"Patrón '{patron_grey}' en '{texto}': {matches_grey}")

# Coincide con una vocal seguida de 't'
patron_vocal_t = "[aeiou]t"
matches_vocal_t = re.findall(patron_vocal_t, "cat, bet, sit, hot, cut, pyt")
print(f"Patrón '{patron_vocal_t}': {matches_vocal_t}")

# Coincide con cualquier carácter que NO sea una vocal, seguido de 't'
patron_no_vocal_t = "[^aeiou]t"
matches_no_vocal_t = re.findall(patron_no_vocal_t, "cat, bet, sit, hot, cut, pyt")
print(f"Patrón '{patron_no_vocal_t}': {matches_no_vocal_t}")

Patrón 'colou?r' en 'color, flavour, gray, grey': ['color']
Patrón 'gr[ae]y' en 'color, flavour, gray, grey': ['gray', 'grey']
Patrón '[aeiou]t': ['at', 'et', 'it', 'ot', 'ut']
Patrón '[^aeiou]t': ['yt']


#### Clases de Caracteres Predefinidas

Python, al igual que otros lenguajes, ofrece atajos para clases de caracteres comunes:

*   `\d`: Coincide con cualquier dígito (0-9). Equivalente a `[0-9]`.
*   `\D`: Coincide con cualquier carácter que no sea un dígito. Equivalente a `[^0-9]`.
*   `\w`: Coincide con cualquier carácter de "palabra" (letras, números y guion bajo). Equivalente a `[a-zA-Z0-9_]`.
*   `\W`: Coincide con cualquier carácter que no sea de "palabra". Equivalente a `[^a-zA-Z0-9_]`.
*   `\s`: Coincide con cualquier carácter de espacio en blanco (espacio, tabulador, nueva línea, retorno de carro, etc.).
*   `\S`: Coincide con cualquier carácter que no sea un espacio en blanco.


In [8]:
texto = "Mi teléfono es 123-456-7890 y mi fecha de nacimiento es 01/01/2000."

# Encontrar todos los dígitos
patron_digito = "\d+" # uno o más dígitos
matches_digito = re.findall(patron_digito, texto)
print(f"Dígitos en '{texto}': {matches_digito}")

# Encontrar palabras
patron_palabra = "\w+" # uno o más caracteres de palabra
matches_palabra = re.findall(patron_palabra, texto)
print(f"Palabras en '{texto}': {matches_palabra}")

# Encontrar espacios en blanco
patron_espacio = "\s+" # uno o más espacios en blanco
matches_espacio = re.findall(patron_espacio, texto)
print(f"Espacios en blanco en '{texto}': {matches_espacio}")

# Encontrar fechas en formato DD/MM/AAAA
patron_fecha = "\d{2}/\d{2}/\d{4}"
match_fecha = re.search(patron_fecha, texto)
print(f"Fecha encontrada: {match_fecha.group() if match_fecha else 'No encontrada'}")

Dígitos en 'Mi teléfono es 123-456-7890 y mi fecha de nacimiento es 01/01/2000.': ['123', '456', '7890', '01', '01', '2000']
Palabras en 'Mi teléfono es 123-456-7890 y mi fecha de nacimiento es 01/01/2000.': ['Mi', 'teléfono', 'es', '123', '456', '7890', 'y', 'mi', 'fecha', 'de', 'nacimiento', 'es', '01', '01', '2000']
Espacios en blanco en 'Mi teléfono es 123-456-7890 y mi fecha de nacimiento es 01/01/2000.': [' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ']
Fecha encontrada: 01/01/2000


  patron_digito = "\d+" # uno o más dígitos
  patron_palabra = "\w+" # uno o más caracteres de palabra
  patron_espacio = "\s+" # uno o más espacios en blanco
  patron_fecha = "\d{2}/\d{2}/\d{4}"


#### Agrupación `()`

Los paréntesis `()` sirven para agrupar partes de una expresión regular. Esto tiene dos usos principales:

1.  **Aplicar cuantificadores a un grupo entero**: Por ejemplo, `(ab)+` coincidirá con `ab`, `abab`, `ababab`, etc.
2.  **Capturar subcadenas**: Las partes dentro de los paréntesis se guardan como grupos separados y se pueden extraer posteriormente.


In [9]:
texto = "Esto es un ababab y también un abcde."

# Cuantificador a un grupo
patron_grupo = "(ab)+"
matches_grupo = re.findall(patron_grupo, texto)
print(f"Patrón '{patron_grupo}' en '{texto}': {matches_grupo}") # Note que findall devuelve solo el contenido del grupo capturado

match_objeto = re.search(patron_grupo, texto)
if match_objeto:
    print(f"Match completo: {match_objeto.group(0)}") # group(0) es el match completo
    print(f"Grupo capturado: {match_objeto.group(1)}") # group(1) es el primer grupo capturado

# Captura de números de teléfono (ejemplo con grupos)
texto_tel = "Contacto: 123-456-7890 o 987-654-3210"
patron_tel = "(\d{3})-(\d{3})-(\d{4})"

for match in re.finditer(patron_tel, texto_tel):
    print(f"Teléfono completo: {match.group(0)}")
    print(f"Prefijo: {match.group(1)}")
    print(f"Parte central: {match.group(2)}")
    print(f"Últimos dígitos: {match.group(3)}")

Patrón '(ab)+' en 'Esto es un ababab y también un abcde.': ['ab', 'ab']
Match completo: ababab
Grupo capturado: ab
Teléfono completo: 123-456-7890
Prefijo: 123
Parte central: 456
Últimos dígitos: 7890
Teléfono completo: 987-654-3210
Prefijo: 987
Parte central: 654
Últimos dígitos: 3210


  patron_tel = "(\d{3})-(\d{3})-(\d{4})"


#### Alternación `|`

El operador `|` actúa como un "OR" lógico, permitiendo que la expresión coincida con una de varias alternativas.


In [10]:
texto = "manzana, pera, uva, naranja"

patron_fruta = "manzana|pera|uva"
matches_fruta = re.findall(patron_fruta, texto)
print(f"Patrón '{patron_fruta}' en '{texto}': {matches_fruta}")

Patrón 'manzana|pera|uva' en 'manzana, pera, uva, naranja': ['manzana', 'pera', 'uva']


#### Escape de Caracteres `\`

Si necesitas buscar un metacaracter (`.`, `*`, `+`, `?`, `^`, `$`, `(`, `)`, `[`, `]`, `|`, `\`) literalmente, debes "escaparlo" con una barra invertida `\`. Por ejemplo, para buscar un punto literal, usarías `\.`.

**Importante**: En Python, es una buena práctica usar **cadenas crudas (raw strings)** prefijadas con `r` (ej. `r'patron'`) para expresiones regulares. Esto evita que Python interprete las barras invertidas como secuencias de escape de Python (como `\n` para nueva línea), dejando que la expresión regular las interprete.


In [11]:
texto = "Esta frase termina con un punto."

# Sin escape, el '.' coincide con cualquier carácter, no solo el punto literal
patron_sin_escape = "."
matches_sin_escape = re.findall(patron_sin_escape, texto)
print(f"Patrón '{patron_sin_escape}' (sin escape): {matches_sin_escape}")

# Con escape, '
patron_con_escape = r"\."
matches_con_escape = re.findall(patron_con_escape, texto)
print(f"Patrón '{patron_con_escape}' (con escape): {matches_con_escape}")

texto_url = "Visita https://www.ejemplo.com/page.html"
# Para buscar una URL, necesitamos escapar los puntos y barras
patron_url = r"https?://www\.ejemplo\.com/page\.html"
match_url = re.search(patron_url, texto_url)
print(f"URL encontrada: {match_url.group() if match_url else 'No encontrada'}")

Patrón '.' (sin escape): ['E', 's', 't', 'a', ' ', 'f', 'r', 'a', 's', 'e', ' ', 't', 'e', 'r', 'm', 'i', 'n', 'a', ' ', 'c', 'o', 'n', ' ', 'u', 'n', ' ', 'p', 'u', 'n', 't', 'o', '.']
Patrón '\.' (con escape): ['.']
URL encontrada: https://www.ejemplo.com/page.html


### 3. Funciones Clave del módulo `re`

Ahora que conocemos los patrones, veamos las funciones más importantes del módulo `re`.

#### `re.search(patron, cadena, flags=0)`

Busca la primera ubicación donde el patrón de expresión regular produce una coincidencia en la cadena. Si se encuentra una coincidencia, `search()` devuelve un objeto `Match`; de lo contrario, devuelve `None`.


In [12]:
texto = "El coche rojo y el camión azul."
patron = r"coche"

match = re.search(patron, texto)

if match:
    print(f"Coincidencia encontrada: {match.group()}")
    print(f"Inicio: {match.start()}, Fin: {match.end()}")
    print(f"Span: {match.span()}")
else:
    print("No se encontró ninguna coincidencia.")

# re.IGNORECASE para ignorar mayúsculas/minúsculas
patron_case_insensitive = r"rojo"
match_ci = re.search(patron_case_insensitive, "ROJO es un color", re.IGNORECASE)
print(f"Coincidencia con IGNORECASE: {match_ci.group() if match_ci else 'No encontrado'}")

Coincidencia encontrada: coche
Inicio: 3, Fin: 8
Span: (3, 8)
Coincidencia con IGNORECASE: ROJO


#### `re.match(patron, cadena, flags=0)`

Intenta aplicar el patrón al *principio* de la cadena. Si el patrón coincide al principio, devuelve un objeto `Match`; de lo contrario, devuelve `None`. A diferencia de `search()`, `match()` no busca en toda la cadena.


In [13]:
texto1 = "Hola mundo"
texto2 = "mundo, hola"

patron = r"Hola"

match1 = re.match(patron, texto1)
match2 = re.match(patron, texto2)

print(f"Match en '{texto1}': {match1.group() if match1 else 'No encontrado'}")
print(f"Match en '{texto2}': {match2.group() if match2 else 'No encontrado'}")

# Comparar con search para el mismo caso
search1 = re.search(patron, texto1)
search2 = re.search(patron, texto2)

print(f"Search en '{texto1}': {search1.group() if search1 else 'No encontrado'}")
print(f"Search en '{texto2}': {search2.group() if search2 else 'No encontrado'}") # search sí lo encuentra

Match en 'Hola mundo': Hola
Match en 'mundo, hola': No encontrado
Search en 'Hola mundo': Hola
Search en 'mundo, hola': No encontrado


#### `re.fullmatch(patron, cadena, flags=0)`

Intenta aplicar el patrón a *toda la cadena*. La cadena completa debe coincidir con el patrón. Si es así, devuelve un objeto `Match`; de lo contrario, devuelve `None`.


In [14]:
texto1 = "Python"
texto2 = "Python es genial"

patron = r"Python"

fullmatch1 = re.fullmatch(patron, texto1)
fullmatch2 = re.fullmatch(patron, texto2)

print(f"Fullmatch en '{texto1}': {fullmatch1.group() if fullmatch1 else 'No encontrado'}")
print(f"Fullmatch en '{texto2}': {fullmatch2.group() if fullmatch2 else 'No encontrado'}")

Fullmatch en 'Python': Python
Fullmatch en 'Python es genial': No encontrado


#### `re.findall(patron, cadena, flags=0)`

Encuentra todas las ocurrencias no solapadas del patrón en la cadena y las devuelve como una lista de cadenas. Si el patrón incluye grupos de captura, la lista contendrá tuplas con los contenidos de esos grupos.


In [15]:
texto = "Los números son 123 y 456, y también 789."
patron_numeros = r"\d+"

matches = re.findall(patron_numeros, texto)
print(f"Todos los números: {matches}")

# Con grupos de captura
texto_emails = "correo1@dominio.com, correo2@otro.net"
patron_emails = r"(\w+)@([\w.]+)"

matches_emails = re.findall(patron_emails, texto_emails)
print(f"Emails encontrados: {matches_emails}")

for username, domain in matches_emails:
    print(f"Usuario: {username}, Dominio: {domain}")

Todos los números: ['123', '456', '789']
Emails encontrados: [('correo1', 'dominio.com'), ('correo2', 'otro.net')]
Usuario: correo1, Dominio: dominio.com
Usuario: correo2, Dominio: otro.net


#### `re.finditer(patron, cadena, flags=0)`

Similar a `findall()`, pero devuelve un iterador de objetos `Match` en lugar de una lista de cadenas. Esto es más eficiente para grandes cantidades de coincidencias, ya que no carga todas en memoria a la vez.


In [16]:
texto = "Los números son 123 y 456, y también 789."
patron_numeros = r"\d+"

for match in re.finditer(patron_numeros, texto):
    print(f"Número: {match.group()}, Inicio: {match.start()}, Fin: {match.end()}")

Número: 123, Inicio: 16, Fin: 19
Número: 456, Inicio: 22, Fin: 25
Número: 789, Inicio: 37, Fin: 40


#### `re.sub(patron, reemplazo, cadena, count=0, flags=0)`

Reemplaza las ocurrencias del patrón en la cadena con el texto de reemplazo. `count` es el número máximo de reemplazos a realizar (0 significa todos).

El argumento `reemplazo` puede ser una cadena o una función. Si es una cadena, se pueden usar referencias a grupos capturados como `\1`, `\2`, etc., o `\g<nombre_grupo>`.


In [17]:
texto = "El precio es $100 y la cantidad es 50."
patron_dolar = r"\$(\d+)"

# Reemplazar $100 por 100 EUR
texto_reemplazado = re.sub(patron_dolar, r"\1 EUR", texto)
print(f"Texto original: {texto}")
print(f"Texto reemplazado: {texto_reemplazado}")

texto_emails = "contacto@ejemplo.com soporte@miweb.org"
patron_dominios = r"@([\w.]+)"

# Función para capitalizar el dominio
def capitalizar_dominio(match):
    return f"@{match.group(1).upper()}"

texto_modificado_dominios = re.sub(patron_dominios, capitalizar_dominio, texto_emails)
print(f"Emails originales: {texto_emails}")
print(f"Emails con dominios capitalizados: {texto_modificado_dominios}")

Texto original: El precio es $100 y la cantidad es 50.
Texto reemplazado: El precio es 100 EUR y la cantidad es 50.
Emails originales: contacto@ejemplo.com soporte@miweb.org
Emails con dominios capitalizados: contacto@EJEMPLO.COM soporte@MIWEB.ORG


#### `re.split(patron, cadena, maxsplit=0, flags=0)`

Divide la cadena por las ocurrencias del patrón. Es similar a `str.split()`, pero usa un patrón de expresión regular como delimitador.


In [18]:
texto = "uno, dos; tres,cuatro-cinco"
patron_delimitador = r"[,;\-]"

partes = re.split(patron_delimitador, texto)
print(f"Texto dividido: {partes}")

texto_con_espacios = "palabra1   palabra2\tpalabra3\n palabra4"
patron_multi_espacio = r"\s+"

partes_espacios = re.split(patron_multi_espacio, texto_con_espacios)
print(f"Texto dividido por múltiples espacios: {partes_espacios}")

Texto dividido: ['uno', ' dos', ' tres', 'cuatro', 'cinco']
Texto dividido por múltiples espacios: ['palabra1', 'palabra2', 'palabra3', 'palabra4']


#### `re.compile(patron, flags=0)`

Compila un patrón de expresión regular en un objeto de expresión regular. Esto es útil cuando vas a usar el mismo patrón varias veces en tu código, ya que pre-compilarlo puede mejorar el rendimiento.


In [19]:
import time

texto_largo = """Lorem ipsum dolor sit amet, consectetur adipiscing elit. Sed do eiusmod tempor incididunt ut labore et dolore magna aliqua. Ut enim ad minim veniam, quis nostrud exercitation ullamco laboris nisi ut aliquip ex ea commodo consequat. Duis aute irure dolor in reprehenderit in voluptate velit esse cillum dolore eu fugiat nulla pariatur. Excepteur sint occaecat cupidatat non proident, sunt in culpa qui officia deserunt mollit anim id est laborum.""" * 1000 # Un texto muy largo

patron_compilar = r"lorem|ipsum|dolor"

# Sin compilar
start_time = time.time()
for _ in range(100):
    re.findall(patron_compilar, texto_largo)
end_time = time.time()
print(f"Tiempo sin compilar: {end_time - start_time:.4f} segundos")

# Compilando el patrón una vez
compiled_patron = re.compile(patron_compilar, re.IGNORECASE)
start_time = time.time()
for _ in range(100):
    compiled_patron.findall(texto_largo)
end_time = time.time()
print(f"Tiempo con patrón compilado: {end_time - start_time:.4f} segundos")

print("La diferencia puede ser más notoria en patrones complejos o textos extremadamente grandes.")

Tiempo sin compilar: 1.2729 segundos
Tiempo con patrón compilado: 3.7206 segundos
La diferencia puede ser más notoria en patrones complejos o textos extremadamente grandes.


### 4. Ejemplos Prácticos Adicionales

Aquí tienes algunos ejemplos más para consolidar lo aprendido.

#### 1. Validación de un número de teléfono (formato xxx-xxx-xxxx)


In [20]:
def validar_telefono(numero):
    patron = r"^\d{3}-\d{3}-\d{4}$"
    if re.fullmatch(patron, numero):
        return True
    return False

print(f"123-456-7890 es válido: {validar_telefono('123-456-7890')}")
print(f"1234567890 es válido: {validar_telefono('1234567890')}")
print(f"abc-def-ghij es válido: {validar_telefono('abc-def-ghij')}")

123-456-7890 es válido: True
1234567890 es válido: False
abc-def-ghij es válido: False


#### 2. Extracción de URLs de un texto


In [21]:
texto_urls = "Visita nuestro sitio web en https://www.ejemplo.com o nuestro blog en http://blog.ejemplo.org/posts/primer-post.html. También tenemos un ftp://files.ejemplo.net."

# Un patrón simple para URLs (puede ser mucho más complejo para cubrir todos los casos)
patron_url_simple = r"https?://[\w./-]+"

urls_encontradas = re.findall(patron_url_simple, texto_urls)
print(f"URLs encontradas: {urls_encontradas}")

URLs encontradas: ['https://www.ejemplo.com', 'http://blog.ejemplo.org/posts/primer-post.html.']


#### 3. Reemplazar múltiples espacios por uno solo


In [22]:
texto_espacios = "Este   es   un    texto    con     muchos      espacios."
patron_multi_espacio = r"\s+"

texto_limpio = re.sub(patron_multi_espacio, " ", texto_espacios)
print(f"Texto original: '{texto_espacios}'")
print(f"Texto limpio:   '{texto_limpio}'")

Texto original: 'Este   es   un    texto    con     muchos      espacios.'
Texto limpio:   'Este es un texto con muchos espacios.'
