# Introducción a las Expresiones Regulares en Python con el Módulo `re`

* **Autor:** Gemini
* **Audiencia:** Estudiantes de Ingeniería Informática
* **Objetivo:** Proporcionar una comprensión sólida y práctica de las expresiones regulares (regex) en Python, desde los conceptos fundamentales hasta técnicas avanzadas, y demostrar sus aplicaciones en el campo de la ingeniería.

## ¿Qué son las Expresiones Regulares?

Una **expresión regular** (o "regex") es una secuencia de caracteres que define un patrón de búsqueda. En esencia, son un lenguaje formal para la especificación de patrones de texto. Piense en ellas como una versión sumamente avanzada de la funcionalidad "Buscar y Reemplazar" que se encuentra en los editores de texto, pero con la capacidad de definir patrones complejos en lugar de texto literal.

En Python, la funcionalidad de las expresiones regulares está contenida principalmente en el módulo `re`.

In [None]:
import re

**Nota importante sobre las Cadenas Raw (Raw Strings):**
Se recomienda encarecidamente utilizar la notación de cadena `raw` de Python (prefijo `r"..."`) para los patrones de regex. Esto evita que Python interprete secuencias de escape como `\n` (nueva línea) antes de que la cadena sea pasada al motor de regex, lo cual es una fuente común de errores.

---

## 1. Fundamentos: Coincidencias Literales y Metacaracteres Básicos

Comenzamos con la forma más simple de un patrón: la coincidencia de caracteres literales. Sin embargo, el poder de las regex reside en los **metacaracteres**, que son caracteres con un significado especial.

| Concepto | Símbolo | Descripción |
| :--- | :--- | :--- |
| **Coincidencia Literal** | `a`, `X`, `7` | Cualquier carácter sin significado especial coincide consigo mismo. |
| **Cualquier Carácter** | `.` | Coincide con cualquier carácter, excepto una nueva línea. |
| **Ancla de Inicio** | `^` | Coincide con el inicio de la cadena de texto. |
| **Ancla de Fin** | `$` | Coincide con el final de la cadena de texto. |

### Ejemplos Prácticos

La función `re.search(patron, texto)` busca un patrón en cualquier parte de un texto y devuelve un objeto `Match` si lo encuentra, o `None` en caso contrario.

In [None]:
texto_ejemplo = "El procesamiento de señales es una disciplina fundamental en la ingeniería."

# 1. Coincidencia literal
patron_literal = r"señales"
coincidencia = re.search(patron_literal, texto_ejemplo)
if coincidencia:
    print(f"Se encontró '{coincidencia.group(0)}' en la posición: {coincidencia.start()}")

# 2. Uso del metacaracter '.' para encontrar 'es' seguido de cualquier caracter y luego 'una'
patron_punto = r"es .una"
coincidencia = re.search(patron_punto, texto_ejemplo)
if coincidencia:
    print(f"Coincidencia con '.': '{coincidencia.group(0)}'")

# 3. Uso del ancla de inicio '^'
patron_inicio = r"^El"
coincidencia = re.search(patron_inicio, texto_ejemplo)
if coincidencia:
    print(f"La cadena comienza con '{coincidencia.group(0)}'.")

# 4. Uso del ancla de fin '$'
patron_fin = r"ingeniería\.$" # Escapamos el punto para que coincida con un punto literal
coincidencia = re.search(patron_fin, texto_ejemplo)
if coincidencia:
    print(f"La cadena termina con '{coincidencia.group(0)}'.")

---

## 2. Cuantificadores: Especificando Repeticiones

Los cuantificadores permiten especificar el número de veces que un carácter, grupo o clase de carácter debe aparecer para que se produzca una coincidencia.

| Concepto | Símbolo | Descripción |
| :--- | :--- | :--- |
| **Cero o más** | `*` | El elemento anterior aparece 0 o más veces. |
| **Una o más** | `+` | El elemento anterior aparece 1 o más veces. |
| **Cero o una** | `?` | El elemento anterior aparece 0 o 1 vez (lo hace opcional). |
| **Cantidad Exacta** | `{n}` | El elemento anterior aparece exactamente `n` veces. |
| **Rango de Cantidad**| `{n,m}`| El elemento anterior aparece entre `n` y `m` veces. |

### Ejemplos Prácticos

In [None]:
texto_logs = "Error 500. Error 404. Status 200 OK. Código 401. Error 503."

# 1. Encontrar la palabra "Error" seguida de uno o más espacios y 3 dígitos.
# \d es un atajo para un dígito, lo veremos en la siguiente sección.
patron_errores = r"Error\s+\d{3}" # \s+ es uno o más espacios en blanco
coincidencias = re.findall(patron_errores, texto_logs)
print(f"Errores encontrados: {coincidencias}")

# 2. Encontrar un archivo de imagen que puede ser .jpg o .jpeg
texto_archivos = "imagen1.jpeg, foto_perfil.jpg, documento.pdf"
patron_jpeg = r"\w+\.jpe?g" # La 'e' es opcional
imagenes = re.findall(patron_jpeg, texto_archivos)
print(f"Archivos de imagen encontrados: {imagenes}")

# 3. Encontrar números binarios de 4 a 8 dígitos
texto_binario = "El dato es 101101. El siguiente es 1101. El último es 1011101001."
patron_binario = r"\b[01]{4,8}\b" # \b es un límite de palabra
numeros_validos = re.findall(patron_binario, texto_binario)
print(f"Números binarios válidos: {numeros_validos}")

---

## 3. Clases de Caracteres y Secuencias Especiales

Las clases o conjuntos de caracteres nos permiten definir un grupo de caracteres que pueden coincidir en una posición determinada.

| Concepto | Símbolo | Descripción |
| :--- | :--- | :--- |
| **Conjunto de Caracteres** | `[abc]` | Coincide con cualquiera de los caracteres dentro de los corchetes (a, b, o c). |
| **Rango de Caracteres** | `[a-z]`, `[0-9]` | Coincide con cualquier carácter dentro del rango especificado. |
| **Conjunto Negado** | `[^abc]` | Coincide con cualquier carácter que **no** esté en el conjunto. |
| **Dígito** | `\d` | Equivalente a `[0-9]`. |
| **No Dígito** | `\D` | Equivalente a `[^0-9]`. |
| **Carácter de Palabra** | `\w` | Alfanumérico más guion bajo. Equivalente a `[a-zA-Z0-9_]`. |
| **No Palabra** | `\W` | Caracteres que no son de palabra. Equivalente a `[^a-zA-Z0-9_]`.|
| **Espacio en Blanco**| `\s` | Coincide con espacios, tabulaciones, nuevas líneas. |
| **No Espacio en Blanco**| `\S` | Coincide con cualquier carácter que no sea un espacio en blanco. |
| **Límite de Palabra** | `\b` | Coincide con una posición de límite de palabra (no consume caracteres). |

### Ejemplos Prácticos

In [None]:
texto_mixto = "ID del componente: AX-345-B. Siguiente ID: CZ-991-A. Final."

# 1. Encontrar todos los IDs que siguen el patrón LETRA-LETRA-NUM-NUM-NUM-LETRA
patron_id = r"\b[A-Z]{2}-\d{3}-[A-Z]\b"
ids_encontrados = re.findall(patron_id, texto_mixto)
print(f"IDs de componentes encontrados: {ids_encontrados}")

# 2. Extraer todas las palabras (secuencias de caracteres de palabra)
palabras = re.findall(r"\w+", texto_mixto)
print(f"Palabras extraídas: {palabras}")

# 3. Extraer solo los números de los IDs
numeros = re.findall(r"-\d{3}-", texto_mixto)
print(f"Números extraídos (con guiones): {numeros}")

---

## 4. Agrupación y Captura: Extracción de Información Estructurada

Los paréntesis `()` son metacaracteres con una doble función: agrupar una parte del patrón y capturar el texto que coincide con esa parte para su uso posterior.

| Concepto | Símbolo | Descripción |
| :--- | :--- | :--- |
| **Grupo de Captura** | `(patron)` | Agrupa `patron` y captura el texto coincidente en un grupo. |
| **Referencia Inversa** | `\1`, `\2` | Coincide con el texto capturado por el grupo 1, 2, etc. |
| **Grupo Sin Captura** | `(?:patron)` | Agrupa `patron` pero no captura el texto coincidente. Útil para la organización. |

### Ejemplos Prácticos

In [None]:
log_entry = '192.168.1.1 - - [19/Sep/2025:15:33:01 +0000] "GET /api/v1/users HTTP/1.1" 200 56'

# 1. Extraer la dirección IP, la fecha y el código de estado
patron_log = r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}).*?\[(.*?)\].*?" \d{3} '
coincidencia = re.search(patron_log, log_entry)

if coincidencia:
    ip = coincidencia.group(1)
    timestamp = coincidencia.group(2)
    print(f"Dirección IP: {ip}")
    print(f"Timestamp: {timestamp}")

# 2. Encontrar palabras repetidas consecutivamente
texto_repetido = "Es necesario planificar la la implementación del del sistema."
patron_repetidas = r"\b(\w+)\s+\1\b"
palabras_repetidas = re.findall(patron_repetidas, texto_repetido)
print(f"Palabras repetidas encontradas: {palabras_repetidas}")

---

## 5. Funciones Principales del Módulo `re`

Hasta ahora hemos utilizado `re.search` y `re.findall`. El módulo `re` ofrece otras funciones vitales.

| Función | Descripción |
| :--- | :--- |
| `re.search(p, s)`| Escanea `s` buscando la primera ubicación donde `p` produce una coincidencia. |
| `re.match(p, s)` | Si cero o más caracteres **al principio de `s`** coinciden con `p`. |
| `re.findall(p, s)`| Devuelve una lista de todas las coincidencias no superpuestas de `p` en `s`. |
| `re.finditer(p, s)`| Devuelve un iterador que produce objetos `Match` para cada coincidencia. |
| `re.sub(p, r, s)`| Reemplaza las coincidencias de `p` en `s` con el reemplazo `r`. |
| `re.split(p, s)` | Divide la cadena `s` por las ocurrencias del patrón `p`. |

### Ejemplos Prácticos

In [None]:
# Diferencia entre match y search
texto = "email: usuario@dominio.com"
patron_email = r"usuario"

print(f"search: {re.search(patron_email, texto)}")
print(f"match: {re.match(patron_email, texto)}") # Devuelve None porque no está al inicio

# Uso de re.sub para anonimizar datos
texto_sensible = "El usuario juan.perez@email.com envió una solicitud. Contactar a maria.gomez@email.com"
patron_email_completo = r"[\w\.-]+@[\w\.-]+"
texto_anonimizado = re.sub(patron_email_completo, "[EMAIL_CENSURADO]", texto_sensible)
print(f"Texto anonimizado: {texto_anonimizado}")

# Uso de re.split para dividir por múltiples delimitadores
texto_delimitadores = "item1,item2;item3 item4"
items = re.split(r"[,;\s]+", texto_delimitadores)
print(f"Items separados: {items}")

---

## 6. Búsquedas Avanzadas: *Lookarounds*

Los *lookarounds* son aserciones de ancho cero. Permiten verificar la existencia de un patrón antes (*lookbehind*) o después (*lookahead*) de la posición actual, sin que ese patrón forme parte de la coincidencia final.

| Concepto | Símbolo | Descripción |
| :--- | :--- | :--- |
| **Lookahead Positivo**| `(?=patron)` | La expresión principal coincide solo si es seguida por `patron`. |
| **Lookahead Negativo**| `(?!patron)` | La expresión principal coincide solo si **no** es seguida por `patron`. |
| **Lookbehind Positivo**| `(?<=patron)`| La expresión principal coincide solo si es precedida por `patron`. |
| **Lookbehind Negativo**| `(?<!patron)`| La expresión principal coincide solo si **no** es precedida por `patron`.|

### Ejemplos Prácticos

In [None]:
# 1. Extraer el monto numérico solo si está precedido por el símbolo de dólar (lookbehind)
texto_financiero = "El total es $1500. El ID es 1500."
patron_dolares = r"(?<=\$)\d+"
montos = re.findall(patron_dolares, texto_financiero)
print(f"Montos en dólares: {montos}")

# 2. Validar una contraseña: debe tener al menos 8 caracteres, una letra mayúscula y un número (lookahead)
# Este patrón utiliza múltiples lookaheads para verificar condiciones simultáneas
patron_pwd = r"^(?=.*[A-Z])(?=.*\d).{8,}"

print(f"Password123: {'Válida' if re.search(patron_pwd, 'Password123') else 'Inválida'}")
print(f"password123: {'Válida' if re.search(patron_pwd, 'password123') else 'Inválida'}")
print(f"Pass: {'Válida' if re.search(patron_pwd, 'Pass') else 'Inválida'}")

---

## 7. Principales Aplicaciones en Ingeniería Informática

Las expresiones regulares son una herramienta transversal en múltiples dominios de la ingeniería de software y sistemas:

* **Validación de Datos:**
    * Verificar que la entrada del usuario se ajuste a un formato específico (correos electrónicos, números de teléfono, códigos postales, matrículas).
    * Validar la complejidad de las contraseñas.

* **Análisis y Procesamiento de Ficheros de Log (*Parsing*):**
    * Extraer información crítica como direcciones IP, fechas, códigos de estado HTTP, y mensajes de error de logs de servidores web, aplicaciones o sistemas operativos.

* ***Web Scraping*:**
    * Extraer datos estructurados (enlaces, precios, nombres de productos, correos) del código fuente HTML de páginas web.
    * *Advertencia: Para HTML/XML complejos, es preferible usar librerías de parsing como BeautifulSoup o lxml, pero regex es útil para tareas rápidas y específicas.*

* **Limpieza y Transformación de Datos (Data Cleaning):**
    * Estandarizar formatos de datos (ej. fechas de `DD/MM/AAAA` a `AAAA-MM-DD`).
    * Eliminar caracteres no deseados, espacios extra, o código HTML de un texto.
    * Anonimizar datos sensibles reemplazando patrones específicos.

* **Desarrollo de Compiladores y Editores de Código:**
    * Componentes de *lexing* (análisis léxico) utilizan regex para identificar los *tokens* del lenguaje (palabras clave, identificadores, operadores).
    * Implementar el resaltado de sintaxis (*syntax highlighting*) en editores de código.

---

## 8. Ejercicios de Refuerzo

A continuación se presentan algunos problemas para aplicar los conceptos aprendidos.

### Ejercicio 1: Validación de un RUC ecuatoriano
Un RUC (Registro Único de Contribuyentes) para una persona natural en Ecuador consta de 10 dígitos, donde los dos primeros corresponden a un código de provincia (entre 01 y 24), y el tercer dígito es menor a 6. Escriba un patrón de regex que valide esta estructura.

In [None]:
texto_ruc = "RUCs a verificar: 1712345678, 0098765432, 2512345678, 1776543210"
# Solución esperada: un patrón que capture '1712345678' pero no los otros.
# ... Escriba su código aquí ...
patron_ruc = r"\b(0[1-9]|1[0-9]|2[0-4])[0-5]\d{7}\b"
rucs_validos = re.findall(patron_ruc, texto_ruc)
print(f"RUCs válidos encontrados: {rucs_validos}")

### Ejercicio 2: Extracción de URLs de un texto
Dado un bloque de texto, extraiga todas las URLs completas (tanto `http` como `https`) que terminen en `.com`, `.org` o `.net`.

In [None]:
texto_web = """
Visite nuestro sitio principal en http://www.miempresa.com para más información.
También puede consultar nuestros proyectos en https://proyectos.miempresa.org.
No olvide el portal de noticias en http://noticias-globales.net/ultima-hora.
Contacto: info@miempresa.com
"""
# Solución esperada: una lista con las tres URLs.
# ... Escriba su código aquí ...
patron_url = r"https?://[\w\.-]+\.(com|org|net)[/\w\.-]*"
urls = re.findall(patron_url, texto_web)
print(f"URLs encontradas: {urls}")

### Ejercicio 3: Parseo de Datos de un Sensor
Un sensor envía datos en una cadena con el formato `ID=[id];TEMP=[temp_C];HUM=[hum%];TS=[timestamp]`. El ID es alfanumérico, la temperatura es un número (posiblemente decimal), la humedad es un entero, y el timestamp es un entero (epoch). Extraiga los valores de temperatura y humedad de las siguientes cadenas.

In [None]:
data_stream = [
    "ID=SensorA1;TEMP=25.5;HUM=60;TS=1663614600",
    "ID=SensorB2;TEMP=22.1;HUM=65;TS=1663614605",
    "ID=SensorC3;TEMP=28;HUM=55;TS=1663614610",
]
# Solución esperada: una lista de tuplas, ej: [('25.5', '60'), ('22.1', '65'), ...]
# ... Escriba su código aquí ...
patron_sensor = r"TEMP=([\d\.]+);HUM=(\d+)"
datos_sensores = []
for entry in data_stream:
    match = re.search(patron_sensor, entry)
    if match:
        datos_sensores.append((match.group(1), match.group(2)))
print(f"Datos de Temperatura y Humedad: {datos_sensores}")