[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/algoritmos-poli/intro_python/blob/main/intro_python/control_de_flujo.ipynb)   ![Built with AI](https://img.shields.io/badge/Built%20with-AI-blue.svg)

# Introducción a las Expresiones Regulares en Python con el Módulo `re`

## 1. Conceptos teoricos

### 1.1. ¿Qué son las Expresiones Regulares?

Una **expresión regular** (del inglés *Regular Expression*, comúnmente abreviada como **"regex"**) es una secuencia de caracteres que conforma un patrón de búsqueda. Constituyen un lenguaje formal utilizado para la identificación, extracción y manipulación de cadenas de texto basadas en patrones definidos.

Su aplicación es fundamental en campos como la bioinformática, el procesamiento de lenguaje natural y el desarrollo de software, para tareas como:
* **Validación de datos**: Asegurar que la entrada del usuario cumpla con un formato específico (p. ej., correos electrónicos, contraseñas, números de teléfono).
* **Extracción de información (Parsing)**: Analizar grandes volúmenes de texto para extraer datos estructurados, como fechas o identificadores únicos.
* **Búsqueda y reemplazo avanzado**: Realizar sustituciones complejas en editores de código y procesadores de texto.



### 1.2. Componentes Fundamentales de una Expresión Regular

Un patrón de regex se construye mediante la combinación de **caracteres literales** (p. ej., `a`, `b`, `1`) y **metacaracteres**, que son caracteres con una interpretación especial. A continuación, se clasifican los metacaracteres esenciales según su función.

#### 1.2.1. Clases de Caracteres

Representan un conjunto de caracteres que pueden coincidir en una posición determinada.

| Símbolo | Descripción | Ejemplo de Coincidencia | Caso de Uso Práctico |
|:---|:---|:---|:---|
| `.` | Coincide con cualquier carácter, excepto el salto de línea. | `c.t` coincide con "cat", "cot", "c&t". | Buscar archivos con una extensión de 3 letras (ej: `reporte.log`, `reporte.txt`). |
| `\d` | Coincide con cualquier dígito decimal (equivalente a `[0-9]`). | `ID-\d\d` coincide con "ID-25", "ID-99". | Extraer el número de un identificador de producto. |
| `\D` | Coincide con cualquier carácter que **no** sea un dígito. | `\D+` coincide con "Texto", "!@#". | Detectar caracteres inválidos en un campo de teléfono. |
| `\w` | Coincide con un carácter de palabra (alfanumérico y guion bajo). | `\w{3}` coincide con "usr", "num", "id_". | Validar que un nombre de usuario contenga solo caracteres permitidos. |
| `\W` | Coincide con cualquier carácter que **no** sea de palabra. | `\W` coincide con " ", "*", "-". | Dividir una frase en palabras usando símbolos (`-`, ` `) como separadores. |
| `\s` | Coincide con cualquier carácter de espacio en blanco (espacio, tabulador). | `valor\sfinal` coincide con "valor final". | Eliminar o normalizar espacios duplicados en un texto. |
| `\S` | Coincide con cualquier carácter que **no** sea un espacio en blanco. | `\S+` coincide con una cadena sin espacios. | Contar el número de palabras en un texto (buscando secuencias de no-espacios). |
| `[xyz]` | Conjunto definido. Coincide con un solo carácter del conjunto. | `v[ae]l` coincide con "vel" y "val". | Verificar que el estado de un pedido sea 'A' (Aprobado) o 'P' (Pendiente). |
| `[^xyz]`| Conjunto negado. Coincide con cualquier carácter **excepto** los del conjunto. | `[^A-Z]` coincide con cualquier carácter no mayúsculo. | Prohibir caracteres especiales (`/`, `\`, `:`) en un nombre de archivo. |
| `[a-z]` | Rango. Coincide con cualquier carácter dentro del rango especificado. | `[0-9]` coincide con cualquier dígito. | Requerir que una contraseña contenga al menos una letra minúscula. |

#### 1.2.2. Anclas (Anchors)

Las anclas no coinciden con caracteres, sino con una posición específica dentro de la cadena de texto.

| Símbolo | Descripción | Caso de Uso Práctico |
|:---|:---|:---|
| `^` | Representa el inicio de la cadena de texto. | Asegurar que un texto de entrada comience con un prefijo obligatorio, como `INV-` para facturas. |
| `$` | Representa el final de la cadena de texto. | Validar que una URL de imagen termine en `.jpg` o `.png`. |
| `\b` | Representa un límite de palabra. | Buscar la palabra "red" sin que coincida con "reducción" o "pared". |

#### 1.2.3. Cuantificadores (Quantifiers)

Especifican el número de veces que el elemento precedente (carácter o grupo) debe aparecer para que haya una coincidencia.

| Símbolo | Descripción | Caso de Uso Práctico |
|:---|:---|:---|
| `*` | Cero o más ocurrencias del elemento precedente. | Permitir un campo opcional, como un segundo apellido (`apellido1 \w*`). |
| `+` | Una o más ocurrencias del elemento precedente. | Asegurar que un campo obligatorio (como el nombre de usuario) no esté vacío. |
| `?` | Cero o una ocurrencia del elemento precedente. | Aceptar el formato internacional de teléfono, con un `+` opcional al inicio. |
| `{n}` | Exactamente `n` ocurrencias. | Validar un código postal de 5 dígitos o un año de 4 dígitos. |
| `{n,m}` | Un mínimo de `n` y un máximo de `m` ocurrencias. | Establecer un requisito de longitud para una contraseña (entre 8 y 16 caracteres). |
| `{n,}` | Como mínimo `n` ocurrencias. | Verificar que una reseña de producto tenga un mínimo de 20 caracteres. |


#### 1.2.4. Agrupación y Alternancia

Permiten definir sub-expresiones y especificar alternativas.

| Símbolo | Descripción | Caso de Uso Práctico |
|:---|:---|:---|
| `( ... )` | Agrupa una serie de elementos para que funcionen como una sola unidad. | Repetir una secuencia, como `(ha)+` para buscar "ha", "haha", "hahaha", etc. |
| `A\|B` | Operador de alternancia (OR). Coincide con la expresión `A` o con la `B`. | Aceptar múltiples formas de un término, como `(USA\|EEUU\|Estados Unidos)`. |

### 1.3. Implementación de Expresiones Regulares en Python: El Módulo `re`

Python incluye una potente biblioteca estándar para aplicar la teoría de regex: el módulo `re`. Este módulo proporciona funciones para compilar y utilizar los patrones en cadenas de texto.

**Es una buena práctica usar cadenas crudas (raw strings)**, prefijando la cadena con una `r` (ej: `r"\d+"`), para evitar que Python interprete los caracteres de escape (`\`) de forma inesperada.

#### 1.3.1. Funciones Principales

| Función | Descripción | Ejemplo de Uso (Python) |
|:---|:---|:---|
| `re.search(p, s)` | Busca la **primera** coincidencia del patrón `p` en la cadena `s`. | ``re.search(r'o', 'hola mundo').span() # (1, 2)`` |
| `re.match(p, s)` | Busca una coincidencia del patrón `p` **solo al principio** de la cadena `s`. | ``re.match(r'hola', 'hola mundo') # Coincide`` |
| `re.findall(p, s)`| Encuentra **todas** las coincidencias del patrón `p` en `s`. | ``re.findall(r'\d', 'item-1, item-2') # ['1', '2']`` |
| `re.sub(p, r, s)` | **Sustituye** las coincidencias del patrón `p` por el reemplazo `r` en `s`.| ``re.sub(r'-', ' ', 'hola-mundo') # 'hola mundo'`` |
| `re.split(p, s)` | **Divide** la cadena `s` en una lista, usando el patrón `p` como separador. | ``re.split(r'[,;]', 'a,b;c') # ['a', 'b', 'c']`` |


#### 1.3.2. El Objeto `Match`

Las funciones como `search` y `match` retornan un **objeto `Match`** que contiene información sobre la coincidencia.

*Para los siguientes ejemplos, considere este código de preparación:*
`match = re.search(r'#(\d+)', 'Pedido #101 recibido')`

| Método del `Match` | Descripción | Ejemplo de Uso (Python) |
|:---|:---|:---|
| `match.group(0)` | Retorna la subcadena completa que coincidió. | ``match.group(0) # Retorna '#101'`` |
| `match.group(1)` | Retorna el texto capturado por el primer grupo `(...)`. | ``match.group(1) # Retorna '101'`` |
| `match.start()` | Retorna el índice de inicio de la coincidencia. | ``match.start() # Retorna 8`` |
| `match.end()` | Retorna el índice de fin de la coincidencia. | ``match.end() # Retorna 12`` |
| `match.span()` | Retorna una tupla `(inicio, fin)`. | ``match.span() # Retorna (8, 12)`` |

In [2]:
import re

## 2. Ejemplos

A continuación se muestran varios ejemplos de aplicación empleando expresiones regulares. El obtetivo consiste en analizar cada uno de los ejemplos en [regex101.com](https://regex101.com/) y su implementación en python y comparar los resultados.

### 2.1. Ejemplo 1: Coincidencia de Caracteres Exactos y Clases Predefinidas (`.`, `\d`, `\w`)

Este ejemplo demuestra cómo buscar coincidencias de caracteres literales y utilizar clases de caracteres predefinidas como `.` (cualquier carácter excepto salto de línea), `\d` (dígito) y `\w` (carácter de palabra).

*   **Patrón de Regex:** `r'a.\d\w'`
    *   `a`: Coincide con el carácter literal 'a'.
    *   `.`: Coincide con cualquier carácter (excepto nueva línea) después de 'a'.
    *   `\d`: Coincide con un dígito después del carácter anterior.
    *   `\w`: Coincide con un carácter de palabra (letra, número o guion bajo) después del dígito.
*   **Texto de Ejemplo:** `El código es aX1b y la clave es aY2c.`

**Prueba en regex101**

Introduzca el patrón `a.\d\w` y el texto de ejemplo `El código es aX1b y la clave es aY2c.` para ver las coincidencias. La siguiente figura muestra lo que se espera visualizar:

![ejemplo](regex_101_example.png)

**Implementación en Python**

En la siguiente figura se muestra un resultado similar usando la función `re.findall()` para encontrar e imprimir todos los patrones del texto que coinciden con el patron de Regex empleado.

In [3]:
text = "El código es aX1b y la clave es aY2c."
pattern = r'a.\d\w'

matches = re.findall(pattern, text)
print(matches)

['aX1b', 'aY2c']


> **Conclusión**: El primer ejemplo demostró con éxito la coincidencia de caracteres literales y clases de caracteres básicas (`.`, `\d`, `\w`),encontrando "aX1b" y "aY2c" en el texto de ejemplo.

### 2.2. Ejemplo 2: Uso de Cuantificadores: `*`, `+`, `?`, `{}`

Este ejemplo ilustra cómo utilizar cuantificadores en expresiones regulares para especificar cuántas veces un carácter o grupo debe aparecer para que haya una coincidencia.

*   **Texto de Ejemplo:** `ac, abc, abbc, abbbc, abbbbc, abbbbbc`

*   **Patrones de Regex y Explicaciones:**
    *   `r'ab*c'`: Coincide con 'a', seguido de **cero o más** 'b's, y terminado en 'c'. (`*`)
    *   `r'ab+c'`: Coincide con 'a', seguido de **una o más** 'b's, y terminado en 'c'. (`+`)
    *   `r'ab?c'`: Coincide con 'a', seguido de **cero o una** 'b', y terminado en 'c'. (`?`)
    *   `r'ab{2,4}c'`: Coincide con 'a', seguido de **entre 2 y 4** 'b's (inclusive), y terminado en 'c'. (`{n,m}`)

**Prueba en regex101.com**

Introduzca cada patrón (`ab*c`, `ab+c`, `ab?c`, `ab{2,4}c`) por separado y el texto de ejemplo `ac, abc, abbc, abbbc, abbbbc, abbbbbc` para ver las coincidencias de cada uno.

**Implementación en python**

In [4]:
text = "ac, abc, abbc, abbbc, abbbbc, abbbbbc"

patterns = {
    r'ab*c': "Cero o más 'b's (*)",
    r'ab+c': "Una o más 'b's (+)",
    r'ab?c': "Cero o una 'b' (?)",
    r'ab{2,4}c': "Entre 2 y 4 'b's ({2,4})"
}

for pattern, description in patterns.items():
    matches = re.findall(pattern, text)
    print(f"Patrón: '{pattern}' ({description}) -> Coincidencias: {matches}")

Patrón: 'ab*c' (Cero o más 'b's (*)) -> Coincidencias: ['ac', 'abc', 'abbc', 'abbbc', 'abbbbc', 'abbbbbc']
Patrón: 'ab+c' (Una o más 'b's (+)) -> Coincidencias: ['abc', 'abbc', 'abbbc', 'abbbbc', 'abbbbbc']
Patrón: 'ab?c' (Cero o una 'b' (?)) -> Coincidencias: ['ac', 'abc']
Patrón: 'ab{2,4}c' (Entre 2 y 4 'b's ({2,4})) -> Coincidencias: ['abbc', 'abbbc', 'abbbbc']


> **Conclusión**: El segundo ejemplo ilustró el uso de cuantificadores (`*`, `+`, `?`, `{}`), haciendo coincidir correctamente patrones con un número variable de caracteres repetidos según el cuantificador utilizado (por ejemplo, `ab*c` coincidió con "ac", "abc", "abbc", etc., mientras que `ab{2,4}c` solo coincidió con "abbc", "abbbc", "abbbbc").

### 2.3. Ejemplo 3: Anclas (`^`, `$`, y `\b`)

Las anclas en expresiones regulares no coinciden con caracteres, sino con posiciones específicas dentro de la cadena de texto. Son útiles para asegurar que un patrón aparezca solo al principio, al final, o en los límites de una palabra.

*   `^`: Coincide con el inicio de la cadena.
*   `$`: Coincide con el final de la cadena.
*   `\b`: Coincide con un límite de palabra. Un límite de palabra se define como la posición entre un carácter de palabra (`\w`) y un carácter que no es de palabra (`\W`), o el inicio/fin de la cadena si el primer/último carácter es un carácter de palabra.

A continuación se va a proceder a analizar su efecto en el siguiente ejemplo:
*   **Texto de Ejemplo:** `Empieza con hola. hola mundo. El fin es hola`
*   **Patrones de Regex y Explicaciones:**
    *   `r'^hola'`: Coincide con la palabra "hola" solo si está al **inicio** de la cadena.
    *   `r'hola$'`: Coincide con la palabra "hola" solo si está al **final** de la cadena.
    *   `r'\bhola\b'`: Coincide con la palabra "hola" solo si aparece como una **palabra completa** (rodeada de límites de palabra).


**Prueba en regex101.com** 

Introduzca cada patrón (`^hola`, `hola$`, `\bhola\b`) por separado y el texto de ejemplo `Empieza con hola. hola mundo. El fin es hola` para ver las coincidencias de cada uno.

**Implementación en python**

In [5]:
text = "Empieza con hola. hola mundo. El fin es hola"

anchor_patterns = {
    r'^hola': "Coincide 'hola' al inicio (^)",
    r'hola$': "Coincide 'hola' al final ($)",
    r'\bhola\b': "Coincide 'hola' como palabra completa (\\b)"
}

for pattern, description in anchor_patterns.items():
    matches = re.findall(pattern, text)
    print(f"Patrón: '{pattern}' ({description}) -> Coincidencias: {matches}")

Patrón: '^hola' (Coincide 'hola' al inicio (^)) -> Coincidencias: []
Patrón: 'hola$' (Coincide 'hola' al final ($)) -> Coincidencias: ['hola']
Patrón: '\bhola\b' (Coincide 'hola' como palabra completa (\b)) -> Coincidencias: ['hola', 'hola', 'hola']


> **Conclusión**: El tercer ejemplo mostró el uso de anclas (`^`, `$`, `\b`), evidenciando que `^hola` no encontró coincidencias, `hola$` coincidió con "hola" al final de la cadena, y `\bhola\b` coincidió con "hola" solo cuando apareció como una palabra completa.

### 2.4. Ejemplo 4: Conjuntos de Caracteres (`[]`, `[^]`, y `-`)

Los conjuntos de caracteres permiten definir un grupo de caracteres que pueden coincidir en una posición.
* `[xyz]`: Coincide con cualquier carácter dentro de los corchetes.
* `[^xyz]`: Coincide con cualquier carácter **excepto** los que están dentro de los corchetes (conjunto negado).
* `[a-z]`: Dentro de corchetes, el guion (`-`) define un rango de caracteres (por ejemplo, todas las letras minúsculas de 'a' a 'z').

Para comprender lo que hacen los caracteres previamente vistos vamos analizar el siguiente ejemplo:
* **Texto de Ejemplo:** `El documento es DOC-123, la version es v4.5, y hay un error en ABC-999.`
* **Patrones de Regex y Explicaciones:**
  * `r'[aeiouAEIOU]'`: Coincide con cualquier vocal, tanto minúscula como mayúscula.
  * `r'[^0-9\s]'`: Coincide con cualquier carácter que **no** sea un dígito (`0-9`) ni un espacio en blanco (`\s`).
  * `r'[a-zA-Z0-9]'`: Coincide con cualquier carácter alfanumérico (letras minúsculas `a-z`, letras mayúsculas `A-Z`, o dígitos `0-9`).

**Prueba en regex101.com**

Introduzca el texto de ejemplo `El documento es DOC-123, la version es v4.5, y hay un error en ABC-999.` y pruebe cada patrón (`[aeiouAEIOU]`, `[^0-9\s]`, `[a-zA-Z0-9]`) por separado para ver las coincidencias.

In [7]:
text = "El documento es DOC-123, la version es v4.5, y hay un error en ABC-999."

char_set_patterns = {
    r'[aeiouAEIOU]': "Coincide con cualquier vocal",
    r'[^0-9\s]': "Coincide con cualquier carácter que NO sea un dígito o espacio en blanco",
    r'[a-zA-Z0-9]': "Coincide con cualquier carácter alfanumérico"
}

for pattern, description in char_set_patterns.items():
    matches = re.findall(pattern, text)
    print(f"Patrón: '{pattern}' ({description}) -> Coincidencias: {matches}")

Patrón: '[aeiouAEIOU]' (Coincide con cualquier vocal) -> Coincidencias: ['E', 'o', 'u', 'e', 'o', 'e', 'O', 'a', 'e', 'i', 'o', 'e', 'a', 'u', 'e', 'o', 'e', 'A']
Patrón: '[^0-9\s]' (Coincide con cualquier carácter que NO sea un dígito o espacio en blanco) -> Coincidencias: ['E', 'l', 'd', 'o', 'c', 'u', 'm', 'e', 'n', 't', 'o', 'e', 's', 'D', 'O', 'C', '-', ',', 'l', 'a', 'v', 'e', 'r', 's', 'i', 'o', 'n', 'e', 's', 'v', '.', ',', 'y', 'h', 'a', 'y', 'u', 'n', 'e', 'r', 'r', 'o', 'r', 'e', 'n', 'A', 'B', 'C', '-', '.']
Patrón: '[a-zA-Z0-9]' (Coincide con cualquier carácter alfanumérico) -> Coincidencias: ['E', 'l', 'd', 'o', 'c', 'u', 'm', 'e', 'n', 't', 'o', 'e', 's', 'D', 'O', 'C', '1', '2', '3', 'l', 'a', 'v', 'e', 'r', 's', 'i', 'o', 'n', 'e', 's', 'v', '4', '5', 'y', 'h', 'a', 'y', 'u', 'n', 'e', 'r', 'r', 'o', 'r', 'e', 'n', 'A', 'B', 'C', '9', '9', '9']


> **Conclusión**: El cuarto ejemplo demostró los conjuntos de caracteres (`[]`, `[^]`, `-`), coincidiendo exitosamente con vocales, caracteres no dígitos/no espacios en blanco, y caracteres alfanuméricos según los conjuntos definidos.

### 2.5. Ejemplo 5: Agrupación (`()`) y Alternancia (`|`)

La agrupación con paréntesis `()` permite tratar múltiples caracteres o metacaracteres como una única unidad a la que se le pueden aplicar cuantificadores. La alternancia con `|` actúa como un operador lógico OR, permitiendo que la expresión coincida si cualquiera de las subexpresiones separadas por `|` es encontrada.

*   **Texto de Ejemplo:** `hahaha, hohoho, hihihi. Color favorito: rojo o azul? Elige verde o amarillo.`
*   **Patrones de Regex y Explicaciones:**
    *   `r'(ha)+`': Este patrón busca una o más repeticiones del grupo `ha`.
    *   `r'(rojo|azul|verde|amarillo)'`: Este patrón busca una coincidencia exacta con cualquiera de las palabras "rojo", "azul", "verde" o "amarillo".


**Prueba en regex101.com** 

Introduzca el texto de ejemplo `hahaha, hohoho, hihihi. Color favorito: rojo o azul? Elige verde o amarillo.` y pruebe cada patrón (`(ha)+`, `(rojo|azul|verde|amarillo)`) por separado para ver las coincidencias.

**Implementación en python**

In [8]:
text = "hahaha, hohoho, hihihi. Color favorito: rojo o azul? Elige verde o amarillo."

group_alternation_patterns = {
    r'(ha)+': "Agrupación y cuantificador (+)",
    r'(rojo|azul|verde|amarillo)': "Alternancia (OR)"
}

for pattern, description in group_alternation_patterns.items():
    matches = re.findall(pattern, text)
    print(f"Patrón: '{pattern}' ({description}) -> Coincidencias: {matches}")

Patrón: '(ha)+' (Agrupación y cuantificador (+)) -> Coincidencias: ['ha']
Patrón: '(rojo|azul|verde|amarillo)' (Alternancia (OR)) -> Coincidencias: ['rojo', 'azul', 'verde', 'amarillo']


> **Conclusión**: * El quinto ejemplo explicó y demostró la agrupación (`()`) y la alternancia (`|`), con `(ha)+` coincidiendo con secuencias repetidas de "ha" y `(rojo|azul|verde|amarillo)` coincidiendo con cualquiera de los colores especificados.

### 2.6. Ejemmplo 6 - Combinando Conceptos: Extracción de Correos Electrónicos

En escenarios reales, las expresiones regulares se vuelven muy potentes cuando se combinan varios metacaracteres, cuantificadores y anclas para crear patrones complejos que coincidan con estructuras específicas, como direcciones de correo electrónico, números de teléfono, URLs, etc.

Este ejemplo demuestra cómo construir un patrón de regex para encontrar direcciones de correo electrónico en un texto, combinando clases de caracteres, cuantificadores y el carácter literal '@'.

*   **Texto de Ejemplo:**
    ```
    Contacto: usuario123@dominio.com para soporte y admin@sub.dominio.net para consultas. También puedes escribir a test.user+alias@example.org. Correo inválido: @dominio.com o usuario@dominio.
    ```

*   **Patrón de Regex:** `r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'`

*   **Explicación del Patrón:**
    *   `\b`: Coincide con un **límite de palabra**. Esto asegura que no coincida con partes de palabras.
    *   `[A-Za-z0-9._%+-]+`: Coincide con la **parte del usuario** del correo.
        *   `[A-Za-z0-9._%+-]`: Un conjunto de caracteres que incluye letras (mayúsculas y minúsculas), dígitos, puntos, guiones bajos, porcentajes, signos más y guiones. Estos son caracteres comunes permitidos en la parte del usuario.
        *   `+`: Indica que debe haber **una o más** de las coincidencias del conjunto anterior.
    *   `@`: Coincide con el carácter literal '@', que separa el usuario del dominio.
    *   `[A-Za-z0-9.-]+`: Coincide con la **parte del subdominio y dominio**.
        *   `[A-Za-z0-9.-]`: Un conjunto de caracteres que incluye letras (mayúsculas y minúsculas), dígitos, puntos y guiones.
        *   `+`: Indica que debe haber **una o más** de las coincidencias del conjunto anterior.
    *   `\.`: Coincide con un **punto literal** que separa el dominio de nivel superior (TLD). Se necesita escapar con `\` porque `.` tiene un significado especial en regex.
    *   `[A-Za-z]{2,}`: Coincide con el **dominio de nivel superior (TLD)**.
        *   `[A-Za-z]`: Un conjunto que incluye letras (mayúsculas y minúsculas).
        *   `{2,}`: Indica que debe haber **dos o más** letras para el TLD (ej. `.com`, `.org`, `.net`, etc.).
    *   `\b`: Coincide con otro **límite de palabra** al final, para asegurar que el correo termine correctamente.

**Prueba en regex101.com** 

Introduzca el patrón `\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b` y el texto de ejemplo en la sección de texto de prueba para ver las coincidencias. Selecciona el "Flavor" Python.

**Implementación en Python**

In [9]:
text = """
Contacto: usuario123@dominio.com para soporte y admin@sub.dominio.net para consultas. También puedes escribir a test.user+alias@example.org. Correo inválido: @dominio.com o usuario@dominio.
"""

email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'

found_emails = re.findall(email_pattern, text)
print(f"Correos encontrados: {found_emails}")

Correos encontrados: ['usuario123@dominio.com', 'admin@sub.dominio.net', 'test.user+alias@example.org']


> **Conclusión**: El sexto ejemplo combinó varios conceptos para extraer direcciones de correo electrónico, identificando exitosamente 'usuario123@dominio.com', 'admin@sub.dominio.net' y 'test.user+alias@example.org', mientras ignoraba formatos inválidos.

### 2.7. Ejemplo 7: Principales funciones del modulo `re`

Recordemos las principales funciones del modulo `re`

| Función         | Descripción         | Ejemplo de Uso     | Resultado Esperado                |
|-----------------|---------------------|--------------------|-----------------------------------|
| `re.search()`   | Busca la **primera** coincidencia del patrón en el texto.  | `re.search(r'\d{3}-\d{3}-\d{3}', texto)`| Retorna el primer teléfono encontrado o None       |
| `re.match()`    | Busca coincidencia **solo al principio** del texto.        | `re.match(r'Usuario: \w+', texto)`      | Retorna "Usuario: juan_23" si coincide, o None     |
| `re.findall()`  | Encuentra **todas** las coincidencias del patrón en el texto y las retorna en una lista.  | `re.findall(r'\b[\w.-]+@[\w.-]+\.\w+\b', texto)` | Lista de correos encontrados   |
| `re.sub()`      | Sustituye todas las coincidencias del patrón por el reemplazo especificado.   | `re.sub(r'\b[\w.-]+@[\w.-]+\.\w+\b', '[correo oculto]', texto)` | Texto con los correos reemplazados   |
| `re.split()`    | Divide el texto usando el patrón como separador y retorna una lista de fragmentos. | `re.split(r'[,:]', texto)`  | Lista de partes del texto separadas por `,` o `:`  |

**Ejemplo 1**

El siguiente ejemplo muestra el uso las funciones anteriomente citadas:

In [5]:
# Texto de ejemplo para demostrar varias funciones del módulo re
texto = "Usuario: juan_23, Email: juan_23@mail.com, Tel: +34-600-123-456. Otro email: maria99@dominio.es"

# 1. re.search(): Busca la primera coincidencia del patrón en el texto
search_result = re.search(r'\d{3}-\d{3}-\d{3}', texto)
print("re.search:", search_result.group() if search_result else "No encontrado")

# 2. re.match(): Busca coincidencia solo al principio del texto
match_result = re.match(r'Usuario: \w+', texto)
print("re.match:", match_result.group() if match_result else "No encontrado")

# 3. re.findall(): Encuentra todas las coincidencias del patrón en el texto
emails = re.findall(r'\b[\w.-]+@[\w.-]+\.\w+\b', texto)
print("re.findall:", emails)

# 4. re.sub(): Sustituye todas las coincidencias del patrón por el reemplazo
anon_text = re.sub(r'\b[\w.-]+@[\w.-]+\.\w+\b', '[correo oculto]', texto)
print("re.sub:", anon_text)

# 5. re.split(): Divide el texto usando el patrón como separador
split_result = re.split(r'[,:]', texto)
print("re.split:", split_result)

re.search: 600-123-456
re.match: Usuario: juan_23
re.findall: ['juan_23@mail.com', 'maria99@dominio.es']
re.sub: Usuario: juan_23, Email: [correo oculto], Tel: +34-600-123-456. Otro email: [correo oculto]
re.split: ['Usuario', ' juan_23', ' Email', ' juan_23@mail.com', ' Tel', ' +34-600-123-456. Otro email', ' maria99@dominio.es']


**Ejemplo 2**

Extraer el valor numerico del monto solo si está precedido por el símbolo de dólar (lookbehind)

In [6]:
texto_financiero = "El total es $1500. El ID es 1500."
patron_dolares = r"(?<=\$)\d+"
montos = re.findall(patron_dolares, texto_financiero)
print(f"Montos en dólares: {montos}")

Montos en dólares: ['1500']


**Ejemplo 3**

**Validar una contraseña**: debe tener al menos 8 caracteres, una letra mayúscula y un número (lookahead)

In [7]:
# Este patrón utiliza múltiples lookaheads para verificar condiciones simultáneas
patron_pwd = r"^(?=.*[A-Z])(?=.*\d).{8,}"

print(f"Password123: {'Válida' if re.search(patron_pwd, 'Password123') else 'Inválida'}")
print(f"password123: {'Válida' if re.search(patron_pwd, 'password123') else 'Inválida'}")
print(f"Pass: {'Válida' if re.search(patron_pwd, 'Pass') else 'Inválida'}")

Password123: Válida
password123: Inválida
Pass: Inválida


## 3. Algunas aplicaciones en la Ingenieria Informatica

Las expresiones regulares son una herramienta transversal en múltiples dominios de la ingeniería de software y sistemas:
* **Validación de Datos:**
    * Verificar que la entrada del usuario se ajuste a un formato específico (correos electrónicos, números de teléfono, códigos postales, matrículas).
    * Validar la complejidad de las contraseñas.
* **Análisis y Procesamiento de Ficheros de Log (*Parsing*):**
    * Extraer información crítica como direcciones IP, fechas, códigos de estado HTTP, y mensajes de error de logs de servidores web, aplicaciones o sistemas operativos.
* ***Web Scraping*:**
    * Extraer datos estructurados (enlaces, precios, nombres de productos, correos) del código fuente HTML de páginas web.
    * *Advertencia: Para HTML/XML complejos, es preferible usar librerías de parsing como [BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/) o [lxml](https://lxml.de/), pero regex es útil para tareas rápidas y específicas.*
* **Limpieza y Transformación de Datos (Data Cleaning):**
    * Estandarizar formatos de datos (ej. fechas de `DD/MM/AAAA` a `AAAA-MM-DD`).
    * Eliminar caracteres no deseados, espacios extra, o código HTML de un texto.
    * Anonimizar datos sensibles reemplazando patrones específicos.
* **Desarrollo de Compiladores y Editores de Código:**
    * Componentes de *lexing* (análisis léxico) utilizan regex para identificar los *tokens* del lenguaje (palabras clave, identificadores, operadores).
    * Implementar el resaltado de sintaxis (*syntax highlighting*) en editores de código.

## 4. Ejercicios de refuerzo 

### 4.1. Ejercicio 1: Validación de RUT Colombiano con Regex

#### Contexto

El **Registro Único Tributario (RUT)** es el mecanismo único para identificar, ubicar y clasificar a las personas y entidades que sean contribuyentes declarantes del impuesto sobre la renta en Colombia. El número de identificación del RUT, conocido como **NIT (Número de Identificación Tributaria)**, tiene un formato específico que incluye un dígito de verificación.

Tu tarea es construir una expresión regular (regex) que valide un número de NIT colombiano, asegurando que cumpla con el formato estructural correcto.

#### Formato del NIT

Un NIT en Colombia se compone de:
1. Nueve (9) dígitos numéricos iniciales.
2. Opcionalmente, los números pueden estar separados por puntos como miles y millones (ej. 123.456.789).
3. Un guion (-) que separa el número base del dígito de verificación.
4. Un dígito de verificación final, que es un solo número del 0 al 9.

**Ejemplos de NIT Válidos**:
* 800123456-4
* 123456789-0
* 987.654.321-1
* 1.234.567-8 (Aunque menos común, estructuralmente podría ser válido)

**Ejemplos de NIT Inválidos**:
* 800123456 (Falta el guion y el dígito de verificación)
* 123.456.789- (Falta el dígito de verificación)
* 12345678-9 (El número base tiene solo 8 dígitos)
* abc.def.ghi-j (Contiene caracteres no numéricos)
* 987.654.321-12 (El dígito de verificación tiene más de un número)
* 987,654,321-1 (Usa comas en lugar de puntos)

### Requisitos del Problema

Escribe una expresión regular que haga "match" únicamente con los NIT que sigan el formato descrito. La regex debe ser capaz de manejar tanto NITs con puntos como separadores de miles como aquellos que no los tienen.

In [None]:
# Importamos el módulo de expresiones regulares en Python
import re

# -------------------------------------------------------------------
# EJERCICIO: Completa la expresión regular para validar un NIT
# -------------------------------------------------------------------
# Indicaciones:
# 1. El NIT base tiene 9 dígitos.
# 2. Puede tener puntos opcionales como separadores de miles (ej. 123.456.789).
# 3. Siempre termina con un guion (-) seguido de 1 dígito de verificación.
#
# Escribe tu expresión regular dentro de las comillas r'...'
# El prefijo 'r' antes de la cadena es importante, indica que es una "raw string"
# y evita que los backslashes (\) se interpreten como secuencias de escape.

patron_nit = r'' # <- Completa aquí tu regex

# -------------------------------------------------------------------
# CÓDIGO DE PRUEBA (No necesitas modificar esto)
# -------------------------------------------------------------------
# Esta lista contiene ejemplos de NITs para probar tu regex.
nits_de_prueba = [
    # Válidos
    '800123456-4',
    '123456789-0',
    '987.654.321-1',
    '1.234.567-8', # Un caso borde con formato mixto
    
    # Inválidos
    '800123456',       # Falta guion y dígito de verificación
    '123.456.789-',    # Falta dígito de verificación
    '12345678-9',      # Base con 8 dígitos
    'abc.def.ghi-j',   # Contiene letras
    '987.654.321-12',  # Dos dígitos de verificación
    '987,654,321-1',   # Separador con comas
    ' 123.456.789-1',  # Espacio al inicio
]

print("--- Iniciando validación de NITs ---")

# Recorremos la lista de NITs para probarlos uno por uno.
for nit in nits_de_prueba:
    # re.fullmatch() intenta hacer coincidir el patrón con TODA la cadena.
    # Es ideal para validaciones porque asegura que no haya caracteres extra
    # ni al principio ni al final.
    coincidencia = re.fullmatch(patron_nit, nit)
    
    # Comprobamos si hubo una coincidencia.
    if coincidencia:
        # Si 'coincidencia' no es None, el patrón es correcto.
        print(f"'{nit}': Válido")
        
        # --- DESAFÍO ADICIONAL (Opcional) ---
        # Si tu regex usa grupos de captura, descomenta las siguientes líneas
        # para ver los grupos que capturaste.
        # if coincidencia.groups():
        #     print(f"  -> Grupo 1 (Base): {coincidencia.group(1)}")
        #     print(f"  -> Grupo 2 (Dígito Verificación): {coincidencia.group(2)}")
            
    else:
        # Si 'coincidencia' es None, el patrón no coincidió.
        print(f"'{nit}': Inválido")

print("\n--- Validación terminada ---")

--- Iniciando validación de NITs ---
'800123456-4': Inválido
'123456789-0': Inválido
'987.654.321-1': Inválido
'1.234.567-8': Inválido
'800123456': Inválido
'123.456.789-': Inválido
'12345678-9': Inválido
'abc.def.ghi-j': Inválido
'987.654.321-12': Inválido
'987,654,321-1': Inválido
' 123.456.789-1': Inválido

--- Validación terminada ---


### 4.2. Ejercicio 2: Extracción de URLs de un Bloque de Texto

#### Contexto

En el procesamiento de texto, una tarea muy común es encontrar y extraer todas las direcciones web (URLs) de un documento. Esto es útil para web scraping, análisis de datos, o simplemente para crear una lista de enlaces mencionados en un artículo.

Su objetivo es construir una expresión regular que pueda identificar y extraer todas las URLs válidas de un texto, sin importar el protocolo (`http` o `https`) o si incluyen el subdominio `www`.

#### Requisitos del Problema

Escriba una expresión regular que pueda encontrar todas las URLs en el texto de ejemplo proporcionado. Una URL para este ejercicio debe cumplir con los siguientes criterios:
1. **Protocolo (Opcional)**: Puede empezar con `http://`, `https://`, o directamente con `www.`.
2. **Dominio**: Debe tener un nombre de dominio que consista en letras, números, guiones (`-`) o puntos (`.`).
3. **Extensión de Dominio**: Debe terminar con una extensión de dominio de al menos dos letras (ej. `.com`, `.co`, `.org`, `.io`).
4. **Ruta, Parámetros y Anclas (Opcional)**: Puede tener una ruta (`/ruta/pagina.html`), parámetros de consulta (`?id=123&user=test`) o anclas (`#seccion`). Tu regex debe capturar la URL completa, incluyendo estas partes.

#### Texto de Ejemplo para Análisis

```
Este es un texto de prueba. Visita nuestro sitio principal en https://www.miempresa-ejemplo.com para más información.
También puedes consultar nuestro blog en http://blog.ejemplo.org/articulos/recientes.
Para soporte, el portal es www.soporte-ejemplo.net/tickets?id=query.
No confundir con direcciones como info@ejemplo.com que es un email.
Otro enlace de interés es https://universidad.edu.co/facultad/ciencias#postgrados.
Algunos enlaces no seguros como http://pagina-vieja.net también deben ser encontrados.
Finalmente, visita www.google.com.
```

**URLs a Extraer**:
* https://www.miempresa-ejemplo.com
* http://blog.ejemplo.org/articulos/recientes
* www.soporte-ejemplo.net/tickets?id=query
* https://universidad.edu.co/facultad/ciencias#postgrados
* http://pagina-vieja.net
* www.google.com

A continuación se muestra el código de la plantilla

In [9]:
# Importamos el módulo de expresiones regulares
import re

# El texto del cual queremos extraer las URLs
texto = """
Este es un texto de prueba. Visita nuestro sitio principal en https://www.miempresa-ejemplo.com para más información.
También puedes consultar nuestro blog en http://blog.ejemplo.org/articulos/recientes.
Para soporte, el portal es www.soporte-ejemplo.net/tickets?id=query.
No confundir con direcciones como info@ejemplo.com que es un email.
Otro enlace de interés es https://universidad.edu.co/facultad/ciencias#postgrados.
Algunos enlaces no seguros como http://pagina-vieja.net también deben ser encontrados.
Finalmente, visita www.google.com.
"""

# -------------------------------------------------------------------
# EJERCICIO: Escribe una expresión regular para encontrar todas las URLs.
# -------------------------------------------------------------------
# Indicaciones:
# 1. Considera los protocolos opcionales (http://, https://).
# 2. Considera el prefijo opcional 'www.'.
# 3. El nombre de dominio puede contener letras, números y guiones.
# 4. La URL puede terminar con rutas, parámetros o anclas complejas.
#
# Escribe tu regex dentro de las comillas r'...'

patron_url = r'' # <- Completa aquí tu regex

# -------------------------------------------------------------------
# CÓDIGO DE PRUEBA (No necesitas modificar esto)
# -------------------------------------------------------------------
# re.findall() busca TODAS las coincidencias que no se solapan
# y las devuelve como una lista de strings.

urls_encontradas = re.findall(patron_url, texto)

# Imprimimos los resultados
print("--- URLs encontradas en el texto ---")

if urls_encontradas:
    for i, url in enumerate(urls_encontradas):
        print(f"{i+1}. {url}")
else:
    print("No se encontró ninguna URL con el patrón proporcionado. ¡Intenta de nuevo!")

print("\n--- Búsqueda terminada ---")

--- URLs encontradas en el texto ---
1. 
2. 
3. 
4. 
5. 
6. 
7. 
8. 
9. 
10. 
11. 
12. 
13. 
14. 
15. 
16. 
17. 
18. 
19. 
20. 
21. 
22. 
23. 
24. 
25. 
26. 
27. 
28. 
29. 
30. 
31. 
32. 
33. 
34. 
35. 
36. 
37. 
38. 
39. 
40. 
41. 
42. 
43. 
44. 
45. 
46. 
47. 
48. 
49. 
50. 
51. 
52. 
53. 
54. 
55. 
56. 
57. 
58. 
59. 
60. 
61. 
62. 
63. 
64. 
65. 
66. 
67. 
68. 
69. 
70. 
71. 
72. 
73. 
74. 
75. 
76. 
77. 
78. 
79. 
80. 
81. 
82. 
83. 
84. 
85. 
86. 
87. 
88. 
89. 
90. 
91. 
92. 
93. 
94. 
95. 
96. 
97. 
98. 
99. 
100. 
101. 
102. 
103. 
104. 
105. 
106. 
107. 
108. 
109. 
110. 
111. 
112. 
113. 
114. 
115. 
116. 
117. 
118. 
119. 
120. 
121. 
122. 
123. 
124. 
125. 
126. 
127. 
128. 
129. 
130. 
131. 
132. 
133. 
134. 
135. 
136. 
137. 
138. 
139. 
140. 
141. 
142. 
143. 
144. 
145. 
146. 
147. 
148. 
149. 
150. 
151. 
152. 
153. 
154. 
155. 
156. 
157. 
158. 
159. 
160. 
161. 
162. 
163. 
164. 
165. 
166. 
167. 
168. 
169. 
170. 
171. 
172. 
173. 
174. 
175. 
176. 
177. 
178. 
179

### 4.3. Ejercicio 3: Parseo de Trama de Datos de un Sensor IoT

#### Contexto

Imagine que está trabajando con una red de sensores ambientales (IoT). Cada sensor envía periódicamente una trama de datos como una única cadena de texto (`string`). Esta trama contiene información crucial: el ID del sensor, una marca de tiempo (timestamp) y varias lecturas de sus mediciones.

Su tarea consiste en crear una expresión regular que pueda "parsear" o descomponer estas tramas para extraer los valores individuales de manera confiable, ignorando cualquier línea corrupta o con formato incorrecto en el registro de datos.

#### Formato de la Trama del Sensor

Cada trama de datos válida sigue una estructura estricta:

```
ID:[id_sensor];TIME:[timestamp];TEMP:[valor]C;HUM:[valor]%;PRES:[valor]hPa;
```

* **`ID`**: Un identificador alfanumérico para el sensor (ej. `SEN-01-A`, `RASPI-B4`).
* **`TIME`**: Una marca de tiempo en formato `YYYY-MM-DDTHH:MM:SS`.
* **`TEMP`**: La lectura de temperatura, un número (posiblemente decimal) seguido de la letra `C` (Celsius).
* **`HUM`**: La lectura de humedad, un número (posiblemente decimal) seguido del símbolo `%`.
* **`PRES`**: La lectura de presión, un número (posiblemente decimal) seguido de `hPa` (hectopascales).
* Cada par clave:valor termina con un punto y coma (;).

**Ejemplo de trama válida**:

```
ID:SEN-A4-31;TIME:2025-09-24T10:30:05;TEMP:23.5C;HUM:58.2%;PRES:1012.5hPa;
```

#### Requisitos del Problema

Escriba una expresión regular que pueda extraer los siguientes valores de cada trama de datos válida y los capture en **grupos nombrados**:
* **id**: El identificador del sensor.
* **timestamp**: La fecha y hora de la lectura.
* **temperatura**: El valor numérico de la temperatura.
* **humedad**: El valor numérico de la humedad.

Su solución debe ser capaz de procesar un bloque de texto con múltiples líneas, extrayendo los datos únicamente de las que cumplen con el formato especificado.

A continuación se muestra la plantilla de codigo a completar-

In [None]:
# Importamos el módulo de expresiones regulares
import re

# Log de datos recibidos de los sensores.
# Contiene tramas válidas, incompletas y con errores.
log_sensores = """
INFO: Iniciando la recepción de datos...
ID:SEN-A4-31;TIME:2025-09-24T10:30:05;TEMP:23.5C;HUM:58.2%;PRES:1012.5hPa;
ID:SEN-B1-05;TIME:2025-09-24T10:31:10;TEMP:24.1C;HUM:57.9%;PRES:1012.3hPa;
[ERROR] Trama corrupta: ID:SEN-C3-12-TIME:2025-09-24T10:31:15;TEMP:22.9C;
ID:SEN-A4-31;TIME:2025-09-24T10:32:05;TEMP:23.6C;HUM:58.5%;PRES:1012.6hPa;
WARN: Sensor SEN-D9-40 sin respuesta.
ID:OUTDOOR-01;TIME:2025-09-24T10:33:00;TEMP:-5.2C;HUM:85.0%;PRES:1015.1hPa;
"""

# -------------------------------------------------------------------
# EJERCICIO: Escribe una regex para capturar los datos de cada trama válida.
# -------------------------------------------------------------------
# Indicaciones:
# 1. Utiliza grupos nombrados (?P<nombre>...) para que el código sea más legible.
#    Ejemplo: (?P<id>[A-Z0-9-]+) capturaría el ID en un grupo llamado 'id'.
# 2. Recuerda que los valores numéricos pueden ser enteros o decimales.
# 3. Tu patrón debe coincidir con la línea completa y estructurada.
#
# Escribe tu regex dentro de las comillas r'...'

patron_trama = r'' # <- Completa aquí tu regex

# -------------------------------------------------------------------
# CÓDIGO DE PRUEBA (No necesitas modificar esto)
# -------------------------------------------------------------------
# re.finditer() es ideal para encontrar todas las coincidencias en un texto
# de varias líneas, devolviendo un iterador de objetos de coincidencia.

print("--- Extrayendo datos de sensores del log ---")

# Creamos una lista para guardar los diccionarios de datos extraídos
datos_extraidos = []

for coincidencia in re.finditer(patron_trama, log_sensores, re.MULTILINE):
    # .groupdict() devuelve un diccionario con los nombres de los grupos
    # que definiste y los valores que capturaron.
    datos = coincidencia.groupdict()
    datos_extraidos.append(datos)
    print(f"Trama válida encontrada:")
    print(f"- ID del Sensor: {datos['id']}")
    print(f"- Timestamp:     {datos['timestamp']}")
    print(f"- Temperatura:   {datos['temperatura']} °C")
    print(f"- Humedad:       {datos['humedad']} %")
    print("-" * 20)

if not datos_extraidos:
    print("\nNo se pudo extraer información con el patrón proporcionado. ¡Revisa tu regex!")
else:
    print(f"\nProceso completado. Se extrajeron datos de {len(datos_extraidos)} tramas.")

# Referncias

1. https://realpython.com/regex-python/
2. https://realpython.com/regex-python-part-2/
3. https://regexone.com/
4. https://www.regular-expressions.info/
5. https://www.keycdn.com/support/regex-cheat-sheet
6. https://docs.python.org/es/3/library/re.html
7. https://developers.google.com/edu/python/regular-expressions?hl=es-419
8. https://www.programiz.com/python-programming/regex
9. https://pypi.org/project/regex/