# Laboratorio Guiado: Expresiones Regulares (Regex) en Python

¡Bienvenido! En este laboratorio, aprenderás los fundamentos de las expresiones regulares y cómo utilizarlas en Python a través del módulo `re`. Las expresiones regulares son una herramienta increíblemente poderosa para el procesamiento y la manipulación de texto.

## 1. ¿Qué son las Expresiones Regulares?

Una **expresión regular** (o "regex") es una secuencia de caracteres que define un patrón de búsqueda. Se utilizan principalmente para dos propósitos:

1.  **Validar si un texto cumple con un formato:** Por ejemplo, ¿este texto es un correo electrónico válido? ¿Es un número de teléfono?
2.  **Encontrar y extraer información de un texto:** Por ejemplo, encontrar todos los correos electrónicos o números de teléfono dentro de un documento largo.

### Tabla Resumen (Cheatsheet)

| Símbolo | Descripción                                       |
| :------ | :------------------------------------------------ |
| `.`     | Cualquier carácter (excepto nueva línea)          |
| `\d`    | Cualquier dígito (0-9)                           |
| `\D`    | Cualquier carácter que **no** sea un dígito      |
| `\w`    | Carácter alfanumérico (a-z, A-Z, 0-9, _)          |
| `\W`    | Carácter **no** alfanumérico                      |
| `\s`    | Espacio en blanco (espacio, tab, nueva línea)     |
| `\S`    | Carácter que **no** es un espacio en blanco       |
| `^`     | Inicio de la cadena                               |
| `$`     | Final de la cadena                                |
| `*`     | Cero o más repeticiones                           |
| `+`     | Una o más repeticiones                            |
| `?`     | Cero o una repetición                             |
| `{n}`   | Exactamente `n` repeticiones                      |
| `{n,m}` | Entre `n` y `m` repeticiones                      |
| `[...]` | Un conjunto de caracteres permitidos (ej: `[aeiou]`)| 
| `[^...]`| Cualquier carácter **excepto** los del conjunto   |
| `A|B`   | Coincide con A o con B (operador OR)              |

## 2. El Módulo `re` en Python

Python nos proporciona el módulo `re` para trabajar con expresiones regulares. Lo primero que debemos hacer es importarlo.

In [None]:
import re

### Funciones Principales

- `re.search()`: Busca la **primera** coincidencia en todo el texto.
- `re.match()`: Busca una coincidencia solo al **principio** del texto.
- `re.findall()`: Devuelve una **lista con todas** las coincidencias.
- `re.split()`: Divide el texto usando el patrón como delimitador.
- `re.sub()`: Sustituye las coincidencias por otro texto.

### Ejemplo 1: `re.search()` y cuantificadores

In [None]:
texto = "Mi número de teléfono es 123-456-7890."
patron = "\d{3}-\d{3}-\d{4}" # \d{3} significa "exactamente 3 dígitos"

coincidencia = re.search(patron, texto)

if coincidencia:
    print("Número encontrado:", coincidencia.group()) # .group() nos da el texto que coincidió
else:
    print("No se encontró ningún número.")

### Ejemplo 2: `re.findall()` para encontrar todos los correos

In [None]:
texto = "Mis correos son persona1@email.com y amigo2@dominio.co. También puedes escribir a contacto@empresa.org."
# Patrón para email: [caracteres]+@[caracteres]+.[caracteres]+
# El punto '.' es un metacarácter, por lo que debemos escaparlo con '\.' para que signifique un punto literal.
patron_email = "[\w.]+@[\w.]+"

correos_encontrados = re.findall(patron_email, texto)

print("Se encontraron los siguientes correos:", correos_encontrados)

### Ejemplo 3: Conjuntos de caracteres `[]` y alternancia `|`

In [None]:
texto = "Me gustan los colores azul, rojo y verde. Mi mascota es un gato."

# Encontrar todas las vocales
vocales = re.findall("[aeiou]", texto)
print(f"Vocales encontradas: {len(vocales)}")

# Encontrar si menciona 'gato' o 'perro'
mascota = re.search("gato|perro", texto)
if mascota:
    print(f"Mascota encontrada: {mascota.group()}")

### Ejemplo 4: Grupos de Captura `()` y `re.sub()`

In [None]:
texto = "Juan Pérez, 15/03/1995"
# Queremos extraer día, mes y año por separado
patron_fecha = "(\d{2})/(\d{2})/(\d{4})"

coincidencia = re.search(patron_fecha, texto)

if coincidencia:
    # group(0) o group() es toda la coincidencia
    print("Día:", coincidencia.group(1))
    print("Mes:", coincidencia.group(2))
    print("Año:", coincidencia.group(3))
    
    # Ahora vamos a usar los grupos para reemplazar y cambiar el formato
    # \3, \2, \1 hacen referencia a los grupos capturados
    texto_formato_americano = re.sub(patron_fecha, "\2-\1-\3", texto)
    print("Fecha en formato americano:", texto_formato_americano)

### Ejemplo 5: Flags (Banderas)
A veces queremos modificar el comportamiento de la búsqueda, por ejemplo, para que ignore mayúsculas y minúsculas.

In [None]:
texto = "Python es un gran lenguaje. Amo PYTHON."

# Búsqueda normal (sensible a mayúsculas)
coincidencias_normal = re.findall("python", texto)
print("Búsqueda normal:", coincidencias_normal)

# Búsqueda ignorando mayúsculas/minúsculas
coincidencias_ignorecase = re.findall("python", texto, re.IGNORECASE)
print("Búsqueda con IGNORECASE:", coincidencias_ignorecase)

## 3. Ejercicios Prácticos

¡Ahora es tu turno! Intenta resolver los siguientes problemas usando lo que has aprendido.

### Ejercicio 1: Extraer todos los números de un texto

Dado el siguiente texto, utiliza `re.findall()` para crear una lista que contenga todos los números presentes (tanto enteros como decimales).

**Salida Esperada:** `['19.99', '150', '1030']`

In [None]:
texto_ej1 = "El producto cuesta 19.99 dólares y tenemos 150 unidades en stock. El pedido número 1030 ha sido enviado."

# Tu código aquí
# Pista: un número es uno o más dígitos, opcionalmente seguido de un punto y más dígitos. `\d+\.?\d*`
numeros = re.findall("\d+\.?\d*", texto_ej1)

print(numeros)

# --- Solución ---
# patron = "\\d+\\.?\\d*"
# numeros = re.findall(patron, texto_ej1)
# print(numeros)

### Ejercicio 2: Validar un código postal

Escribe una función `validar_codigo_postal(codigo)` que devuelva `True` si el código postal tiene exactamente 5 dígitos y `False` en caso contrario. Usa `re.match()` combinado con `^` y `$` para asegurar que toda la cadena coincida.

In [None]:
def validar_codigo_postal(codigo):
    # Tu código aquí
    # Pista: El patrón debe asegurar que solo haya 5 dígitos desde el inicio (^) hasta el final ($) del texto.
    patron = "^\d{5}$"
    if re.match(patron, str(codigo)):
        return True
    return False

# Pruebas
print(f"'12345' es válido: {validar_codigo_postal('12345')} (Esperado: True)")
print(f"'1234' es válido: {validar_codigo_postal('1234')} (Esperado: False)")
print(f"'123456' es válido: {validar_codigo_postal('123456')} (Esperado: False)")
print(f"'abcde' es válido: {validar_codigo_postal('abcde')} (Esperado: False)")

### Ejercicio 3: Extraer hashtags de un texto

Encuentra y extrae todos los hashtags de un texto. Un hashtag empieza con `#` y es seguido por uno o más caracteres alfanuméricos.

**Salida Esperada:** `['#Python', '#dev', '#coding101']`

In [None]:
texto_ej3 = "Me encanta programar en #Python! Es mi lenguaje favorito. #dev #coding101"

# Tu código aquí
# Pista: El patrón debe buscar un '#' seguido de uno o más caracteres alfanuméricos (\w+).
hashtags = re.findall("#\w+", texto_ej3)

print("Hashtags encontrados:", hashtags)

# --- Solución ---
# patron = "#\\w+"
# hashtags = re.findall(patron, texto_ej3)
# print("Hashtags encontrados:", hashtags)

### Ejercicio 4: Analizar una URL

Dada una URL, extráe el protocolo (http, https, ftp), el dominio (ej. www.google.com) y la ruta (/search). Utiliza grupos de captura `()` para separar cada parte.

**Salida Esperada para la primera URL:** `Protocolo: https, Dominio: www.google.com, Ruta: /search`

In [None]:
url_texto = "Visita https://www.google.com/search para más información. También puedes ir a ftp://fileserver.net/downloads."

# Tu código aquí
# Pista: El patrón podría ser algo como (https?)://([^/]+)(/.*)?
# (https?) -> 'http' opcionalmente seguido de 's'
# ([^/]+) -> Dominio: uno o más caracteres que no sean '/'
# (.*) -> Ruta: cualquier caracter, cero o más veces
patron_url = "(https?|ftp)://([^/]+)(.*)"

urls_encontradas = re.findall(patron_url, url_texto)

for url in urls_encontradas:
    protocolo, dominio, ruta = url
    if not ruta:
        ruta = "/"
    print(f"Protocolo: {protocolo}, Dominio: {dominio}, Ruta: {ruta}")