# Expresiones Regulares (RegEx) para Data Science

## Introducción

Las expresiones regulares son patrones de búsqueda que permiten:
- Validar formatos de datos
- Extraer información específica
- Limpiar y transformar datos
- Buscar y reemplazar patrones complejos

Son **fundamentales** en el preprocesamiento de datos.

In [None]:
# ==================================================
# IMPORTACIÓN DE LIBRERÍAS
# ==================================================

# re: Librería de expresiones regulares de Python
# Permite buscar, extraer y manipular texto usando patrones
import re

# pandas: Librería fundamental para análisis de datos
# La usaremos para aplicar regex en DataFrames
import pandas as pd

# numpy: Librería para cálculo numérico
# Aunque no la usaremos mucho, es buena práctica importarla
import numpy as np

print("✓ Librerías importadas correctamente")

## 1. Conceptos Básicos

### Caracteres Literales

Los caracteres literales buscan coincidencias exactas del texto.

In [None]:
# ==================================================
# BUSCAR UNA PALABRA EXACTA EN UN TEXTO
# ==================================================

# Definimos un texto de ejemplo para trabajar
texto = "El análisis de datos es fundamental para data science"

# Definimos el patrón que queremos buscar (la palabra "datos")
patron = "datos"

# re.search() busca el patrón en CUALQUIER parte del texto
# Devuelve un objeto Match si lo encuentra, o None si no
resultado = re.search(patron, texto)

# .group() extrae el texto que coincidió con el patrón
print(f"Patrón encontrado: {resultado.group()}")

# .start() devuelve la posición inicial donde se encontró
# .end() devuelve la posición final
print(f"Posición: {resultado.start()} - {resultado.end()}")

### Métodos Principales de re

- `re.search()`: Busca la primera coincidencia
- `re.match()`: Busca al inicio del string
- `re.findall()`: Encuentra todas las coincidencias
- `re.finditer()`: Iterador de coincidencias
- `re.sub()`: Buscar y reemplazar

In [None]:
# ==================================================
# DIFERENCIA ENTRE search() Y match()
# ==================================================

texto = "Python es genial para data science"

# ----- USO DE search() -----
# search() busca el patrón en CUALQUIER parte del texto
# Encuentra "data" aunque esté en medio de la frase
resultado_search = re.search("data", texto)
print(f"search encontró: {resultado_search.group()}")

# ----- USO DE match() -----
# match() SOLO busca al INICIO del string
# Como "data" no está al principio, devuelve None
resultado_match = re.match("data", texto)
print(f"match encontró: {resultado_match}")  # None porque 'data' no está al inicio

# NOTA: Si quisiéramos que match() funcione, el texto debería empezar con "data"
# Ejemplo: "data science con Python" SÍ funcionaría con match()

In [None]:
# ==================================================
# FINDALL: ENCONTRAR TODAS LAS COINCIDENCIAS
# ==================================================

texto = "Los datos de 2023 y 2024 son importantes para el análisis de 2025"

# El patrón r"\d{4}" significa:
# \d = cualquier dígito (0-9)
# {4} = exactamente 4 veces
# Por lo tanto, busca secuencias de exactamente 4 dígitos (años)

# La 'r' antes de la cadena significa "raw string"
# Evita problemas con caracteres de escape como \
anos = re.findall(r"\d{4}", texto)

# findall() devuelve una LISTA con TODAS las coincidencias
print(f"Años encontrados: {anos}")
# Output esperado: ['2023', '2024', '2025']

## 2. Metacaracteres Especiales

### Caracteres de Coincidencia

| Símbolo | Significado |
|---------|-------------|
| `.` | Cualquier carácter (excepto salto de línea) |
| `\d` | Dígito (0-9) |
| `\D` | No dígito |
| `\w` | Carácter alfanumérico (a-z, A-Z, 0-9, _) |
| `\W` | No alfanumérico |
| `\s` | Espacio en blanco |
| `\S` | No espacio en blanco |

In [None]:
# ==================================================
# METACARACTER \d PARA EXTRAER NÚMEROS
# ==================================================

texto = "El dataset tiene 1500 registros y 25 columnas"

# Patrón: r"\d+"
# \d = cualquier dígito (0-9)
# + = uno o MÁS dígitos consecutivos
# Esto encuentra números de cualquier longitud (1500, 25, etc.)

numeros = re.findall(r"\d+", texto)

# Resultado: encuentra '1500' y '25' como elementos separados
print(f"Números extraídos: {numeros}")
# Output: ['1500', '25']

In [None]:
# ==================================================
# METACARACTER \w PARA EXTRAER PALABRAS
# ==================================================

texto = "email: usuario@dominio.com, teléfono: 555-1234"

# Patrón: r"\w+"
# \w = caracteres alfanuméricos (letras, números y guión bajo _)
# + = uno o más caracteres consecutivos
# NO incluye símbolos especiales como @, -, puntos, etc.

palabras = re.findall(r"\w+", texto)

# Encuentra: email, usuario, dominio, com, teléfono, 555, 1234
# NO encuentra @ ni - porque no son alfanuméricos
print(f"Palabras encontradas: {palabras}")
# Output: ['email', 'usuario', 'dominio', 'com', 'teléfono', '555', '1234']

In [None]:
# ==================================================
# METACARACTER \s PARA DETECTAR Y LIMPIAR ESPACIOS
# ==================================================

texto = "Python   tiene    espacios    irregulares"

# Patrón: r"\s+"
# \s = cualquier espacio en blanco (espacio, tab, salto de línea)
# + = uno o MÁS espacios consecutivos

# re.sub() REEMPLAZA todas las coincidencias
# Sintaxis: re.sub(patrón_a_buscar, texto_de_reemplazo, donde_buscar)
texto_limpio = re.sub(r"\s+", " ", texto)

# Convierte múltiples espacios en UN solo espacio
print(f"Texto original: '{texto}'")
print(f"Texto limpio: '{texto_limpio}'")
# Útil para limpiar datasets con formato inconsistente

## 3. Cuantificadores

Controlan cuántas veces se repite un patrón:

| Símbolo | Significado |
|---------|-------------|
| `*` | 0 o más veces |
| `+` | 1 o más veces |
| `?` | 0 o 1 vez (opcional) |
| `{n}` | Exactamente n veces |
| `{n,}` | n o más veces |
| `{n,m}` | Entre n y m veces |

In [None]:
# ==================================================
# CUANTIFICADOR {n} - EXACTAMENTE N VECES
# ==================================================

# Lista de códigos postales para validar
codigos = ["28001", "1234", "080001", "46020"]

# Iteramos sobre cada código postal
for codigo in codigos:
    # Patrón: r"^\d{5}$"
    # ^ = debe empezar al inicio (no puede haber nada antes)
    # \d = un dígito
    # {5} = exactamente 5 veces (ni más ni menos)
    # $ = debe terminar al final (no puede haber nada después)
    
    if re.match(r"^\d{5}$", codigo):
        print(f"{codigo}: ✓ Válido")
    else:
        print(f"{codigo}: ✗ Inválido")
        
# "28001" y "46020" son válidos (5 dígitos)
# "1234" es inválido (solo 4 dígitos)
# "080001" es inválido (6 dígitos)

In [None]:
# ==================================================
# CUANTIFICADOR ? - OPCIONAL (0 o 1 vez)
# ==================================================

texto = "Precios: 19.99, 25, 100.50, 5.5"

# Patrón: r"\d+\.?\d*"
# \d+ = uno o más dígitos (la parte entera del número)
# \.? = un punto OPCIONAL (el ? hace que sea opcional)
#       \. es necesario porque . es un metacaracter, \ lo "escapa"
# \d* = cero o más dígitos (la parte decimal, puede no existir)

precios = re.findall(r"\d+\.?\d*", texto)

# Encuentra números con o sin decimales:
# 19.99 (con decimales), 25 (sin decimales), 100.50, 5.5
print(f"Precios encontrados: {precios}")
# Output: ['19.99', '25', '100.50', '5.5']

In [None]:
# ==================================================
# CONJUNTOS [] - VARIOS CARACTERES OPCIONALES
# ==================================================

telefonos = ["555-1234", "5551234", "555 1234", "(555)1234"]

# Patrón: r"\d{3}[-\s]?\d{4}"
# \d{3} = exactamente 3 dígitos
# [-\s]? = OPCIONALMENTE un guion O un espacio
#          Los corchetes [] significan "uno de estos caracteres"
#          El ? lo hace opcional (puede no estar)
# \d{4} = exactamente 4 dígitos

patron = r"\d{3}[-\s]?\d{4}"

for tel in telefonos:
    if re.search(patron, tel):
        print(f"{tel}: ✓ Coincide")
    else:
        print(f"{tel}: ✗ No coincide")
        
# Coinciden: "555-1234", "5551234", "555 1234"
# No coincide: "(555)1234" porque el paréntesis no está en el patrón

## 4. Anclas y Límites

| Símbolo | Significado |
|---------|-------------|
| `^` | Inicio de línea |
| `$` | Final de línea |
| `\b` | Límite de palabra |
| `\B` | No límite de palabra |

In [None]:
# Verificar si el texto comienza con una palabra específica
textos = ["Python es genial", "Me gusta Python", "python en minúsculas"]

for texto in textos:
    if re.match(r"^Python", texto):
        print(f"'{texto}': ✓ Comienza con Python")
    else:
        print(f"'{texto}': ✗ No comienza con Python")

In [None]:
# ==================================================
# LÍMITES DE PALABRA \b
# ==================================================

texto = "cat cats scatter category"

# ----- SIN LÍMITE DE PALABRA -----
# Busca "cat" en CUALQUIER parte de las palabras
sin_limite = re.findall(r"cat", texto)
print(f"Sin límite: {sin_limite}")
# Encuentra 'cat' 4 veces: en cat, cats, scatter, category

# ----- CON LÍMITE DE PALABRA \b -----
# \b indica "frontera de palabra"
# Solo encuentra "cat" como palabra COMPLETA, no dentro de otras
con_limite = re.findall(r"\bcat\b", texto)
print(f"Con límite: {con_limite}")
# Solo encuentra 'cat' 1 vez: la palabra "cat" aislada

# USO PRÁCTICO: Buscar variables exactas en código
# Ejemplo: buscar variable "user" pero no "username" o "user_id"

## 5. Conjuntos y Rangos

| Patrón | Significado |
|--------|-------------|
| `[abc]` | Coincide con a, b o c |
| `[a-z]` | Cualquier letra minúscula |
| `[A-Z]` | Cualquier letra mayúscula |
| `[0-9]` | Cualquier dígito |
| `[^abc]` | Cualquier carácter excepto a, b o c |

In [None]:
# ==================================================
# CONJUNTOS [] - DEFINIR GRUPOS DE CARACTERES
# ==================================================

texto = "Data Science con Python"

# Patrón: [aeiouAEIOU]
# Los corchetes [] significan "coincide con UNO de estos caracteres"
# En este caso: cualquier vocal, mayúscula o minúscula
vocales = re.findall(r"[aeiouAEIOU]", texto)

print(f"Vocales encontradas: {vocales}")
# Encuentra: a, a, i, e, e, o, o
print(f"Total de vocales: {len(vocales)}")

# NOTA: Esto es equivalente a usar [aeiou] con flag re.IGNORECASE
# Pero esta forma es más explícita y didáctica

In [None]:
# Validar contraseñas (al menos una mayúscula, una minúscula, un número)
passwords = ["Password123", "password", "PASSWORD123", "Pass123"]

for pwd in passwords:
    tiene_mayuscula = bool(re.search(r"[A-Z]", pwd))
    tiene_minuscula = bool(re.search(r"[a-z]", pwd))
    tiene_numero = bool(re.search(r"[0-9]", pwd))
    
    if tiene_mayuscula and tiene_minuscula and tiene_numero:
        print(f"{pwd}: ✓ Válida")
    else:
        print(f"{pwd}: ✗ Inválida")

In [None]:
# ==================================================
# NEGACIÓN [^] - CARACTERES QUE NO QUEREMOS
# ==================================================

texto = "Datos: 123, abc; def! @#$"

# Patrón: [^\w\s]
# ^ dentro de [] significa NEGACIÓN (NO estos caracteres)
# \w = alfanuméricos (letras, números, _)
# \s = espacios
# Entonces [^\w\s] = "cualquier cosa que NO sea alfanumérico NI espacio"
# Es decir: todos los símbolos especiales, puntuación, etc.

# re.sub() reemplaza todas las coincidencias por "" (nada)
# Resultado: elimina todos los caracteres especiales
texto_limpio = re.sub(r"[^\w\s]", "", texto)

print(f"Original: {texto}")
print(f"Limpio: {texto_limpio}")
# Elimina: :, comas, punto y coma, !, @, #, $
# Mantiene: letras, números y espacios

## 6. Grupos y Captura

Los paréntesis `()` crean grupos que permiten:
- Capturar partes específicas del patrón
- Aplicar cuantificadores a múltiples caracteres
- Extraer información estructurada

In [None]:
# ==================================================
# GRUPOS DE CAPTURA () - EXTRAER PARTES ESPECÍFICAS
# ==================================================

emails = [
    "usuario@example.com",
    "ana.garcia@company.es",
    "john_doe@data-science.org"
]

# Patrón con GRUPOS (paréntesis)
# ([\w.-]+) = GRUPO 1: usuario (letras, números, puntos, guiones)
# @ = arroba literal
# ([\w.-]+) = GRUPO 2: dominio (example, company, etc.)
# \. = punto literal (escapado porque . es metacaracter)
# ([a-z]{2,}) = GRUPO 3: extensión (com, es, org) mínimo 2 letras

patron = r"([\w.-]+)@([\w.-]+)\.([a-z]{2,})" 

for email in emails:
    match = re.search(patron, email)
    if match:
        # .group(1) = primer grupo capturado (usuario)
        usuario = match.group(1)
        # .group(2) = segundo grupo capturado (dominio)
        dominio = match.group(2)
        # .group(3) = tercer grupo capturado (extensión)
        extension = match.group(3)
        
        print(f"Email: {email}")
        print(f"  Usuario: {usuario}, Dominio: {dominio}, Ext: {extension}\n")

In [None]:
# ==================================================
# GRUPOS DE CAPTURA CON FECHAS
# ==================================================

texto = "Las fechas importantes son: 15/03/2024, 01/12/2023 y 25/07/2025"

# Patrón con 3 grupos de captura
# (\d{2}) = GRUPO 1: día (2 dígitos)
# / = barra literal
# (\d{2}) = GRUPO 2: mes (2 dígitos)
# / = barra literal
# (\d{4}) = GRUPO 3: año (4 dígitos)
patron = r"(\d{2})/(\d{2})/(\d{4})"

# findall() con grupos devuelve una lista de TUPLAS
# Cada tupla contiene los grupos capturados
fechas = re.findall(patron, texto)

# Desempaquetamos cada tupla en día, mes, año
for dia, mes, año in fechas:
    print(f"Día: {dia}, Mes: {mes}, Año: {año}")
    
# Output:
# Día: 15, Mes: 03, Año: 2024
# Día: 01, Mes: 12, Año: 2023
# Día: 25, Mes: 07, Año: 2025

In [None]:
# ==================================================
# GRUPOS NOMBRADOS (?P<nombre>) - MÁS LEGIBLE
# ==================================================

texto = "Producto: Laptop, Precio: 899.99, Cantidad: 5"

# (?P<nombre>patrón) = crea un grupo nombrado
# Es más legible que usar números (group(1), group(2))

# (?P<precio>\d+\.\d{2}) = grupo llamado 'precio'
#   \d+ = uno o más dígitos (parte entera)
#   \. = punto decimal
#   \d{2} = exactamente 2 decimales

# (?P<cantidad>\d+) = grupo llamado 'cantidad'
#   \d+ = uno o más dígitos
patron = r"Precio: (?P<precio>\d+\.\d{2}), Cantidad: (?P<cantidad>\d+)"

match = re.search(patron, texto)
if match:
    # Accedemos a los grupos por NOMBRE en lugar de número
    # Esto hace el código mucho más legible y mantenible
    print(f"Precio: ${match.group('precio')}")
    print(f"Cantidad: {match.group('cantidad')} unidades")
    
# VENTAJA: Si cambiamos el orden de los grupos, el código sigue funcionando

## 7. Aplicaciones en Data Science

### Limpieza de Datos

In [None]:
# Crear un dataset de ejemplo con datos sucios
data = {
    'nombre': ['  Juan Pérez  ', 'María   García', 'Pedro  López  '],
    'email': ['JUAN@EMAIL.COM', 'maria@EMAIL.com', 'pedro@email.COM'],
    'telefono': ['555-1234', '(555) 5678', '555 9012']
}

df = pd.DataFrame(data)
print("Dataset original:")
print(df)

In [None]:
# ==================================================
# LIMPIEZA DE NOMBRES CON PANDAS + REGEX
# ==================================================

# Aplicamos dos operaciones encadenadas:

# 1. .str.replace(r'\s+', ' ', regex=True)
#    - r'\s+' = uno o más espacios en blanco
#    - ' ' = reemplazar por UN solo espacio
#    - regex=True = indica que usamos expresión regular

# 2. .str.strip()
#    - Elimina espacios al inicio y final de cada string

df['nombre'] = df['nombre'].str.replace(r'\s+', ' ', regex=True).str.strip()

# ANTES: '  Juan Pérez  ' (espacios al inicio, final y múltiples en medio)
# DESPUÉS: 'Juan Pérez' (sin espacios extra)

print("\nNombres limpios:")
print(df['nombre'])

In [None]:
# Normalizar emails a minúsculas
df['email'] = df['email'].str.lower()

print("\nEmails normalizados:")
print(df['email'])

In [None]:
# ==================================================
# ESTANDARIZAR TELÉFONOS CON PANDAS
# ==================================================

# PASO 1: Eliminar TODOS los caracteres que NO sean números
# Patrón: r'[^0-9]'
# [^ ] = negación (NO estos caracteres)
# 0-9 = cualquier dígito
# Resultado: elimina guiones, paréntesis, espacios, etc.
df['telefono'] = df['telefono'].str.replace(r'[^0-9]', '', regex=True)

# PASO 2: Reformatear en formato estándar XXX-XXXX
# Patrón: r'(\d{3})(\d{4})'
# (\d{3}) = captura los primeros 3 dígitos en grupo 1
# (\d{4}) = captura los siguientes 4 dígitos en grupo 2

# Reemplazo: r'\1-\2'
# \1 = contenido del grupo 1
# - = guion literal
# \2 = contenido del grupo 2
# Resultado: 5551234 se convierte en 555-1234
df['telefono'] = df['telefono'].str.replace(r'(\d{3})(\d{4})', r'\1-\2', regex=True)

print("\nTeléfonos estandarizados:")
print(df['telefono'])

In [None]:
# Ver el dataset final limpio
print("\nDataset limpio:")
print(df)

### Extracción de Información

In [None]:
# Dataset con comentarios de clientes
comentarios = {
    'texto': [
        "Me encantó el producto! Mi email es cliente1@mail.com",
        "Precio: $49.99 - Excelente calidad",
        "Contacto: 555-1234, disponible de 9am a 5pm",
        "Pedido #12345 recibido el 15/03/2024"
    ]
}

df_comentarios = pd.DataFrame(comentarios)
print("Comentarios originales:")
print(df_comentarios)

In [None]:
# ==================================================
# EXTRAER EMAILS CON .str.extract() DE PANDAS
# ==================================================

# .str.extract() es un método ESPECÍFICO de Pandas para regex
# Extrae la PRIMERA coincidencia y crea una nueva columna

# Patrón de email: ([\w.-]+@[\w.-]+\.\w+)
# Los paréntesis () son OBLIGATORIOS en .extract()
# porque definen qué queremos capturar

# [\w.-]+ = usuario: letras, números, puntos, guiones
# @ = arroba literal
# [\w.-]+ = dominio: letras, números, puntos, guiones
# \. = punto literal (escapado)
# \w+ = extensión: letras (com, es, org, etc.)

# expand=False = devuelve una Serie (columna) en lugar de DataFrame
df_comentarios['email'] = df_comentarios['texto'].str.extract(
    r'([\w.-]+@[\w.-]+\.\w+)', 
    expand=False
)

print("\nEmails extraídos:")
print(df_comentarios[['texto', 'email']])

In [None]:
# ==================================================
# EXTRAER PRECIOS EN FORMATO MONETARIO
# ==================================================

# Patrón: \$(\d+\.\d{2})
# \$ = símbolo de dólar literal (escapado porque $ es metacaracter de "fin de línea")
# (\d+\.\d{2}) = GRUPO DE CAPTURA:
#   \d+ = uno o más dígitos (parte entera: 49, 899, etc.)
#   \. = punto decimal literal
#   \d{2} = exactamente 2 decimales (centavos)

# IMPORTANTE: Solo capturamos el NÚMERO, no el símbolo $
# Por eso el $ está FUERA de los paréntesis

df_comentarios['precio'] = df_comentarios['texto'].str.extract(
    r'\$(\d+\.\d{2})', 
    expand=False
)

print("\nPrecios extraídos:")
print(df_comentarios[['texto', 'precio']])

# Si quisiéramos incluir el $, pondríamos: r'(\$\d+\.\d{2})'

In [None]:
# Extraer números de pedido
df_comentarios['pedido'] = df_comentarios['texto'].str.extract(
    r'#(\d+)', 
    expand=False
)

print("\nNúmeros de pedido extraídos:")
print(df_comentarios[['texto', 'pedido']])

### Validación de Datos

In [None]:
# Dataset con datos de usuarios a validar
usuarios = {
    'email': ['valido@email.com', 'invalido.com', 'otro@valido.es', 'sin@arroba'],
    'telefono': ['555-1234', '12345', '555-5678', 'abc-defg'],
    'codigo_postal': ['28001', '1234', '08080', '123456']
}

df_usuarios = pd.DataFrame(usuarios)
print("Dataset de usuarios:")
print(df_usuarios)

In [None]:
# ==================================================
# VALIDAR EMAILS CON .str.match()
# ==================================================

# .str.match() verifica si TODA la cadena cumple con el patrón
# Devuelve True/False para cada elemento de la Serie

# Patrón completo de email: ^[\w.-]+@[\w.-]+\.\w+$
# ^ = debe empezar desde aquí (no puede haber texto antes)
# [\w.-]+ = usuario (alfanuméricos, puntos, guiones)
# @ = arroba obligatoria
# [\w.-]+ = dominio principal
# \. = punto obligatorio
# \w+ = extensión (.com, .es, .org, etc.)
# $ = debe terminar aquí (no puede haber texto después)

patron_email = r'^[\w.-]+@[\w.-]+\.\w+$'

# Creamos columna booleana: True si es válido, False si no
df_usuarios['email_valido'] = df_usuarios['email'].str.match(patron_email)

print("\nValidación de emails:")
print(df_usuarios[['email', 'email_valido']])

# 'valido@email.com' ✓ cumple el patrón
# 'invalido.com' ✗ falta la @
# 'otro@valido.es' ✓ cumple el patrón
# 'sin@arroba' ✗ falta el punto antes de la extensión

In [None]:
# Validar teléfonos (formato XXX-XXXX)
patron_telefono = r'^\d{3}-\d{4}$'
df_usuarios['telefono_valido'] = df_usuarios['telefono'].str.match(patron_telefono)

print("\nValidación de teléfonos:")
print(df_usuarios[['telefono', 'telefono_valido']])

In [None]:
# Validar códigos postales (5 dígitos)
patron_cp = r'^\d{5}$'
df_usuarios['cp_valido'] = df_usuarios['codigo_postal'].str.match(patron_cp)

print("\nValidación de códigos postales:")
print(df_usuarios[['codigo_postal', 'cp_valido']])

In [None]:
# ==================================================
# FILTRAR DATOS VÁLIDOS CON OPERADORES BOOLEANOS
# ==================================================

# Usamos el operador & (AND) para combinar múltiples condiciones
# IMPORTANTE: En Pandas usamos & en lugar de 'and'

# Condiciones:
# df_usuarios['email_valido'] = True si email es válido
# df_usuarios['telefono_valido'] = True si teléfono es válido  
# df_usuarios['cp_valido'] = True si código postal es válido

# El & requiere que TODAS las condiciones sean True
df_validos = df_usuarios[
    df_usuarios['email_valido'] & 
    df_usuarios['telefono_valido'] & 
    df_usuarios['cp_valido']
]

print("\nRegistros completamente válidos:")
print(df_validos)

# ALTERNATIVA: Usar | (OR) si queremos al menos una condición True
# df_parcialmente_validos = df_usuarios[
#     df_usuarios['email_valido'] | 
#     df_usuarios['telefono_valido']
# ]

## 8. Casos de Uso Avanzados

### Análisis de Logs

In [None]:
# Simular logs de servidor
logs = [
    "2024-03-15 10:23:45 [INFO] Usuario login exitoso - IP: 192.168.1.100",
    "2024-03-15 10:25:12 [ERROR] Error de conexión - IP: 192.168.1.101",
    "2024-03-15 10:30:00 [WARNING] Uso de memoria alto: 85%",
    "2024-03-15 10:35:22 [INFO] Backup completado - Tamaño: 2.5GB"
]

df_logs = pd.DataFrame({'log': logs})
print("Logs del servidor:")
print(df_logs)

In [None]:
# ==================================================
# EXTRAER MÚLTIPLES CAMPOS DE LOGS CON .str.extract()
# ==================================================

# Patrón complejo con MÚLTIPLES grupos de captura:
# (\d{4}-\d{2}-\d{2}) = GRUPO 1: fecha formato YYYY-MM-DD
# (espacio) = espacio literal
# (\d{2}:\d{2}:\d{2}) = GRUPO 2: hora formato HH:MM:SS
# (espacio) = espacio literal
# \[ = corchete izquierdo literal (escapado)
# (\w+) = GRUPO 3: nivel del log (INFO, ERROR, WARNING)
# \] = corchete derecho literal (escapado)

patron_log = r'(\d{4}-\d{2}-\d{2}) (\d{2}:\d{2}:\d{2}) \[(\w+)\]'

# .str.extract() con MÚLTIPLES grupos crea MÚLTIPLES columnas automáticamente
# Pandas asigna cada grupo a una columna en el orden que aparecen
df_logs[['fecha', 'hora', 'nivel']] = df_logs['log'].str.extract(patron_log)

print("\nInformación extraída:")
print(df_logs[['fecha', 'hora', 'nivel']])

# Output:
#         fecha       hora    nivel
# 0  2024-03-15  10:23:45     INFO
# 1  2024-03-15  10:25:12    ERROR
# 2  2024-03-15  10:30:00  WARNING
# 3  2024-03-15  10:35:22     INFO

In [None]:
# ==================================================
# EXTRAER DIRECCIONES IP
# ==================================================

# Patrón de dirección IP: (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})
# Se repite el patrón 4 veces separado por puntos

# \d{1,3} = de 1 a 3 dígitos (para cada octeto: 0-255)
# \. = punto literal (escapado)
# Este patrón se repite 4 veces

# Precedido por "IP: " para mayor precisión
# Patrón completo: IP: (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})

df_logs['ip'] = df_logs['log'].str.extract(
    r'IP: (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})'
)

print("\nIPs extraídas:")
print(df_logs[['log', 'ip']])

# NOTA: Este patrón NO valida que los números estén en rango 0-255
# Para eso necesitaríamos un patrón más complejo
# Ejemplo IP válida: 192.168.1.100
# Ejemplo IP inválida (pero que coincidiría): 999.999.999.999

In [None]:
# Filtrar solo logs de error
df_errores = df_logs[df_logs['nivel'] == 'ERROR']

print("\nLogs de ERROR:")
print(df_errores[['fecha', 'hora', 'log']])

### Web Scraping y Limpieza de HTML

In [None]:
# ==================================================
# LIMPIAR TEXTO HTML CON REGEX
# ==================================================

html_text = """
<div class="producto">
    <h2>Laptop Pro</h2>
    <p>Precio: <span>$1,299.99</span></p>
    <p>Stock: <strong>15 unidades</strong></p>
</div>
"""

# PASO 1: Eliminar todas las etiquetas HTML
# Patrón: <[^>]+>
# < = corchete angular de apertura
# [^>]+ = uno o más caracteres que NO sean >
# > = corchete angular de cierre
# Esto coincide con cualquier etiqueta: <div>, </div>, <p>, <span>, etc.
texto_limpio = re.sub(r'<[^>]+>', '', html_text)

# PASO 2: Limpiar espacios múltiples y saltos de línea
# r'\s+' = uno o más espacios en blanco (incluyendo \n, \t, etc.)
texto_limpio = re.sub(r'\s+', ' ', texto_limpio).strip()

print("Texto extraído del HTML:")
print(texto_limpio)
# Output: "Laptop Pro Precio: $1,299.99 Stock: 15 unidades"

In [None]:
# Extraer URLs de un texto
texto = """
Visita https://www.ejemplo.com para más información.
También puedes ver http://blog.ejemplo.com/articulo
y nuestra página de contacto: www.ejemplo.com/contacto
"""

# Patrón para URLs
urls = re.findall(r'https?://[\w.-]+(?:/[\w.-]*)*', texto)

print("URLs encontradas:")
for url in urls:
    print(f"  - {url}")

### Procesamiento de Texto Natural

In [None]:
# ==================================================
# EXTRAER MENCIONES Y HASHTAGS DE REDES SOCIALES
# ==================================================

tweet = "Gran análisis @datascience sobre #MachineLearning y #Python por @analytics_pro"

# ----- EXTRAER MENCIONES (@usuario) -----
# Patrón: @\w+
# @ = arroba literal
# \w+ = uno o más caracteres alfanuméricos (el nombre de usuario)
menciones = re.findall(r'@\w+', tweet)
print(f"Menciones: {menciones}")
# Output: ['@datascience', '@analytics_pro']

# ----- EXTRAER HASHTAGS (#etiqueta) -----
# Patrón: #\w+
# # = símbolo numeral literal
# \w+ = uno o más caracteres alfanuméricos (el texto del hashtag)
hashtags = re.findall(r'#\w+', tweet)
print(f"Hashtags: {hashtags}")
# Output: ['#MachineLearning', '#Python']

# APLICACIÓN PRÁCTICA: Análisis de tendencias en redes sociales
# Podemos contar hashtags más usados, menciones más frecuentes, etc.

In [None]:
# Tokenización simple de palabras (sin puntuación)
texto = "¡Hola! Esto es un ejemplo: Python, R y SQL son lenguajes útiles."

# Extraer solo palabras (sin puntuación)
palabras = re.findall(r'\b[a-zA-ZáéíóúÁÉÍÓÚñÑ]+\b', texto)

print(f"Palabras extraídas: {palabras}")
print(f"Total de palabras: {len(palabras)}")

In [None]:
# ==================================================
# CENSURAR INFORMACIÓN SENSIBLE (ANONIMIZACIÓN)
# ==================================================

texto = """
Contacto: Juan Pérez
Email: juan.perez@empresa.com
Teléfono: 555-1234
Tarjeta: 4532-1234-5678-9012
"""

# ----- CENSURAR EMAILS -----
# Patrón: [\w.-]+@[\w.-]+\.\w+
# Reemplaza todo el email por texto genérico
texto = re.sub(r'[\w.-]+@[\w.-]+\.\w+', '[EMAIL CENSURADO]', texto)

# ----- CENSURAR TELÉFONOS -----
# Patrón: \d{3}-\d{4}
# Reemplaza números de teléfono en formato XXX-XXXX
texto = re.sub(r'\d{3}-\d{4}', '[TELÉFONO CENSURADO]', texto)

# ----- CENSURAR TARJETAS DE CRÉDITO -----
# Patrón: \d{4}-\d{4}-\d{4}-\d{4}
# Reemplaza números de tarjeta en formato XXXX-XXXX-XXXX-XXXX
texto = re.sub(r'\d{4}-\d{4}-\d{4}-\d{4}', '[TARJETA CENSURADA]', texto)

print("Texto con información censurada:")
print(texto)

# USO EN DATA SCIENCE: Cumplir con GDPR y protección de datos
# Antes de compartir datasets, anonimizar información personal

## 9. Optimización y Mejores Prácticas

### Compilar Patrones para Mejor Rendimiento

In [None]:
# ==================================================
# COMPILAR PATRONES PARA MEJOR RENDIMIENTO
# ==================================================

# Cuando usas el MISMO patrón MUCHAS veces (ej: en un loop grande),
# es más eficiente COMPILARLO primero con re.compile()

# VENTAJAS:
# 1. Mejor rendimiento (el patrón se analiza solo una vez)
# 2. Código más limpio y reutilizable
# 3. Documentación implícita (variable nombrada describe el patrón)

patron_email = re.compile(r'[\w.-]+@[\w.-]+\.\w+')

# Ahora usamos el patrón compilado en lugar de la cadena
textos = [
    "Contacto: juan@email.com",
    "Escribe a: maria@empresa.es",
    "Soporte: ayuda@soporte.com"
]

for texto in textos:
    # Usamos el objeto compilado directamente
    email = patron_email.search(texto)
    if email:
        print(f"Encontrado: {email.group()}")

# CUÁNDO COMPILAR:
# - Si usas el patrón más de 2-3 veces
# - En loops con miles de iteraciones
# - En funciones que se llaman frecuentemente

### Flags Útiles

| Flag | Significado |
|------|-------------|
| `re.IGNORECASE` o `re.I` | Ignorar mayúsculas/minúsculas |
| `re.MULTILINE` o `re.M` | ^ y $ funcionan en cada línea |
| `re.DOTALL` o `re.S` | . coincide también con \n |
| `re.VERBOSE` o `re.X` | Permite comentarios en el patrón |

In [None]:
# ==================================================
# FLAG re.IGNORECASE - IGNORAR MAYÚSCULAS/MINÚSCULAS
# ==================================================

texto = "Python, PYTHON, python, PyThOn"

# Sin flag: buscaría solo "python" (minúsculas exactas)
# Con re.IGNORECASE: encuentra TODAS las variantes

# Patrón: 'python'
# Flag: re.IGNORECASE (o re.I para abreviar)
# Encuentra: Python, PYTHON, python, PyThOn (todas las variantes)
matches = re.findall(r'python', texto, re.IGNORECASE)

print(f"Coincidencias encontradas: {len(matches)}")
print(f"Matches: {matches}")
# Output: 4 coincidencias

# CASOS DE USO:
# - Búsquedas de palabras clave sin importar capitalización
# - Validar nombres de usuario (case-insensitive)
# - Buscar menciones de productos (@Product, @product, @PRODUCT)

In [None]:
# ==================================================
# FLAG re.VERBOSE - PATRONES COMENTADOS Y LEGIBLES
# ==================================================

# re.VERBOSE permite escribir patrones regex en MÚLTIPLES LÍNEAS
# con COMENTARIOS para mejor legibilidad

# Patrón en formato verbose (con comentarios):
patron_telefono = re.compile(r'''
    \d{3}      # Tres dígitos (código de área)
    [-\s]?     # Separador opcional: guion o espacio
    \d{4}      # Cuatro dígitos (número local)
''', re.VERBOSE)

# El patrón equivalente sin verbose sería: r'\d{3}[-\s]?\d{4}'
# Pero es menos legible, especialmente con patrones complejos

texto = "Llama al 555-1234 o al 555 5678"
telefonos = patron_telefono.findall(texto)

print(f"Teléfonos encontrados: {telefonos}")

# VENTAJAS DE re.VERBOSE:
# - Patrones complejos son más fáciles de entender
# - Puedes documentar cada parte del patrón
# - Facilita el mantenimiento del código
# - Los espacios y saltos de línea se IGNORAN (excepto en \s)

## 10. Ejercicios Prácticos

### Ejercicio 1: Validación de Contraseñas

In [None]:
# ==================================================
# EJERCICIO: VALIDADOR DE CONTRASEÑAS SEGURAS
# ==================================================

def validar_password(password):
    """
    Valida que una contraseña cumpla con los requisitos de seguridad:
    - Mínimo 8 caracteres
    - Al menos una mayúscula
    - Al menos una minúscula  
    - Al menos un número
    - Al menos un carácter especial
    
    Returns: (bool, str) - (es_válida, mensaje)
    """
    
    # ----- VALIDACIÓN 1: LONGITUD MÍNIMA -----
    if len(password) < 8:
        return False, "Debe tener al menos 8 caracteres"
    
    # ----- VALIDACIÓN 2: AL MENOS UNA MAYÚSCULA -----
    # [A-Z] = rango de letras mayúsculas
    if not re.search(r'[A-Z]', password):
        return False, "Debe tener al menos una mayúscula"
    
    # ----- VALIDACIÓN 3: AL MENOS UNA MINÚSCULA -----
    # [a-z] = rango de letras minúsculas
    if not re.search(r'[a-z]', password):
        return False, "Debe tener al menos una minúscula"
    
    # ----- VALIDACIÓN 4: AL MENOS UN NÚMERO -----
    # \d = cualquier dígito 0-9
    if not re.search(r'\d', password):
        return False, "Debe tener al menos un número"
    
    # ----- VALIDACIÓN 5: AL MENOS UN CARÁCTER ESPECIAL -----
    # [@#$%^&+=!] = conjunto de caracteres especiales permitidos
    if not re.search(r'[@#$%^&+=!]', password):
        return False, "Debe tener al menos un carácter especial"
    
    # Si pasa todas las validaciones
    return True, "Contraseña válida"


# ----- PRUEBAS DE LA FUNCIÓN -----
passwords_prueba = [
    "Pass123!",      # ✓ Válida (tiene todo)
    "password",      # ✗ Falta mayúscula, número y especial
    "PASSWORD123",   # ✗ Falta minúscula y carácter especial
    "Pass123",       # ✗ Falta carácter especial
    "SecureP@ss1"    # ✓ Válida (tiene todo)
]

for pwd in passwords_prueba:
    valida, mensaje = validar_password(pwd)
    # Añadimos emoji para visualización
    icono = "✓" if valida else "✗"
    print(f"{icono} {pwd}: {mensaje}")

### Ejercicio 2: Análisis de Dataset Real

In [None]:
# Crear un dataset con datos desordenados
data_desordenada = {
    'cliente': ['  Juan PÉREZ  ', 'maría García', 'PEDRO lópez'],
    'contacto': ['juan@email.com / 555-1234', 'maria@mail.es', '666 7890 / maria.g@empresa.com'],
    'direccion': ['Calle Mayor 123, 28001 Madrid', 'Av. Principal s/n, Barcelona', 'Plaza España 45, 41001 Sevilla'],
    'fecha_compra': ['15/03/2024', '2024-03-20', '01-04-2024']
}

df_desordenado = pd.DataFrame(data_desordenada)
print("Dataset original (desordenado):")
print(df_desordenado)

In [None]:
# Normalizar nombres (primera letra mayúscula)
df_desordenado['cliente'] = df_desordenado['cliente'].str.strip()
df_desordenado['cliente'] = df_desordenado['cliente'].str.title()

print("\nNombres normalizados:")
print(df_desordenado['cliente'])

In [None]:
# ==================================================
# EJERCICIO FINAL: EXTRACCIÓN MÚLTIPLE CON PANDAS
# ==================================================

# Esta celda demuestra el flujo completo de limpieza de datos:
# 1. Tenemos datos en formatos inconsistentes
# 2. Necesitamos extraer información estructurada
# 3. Usamos regex para normalizar y separar los datos

# ----- EXTRACCIÓN DE EMAILS -----
# Patrón: ([\w.-]+@[\w.-]+\.\w+)
# Captura todo el formato email completo
df_desordenado['email'] = df_desordenado['contacto'].str.extract(
    r'([\w.-]+@[\w.-]+\.\w+)'
)

# ----- EXTRACCIÓN DE TELÉFONOS -----
# Patrón: (\d{3}[\s-]?\d{4})
# \d{3} = 3 dígitos
# [\s-]? = espacio o guion opcional
# \d{4} = 4 dígitos
# Captura: 555-1234, 555 1234, 5551234
df_desordenado['telefono'] = df_desordenado['contacto'].str.extract(
    r'(\d{3}[\s-]?\d{4})'
)

print("\nEmails y teléfonos extraídos:")
print(df_desordenado[['contacto', 'email', 'telefono']])

# RESULTADO: De una columna mezclada, obtenemos 2 columnas limpias
# 'juan@email.com / 555-1234' → email='juan@email.com', telefono='555-1234'

In [None]:
# Extraer código postal de la dirección
df_desordenado['codigo_postal'] = df_desordenado['direccion'].str.extract(
    r'(\d{5})'
)

print("\nCódigos postales extraídos:")
print(df_desordenado[['direccion', 'codigo_postal']])

In [None]:
# Ver el dataset final limpio
columnas_finales = ['cliente', 'email', 'telefono', 'codigo_postal', 'fecha_compra']
print("\nDataset final limpio:")
print(df_desordenado[columnas_finales])

## Resumen y Recursos

### Conceptos Clave Aprendidos:

1. **Patrones básicos**: literales, metacaracteres, cuantificadores
2. **Conjuntos y rangos**: `[]`, `[^]`, `[a-z]`
3. **Grupos y captura**: `()`, grupos nombrados
4. **Anclas**: `^`, `$`, `\b`
5. **Aplicaciones en Data Science**:
   - Limpieza de datos
   - Validación
   - Extracción de información
   - Procesamiento de texto

### Recursos Adicionales:

- [Documentación oficial de re](https://docs.python.org/3/library/re.html)
- [Regex101](https://regex101.com/) - Probador online de expresiones regulares
- [RegExr](https://regexr.com/) - Otra herramienta interactiva
- [Pandas String Methods](https://pandas.pydata.org/docs/user_guide/text.html)

### Práctica:

La mejor forma de aprender RegEx es **practicando**. Intenta aplicar estos conceptos a tus propios datasets y casos de uso reales.