<a href="https://colab.research.google.com/github/cbadenes/curso-pln/blob/main/notebooks/01_expresiones_regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expresiones Regulares en Procesamiento de Lenguaje Natural

## 1. Introducción

Las expresiones regulares (regex) son una herramienta fundamental para la identificación y manipulación de patrones en cadenas de texto. Son especialmente útiles en PLN para:

Búsqueda y extracción de patrones en grandes textos
Validación de entradas de usuario (emails, fechas, números de teléfono)
Filtrado de datos específicos (precios, códigos postales, URLs)

## 2. Configuración del Entorno

In [1]:
import re
import pandas as pd

## 3. Elementos Básicos de Expresiones Regulares

### 3.1 Metacaracteres Básicos

In [2]:
def test_pattern(pattern, test_strings):
    """
    Función auxiliar para probar patrones de regex
    """
    print(f"Patrón: {pattern}")
    for test in test_strings:
        match = bool(re.search(pattern, test))
        print(f"'{test}': {'✓' if match else '✗'}")
    print()

# Ejemplo con punto (.)
print("Metacarácter '.' - cualquier carácter excepto nueva línea:")
test_pattern(r'a.b', ['aab', 'acb', 'a8b', 'a-b', 'ab', 'a\nb'])

# Ejemplo con + (una o más repeticiones)
print("Metacarácter '+' - una o más repeticiones:")
test_pattern(r'go+d', ['gd', 'god', 'good', 'goood'])

# Ejemplo con * (cero o más repeticiones)
print("Metacarácter '*' - cero o más repeticiones:")
test_pattern(r'go*d', ['gd', 'god', 'good', 'goood', 'gad'])

# Ejemplo con ? (cero o una repetición)
print("Metacarácter '?' - cero o una repetición:")
test_pattern(r'colou?r', ['color', 'colour', 'coloour', 'colr'])

Metacarácter '.' - cualquier carácter excepto nueva línea:
Patrón: a.b
'aab': ✓
'acb': ✓
'a8b': ✓
'a-b': ✓
'ab': ✗
'a
b': ✗

Metacarácter '+' - una o más repeticiones:
Patrón: go+d
'gd': ✗
'god': ✓
'good': ✓
'goood': ✓

Metacarácter '*' - cero o más repeticiones:
Patrón: go*d
'gd': ✓
'god': ✓
'good': ✓
'goood': ✓
'gad': ✗

Metacarácter '?' - cero o una repetición:
Patrón: colou?r
'color': ✓
'colour': ✓
'coloour': ✗
'colr': ✗



### 3.2 Coincidencia de Inicio y Fin

In [3]:
# Ejemplo con ^ (inicio de cadena)
print("Metacarácter '^' - inicio de cadena:")
test_pattern(r'^start', ['start here', 'start now', 'restart', "let's start"])

# Ejemplo con $ (fin de cadena)
print("Metacarácter '$' - fin de cadena:")
test_pattern(r'end$', ['The story will end', 'friend', 'ending'])

Metacarácter '^' - inicio de cadena:
Patrón: ^start
'start here': ✓
'start now': ✓
'restart': ✗
'let's start': ✗

Metacarácter '$' - fin de cadena:
Patrón: end$
'The story will end': ✓
'friend': ✓
'ending': ✗



### 3.3 Grupos de Caracteres

In [4]:
# Ejemplo con corchetes []
print("Grupos de caracteres con []:")
test_pattern(r'[0-9]', ['abc123', 'def', '456', '#%&'])

# Ejemplo con negación ^
print("Negación de grupos con ^:")
test_pattern(r'[^0-9]', ['abc', '123', 'abc123', '#%&'])

# Ejemplo con grupos ()
print("Grupos con ():")
test_pattern(r'(abc)+', ['abc', 'abcabc', 'abcabcabc', 'ab', 'abcd'])

# Ejemplo con alternancia |
print("Alternancia con |:")
test_pattern(r'I (like|love) regex', ['I like regex', 'I love regex', 'I hate regex'])

Grupos de caracteres con []:
Patrón: [0-9]
'abc123': ✓
'def': ✗
'456': ✓
'#%&': ✗

Negación de grupos con ^:
Patrón: [^0-9]
'abc': ✓
'123': ✗
'abc123': ✓
'#%&': ✓

Grupos con ():
Patrón: (abc)+
'abc': ✓
'abcabc': ✓
'abcabcabc': ✓
'ab': ✗
'abcd': ✓

Alternancia con |:
Patrón: I (like|love) regex
'I like regex': ✓
'I love regex': ✓
'I hate regex': ✗



### 3.4 Metacaracteres Especiales

In [5]:
# Ejemplo con \d (dígitos)
print("Metacarácter '\\d' - dígitos:")
test_pattern(r'\d{3}', ['123', '456', '789', 'abc', '12ab'])

# Ejemplo con \w (caracteres de palabra)
print("Metacarácter '\\w' - caracteres de palabra:")
test_pattern(r'\w+', ['abc', 'test123', 'word_word', 'test!', '!@#$'])

# Ejemplo con \b (límites de palabra)
print("Metacarácter '\\b' - límites de palabra:")
test_pattern(r'\bword\b', ['word', 'a word in', 'sword', 'wording'])

Metacarácter '\d' - dígitos:
Patrón: \d{3}
'123': ✓
'456': ✓
'789': ✓
'abc': ✗
'12ab': ✗

Metacarácter '\w' - caracteres de palabra:
Patrón: \w+
'abc': ✓
'test123': ✓
'word_word': ✓
'test!': ✓
'!@#$': ✗

Metacarácter '\b' - límites de palabra:
Patrón: \bword\b
'word': ✓
'a word in': ✓
'sword': ✗
'wording': ✗



## 4. Ejercicios Prácticos

### 4.1 Extracción de Dominio de Email

In [6]:
def extract_email_domain(email):
    """
    Extrae el dominio de una dirección de correo electrónico
    """
    pattern = r'@([A-Za-z0-9.-]+\.[A-Za-z]{2,})'
    match = re.search(pattern, email)
    return match.group(1) if match else None

# Pruebas
test_emails = [
    'carlos.badenes@upm.es',
    'usuario@dominio.com',
    'test@subdominio.dominio.co.uk'
]

print("Extracción de dominios de email:")
for email in test_emails:
    domain = extract_email_domain(email)
    print(f"Email: {email} -> Dominio: {domain}")

Extracción de dominios de email:
Email: carlos.badenes@upm.es -> Dominio: upm.es
Email: usuario@dominio.com -> Dominio: dominio.com
Email: test@subdominio.dominio.co.uk -> Dominio: subdominio.dominio.co.uk


### 4.2 Identificación de Correos Electrónicos

In [7]:
def find_emails(text):
    """
    Encuentra todas las direcciones de correo electrónico en un texto
    """
    pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}\b'
    return re.findall(pattern, text)

# Texto de prueba
test_text = """
El email de Carlos Badenes es carlos.badenes@upm.es
Otros contactos son: usuario1@gmail.com, soporte@empresa.com
"""

print("Emails encontrados:")
emails = find_emails(test_text)
for email in emails:
    print(f"- {email}")

Emails encontrados:
- carlos.badenes@upm.es
- usuario1@gmail.com
- soporte@empresa.com


## 5. Ejercicios para practicar

1. Crea una expresión regular para validar números de teléfono españoles (fijos y móviles).
2. Desarrolla un patrón para extraer hashtags de un texto de Twitter.
3. Implementa una función que valide códigos postales españoles.

## 6. Referencias
- Documentación oficial de Python sobre regex: https://docs.python.org/3/library/re.html
- Plataforma para probar expresiones regulares: https://regex101.com