# Ejemplos. Expresiones Regulares

En estos ejemplos se va a trabajar con expresiones regulares en Python.

**IMPORTANTE**: En Python, una cadena raw (o raw string) es una cadena de texto precedida por r o R, lo que indica que los caracteres de escape (\) deben interpretarse literalmente y no como secuencias especiales.

Por eso las expresiones regulares se deberán describir como **regex = r'...'**

**IMPORTANTE 2**: En Python **\w** coincide con una amplia variedad de caracteres Unicode incluyendo las vocales acentuadas, la **ñ** y **Ñ**.

## Expresiones regulares sobre tokens.

En este apartado trabajaremos con listas de tokens usando el Tokenizer de NLTK sobre un texto de ejemplo.

En las listas de tokens, como cada palabra o token es un elemento de la lista, la palabra es también el texto completo que se le pasa a la expresión regular por lo que se puede usar ^ y $ para indicar el inicio o fin de palabra.

In [2]:
import nltk
from nltk.tokenize import word_tokenize, sent_tokenize
import re

# Descargar los recursos necesarios de NLTK
nltk.download('punkt')
nltk.download('punkt_tab')


text = '''
May           14th              2019

That U.S.A.                    poster-print costs $12.30, including           V.A.T., but it's possible
to get a 30% discount if you have a no-pre-paid card      (and not-master-card).
Further discounts can be                   authorized for elderly people, foreigners, etc.;
Payments in euros are                allowed if they don't exceed $24.50 until 30/05/2020.



When purchasing multiple                  items, bundling them together may lead to additional savings.


Advertising campaigns promoting ongoing sales can be quite                  appealing.
Consulting the store's policies           before buying is always a good          .


Shopping during the morning or evening can help in avoiding long lines.
For those traveling, exchanging currency beforehand might be beneficial.


Understanding the pricing and                 checking for misleading offers is essential. '''

[nltk_data] Downloading package punkt to /home/codespace/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     /home/codespace/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Usamos primero unas expresiones regulares sencillas para poder eliminar saltos de línea innecesarios, así como espacios innecesarios.

In [3]:
# 1. Eliminar los saltos de línea (reemplazamos varios \n por un \n)
text = re.sub(r'\n+', '\n', text)

# 2. Eliminar los múltiples espacios consecutivos
text = re.sub(r'[\t ]+', ' ', text)

# 3. Eliminar los espacios al principio y al final
text = text.strip()

print(text)

May 14th 2019
That U.S.A. poster-print costs $12.30, including V.A.T., but it's possible
to get a 30% discount if you have a no-pre-paid card (and not-master-card).
Further discounts can be authorized for elderly people, foreigners, etc.;
Payments in euros are allowed if they don't exceed $24.50 until 30/05/2020.
When purchasing multiple items, bundling them together may lead to additional savings.
Advertising campaigns promoting ongoing sales can be quite appealing.
Consulting the store's policies before buying is always a good .
Shopping during the morning or evening can help in avoiding long lines.
For those traveling, exchanging currency beforehand might be beneficial.
Understanding the pricing and checking for misleading offers is essential.


In [4]:
words = word_tokenize(text)  # Tokenización en palabras

print("Palabras:", words)

Palabras: ['May', '14th', '2019', 'That', 'U.S.A.', 'poster-print', 'costs', '$', '12.30', ',', 'including', 'V.A.T.', ',', 'but', 'it', "'s", 'possible', 'to', 'get', 'a', '30', '%', 'discount', 'if', 'you', 'have', 'a', 'no-pre-paid', 'card', '(', 'and', 'not-master-card', ')', '.', 'Further', 'discounts', 'can', 'be', 'authorized', 'for', 'elderly', 'people', ',', 'foreigners', ',', 'etc', '.', ';', 'Payments', 'in', 'euros', 'are', 'allowed', 'if', 'they', 'do', "n't", 'exceed', '$', '24.50', 'until', '30/05/2020', '.', 'When', 'purchasing', 'multiple', 'items', ',', 'bundling', 'them', 'together', 'may', 'lead', 'to', 'additional', 'savings', '.', 'Advertising', 'campaigns', 'promoting', 'ongoing', 'sales', 'can', 'be', 'quite', 'appealing', '.', 'Consulting', 'the', 'store', "'s", 'policies', 'before', 'buying', 'is', 'always', 'a', 'good', '.', 'Shopping', 'during', 'the', 'morning', 'or', 'evening', 'can', 'help', 'in', 'avoiding', 'long', 'lines', '.', 'For', 'those', 'traveli

### Búsqueda de patrones en tokens.

Encuentramos los tokens que terminen por *ing*.

In [5]:
import nltk
import re

#Definimos la expresión regular a encontrar
regex = r'ing$'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['including', 'purchasing', 'bundling', 'Advertising', 'promoting', 'ongoing', 'appealing', 'Consulting', 'buying', 'Shopping', 'during', 'morning', 'evening', 'avoiding', 'traveling', 'exchanging', 'Understanding', 'pricing', 'checking', 'misleading']

--------------------------------------------------


Encontramos los tokens que empiecen por *m* o *M*.

In [6]:
#Definimos la expresión regular a encontrar
regex = r'^[mM]'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['May', 'multiple', 'may', 'morning', 'might', 'misleading']

--------------------------------------------------


Encontramos los tokens que empiecen por *m* y terminen por *ing*

In [7]:
#Definimos la expresión regular a encontrar
regex = r'^[mM]\w*ing$'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['morning', 'misleading']

--------------------------------------------------


Buscar los tokens que tengan al menos dos vocales consecutivas

In [8]:
#Definimos la expresión regular a encontrar
regex = r'[AEIOUaeiou]{2,}'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['discount', 'you', 'no-pre-paid', 'discounts', 'authorized', 'people', 'foreigners', 'euros', 'exceed', 'lead', 'additional', 'campaigns', 'ongoing', 'quite', 'appealing', 'policies', 'good', 'avoiding', 'beneficial', 'misleading', 'essential']

--------------------------------------------------


Obtener todos los tokens que sean números

In [9]:
#Definimos la expresión regular a encontrar
regex = r'^\d+(\.)?\d+$'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['2019', '12.30', '30', '24.50']

--------------------------------------------------


Obtener todos los tokens que tengan al menos un guión *-*

In [10]:
#Definimos la expresión regular a encontrar
regex = r'\-'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['poster-print', 'no-pre-paid', 'not-master-card']

--------------------------------------------------


Obtener todos los tokens que sean acrónimos

In [11]:
#Definimos la expresión regular a encontrar
regex = '^([A-Z]+\.)+$'

print("Tokens terminados en ing")
lista1 = [w for w in words if re.search(regex, w)]
print(lista1)
print()
print("-----"*10)

Tokens terminados en ing
['U.S.A.', 'V.A.T.']

--------------------------------------------------


  regex = '^([A-Z]+\.)+$'


## 2.2.- Búsqueda de patrones en un texto.

A continuación buscaremos distintos patrones en el texto *text* definido anteriormente.

Primero buscamos todas palabras que empiecen por *m* o *M* y que terminen por *ing*

In [12]:
#Definimos la expresión regular a encontrar
regex = r'\b[mM][A-Z-a-z]+ing\b'

print("Tokens que empiezan en m o M y terminan en ing")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

Tokens que empiezan en m o M y terminan en ing
['morning', 'misleading']

--------------------------------------------------


Buscamos todos los tokens que sean números.

In [13]:
#Definimos la expresión regular a encontrar
regex = r'(\d+(?:\.)?\d+)[\s\.,]'

print("Números")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

Números
['2019', '12.30', '24.50', '2020']

--------------------------------------------------


Encontramos ahora las palabras que tengan al menos un guión

In [14]:
#Definimos la expresión regular a encontrar
regex = r'\b\w+(?:-\w+)+\b'

print("Números")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

Números
['poster-print', 'no-pre-paid', 'not-master-card']

--------------------------------------------------


Usamos los grupos capturados para poder obtener las partes de las palabras compuestas separadas por 2 o 3 guiones.



In [15]:
#Definimos la expresión regular a encontrar
regex = r'\b(\w+)\-(\w+)(?:\-(\w+))?\b'

print("Palabras con guión")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

Palabras con guión
[('poster', 'print', ''), ('no', 'pre', 'paid'), ('not', 'master', 'card')]

--------------------------------------------------


Lo hacemos ahora con grupos capturados con nombre ?<nombre>, pero tenemos que tener en cuenta que no se puede usar findall() directamente para obtener grupos capturados con nombre, pero puedes usar finditer() para obtener un iterador de objetos de coincidencia y luego acceder a los grupos con nombre mediante groupdict().

In [16]:
#Definimos la expresión regular a encontrar
regex = r'\b(?P<primera>\w+)\-(?P<segunda>\w+)(?:\-(?P<tercera>\w+))?\b'

print("Palabras con guión")
for item in re.finditer(regex, text):
  print(item.groupdict())
print()
print("-----"*10)

Palabras con guión
{'primera': 'poster', 'segunda': 'print', 'tercera': None}
{'primera': 'no', 'segunda': 'pre', 'tercera': 'paid'}
{'primera': 'not', 'segunda': 'master', 'tercera': 'card'}

--------------------------------------------------


Encontramos ahora cantidades de dinero $NUMERO y porcentajes NUMERO%

In [17]:
#Definimos la expresión regular a encontrar
regex = r'\$\d+(?:\.\d+)?'

print("Cantidades de dinero en dólares")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

#Definimos la expresión regular a encontrar
regex = r'\d+(?:\.\d+)?%'

print("Porcentajes")
lista1 = re.findall(regex, text)
print(lista1)
print()
print("-----"*10)

Cantidades de dinero en dólares
['$12.30', '$24.50']

--------------------------------------------------
Porcentajes
['30%']

--------------------------------------------------


## 2.3 Búsqueda patrones en formularios

Supongamos que tenemos un texto con un formulario con distintos campos. Vamos a intentar en base a eso obtener información a partir de este texto estructurado.

In [18]:
sp_form_text="""
Formulario de Registro

Nombre completo: Juan Pérez

Dirección: Calle Falsa 123
Ciudad: El Algar
Provincia: Murcia
Código Postal: 30366

Número de teléfono: 999 4    9 56 79

Correo      electrónico: juan.perez@email.com

      Fecha de nacimiento: 15/03/1985

Género: Masculino




Preferencias:
- Recibir boletines por correo electrónico
- Notificaciones de ofertas especiales

Comentarios adicionales:
Estoy interesado en obtener más información sobre los productos.



Fecha: 10/02/2025
"""

# 1. Eliminar los saltos de línea (reemplazamos varios \n por un \n)
sp_form_text = re.sub(r'\n+', '\n', sp_form_text)

# 2. Eliminar los múltiples espacios consecutivos
sp_form_text = re.sub(r'[\t ]+', ' ', sp_form_text)

# 3. Eliminar los espacios al principio y al final
sp_form_text = sp_form_text.strip()

print(sp_form_text)

Formulario de Registro
Nombre completo: Juan Pérez
Dirección: Calle Falsa 123
Ciudad: El Algar
Provincia: Murcia
Código Postal: 30366
Número de teléfono: 999 4 9 56 79
Correo electrónico: juan.perez@email.com
 Fecha de nacimiento: 15/03/1985
Género: Masculino
Preferencias:
- Recibir boletines por correo electrónico
- Notificaciones de ofertas especiales
Comentarios adicionales:
Estoy interesado en obtener más información sobre los productos.
Fecha: 10/02/2025


Extraemos por ejemplo uno de los campos individuales que están en una línea del texto usando un **Lookbehind** (nombre, ciudad, etc.)

In [19]:
#Definimos la expresión regular a encontrar
regex = r'(?<=Nombre completo: )([\w\s]+)\n'

print("Nombre")
nombre = re.search(regex, sp_form_text).group(1)
print(nombre)
print()
print("-----"*10)

#Extraemos ahora la ciudad

Nombre
Juan Pérez

--------------------------------------------------


Modificamos la expresión regular para obtener un campo compuesto por varias líneas como **Preferencias**



In [20]:
#Definimos la expresión regular a encontrar
regex = r"(?<=Preferencias:)([\w\s-]+)(?=Comentarios)"

print("Preferencias")
nom = re.search(regex, sp_form_text)
if nom:
  nombre=nom.group(1).strip()
print(nombre)
print()
print("-----"*10)



Preferencias
- Recibir boletines por correo electrónico
- Notificaciones de ofertas especiales

--------------------------------------------------


Usando los **lookaround** se puede intentar mejorar el preprocesado realizado sobre un texto anteriormente.

In [21]:
text = '''
May           14th              2019

That U.S.A.                    poster-print costs $12.30, including           V.A.T., but it's possible
to get a 30% discount if you have a no-pre-paid card      (and not-master-card).
Further discounts can be                   authorized for elderly people, foreigners, etc.;
Payments in euros are                allowed if they don't exceed $24.50 until 30/05/2020.



When purchasing multiple                  items, bundling them together may lead to additional savings.


Advertising campaigns promoting ongoing sales can be quite                  appealing.
Consulting the store's policies           before buying is always a good          .


Shopping during the morning or evening can help in avoiding long lines.
For those traveling, exchanging currency beforehand might be beneficial.


Understanding the pricing and                 checking for misleading offers is essential. '''

# 1. Eliminar los saltos de línea (reemplazamos varios \n por un \n)
text = re.sub(r'\n+', '\n', text)

# 2. Eliminar los múltiples espacios consecutivos
text = re.sub(r'[\t ]+', ' ', text)

# 3. Eliminar los espacios al principio y al final
text = text.strip()

# 4. Eliminamos los saltos de línea que no terminen con punto y que abajo haya una palabra en minúscula
text = re.sub(r'\n(?![A-Z])', ' ', text)
print(text)

May 14th 2019
That U.S.A. poster-print costs $12.30, including V.A.T., but it's possible to get a 30% discount if you have a no-pre-paid card (and not-master-card).
Further discounts can be authorized for elderly people, foreigners, etc.;
Payments in euros are allowed if they don't exceed $24.50 until 30/05/2020.
When purchasing multiple items, bundling them together may lead to additional savings.
Advertising campaigns promoting ongoing sales can be quite appealing.
Consulting the store's policies before buying is always a good .
Shopping during the morning or evening can help in avoiding long lines.
For those traveling, exchanging currency beforehand might be beneficial.
Understanding the pricing and checking for misleading offers is essential.


## 2.4 Modificadores
Los modificadores más importantes en Python son los siguientes:


| Modificador      | Nombre                  | Descripción |
|-----------------|-------------------------|-------------|
| `re.IGNORECASE` o `re.I` | Ignorar mayúsculas/minúsculas | Hace la búsqueda sin distinguir entre mayúsculas y minúsculas. |
| `re.MULTILINE` o `re.M` | Modo multilínea | `^` y `$` funcionan en cada línea, no solo en toda la cadena. |
| `re.DOTALL` o `re.S` | Modo "dot-all" | `.` también coincide con saltos de línea (`\n`). |
| `re.VERBOSE` o `re.X` | Modo legible | Permite comentarios y espacios en la regex. |
| `re.ASCII` o `re.A` | Modo ASCII | `\w`, `\d`, `\s` solo coinciden con caracteres ASCII (no Unicode). |


A continuación usamos algunos de los modificadores para extraer información del texto en el formulario anterior.


In [22]:
# Extraemos el email diciendo que coja todos los caracteres hasta el final poniendo el modo multilínea
# también tenemos en cuenta la opción ignore case

#Definimos la expresión regular a encontrar
regex = r'(?<=CORREO ELECTRÓNICO: )(.+)$'

print("Correo electrónico")
resultado = re.search(regex, sp_form_text, re.MULTILINE| re.IGNORECASE)
if resultado:
    nombre = resultado.group(1)
    print(nombre)
else:
    print("No se encontró ninguna coincidencia.")
print("-----"*10)

#También se pueden meter los modificadores al principio de la expresión regular
regex = r'(?<=CORREO ELECTRÓNICO: )(.+)$'

print("Correo electrónico")
resultado = re.search("(?im)"+regex, sp_form_text)
if resultado:
    nombre = resultado.group(1)
    print(nombre)
else:
    print("No se encontró ninguna coincidencia.")
print("-----"*10)


Correo electrónico
juan.perez@email.com
--------------------------------------------------
Correo electrónico
juan.perez@email.com
--------------------------------------------------
