# Expresiones regulares

Una expresión regular (o regex) es una secuencia de caracteres que define un patrón de búsqueda para encontrar coincidencias dentro de cadenas de texto.


* Permiten buscar, coincidir y manipular texto de manera flexible y eficiente.
* Utilizan patrones para realizar búsquedas complejas, como validar formatos de correo electrónico, extraer datos específicos de cadenas largas o reemplazar partes del texto.
* Poseen una sintaxis especial que incluye metacaracteres y constructores que facilitan la especificación de patrones detallados, como grupos, rangos y repeticiones.



In [None]:
# Importamos la libreria re
import re

## Método search()

Se utiliza para buscar una coincidencia de un patrón en una cadena de texto. Este método examina toda la cadena para encontrar la primera ubicación donde el patrón coincide y devuelve un objeto re.Match si encuentra una coincidencia; de lo contrario, devuelve None.
<BR>
Su sintaxis es:
<BR>
`re.search(<patrón>, <cadena>)`
<BR>
Correr el siguiente código y explorar los métodos del objeto Match que retorna re.search()

In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = re.search("pi", cadena) #atributo opcional re.IGNORECASE

print(cadena)
print("Objeto result:", resultado)
print("Coincidencia:", resultado.group())
print("Posición inicial:", resultado.start())
print("Posición final:", resultado.end())
print("Rango de índices:", resultado.span())


Objeto result: <re.Match object; span=(12, 14), match='pi'>
Coincidencia: pi
Posición inicial: 12
Posición final: 14
Rango de índices: (12, 14)
Peter Piper picked a peck of pickled peppers


## Método findall()

Se utiliza para encontrar todas las ocurrencias de un patrón específico en una cadena de texto y devuelve una lista de las coincidencias. Si no encuentra ocurrencias devuelve una lista vacía.
<BR>
Su sintaxis es:
<BR>
`re.findall(<patrón>, <cadena>)`


In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = re.findall("ck", cadena)
print(cadena)
print('re.findall("ck", cadena): ', resultado)

Peter Piper picked a peck of pickled peppers
re.findall("ck", cadena):  ['ck', 'ck', 'ck']


In [None]:
cadena_split = cadena.split()
print("cadena: ", cadena)
print("cadena_split: ", cadena_split)

cadena:  Peter Piper picked a peck of pickled peppers
cadena_split:  ['Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 'peppers']


Podríamos usar re.search con list comprehension para que retorne las palabras que cumplen con el patrón de búsqueda:

In [None]:
resultado = [word for word in cadena_split if re.search("ck", word)]
print("cadena: ", cadena)
print('re.findall("ck", cadena)', resultado)

cadena:  Peter Piper picked a peck of pickled peppers
re.findall("ck", cadena) ['picked', 'peck', 'pickled']


## Metacaracteres

También llamados comodines, son caracteres especiales que tienen significados específicos y se utilizan para representar patrones de búsqueda más complejos dentro de una cadena de texto.
<BR>
A diferencia de los caracteres literales que coinciden exactamente con su representación en el texto, los metacaracteres permiten definir patrones que incluyen variaciones, repeticiones y posiciones.

### El punto (.)



El punto (.) representa a cualquier carácter dentro de la cadena, excepto una nueva línea. Esto significa que puede coincidir con letras, números, espacios en blanco y otros símbolos:


In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = re.findall("p.c", cadena)
print("\n" + cadena)
print('re.findall("p.c", cadena)', resultado)


Peter Piper picked a peck of pickled peppers
re.findall("p.c", cadena) ['pic', 'pec', 'pic']


In [None]:
resultado = [word for word in cadena.split() if re.search("p.c", word)]
print("\n", cadena_split)
print('re.findall("p.c", cadena)', resultado)


 ['Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 'peppers']
re.findall("p.c", cadena) ['picked', 'peck', 'pickled']


### El tilde circunflejo (^)

indica que el patrón debe buscarse sólo al comienzo de la cadena. Se lo denomina metacaracter de posicionamiento o ancla:


In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = re.findall("^pe", cadena, re.IGNORECASE)
print("\n" + cadena)
print('re.findall("^pe", cadena)', resultado)


Peter Piper picked a peck of pickled peppers
re.findall("^pe", cadena) ['Pe']


In [None]:
resultado = [word for word in cadena_split if re.search("^pe", word, re.IGNORECASE)]
print("\n", cadena_split)
print('re.findall("p.c", cadena, re.IGNORECASE)', resultado)


 ['Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 'peppers']
re.findall("p.c", cadena, re.IGNORECASE) ['Peter', 'peck', 'peppers']


## Límite de palabra

* \b no representa un carácter, sino una posición: el límite entre un carácter de palabra (\w) y un carácter que no lo es (\W), o el inicio/fin de la cadena.

* En otras palabras: marca dónde empieza o termina una palabra.

In [None]:
texto = "pineapple apple applepie"

print(re.findall(r"\bapple\b", texto))   # ['apple']
print(re.findall(r"\bapple", texto))     # ['apple', 'apple'] → apple y applepie
print(re.findall(r"apple\b", texto))     # ['apple', 'apple'] → apple y pineapple


['apple']
['apple', 'apple']
['apple', 'apple']


### El signo $

indica que el patrón debe buscarse sólo al final de la cadena. También se lo denomina metacaracter de posicionamiento o ancla:


In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = re.findall("ed$", cadena)
print("\n", cadena)
print('re.findall("ed$", word)', resultado)


 Peter Piper picked a peck of pickled peppers
re.findall("ed$", word) []


In [None]:
resultado = [word for word in cadena_split if re.search("ed$", word)]
print("\n", cadena_split)
print('re.findall("ed$", word)', resultado)


 ['Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 'peppers']
re.findall("ed$", word) ['picked', 'pickled']


## Carácter de palabra con \w

* \w sí representa un carácter: cualquier letra mayúscula/minúscula, dígito o guion bajo ([A-Za-z0-9_]).

* Por defecto en ASCII no incluye acentos ni ñ, aunque con re.UNICODE sí puede hacerlo.

In [None]:
texto = "Python_3 es genial!"

print(re.findall(r"\w", texto))       # ['P','y','t','h','o','n','_','3','e','s','g','e','n','i','a','l']
print(re.findall(r"\W", texto))       # [' ', ' ', '!'] → todo lo que NO es palabra

['P', 'y', 't', 'h', 'o', 'n', '_', '3', 'e', 's', 'g', 'e', 'n', 'i', 'a', 'l']
[' ', ' ', '!']


### Combinamos ^ con $

Es posible combinar ambos signos para buscar palabras que comiencen con cierto carácter y terminen con otro:


El * (asterisco) es un cuantificador que se utiliza para indicar que el elemento que lo precede puede aparecer cero o más veces. Es decir, permite que el patrón se repita cualquier número de veces, incluyendo la posibilidad de no aparecer en absoluto.


In [None]:
cadena = "Peter Piper picked a peck of pickled peppers"

resultado = [word for word in cadena_split if re.search("^pe.*rs$", word, re.IGNORECASE)]
print("\n", cadena_split)
print('re.findall("^pe.*rs$", word)', resultado)


 ['Peter', 'Piper', 'picked', 'a', 'peck', 'of', 'pickled', 'peppers']
re.findall("^pi.*ed$", word) ['peppers']


## Escape de caracteres

Puede suceder que necesitemos incluir en nuestro patrón algún metacaracter como signo literal, es decir, que se interprete por sí mismo y no por su función especial. Para lograr esto, utilizamos el carácter de escape, que es la barra invertida (\).
La barra invertida (\) antepone a los metacaracteres para que sean tratados como caracteres normales. Por ejemplo, si queremos buscar el símbolo de peso ($) en lugar de su significado especial de “final de caracteres”, usaremos \$.
Así, la barra invertida convierte a los caracteres especiales en literales dentro del patrón:


In [None]:
apple = "Las acciones de Apple abrieron a $227 y cerraron a ascendieron a $238 usd"
apple_split = apple.split()

resultado = re.findall(r"\$2.*", apple)
print(resultado)

resultado = [word for word in apple_split if re.search(r"\$2.*", word)]
print(resultado)

['$227 y cerraron a ascendieron a $238 usd']
['$227', '$238']


In [None]:
apple = "Las acciones de Apple abrieron a $227.50 usd y cerraron a ascendieron a $238.75 usd"
apple_split = apple.split()

resultado = [word for word in apple_split if re.search(r"\$2.*\.75$", word)]
print(apple_split)
print(resultado)

['Las', 'acciones', 'de', 'Apple', 'abrieron', 'a', '$227.50', 'usd', 'y', 'cerraron', 'a', 'ascendieron', 'a', '$238.75', 'usd']
['$238.75']


## Grupos de caracteres []

Se definen utilizando corchetes [ ] y se utilizan para especificar un conjunto de caracteres posibles que pueden coincidir en una posición particular en la cadena. Este grupo se conoce como una clase de caracteres.


### Conjunto de caracteres

**Definición de un conjunto de caracteres:** [abc] coincidirá con cualquier carácter 'a', 'b' o 'c'.


In [None]:
# Grupo de caracteres []
text = "En un rato llega el pato a la granja de Tato"

resultado = re.findall("[pr]ato", text)
print("\n" + text)
print('re.findall("[pr]ato", text)', resultado)


En un rato llega el pato a la granja de Tato
re.findall("[pr]ato", text) ['rato', 'pato']


### Rango de caracteres

Rangos de caracteres: El guion define un rango de caracteres:


In [None]:
# Rango de caracteres [a-z], [0-9]
direccion = "Lima 757 Piso 5"

resultado = re.findall("[a-z]", direccion)
print("\n" + direccion)
print('re.findall("[a-z]", direccion)', resultado)

resultado = re.findall("[0-9]", direccion)
print('re.findall("[0-9]", direccion)', resultado)


Lima 757 Piso 5
re.findall("[a-z]", direccion) ['i', 'm', 'a', 'i', 's', 'o']
re.findall("[0-9]", direccion) ['7', '5', '7', '5']


### Negar un conjunto de caracteres

El tilde circunflejo ^ permite negar un conjunto:


In [None]:
# Rango de caracteres [a-z] con ^ para negar un conjunto
resultado = re.findall("[^0-9]", direccion, re.IGNORECASE)
print("\n" + direccion)
print('re.findall("[^0-9]", direccion)', resultado)


Lima 757 Piso 5
re.findall("[^0-9]", direccion) ['L', 'i', 'm', 'a', ' ', ' ', 'P', 'i', 's', 'o', ' ']


## Clases de caracteres predefinidas

Algunas clases de caracteres predefinidas proporcionan una manera más sencilla de expresar patrones comunes:
<BR>
**\d** es equivalente a [0-9] (dígitos).
<BR>
**\D** es equivalente a [^0-9] (no dígitos).
<BR>
**\w** es equivalente a [a-zA-Z0-9_] (caracteres alfanuméricos y el guion bajo).
<BR>
**\W** es equivalente a [^a-zA-Z0-9_] (no alfanuméricos y no el guion bajo).
<BR>
**\s** es equivalente a [ \t\n\r\f\v] (espacios en blanco).
<BR>
**\S** es equivalente a [^ \t\n\r\f\v] (no espacios en blanco).


## Metacaracteres en grupos y rangos

Los metacaracteres (^ y $) se pueden combinar libremente con los grupos y rangos:


In [None]:
text = "La bella y enorme casa se veía desde el tren."
text_split = text.split()
resultado = [word for word in text_split if re.search("^[b-g]", word)]

print(text)
print('re.findall("^[b-g]", word)', resultado)
resultado = [word for word in text_split if re.search("[b-g]$", word)]
print('re.findall("[b-g]$", word)', resultado)

La bella y enorme casa se veía desde el tren.
re.findall("^[b-g]", word) ['bella', 'enorme', 'casa', 'desde', 'el']
re.findall("[b-g]$", word) ['enorme', 'se', 'desde']


## Alternativas con |

El metacaracter | (barra vertical) en expresiones regulares funciona como un operador de alternancia (o lógico). Permite especificar múltiples opciones dentro de una misma expresión, de modo que la expresión coincida con cualquiera de las alternativas proporcionadas.
Supongamos que queremos buscar palabras que puedan ser "septiembre" o "setiembre". En lugar de definir dos expresiones separadas, podemos utilizar el metacaracter | para combinarlas en una sola expresión regular.
Este uso del metacaracter | simplifica la búsqueda de múltiples alternativas dentro de una expresión regular, lo que resulta en una expresión más concisa y legible.


In [None]:
text = "En septiembre se celebra el día del estudiante"
text_split = text.split()

resultado = [word for word in text_split if re.search(r"(septiembre|setiembre)", word)]

print(text)
print('re.findall("[septiembre|setiembre]", word)', resultado)


En septiembre se celebra el día del estudiante
re.findall("[septiembre|setiembre]", word) ['septiembre']


## Cuantificadores o multiplicadores

Los cuantificadores son símbolos que indican cuántas veces debe aparecer en el texto el caracter que le antecede.
* `?`  indica que el elemento puede aparecer 0 o 1 vez
* `*`  indica que el elemento puede aparecer 0 o más veces
* `+`  indica que el elemento puede aparecer 1 o más veces


In [None]:
# Evaluamos el cuantificado ?
numeros = ["12", "102", "1002", "10002"]
resultado = [numero for numero in numeros if re.findall("10?2", numero)]

print("\n" + str(numeros))
print('re.findall("1?2", numero): ', resultado)




['12', '102', '1002', '10002']
re.findall("1?2", numero):  ['12', '102']


In [None]:
# Evaluamos el cuantificado *
numeros = ["12", "102", "1002", "10002"]
resultado = [numero for numero in numeros if re.findall("10*2", numero)]

print("\n" + str(numeros))
print('re.findall("1*2", numero): ', resultado)


['12', '102', '1002', '10002']
re.findall("1*2", numero):  ['12', '102', '1002', '10002']


In [None]:
# Evaluamos el cuantificado +
numeros = ["12", "102", "1002", "10002"]
resultado = [numero for numero in numeros if re.findall("10+2", numero)]

print("\n" + str(numeros))
print('re.findall("1+2", numero): ', resultado)


['12', '102', '1002', '10002']
re.findall("1+2", numero):  ['102', '1002', '10002']


## Delimitación

Los paréntesis en expresiones regulares se utilizan para agrupar subconjuntos de caracteres dentro de una expresión más grande.
Esto permite aplicar operadores o cuantificadores a ese subconjunto específico.
Supongamos que queremos encontrar una secuencia similar a la composición de un número telefónico o una patente de automóvil.


In [None]:
text = "Juan tiene el télefono 1234-5678, Oliver tiene el teléfono 11-15-3456-7890 y Gabriela el 11-15-7654-3210."
patron = "([0-9]{2,})-(15-[0-9]{4})-([0-9]{4})"
numeros = re.findall(patron, text)
print("\n" + str(numeros))  # [('11', '15-3456', '7890'), ('11', '15-7654', '3210')]
# Imprimimos los números de celulares encontrados y sus partes específicas
if numeros:
    print("Números de celulares encontrados:")
    for numero in numeros:
        print(f"Número completo: {numero[0]}-{numero[1]}-{numero[2]}")
        print(f"Código de área: {numero[0]}\n")
else:
    print("No se encontraron números de teléfono.")


[('11', '15-3456', '7890'), ('11', '15-7654', '3210')]
Números de celulares encontrados:
Número completo: 11-15-3456-7890
Código de área: 11

Número completo: 11-15-7654-3210
Código de área: 11



## Método Sub

Se utiliza para reemplazar partes de una cadena que coinciden con una expresión regular. Encuentra todas las coincidencias de un patrón dentro de la cadena y las reemplaza por la cadena de reemplazo. Devuelve la cadena modificada o la misma si no se encuentra el patrón.
<BR>
Su sintaxis es:
<BR>
`re.sub(<patrón>, <reemplazo>, <cadena>)`


In [None]:
# Reemplazar todas las ocurrencias de 'elefantes' por 'dinosaurios'
text = "Los elefantes se extinguieron hace millones de años. Se han encontrado restos de elefantes enterrados."
resultado = re.sub("elefantes", "dinosaurios", text)

print("Texto original: ", text)
print("Texto procesados: ", resultado)

Texto original:  Los elefantes se extinguieron hace millones de años. Se han encontrado restos de elefantes enterrados.
Texto procesados:  Los dinosaurios se extinguieron hace millones de años. Se han encontrado restos de dinosaurios enterrados.


In [None]:
text = "El número de teléfono de Oliver es 123-456-7890, y el de Gabriela es 987-654-3210."
patron = "[0-9]{3}-[0-9]{3}-[0-9]{4}"
cadenaEnmascarada = "XXX-XXX-XXXX"
# Utilizamos re.sub() para reemplazar todos los números de teléfono por la cadena enmascarada
textOfuscado = re.sub(patron, cadenaEnmascarada, text)
print("\nTexto original:")
print(text)
print("\nTexto después de ofuscar los números de teléfono:")
print(
    textOfuscado
)  # El número de teléfono de Oliver es XXX-XXX-XXXX, y el de Gabriela es XXX-XXX-XXXX.


Texto original:
El número de teléfono de Oliver es 123-456-7890, y el de Gabriela es 987-654-3210.

Texto después de ofuscar los números de teléfono:
El número de teléfono de Oliver es XXX-XXX-XXXX, y el de Gabriela es XXX-XXX-XXXX.


In [None]:
## Método re.split()

Se utiliza para dividir una cadena en partes utilizando un patrón de expresión regular como delimitador.
A diferencia del método split convencional de Python, que solo admite cadenas simples como delimitadores, re.split permite utilizar patrones más complejos basados en expresiones regulares para separar la cadena en partes más significativas.
Para usar re.split(), se proporcionan dos argumentos principales: el patrón de expresión regular que se utilizará como separador y la cadena de texto que se dividirá.
El método devuelve una lista de cadenas resultantes después de dividir la cadena original según el patrón especificado.


In [None]:
text = "Hola, ¿cómo estás? Espero que bien. Yo estoy bien también."
text_split = text.split()
text_re_split = re.split(r"[., ]", text)
print("\n" + text)
print("text.split(): ", text_split)
print("re.split('[.,]', text): ", text_re_split)


Hola, ¿cómo estás? Espero que bien. Yo estoy bien también.
text.split():  ['Hola,', '¿cómo', 'estás?', 'Espero', 'que', 'bien.', 'Yo', 'estoy', 'bien', 'también.']
re.split('[.,]', text):  ['Hola', '', '¿cómo', 'estás?', 'Espero', 'que', 'bien', '', 'Yo', 'estoy', 'bien', 'también', '']


## Método match()

Se utiliza para determinar si una cadena coincide con un patrón de expresión regular desde el inicio de la cadena.
Retorna un objeto Match si encuentra una coincidencia exitosa (se considera True cuando se evalúa en un contexto booleano); de lo contrario, devuelve None.


In [None]:
cadenas = ["A123", "B456", "C789", "123A", "D1234"]
patron = "[A-Za-z][1-3]{3}"
match20 = [
    (
        f'{cadena} coincide con el patrón.'
        if re.match(patron, cadena)
        else f'{cadena} no coincide con el patrón.'
    )
    for cadena in cadenas
]
print("\n", cadenas)
for item in match20:
    print(item)


 ['A123', 'B456', 'C789', '123A', 'D1234']
A123 coincide con el patrón.
B456 no coincide con el patrón.
C789 no coincide con el patrón.
123A no coincide con el patrón.
D1234 coincide con el patrón.


## Método compile()

La compilación de expresiones regulares es el proceso mediante el cual una expresión regular se convierte en un objeto patrón que puede ser reutilizado eficientemente.
La ventaja de compilar una expresión regular es que permite optimizar las búsquedas, especialmente cuando la misma expresión se utiliza múltiples veces en el código.
Al compilar una expresión regular, no solo se mejora la legibilidad del código, sino también su rendimiento, ya que evita la necesidad de recompilar la misma expresión en cada uso.
Este objeto se puede emplear para invocar métodos antes vistos, de la misma manera que se usarían directamente con el módulo re.


In [None]:
patron = re.compile('[0-9]{4}')
cadena = "07/08/2017|03/02/1984|17/03/1984"
coincidencias = patron.findall(cadena)
print(f'\nCoincidencias encontradas con findall(): {coincidencias}') # Coincidencias encontradas con findall(): ['2017', '1984', '1984']

inicioCoincidencia = patron.match(cadena)
print(f'Coincidencia al inicio con match(): {inicioCoincidencia}') # Coincidencia al inicio con match(): None

cadenaReemplazada = patron.sub('XXXX', cadena)
print(f'Cadena después de usar sub(): {cadenaReemplazada}') # Cadena después de usar sub(): 07/08/XXXX|03/02/XXXX|17/03/XXXX


Coincidencias encontradas con findall(): ['2017', '1984', '1984']
Coincidencia al inicio con match(): None
Cadena después de usar sub(): 07/08/XXXX|03/02/XXXX|17/03/XXXX
