### __Introducción__

La librería re es fundamental en Python para trabajar con expresiones regulares. Las expresiones regulares permiten buscar, manipular y extraer información de cadenas de texto mediante patrones específicos. 

In [21]:
import re

### __Funciones__

##### Match

Verifica si un patrón coincide al inicio de una cadena de texto.

In [22]:
Resultado = re.match(r"Hola", "Hola Mundo")
Resultado.group()

'Hola'

##### Findall

Devuelve todas las coincidencias de un patrón en una lista.

In [23]:
Texto = "Correo1: usuario1@mail.com, Correo2: usuario2@mail.com"
Patron = r"\w+@\w+\.\w+"
Correos = re.findall(Patron, Texto)
print(Correos)

['usuario1@mail.com', 'usuario2@mail.com']


##### Search

Busca una coincidencia en cualquier parte del texto.

In [24]:
Resultado = re.search(r"Mundo", "Hola Mundo")
print(Resultado.group())

Mundo


{2} y {4} especifican la cantidad de dígitos. En el medio se ponen las barras, como para indicar que se busca un patrón con dos dígitos, una barra, dos dígitos, otra barra, y 4 dígitos finales.

##### Sub

Reemplaza todas las coincidencias de un patrón con otro valor.

In [25]:
Texto = "Hola mundo"
NuevoTexto = re.sub(r"mundo", "amigo", Texto)
print(NuevoTexto)

Hola amigo


##### Split

Divide el texto según las coincidencias del patrón.

In [26]:
Texto = "Hola,¿cómo,estás?"
Partes = re.split(r",", Texto)
print(Partes)

['Hola', '¿cómo', 'estás?']


### __Patrones__

##### Patrón +

Se utiliza para indicar que el carácter o grupo que lo precede debe aparecer una o más veces consecutivas en la cadena de texto. En otras palabras, + busca al menos una aparición de ese carácter o grupo y sigue capturando mientras siga apareciendo.

In [27]:
Texto = "Laaaargo"
Patron = r"a+"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['aaaa']


##### Patrón *

Es un operador de repetición que indica que el carácter o grupo que lo precede puede aparecer cero o más veces. Es similar al +, pero con una diferencia clave. Mientras que + requiere que el carácter o grupo aparezca al menos una vez, * permite que no aparezca en absoluto.

In [64]:
Texto = "abc ac aabc"
Patron = r"a*b"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['ab', 'aab']


##### Patrón []

El uso de [] en expresiones regulares define conjuntos de caracteres. Dentro de los corchetes, puedes especificar un rango o un grupo de caracteres, y la expresión buscará una sola coincidencia con cualquiera de esos caracteres.

Dentro de los corchetes, puedes definir qué caracteres deseas buscar, y la expresión coincidirá con uno solo de ellos.

In [61]:
Texto = "casa, cisa, cusa"
Patron = r"c[aeiou]sa"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['casa', 'cisa', 'cusa']


Dentro de los corchetes, puedes definir rangos de caracteres con guiones -. Esto es útil para especificar secuencias de letras o números.

In [62]:
Texto = "A1 B2 C3"
Patron = r"[A-C][1-3]"
Resultado = re.findall(Patron, Texto)
print(Resultado) 

['A1', 'B2', 'C3']


Colocando el símbolo ^ al principio de los corchetes, puedes crear un conjunto negado, que excluye los caracteres especificados.

In [63]:
Texto = "casa, cisa, cusa, cysa"
Patron = r"c[^aeiou]sa"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['cysa']


##### Patrón ?

El símbolo ? en las expresiones regulares tiene dos usos principales. Por un lado, se usa para indicar que el carácter o grupo que lo precede es opcional (puede aparecer 0 o 1 vez). Por otro lado, se combina con otros operadores para crear versiones no codiciosas o lazy de esos operadores.

Cuando se coloca ? después de un carácter o grupo, indica que este puede aparecer una vez o no aparecer en absoluto.

In [58]:
Texto = "color y colour"
Patron = r"colou?r"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['color', 'colour']


El ? también se usa para convertir patrones codiciosos en no codiciosos (lazy). Esto significa que, cuando se combina con operadores como +, {n,m}, o *, el patrón intentará capturar la menor cantidad posible de caracteres.

In [59]:
Texto = "aaaa"
Patron = r"a+?"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['a', 'a', 'a', 'a']


El ? también puede colocarse dentro de paréntesis para hacer que grupos completos sean opcionales.

In [60]:
Texto = "Perro123 Gato123"
Patron = r"(Perro|Gato)?123"
Resultado = re.findall(Patron, Texto)
print(Resultado)

['Perro', 'Gato']


El patrón (Perro|Gato)?123 indica que tanto "Perro" como "Gato" son opcionales antes de "123". Encuentra ambos términos seguidos por "123".

##### Patrón \d

El patrón \d representa cualquier dígito del 0 al 9. 

In [28]:
Texto = "La temperatura es 25 grados y el código es 1234"
Patron = r"\d+"
Numeros = re.findall(Patron, Texto)
print(Numeros)

['25', '1234']


##### Patrón \w

Representa cualquier carácter alfanumérico, es decir, letras, números y guiones bajos (_). No incluye caracteres especiales como signos de puntuación o espacios.

In [29]:
Texto = "El usuario es Usuario_123"
Patron = r"\w+"
Palabras = re.findall(Patron, Texto)
print(Palabras)

['El', 'usuario', 'es', 'Usuario_123']


##### Patrón \s

Representa cualquier espacio en blanco (espacio, tabulación, salto de línea).

In [30]:
Texto = "Hola   Mundo \n ¿Cómo estás?"
Patron = r"\s+"
Espacios = re.findall(Patron, Texto)
print(Espacios)

['   ', ' \n ', ' ']


##### Patrón .

Representa cualquier carácter excepto saltos de línea.

In [31]:
Texto = "Hola Mundo!"
Patron = r"H.la"
Resultado = re.search(Patron, Texto)
print(Resultado.group()) 

Hola


El patrón H.la busca cualquier carácter que comience con "H", seguido de cualquier carácter (indicado por .) y que termine con "la". En este caso, encuentra "Hola" porque la "o" puede ser cualquier carácter.

##### Patrón ^

Indica el inicio de una cadena. Este patrón se utiliza para asegurarse de que una coincidencia se encuentra al principio de un texto.

In [32]:
Texto = "Python es un lenguaje de programación"
Patron = r"^Python"
Resultado = re.match(Patron, Texto)
print(Resultado.group())

Python


##### Patrón $

Indica el final de una cadena. Este patrón se utiliza para asegurarse de que una coincidencia se encuentra al final de un texto.

In [33]:
Texto = "Python es fácil de aprender"
Patron = r"aprender$"
Resultado = re.search(Patron, Texto)
print(Resultado.group()) 

aprender


##### Patrón {n}

Indica una cantidad exacta de repeticiones de un carácter o grupo. Por ejemplo, \d{3} buscará exactamente tres dígitos seguidos.

In [34]:
Texto = "Mi número es 456-789-1234"
Patron = r"\d{3}-\d{3}-\d{4}"
Resultado = re.search(Patron, Texto)
print(Resultado.group())

456-789-1234


##### Patrón |

Actúa como un operador OR, indicando que cualquiera de los patrones separados por | puede coincidir.

In [35]:
Texto = "Quiero manzanas o peras"
Patron = r"manzanas|peras"
Frutas = re.search(Patron, Texto)
print(Frutas.group())

manzanas


El patrón manzanas|peras busca en el texto la palabra "manzanas" o "peras". El primer elemento encontrado es "manzanas".

##### Patrón ()

Se usan para agrupar partes de un patrón. Esto permite capturar solo partes específicas de la coincidencia y utilizarlas posteriormente.

In [36]:
Texto = "Mi fecha de nacimiento es 15/08/1995"
Patron = r"(\d{2})/(\d{2})/(\d{4})"
Resultado = re.search(Patron, Texto)
Dia, Mes, Año = Resultado.groups()
print(f"Día: {Dia}, Mes: {Mes}, Año: {Año}")

Día: 15, Mes: 08, Año: 1995


El patrón (\d{2})/(\d{2})/(\d{4}) agrupa las partes del día, mes y año en la fecha. Luego, se accede a cada parte de la coincidencia mediante groups().

### __Buenas prácticas__

##### Raw strings

Es recomendable utilizar r"" al definir patrones para evitar que Python procese los caracteres de escape. Por ejemplo, r"\d" es mejor que "\d".