# Qué son las expresiones regulares?
Las expresiones regulares (también conocidas como regex o regexp) en Python una secuencia de caracteres que define un patrón de búsqueda. Son utilizadas para buscar, extraer y manipular cadenas de texto de manera eficiente.

In [1]:
# para trabajar con expresiones regulares 
# importaremos el modulo re
import re

## CONCEPTOS BASICOS

# Patrón de búsqueda
Un patrón de búsqueda es una secuencia de caracteres que define el texto que queremos encontrar en una cadena. 

Por ejemplo, si deseamos buscar todas las direcciones de correo electrónico en un texto, el patrón podría ser algo como r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'.

# Caracteres especiales:
En las expresiones regulares, algunos caracteres tienen significados especiales y se utilizan para definir el patrón. Por ejemplo:
. (punto) coincide con cualquier carácter excepto una nueva línea.
* (asterisco) coincide con cero o más repeticiones del carácter anterior.
+ (más) coincide con una o más repeticiones del carácter anterior.
\ (barra invertida) se usa para escapar caracteres especiales y tratarlos literalmente.
[ ] (corchetes) se usan para definir una clase de caracteres. Por ejemplo, [aeiou] coincide con cualquier vocal.

# Métodos principales del módulo re:
re.match(): Intenta hacer coincidir el patrón al principio de la cadena.
re.search(): Busca el patrón en toda la cadena y devuelve la primera coincidencia.
re.findall(): Busca todas las ocurrencias del patrón en la cadena y las devuelve como una lista.
re.finditer(): Busca todas las ocurrencias del patrón en la cadena y las devuelve como un iterador.
re.sub(): Reemplaza todas las ocurrencias del patrón con un texto dado.
re.split(): Divide la cadena en función del patrón y devuelve una lista.

# EJEMPLO: Búsqueda de direcciones de correo electrónico

In [6]:
import re

texto = "Hola, mi correo es usuario@example.com y el tuyo es otro_usuario@mail.com."
patron = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'

direcciones_correo = re.findall(patron, texto)
print(direcciones_correo)

#En este ejemplo, re.findall() encuentra todas las direcciones de correo electrónico 
# que coinciden con el patrón y las devuelve como una lista.

['correoesusuario@example.com', 'otro_usuario@mail.com']


## r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b

# r (raw string):
La r al inicio de la expresión regular indica que es una raw string, lo cual significa que los caracteres especiales dentro de la cadena no serán interpretados de manera especial por Python, lo que es especialmente útil para expresiones regulares.

In [3]:
# Cadena normal sin procesar
cadena_normal = "Hola\nMundo"
print(cadena_normal)  
                      

# Cadena raw string sin procesar
cadena_raw = r"Hola\nMundo"
print(cadena_raw)     

Hola
Mundo
Hola\nMundo


# \b (word boundary):
\b es un delimitador que coincide con una posición en la cadena donde comienza o termina una palabra (es decir, donde hay un límite de palabra). No coincide con un carácter, sino con una posición en la cadena. Esto ayuda a asegurar que el patrón coincida con direcciones de correo electrónico completas y no con partes de palabras.


In [4]:
import re

cadena = "hola mundo y otro mundo más y mundo123"
patron = r'\bmundo\b'

ocurrencias = re.findall(patron, cadena)
print(ocurrencias)


['mundo', 'mundo']


# [A-Za-z0-9._%+-]+:
[A-Za-z0-9._%+-] es una clase de caracteres que coincide con letras mayúsculas y minúsculas, dígitos y algunos caracteres especiales como ., _, %, +, y -.
El + después de la clase de caracteres indica que el carácter o conjunto de caracteres que lo preceden deben aparecer una o más veces en la cadena.

# @:
El símbolo @ coincide literalmente con el carácter @. En las direcciones de correo electrónico, este carácter separa el nombre de usuario y el dominio.


# [A-Za-z0-9.-]+:
[A-Za-z0-9.-] es otra clase de caracteres que coincide con letras mayúsculas y minúsculas, dígitos y los caracteres . y -.
El + indica que el carácter o conjunto de caracteres que lo preceden deben aparecer una o más veces en la cadena.
En esta parte, estamos buscando el dominio del correo electrónico.

# .:
El \. coincide con un punto literal (.). El punto en una expresión regular normalmente coincide con cualquier carácter, pero al utilizar \, estamos escapando el carácter especial . y buscando un punto literal en la cadena. Esto asegura que coincida con el punto que separa el dominio de nivel superior (TLD) del resto del dominio.

# [A-Z|a-z]{2,}:
[A-Z|a-z] es una clase de caracteres que coincide con cualquier letra mayúscula o minúscula.
{2,} indica que el carácter o conjunto de caracteres que lo preceden debe aparecer al menos dos veces en la cadena. En este caso, estamos buscando el TLD del dominio, que debe tener al menos dos letras.

# \b (word boundary):
Otro delimitador \b que asegura que la expresión termine con un límite de palabra.