# Que son expfresiones regulares?

# Expresiones regulares son un conjunto de caracteres que se utilizan para buscar patrones en cadenas de texto. Tambien conocidas como (regex o regexp) en Python una secuencia de caracteres encerrada en dos barras invertidas / / que se utilizan para buscar patrones en cadenas de texto. Estas expresiones regulares se usan para realizar busquedas, reemplazos y validaciones de cadenas de texto.


In [1]:
# Para trabajar con expresiones regulares podemos importar la libreria "re" de python.

import re

texto = "abc123"
patron = r"^abc\d+$"
coincide = re.match(patron, texto)
print(bool(coincide))  # True


True


# Concepto de metacaracteres:

Un patron de busqueda es una secuencia de catracteres que define el texto que queremos encontrar en una cadena.

# Por ejemplo: Si deseamos buscar todas las direcciones de correo electronico de un texto, el patron podria ser algo como:

r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'


# Caracteres especiales:

.     → Coincide con cualquier carácter excepto salto de línea  
^     → Inicio de línea  
$     → Fin de línea  
*     → Cero o más repeticiones  
+     → Una o más repeticiones  
?     → Cero o una repetición / modo no codicioso  
[]    → Clase de caracteres (ej. [aeiou])  
[^]   → Clase negada (ej. [^0-9])  
{}    → Cuantificador (ej. {3}, {2,5})  
()    → Agrupación / captura  
|     → Alternancia (OR lógico)  
\     → Escape de caracteres especiales (ej. \. para punto literal)  


# Funciones de re:

**re.match(pattern, string)**  
→ Busca una coincidencia al inicio del string.

**re.search(pattern, string)**  
→ Busca la primera coincidencia en cualquier parte del string.

**re.findall(pattern, string)**  
→ Devuelve una lista con todas las coincidencias.

**re.finditer(pattern, string)**  
→ Devuelve un iterador con objetos Match para cada coincidencia.

**re.sub(pattern, repl, string)**  
→ Reemplaza coincidencias por otro texto.

**re.split(pattern, string)**  
→ Divide el string usando el patrón como separador.

**re.compile(pattern)**  
→ Compila el patrón en un objeto regex reutilizable.


In [6]:
# Ejemplo de uso, busqueda de correos electronicos:

import re

correo_electronico = "w0YVd@example.com"
patron_correo = r"[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"

direccion_correo = re.search(patron_correo, correo_electronico) # Se busca si existe alguna direccion de correo electronico dentro del texto.
print(direccion_correo) # True 

<re.Match object; span=(0, 17), match='w0YVd@example.com'>


# r (raw string): Especifica que la cadena debe interpretarse como una cadena cruda sin procesamiento especial de caracteres especiales. Esto significa que los caracteres comunes como \n, \t, etc., en Python se tratan simplemente como caracteres literales en lugar de tener significados especiales.


In [5]:

# Cadena normal sin porocesar:
cadena_normal = "\n\tHola\nMundo!"
print(cadena_normal)

# Cadena raw procesada:
cadena_raw = r"\n\tHola\nMundo!"
print(cadena_raw)


	Hola
Mundo!
\n\tHola\nMundo!



# \b (word boundary): Coincide con el límite entre palabras. En este caso, coincide  con el final de la palabra Hola.

In [8]:
# Ejemplo de uso \b (word boundary):

import re

texto = "hola mundo y otro mundo mas y mundo123"
patron = r"\bhola\b"
coincide = re.search(patron, texto)
print(coincide)  # True

<re.Match object; span=(0, 4), match='hola'>


# + (one or more repetitions): Coincide con uno o más caracteres anteriores. En este caso, coincide con uno o más caracteres antes del @.


In [None]:
# Ejemplo de uso: + (one or more repetitions): Colocar el ejemplo con correo electronico y coincidir en mas de una repeticion de caracteres antes del @.

import re

correo_electronico = "w0YVd@example.com"
patron_correo = r"[a-zA-Z0-9_.+-]+@+[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+"

direccion_correo = re.search(patron_correo, correo_electronico) # Se busca si existe alguna direccion de correo electronico dentro del texto.
print(direccion_correo) # True



# [a-zA-Z0-9._%+-]: Define una clase de caracteres que incluye letras mayúsculas y minúsculas, dígitos numéricos y algunos símbolos permitidos en direcciones de correo electrónico: ES una clase de caracteres que coincide con letras may'usculas  min'usculas, digitos y algunos caracteres especiales como ., _, %, +, y -. El + despues de la clase de caracteres indica que deben aparecer uno o más veces seguidas en la cadena de texto.



# @: Coincide directamente con el caracter "@": El simbolo "@" se utiliza para indicar el inicio de la parte del dominio en una dirección de correo electrónico. Coincide literalmente con el caracter "@" en la cadena de texto.



# [a-zA-Z0-9.-]: Define otra clase de caracteres que incluye letras mayúsculas y minúsculas, dígitos numéricos y puntos y guiones.



# \.: Coincide con el punto "." literalmente. ESto asegura que haya un punto después del nombre de usuario y antes del dominio.



# $: Indica el fin de la línea.

# El resultado de esta búsqueda sería None porque el patrón no coincide exactamente con la dirección de correo electrónico proporcionada debido a la falta del dominio ".com".

# \b (word boundary): Coincide con el límite entre palabras. En este caso, Otro delimitador \b que asegura que la expresion termine con un limite de palabra.