<p><img src="https://i.postimg.cc/cCjTSn8r/ss-cumf.png" alt="" width="1280" height="300" /></p>

# **EXPRESIONES REGULARES**

Las expresiones regulares, también conocidas como regex o regexp, son patrones de búsqueda y manipulación de cadenas de texto. Son secuencias de caracteres que definen un conjunto de reglas para buscar y coincidir con patrones específicos en cadenas de texto.

**EJEMPLO**:

*   user@example.com
*   john.doe123@email.co.uk
*   alice_smith@email.org
*   support@company.com
*   info@emailprovider.net
*   sales.team@business.com
*   webmaster@website.org
*   jane.doe@emailprovider.com
*   contact.us@company.net
*   admin123@webpage.info


Para resolver el problema, usaremos expresiones regulares con el siguiente patron: `[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}`


- `[A-Za-z0-9._%+-]+`: Coincide con uno o más caracteres alfanuméricos, puntos, guiones bajos, porcentajes o signos más y menos en la parte local del correo electrónico.
- `@`: Coincide con el carácter '@'.
- `[A-Za-z0-9.-]+`: Coincide con uno o más caracteres alfanuméricos, puntos o guiones en el dominio del correo electrónico.
- `\.`: Coincide con el carácter de punto ('.').
- `[A-Z|a-z]{2,}`: Coincide con dos o más caracteres alfabéticos en la parte del dominio del nivel superior.




[VALIDADOR Y CURSO DE REGEX](https://regex101.com/)

[PYTHON REGEX](https://www.w3schools.com/python/python_regex.asp)




## **REGEX PYTHON**

En Python, el módulo `re` proporciona soporte para trabajar con expresiones regulares.

In [None]:
import re

In [33]:
# simulación de datos de mensajes de Twitter (X)
from typing import List

tweets: List[str] = [
  "¡Increíble día de sol en la playa! ☀️ #Feliz", # 0
  "¿Alguien más está emocionado por el nuevo año? #AñoNuevo", # 1
  "¡Qué película tan asombrosa! #Cine, #avengers", # 2
  "Hoy me siento muy #agradecido por todo.", # 3
  "¡Entrenamiento intenso en el gimnasio! #Fitness #esteañosi" # 4
]
# NOTA: hashtag es como un identificador unico,
# o en palabras tecnicas como una llave primaria en una base de datos

### **SEARCH**
Devuelve un objeto Match si hay una coincidencia en cualquier parte de la cadena.

Nota: solo encuentra la primera ocurrencia

In [34]:
resultado = re.search(r'#\w+', tweets[2])
resultado

<re.Match object; span=(29, 34), match='#Cine'>

In [35]:
print(resultado.span())
print(resultado.start())
print(resultado.end())
print(resultado.group())

(29, 34)
29
34
#Cine


In [37]:
print(tweets[2])
tweets[2][29:34]

¡Qué película tan asombrosa! #Cine, #avengers


'#Cine'

In [38]:
tweets[2][resultado.start(): resultado.end()]

'#Cine'

In [39]:
re.search(r'[123]', tweets[2])

In [41]:
valido = re.search(r'[123]', tweets[2])
print(valido)
if valido:
  print("patron de busqueda existe")
else:
  print("los datos no cumplen, o no tienen el estandar requerido")

None
los datos no cumplen, o no tienen el estandar requerido


In [50]:
# ejemplo correo
expresion: str = "[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}"

if re.search(expresion, "pepito@perez.com"):
  print("patron de busqueda existe")
else:
  print("los datos no cumplen, o no tienen el estandar requerido")

patron de busqueda existe


In [52]:
def validar_expresion_regular(regex: str, texto_validar: str) -> bool:
  cumple_condicion: bool = False
  if re.search(regex,texto_validar):
    cumple_condicion = True
  return cumple_condicion

In [53]:
validar_expresion_regular(expresion, "pepito@perez.com")

True

In [54]:
validar_expresion_regular(expresion, "pepito@perez.c")

False

### **FINDALL**
Devuelve una lista que contiene todas las coincidencias.

In [43]:
print(tweets[2])
re.findall(r'#\w+', tweets[2])

¡Qué película tan asombrosa! #Cine, #avengers


['#Cine', '#avengers']

In [44]:
print(tweets[3])
re.findall(r'#\w+', tweets[3])

Hoy me siento muy #agradecido por todo.


['#agradecido']

### **FINDITER**
Devuelve un iterador con todas las ocurrencias, similar a `search`

In [55]:
for elemento in re.finditer(r'#\w+', tweets[2]):
  print(elemento)
  print(elemento.start())

<re.Match object; span=(29, 34), match='#Cine'>
29
<re.Match object; span=(36, 45), match='#avengers'>
36


In [None]:
# anecdota
"""
1. muy buenos recursos informaticos (capacidad de computo muy fuerte), eje:
200 Servidores, Cada serv 524 GB Ram, 5 TERAS
2. problema: los servidores empezaron a generar indisponibilidad
3. analizar: causas, las causas a simple ojo: se estaban usando los recursos para ejecutar
            otras cosas personales, que no eran del banco. (se puede ver que esta ejecutando,y etc)
4. requisitos funcionales: necesitamos saber que usuario y que dominio esta usando mal los recursos
5. analizando los logs de los servidores, y usando expresiones regulares para buscar patrones
   generar un sistema de notificación, de monitoreo y de bloqueo

  usuario         dominio
   lucas.restrepo@bbva.com -- avisos permitidos = 3
   supero los avisos:
    bloqueaba el acceso y la ejecución de los programas de lucas
"""

### **SUB**

Sustituye todas las ocurrenecias

In [59]:
print(tweets[2])
re.sub(r'#\w+', "--", tweets[2])

¡Qué película tan asombrosa! #Cine, #avengers


'¡Qué película tan asombrosa! --, --'