# Pair programming Expresiones Regulares

In [5]:
import re

1. Validar un número de teléfono.
- Descripción: Verificar si una cadena representa un número de teléfono válido en el formato (XXX) XXX-XXXX.
- Probad para cada uno de los teléfonos que tenemos en la siguiente lista:
telefonos = ["(123) 456-7890", "178 1890-733", "(555) 238-1987", "(123) 4560-7890", "(ABC) 098-1111"]

In [58]:
telefonos = ["(123) 456-7890", "178 1890-733", "(555) 238-1987", "(123) 4560-7890", "(ABC) 098-1111"]

patron = r'\(\d{3}\) \d{3}-\d{4}|\d{3} \d{4}-\d{3}'
telefonos_ok = []

for tel in telefonos:
    if re.match(patron, tel):
        telefonos_ok.append(tel)

print (telefonos_ok)

#para capturar el paéntesi se pone \ de lante -> \(     \)

['(123) 456-7890', '178 1890-733', '(555) 238-1987']


2. Buscar todas las direcciones de correo electrónico en un texto.
- Descripción: Encontrar todas las direcciones de correo electrónico presentes en una cadena de texto.
- Probad con el siguiente string:
texto = "Mi correo es user@example.com. Contacta conmigo en john.doe@email.com"

In [9]:
texto_emails = "Mi correo es user@example.com. Contacta conmigo en john.doe@email.com"

patron2 = r'[\w._%+-]+@[\w.-]+[a-zA-Z]{2,4}'

emails = re.findall(patron2, texto_emails)

print(emails)

#r indica cadena cruda(raw string)
# re.finall -> se utiliza para buscar coincidencias de una expresión regular en una cadena o en una lista de cadenas.


['user@example.com', 'john.doe@email.com']


3. Validar un código postal.
- Descripción: Verificar si una cadena representa un código postal válido de 5 dígitos.
- Probad para cada uno de los códigos postales que tenemos en la siguiente lista:
codigos_postales = ["12345", "190037", "78409", "986449", "19305"]

In [16]:
codigos_postales = ["12345", "190037", "78409", "986449", "19305"]

patron3 = r'\d{5}'

codigos_5 = []

for codigo in codigos_postales:
    if re.search(patron3, codigo):
        codigos_5.append(codigo)

print (codigos_5)

#tenemos que hacer un bucle for para extraer los números de la lista que coinciden con el patrón
#funciona con re.match y con re.search

['12345', '190037', '78409', '986449', '19305']


4. Encontrar todas las palabras que comienzan con una vocal en un texto.
- Descripción: Encontrar todas las palabras en un texto que comienzan con una vocal (a, e, i, o, u).
- Probad con el siguiente string:
texto = "El perro está ladrando. Ana tiene una manzana. La casa es grande."

In [25]:
texto = "El perro está ladrando. Ana tiene una manzana. La casa es grande."
patron4 = r'\b[aeiouAEIOU]\w*\b'
por_a = re.findall(patron4, texto)

print(por_a)

# re.findall se usa en strings
# El uso de \b al principio y al final de la expresión regular ayuda a asegurarse de que solo
#  se obtengan palabras completas que cumplan con el patrón.


['El', 'está', 'Ana', 'una', 'es']


5. Extraer todos los hashtags de un texto.
- Descripción: Extraer todos los hashtags (#) presentes en una cadena de texto.
- Probad con el siguiente string:
texto = "Me encanta el #deporte. #FelizViernes a todos. Estoy en la conferencia #Tech2022."

In [27]:
texto_hashtags = texto = "Me encanta el #deporte. #FelizViernes a todos. Estoy en la conferencia #Tech2022."

patron5 = r'#\w+'

hashtags = re.findall(patron5, texto_hashtags)
print (hashtags)

# ->  #\w+ _> busca el símbolo # seguido de uno o más carácteres alfanuméricos (Coincide con cualquier caracter de palabra (igual a [a-zA-Z0-9_]))

['#deporte', '#FelizViernes', '#Tech2022']


6. Buscar todos los números decimales en una cadena de texto.
- Descripción: Encontrar todos los números decimales presentes en una cadena de texto.
- Probad con el siguiente string:
texto = "El precio es $19.99. La temperatura es 25.5°C. El índice de inflación es del 2.5%."     

In [36]:
texto_decimales = "El precio es $19.99. La temperatura es 25.5°C. El índice de inflación es del 2.5%."     

patron6 = r'\d+\.\d+'

decimales = re.findall(patron6, texto_decimales)
print (decimales)

# se pone \. para que la expresión regular lo interprete como un punto literal (y no como carácter especial)

['19.99', '25.5', '2.5']


7. Validar un nombre de usuario.
- Descripción: Verificar si una cadena representa un nombre de usuario válido, que contiene solo letras minúsculas, números y guiones bajos (_).
- Probad con la siguiente lista de usuarios:
lista_usuarios = ["juan_doe123", "lola_12", "Aurora_23", "12marta_lopez"]

In [47]:
lista_usuarios = ["juan_doe123", "lola_12", "Aurora_23", "12marta_lopez"]

patron7 = r'^[a-z0-9_]+$'

usuario_valido = []

for nombre in lista_usuarios:
    if re.match(patron7, nombre): #iteramos en cada nombre de la lista para comprobar que se cumpla la condición
        usuario_valido.append(nombre)


print (usuario_valido)

# + indica una o más veces
# ^  indica que la coincidencia empieza en el inicip de la cadena 
# $ indica uqe la coincidencia debe abarcar toda la cadena
# en este ejemplo el patron puede funcionar sin los símboles ^ y $

['juan_doe123', 'lola_12', '12marta_lopez']


8. Encontrar todas las fechas en formato "dd/mm/aaaa" en un texto.
-Descripción: Encontrar todas las fechas válidas en formato "dd/mm/aaaa" presentes en una cadena de texto.
- Probad con el siguiente string:
texto = "La fecha límite es el 31/12/2022. Hoy es 01/01/2023. Cumpleaños: 15/05/1990."

In [52]:
texto_fechas = "La fecha límite es el 31/12/2022. Hoy es 01/01/2023. Cumpleaños: 15/05/1990."

patron8 = r'\d{2}\/\d{2}\/\d{4}'

fechas = re.findall (patron8, texto_fechas)

print (fechas)

#  barras inclinadas dobles \/ para escapar las barras en el patrón (que q es un símbolo usado en Pyyhon)

['31/12/2022', '01/01/2023', '15/05/1990']


9. Remover caracteres especiales.
- Descripción: Dada una cadena de texto, remover cualquier carácter especial, como signos de puntuación y símbolos.
- Probad con el siguiente string:
texto = '¡Hola, cómo estás? ¿Todo bien?'

In [54]:
texto_especial = '¡Hola, cómo estás? ¿Todo bien?'

patron9 = r'[^\w\s]'

texto_sin_especial = re.sub(patron9, '', texto_especial) #son re.sub sunstituimos el patron por un espacio vacío
print (texto_sin_especial)

#r'[^\w\s] -> cualquier carácter que no sea una letra, un dígito o un espacio

Hola cómo estás Todo bien


10. BONUS: Enmascarar información personal.
- Descripción: Dada una cadena de texto que contiene información personal, como nombres y direcciones, enmascarar esta información reemplazándola con asteriscos (*).
- Probad con este string:
texto = 'El nombre del cliente es John Doe y su dirección es 123 Main Street.'