# Pair programming Expresiones Regulares

1. Validar un número de teléfono.  
Descripción: Verificar si una cadena representa un número de teléfono válido en el formato (XXX)
XXX-XXXX.
Probad para cada uno de los teléfonos que tenemos en la siguiente lista:
telefonos = ["(123) 456-7890", "178 1890-733", "(555) 238-1987", "(123) 4560-7890", "(ABC) 098-1111"]

In [3]:
import re
# (XXX) XXX-XXXX
telefonos = ["(123) 456-7890", "178 1890-733", "(555) 238-1987", "(123) 4560-7890", "(ABC) 098-1111"]
patron = r"\(\d{3}\)\s\d{3}-\d{4}"
lista_resultado = []
for telefono in telefonos:
    resultado = re.findall(patron, telefono)
    if len(resultado) >= 1:
        print (resultado)
        lista_resultado.append(resultado)
print(lista_resultado)

['(123) 456-7890']
['(555) 238-1987']
[['(123) 456-7890'], ['(555) 238-1987']]


2. Buscar todas las direcciones de correo electrónico en un texto.  
Descripción: Encontrar todas las direcciones de correo electrónico presentes en una cadena de texto.
Probad con el siguiente string:
texto = "Mi correo es user@example.com. Contacta conmigo en john.doe@email.com"

In [12]:
texto = "Mi correo es user@example.com. Contacta conmigo en john.doe@email.com"
patron_mail = r"[\w1-9\._]+@[\w1-9\._]+"
re.findall(patron_mail, texto)

['user@example.com.', 'john.doe@email.com']

3. Validar un código postal.  
Descripción: Verificar si una cadena representa un código postal válido de 5 dígitos.
Probad para cada uno de los códigos postales que tenemos en la siguiente lista:
codigos_postales = ["12345", "190037", "78409", "986449", "19305"]

In [6]:
codigos_postales = ["12345", "190037", "78409", "986449", "19305"]
# con \b limitamos las "palabras"
patron_cp = r"\b\d{5}\b"
lista_cp = []
for cp in codigos_postales:
    codigo_postal = re.findall(patron_cp, cp)
    if len(codigo_postal) >= 1:
        lista_cp.append(codigo_postal)

lista_cp

[['12345'], ['78409'], ['19305']]

4. Encontrar todas las palabras que comienzan con una vocal en un texto.  
Descripción: Encontrar todas las palabras en un texto que comienzan con una vocal (a, e, i, o, u).
Probad con el siguiente string:
texto = "El perro está ladrando. Ana tiene una manzana. La casa es grande."

In [20]:
texto = "El perro está ladrando. Ana tiene una manzana. La casa es grande."
patron_vocal = r"\b[aeiouAEIOU]\w*\b"

resultado = re.findall(patron_vocal, texto)
resultado

['El', 'está', 'Ana', 'una', 'es']

5. Extraer todos los hashtags de un texto.  
Descripción: Extraer todos los hashtags (#) presentes en una cadena de texto.
Probad con el siguiente string:
texto = "Me encanta el #deporte. #FelizViernes a todos. Estoy en la conferencia #Tech2022."

In [21]:
texto = "Me encanta el #deporte. #FelizViernes a todos. Estoy en la conferencia #Tech2022."
patron_hahstag = r"#\w+"
resultado = re.findall(patron_hahstag, texto) 
resultado

['#deporte', '#FelizViernes', '#Tech2022']

6. Buscar todos los números decimales en una cadena de texto.  
Descripción: Encontrar todos los números decimales presentes en una cadena de texto.
Probad con el siguiente string:
texto = "El precio es $19.99. La temperatura es 25.5°C. El índice de inflación es del 2.5%."     

In [22]:
texto = "El precio es $19.99. La temperatura es 25.5°C. El índice de inflación es del 2.5%."     
patron_decimales = r"\d+\.\d+"
resultado = re.findall(patron_decimales, texto)
resultado

['19.99', '25.5', '2.5']

7. Validar un nombre de usuario.  
Descripción: Verificar si una cadena representa un nombre de usuario válido, que contiene solo letras
minúsculas, números y guiones bajos (_).
Probad con la siguiente lista de usuarios:
lista_usuarios = ["juan_doe123", "lola_12", "Aurora_23", "12marta_lopez"]

In [7]:
lista_usuarios = ["juan_doe123", "lola_12", "Aurora_23", "12marta_lopez"]
patron_usuario = r"\b[a-z0-9_]+\b"
lista_usuarios_validos = []
for usuario in lista_usuarios:
    usuario_valido = re.findall(patron_usuario, usuario)
    if len(usuario_valido) >= 1:
        lista_usuarios_validos.append(usuario_valido)
lista_usuarios_validos

[['juan_doe123'], ['lola_12'], ['12marta_lopez']]

8. Encontrar todas las fechas en formato "dd/mm/aaaa" en un texto.  
Descripción: Encontrar todas las fechas válidas en formato "dd/mm/aaaa" presentes en una
cadena de texto.
Probad con el siguiente string:
texto = "La fecha límite es el 31/12/2022. Hoy es 01/01/2023. Cumpleaños: 15/05/1990."

In [28]:
texto = "La fecha límite es el 31/12/2022. Hoy es 01/01/2023. Cumpleaños: 15/05/1990."
patron_fecha = r"\d{2}/\d{2}/\d{4}"
fechas  = re.findall(patron_fecha, texto)
fechas

['31/12/2022', '01/01/2023', '15/05/1990']

9. Remover caracteres especiales.
Descripción: Dada una cadena de texto, remover cualquier carácter especial, como signos de
puntuación y símbolos.
Probad con el siguiente string:
texto = '¡Hola, cómo estás? ¿Todo bien?'


In [33]:
texto = '¡Hola, cómo estás? ¿Todo bien?'
patron = r"[^!\"\·$%&/()=?¿¡'1]+"
sin_especiales = re.findall(patron, texto)
sin_especiales

['Hola, cómo estás', ' ', 'Todo bien']

10. BONUS: Enmascarar información personal.
Descripción: Dada una cadena de texto que contiene información personal, como nombres y
direcciones, enmascarar esta información reemplazándola con asteriscos ( * ).
Probad con este string:
texto = 'El nombre del cliente es John Doe y su dirección es 123 Main Street.'

In [41]:
texto = 'El nombre del cliente es John Doe y su dirección es 123 Main Street.'
patron_direccion = r"\d+\s[A-Z]\w+\s[A-Z]\w+"
enmascarado = re.sub(patron_direccion, '*'*len(patron_direccion), texto)
enmascarado
print(len(patron_direccion))
patron_nombre = r"[A-Z]\w+\s[A-Z]\w+"
enmascarado = re.sub(patron_nombre, '*'*len(patron_nombre), enmascarado)
enmascarado

23


'El nombre del cliente es ****************** y su dirección es ***********************.'