In [4]:
import re

texto = """
El 10 de agosto de 2025, María Pérez envió un correo electrónico a la dirección
maria.perez@email.com solicitando información sobre el producto X-200. Su
número
de
teléfono
es
+34
612-345-678.
Además,
visitó
la
web
https://www.ejemplo.com para consultar precios y disponibilidad.

El servidor registró el acceso desde la IP 192.168.1.15 a las 14:23:56, y se detectó un
error en el log con código ERR500. En Twitter, el usuario @DataAnalyst comentó: "Los
modelos de IA son el futuro #MachineLearning #IA2025". El totaal de la compra fue
de $199.99, y el cliente pagó con tarjeta VISA terminada en 1234.

Por otro lado, el DNI de Juan García es 12345678Z y su código postal 28080. Para más
información, puede llamar al 911 234 567 o visitar www.informacion.es. Recordamos
que las feechas límite para inscripción son 2025-09-30 y 2025-10-15.
"""

In [5]:
# 1. Extraer todas las direcciones de correo electrónico. (Usé pattern básico para emails)
print("Actividad 1: Extraer todas las direcciones de correo electrónico.")
emails = re.findall(r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b', texto)
print(emails)

Actividad 1: Extraer todas las direcciones de correo electrónico.
['maria.perez@email.com']


In [6]:
# 2. Extraer todas las URLs (con o sin protocolo). (Pattern flexible para http/www)
print("Actividad 2: Extraer todas las URLs (con o sin protocolo).")
urls = re.findall(r'(?:https?://|www\.)[A-Za-z0-9.-]+\.[A-Za-z]{2,}(?:/[A-Za-z0-9._~%-]*\??[A-Za-z0-9._~%&=+-]*)?', texto)
print(urls)

Actividad 2: Extraer todas las URLs (con o sin protocolo).
['https://www.ejemplo.com', 'www.informacion.es']


In [7]:
# 3. Validar y extraer números de teléfono en formato internacional y nacional. (Cubre +intl y nacional con guiones/espacios)
print("Actividad 3: Validar y extraer números de teléfono en formato internacional y nacional.")
telefonos = re.findall(r'(?:\+\d{1,3}\s?)?(?:\d{3}[\s-]?){2}\d{3}', texto)
print(telefonos)

Actividad 3: Validar y extraer números de teléfono en formato internacional y nacional.
['612-345-678', '911 234 567']


In [8]:
# 4. Extraer fechas en formato yyyy-MM-dd. (Simple \d{4}-\d{2}-\d{2})
print("Actividad 4: Extraer fechas en formato yyyy-MM-dd.")
fechas = re.findall(r'\d{4}-\d{2}-\d{2}', texto)
print(fechas)

Actividad 4: Extraer fechas en formato yyyy-MM-dd.
['2025-09-30', '2025-10-15']


In [9]:
# 5. Extraer códigos postales de 5 dígitos. (\b\d{5}\b para exacto 5 digits)
print("Actividad 5: Extraer códigos postales de 5 dígitos.")
postales = re.findall(r'\b\d{5}\b', texto)
print(postales)

Actividad 5: Extraer códigos postales de 5 dígitos.
['28080']


In [10]:
# 6. Extraer DNI (8 dígitos seguidos de letra mayúscula). (\d{8}[A-Z])
print("Actividad 6: Extraer DNI (8 dígitos seguidos de letra mayúscula).")
dni = re.findall(r'\b\d{8}[A-Z]\b', texto)
print(dni)

Actividad 6: Extraer DNI (8 dígitos seguidos de letra mayúscula).
['12345678Z']


In [11]:
# 7. Extraer menciones de Twitter. (@\w+ para @user)
print("Actividad 7: Extraer menciones de Twitter.")
menciones = re.findall(r'@\w+', texto)
print(menciones)

Actividad 7: Extraer menciones de Twitter.
['@email', '@DataAnalyst']


In [12]:
# 8. Extraer hashtags. (#\w+ para #tag)
print("Actividad 8: Extraer hashtags.")
hashtags = re.findall(r'#\w+', texto)
print(hashtags)

Actividad 8: Extraer hashtags.
['#MachineLearning', '#IA2025']


In [13]:
# 9. Extraer direcciones IP. (\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})
print("Actividad 9: Extraer direcciones IP.")
ips = re.findall(r'\b\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}\b', texto)
print(ips)

Actividad 9: Extraer direcciones IP.
['192.168.1.15']


In [14]:
# 10. Extraer importes monetarios (con $ y decimales). (\$\d+\.\d{2})
print("Actividad 10: Extraer importes monetarios (con $ y decimales).")
importes = re.findall(r'\$\d+\.\d{2}', texto)
print(importes)

Actividad 10: Extraer importes monetarios (con $ y decimales).
['$199.99']


In [15]:
# 11. Eliminar letras repetidas. (Sub (\w)\1+ a \1)
print("Actividad 11: Eliminar letras repetidas.")
texto_sin_repetidas = re.sub(r'([a-zA-Z])\1+', r'\1', texto)
print(texto_sin_repetidas)

Actividad 11: Eliminar letras repetidas.

El 10 de agosto de 2025, María Pérez envió un coreo electrónico a la direción
maria.perez@email.com solicitando información sobre el producto X-200. Su
número 
de 
teléfono 
es 
+34 
612-345-678. 
Además, 
visitó 
la 
web 
htps://w.ejemplo.com para consultar precios y disponibilidad. 

El servidor registró el aceso desde la IP 192.168.1.15 a las 14:23:56, y se detectó un 
eror en el log con código ER500. En Twiter, el usuario @DataAnalyst comentó: "Los 
modelos de IA son el futuro #MachineLearning #IA2025". El total de la compra fue 
de $199.99, y el cliente pagó con tarjeta VISA terminada en 1234. 

Por otro lado, el DNI de Juan García es 12345678Z y su código postal 28080. Para más 
información, puede lamar al 911 234 567 o visitar w.informacion.es. Recordamos 
que las fechas límite para inscripción son 2025-09-30 y 2025-10-15.

