<a href="https://colab.research.google.com/github/ErikaDenisse29/ColabFiles/blob/main/Ejercicio_de_expresiones_regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Procesamiento de Lenguaje Natural**
## Nombre del Proyecto: Ejercicio de expresiones regulares
## Grupo: A
## Autor: Erika Denisse Montanez Valdivia
## Matrícula: 256927
## Fecha: 16-08-2025

# **Objetivo de la actividad**

El estudiante usa los diferentes comandos y reconoce los patrones revisados en clase a fin de encontrar las expresiones regulares a un texto real en un entorno de desarrollo integrado en línea.

In [None]:
import re

def extr_patrones(texto):

    res = {
        'emails': [],
        'urls': [],
        'telefonos_internacionales': [],
        'telefonos_nacionales': [],
        'fechas': [],
        'codigos_postales': [],
        'dnis': [],
        'menciones_twitter': [],
        'hashtags': [],
        'direcciones_ip': [],
        'importes_monetarios': [],
        'texto_sin_repeticiones': ''
    }

    # 1. Extraer todas las direcciones de correo electrónico.
    patron_email = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,7}\b'
    resultados['emails'] = re.findall(patron_email, texto, re.IGNORECASE)

    # 2. Extraer todas las URLs (con o sin protocolo).
    patron_url = r'(?:(?:https?|ftp):\/\/|\bwww\.)\w[\w.-]*\.[a-z]{2,}[^\s]*\b'
    resultados['urls'] = re.findall(patron_url, texto, re.IGNORECASE)

    # 3. Validar y extraer números de teléfono en formato internacional y nacional.
    patron_tel_internacional = r'\+\d{2}[-\s]?\d{3}[-\s]?\d{3}[-\s]?\d{3}'
    resultados['telefonos_internacionales'] = re.findall(patron_tel_internacional, texto)

    patron_tel_nacional = r'\b\d{3}[-\s]?\d{3}[-\s]?\d{3}\b'
    resultados['telefonos_nacionales'] = re.findall(patron_tel_nacional, texto)

    # 4. Extraer fechas en formato yyyy-MM-dd.
    patron_fecha = r'\b\d{4}-\d{2}-\d{2}\b'
    resultados['fechas'] = re.findall(patron_fecha, texto)

    # 5. Extraer códigos postales de 5 dígitos
    patron_cp = r'(?<!\d)\d{5}(?!\d)'
    resultados['codigos_postales'] = re.findall(patron_cp, texto)

    # 6. Extraer DNI (8 dígitos seguidos de letra mayúscula).
    patron_dni = r'\b\d{8}[A-Z]\b'
    resultados['dnis'] = re.findall(patron_dni, texto)

    # 7. Extraer menciones de Twitter
    patron_mention = r'(?<!\w)@\w+'
    resultados['menciones_twitter'] = re.findall(patron_mention, texto)

    # 8. Extraer hashtags
    patron_hashtag = r'(?<!\w)#\w+'
    resultados['hashtags'] = re.findall(patron_hashtag, texto)

    # 9. Extraer direcciones IP
    patron_ip = r'\b(?:\d{1,3}\.){3}\d{1,3}\b'
    resultados['direcciones_ip'] = re.findall(patron_ip, texto)

    # 10. Extraer importes monetarios (con $ y decimales)
    patron_mon= r'\$\d{1,3}(?:,\d{3})*(?:\.\d{2})?'
    resultados['importes_monetarios'] = re.findall(patron_mon, texto)

    # 11. Eliminar letras repetidas
    patron_r = r'([a-zA-ZáéíóúÁÉÍÓÚñÑ\s])\1{1,}'
    resultados['texto_sin_repeticiones'] = re.sub(patron_r, r'\1', texto, flags=re.IGNORECASE)

    return resultados

def mostrar_res(resultados):

    print("\nResultados de ejercicio de expresiones regulares:")
    print("****************************************************")

    print("\n1. Correos electrónicos encontrados:")
    for i, email in enumerate(resultados['emails'], 1):
        print(f"{i}. {email}")

    print("\n2. URLs encontradas:")
    for i, url in enumerate(resultados['urls'], 1):
        print(f"{i}. {url}")

    print("\n3. Teléfonos internacionales encontrados:")
    for i, tel in enumerate(resultados['telefonos_internacionales'], 1):
        print(f"{i}. {tel}")

    print("\n3. Teléfonos nacionales encontrados:")
    for i, tel in enumerate(resultados['telefonos_nacionales'], 1):
        print(f"{i}. {tel}")

    print("\n4. Fechas encontradas (yyyy-MM-dd):")
    for i, fecha in enumerate(resultados['fechas'], 1):
        print(f"{i}. {fecha}")

    print("\n5. Códigos postales encontrados (5 dígitos):")
    for i, cp in enumerate(resultados['codigos_postales'], 1):
        print(f"{i}. {cp}")

    print("\n6. DNIs encontrados (8 dígitos + letra):")
    for i, dni in enumerate(resultados['dnis'], 1):
        print(f"{i}. {dni}")

    print("\n7. Menciones de Twitter encontradas:")
    for i, mention in enumerate(resultados['menciones_twitter'], 1):
        print(f"{i}. {mention}")

    print("\n8. Hashtags encontrados:")
    for i, hashtag in enumerate(resultados['hashtags'], 1):
        print(f"{i}. {hashtag}")

    print("\n9. Direcciones IP encontradas:")
    for i, ip in enumerate(resultados['direcciones_ip'], 1):
        print(f"{i}. {ip}")

    print("\n10. Importes monetarios encontrados:")
    for i, moneda in enumerate(resultados['importes_monetarios'], 1):
        print(f"{i}. {moneda}")

    print("\n11. Texto sin letras repetidas:")
    print(resultados['texto_sin_repeticiones'])


if __name__ == "__main__":
    texto = """
El 10 de agosto de 2025, María Pérez envió un correo electrónico a la dirección
maria.perez@email.com solicitando información sobre el producto X-200. Su
número de teléfono es +34 612-345-678. Además, visitó la web
https://www.ejemplo.com para consultar precios y disponibilidad.

El servidor registró el acceso desde la IP 192.168.1.15 a las 14:23:56, y se detectó un
error en el log con código ERR500. En Twitter, el usuario @DataAnalyst comentó: "Los
modelos de IA son el futuro #MachineLearning #IA2025". El totaal de la compra fue
de $199.99, y el cliente pagó con tarjeta VISA terminada en 1234.

Por otro lado, el DNI de Juan García es 12345678Z y su código postal 28080. Para más
información, puede llamar al 911 234 567 o visitar www.informacion.es. Recordamos
que las feechas límite para inscripción son 2025-09-30 y 2025-10-15
    """
    print("\n Texto original:",texto)
    resultados = extr_patrones(texto)
    mostrar_res(resultados)


 Texto original: 
El 10 de agosto de 2025, María Pérez envió un correo electrónico a la dirección
maria.perez@email.com solicitando información sobre el producto X-200. Su
número de teléfono es +34 612-345-678. Además, visitó la web
https://www.ejemplo.com para consultar precios y disponibilidad.

El servidor registró el acceso desde la IP 192.168.1.15 a las 14:23:56, y se detectó un
error en el log con código ERR500. En Twitter, el usuario @DataAnalyst comentó: "Los
modelos de IA son el futuro #MachineLearning #IA2025". El totaal de la compra fue
de $199.99, y el cliente pagó con tarjeta VISA terminada en 1234.

Por otro lado, el DNI de Juan García es 12345678Z y su código postal 28080. Para más
información, puede llamar al 911 234 567 o visitar www.informacion.es. Recordamos
que las feechas límite para inscripción son 2025-09-30 y 2025-10-15
    

Resultados de ejercicio de expresiones regulares:
****************************************************

1. Correos electrónicos encontrad