In [1]:
import re # Importando el módulo de expresiones regulares



# Definiendo la cadena que vamos a comprobar

needle = 'needlers'



# Enfoque de Python: Usando comprensión de listas y any()

# Esta línea verifica si la cadena 'needle' termina con alguno de los sufijos especificados ('ly', 'ed', 'ing', 'ers')

# any() devuelve True si al menos una de las condiciones es True

print(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))



# Expresión regular al vuelo en Python

# Esto utiliza expresiones regulares para comprobar si 'needle' termina con los sufijos especificados

# La función search() busca en 'needle' cualquier coincidencia con el patrón de expresión regular

# bool() se utiliza para convertir el resultado en True o False

print(bool(re.search(r'(ly|ed|ing|ers)$', needle)))



# Expresión regular compilada en Python

# Compilando el patrón de expresión regular para un reuso más rápido

# Esto es más eficiente si el patrón se usa varias veces

comp = re.compile(r'(ly|ed|ing|ers)$')

print(bool(comp.search(needle)))



# Los comandos %timeit se usan en Jupyter Notebooks para medir el tiempo de ejecución de pequeños fragmentos de código

# -n 1000 especifica que el comando se ejecutará 1000 veces en cada bucle

# -r 50 indica que habrá 50 de estos bucles

# Esto se utiliza para obtener una medida más precisa del tiempo de ejecución promediando múltiples ejecuciones



# %timeit para el enfoque de Python

%timeit -n 1000 -r 50 bool(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))



# %timeit para la expresión regular al vuelo

%timeit -n 1000 -r 50 bool(re.search(r'(ly|ed|ing|ers)$', needle))



# %timeit para la expresión regular compilada

%timeit -n 1000 -r 50 bool(comp.search(needle))

True
True
True
1.05 μs ± 294 ns per loop (mean ± std. dev. of 50 runs, 1,000 loops each)
The slowest run took 5.86 times longer than the fastest. This could mean that an intermediate result is being cached.
1.24 μs ± 679 ns per loop (mean ± std. dev. of 50 runs, 1,000 loops each)
572 ns ± 108 ns per loop (mean ± std. dev. of 50 runs, 1,000 loops each)


In [None]:
### Resumen de Términos para Expresiones Regulares

#### Terminología de Expresiones Regulares
###Las expresiones regulares (regex o regexp) son herramientas poderosas para el emparejamiento de patrones y la manipulación de texto. A continuación, se presenta una explicación detallada de algunos términos y símbolos comúnmente utilizados en las expresiones regulares:
###- **[ ] (Conjunto de Caracteres)**: Los corchetes denotan un conjunto de caracteres, donde uno de los elementos internos debe coincidir. Por ejemplo, `[abc]` coincidiría con cualquiera de los caracteres 'a', 'b' o 'c'. También puedes especificar rangos como `[0-9]` para coincidir con cualquier dígito.
###- **| (Tubo o Alternancia)**: El símbolo de tubo representa una opción entre elementos, actuando como un operador "o". Por ejemplo, `a|b` coincidiría con 'a' o 'b'.
###- **{ } (Cuantificador de Intervalo)**: Las llaves se utilizan para especificar un intervalo o la cantidad de veces que un patrón debe repetirse. Por ejemplo, `a{2,4}` coincidiría con 'aa', 'aaa' o 'aaaa', donde el número de 'a's se encuentra entre 2 y 4. También puedes usar un número único, como `{3}`, que coincidiría exactamente con tres repeticiones del patrón anterior.
###- **\ (Barra Inversa)**: La barra inversa es un carácter de escape que identifica al siguiente carácter como un literal, evitando que se interprete como un símbolo especial. Por ejemplo, `\.` coincidiría con un punto (.) en lugar de coincidir con cualquier carácter.
###- **. (Punto)**: En el modo predeterminado, el punto coincide con cualquier carácter, excepto un salto de línea. Por ejemplo, `a.b` coincidiría con 'axb', 'a#b' o 'a$b', donde 'x', '#', y '$' pueden ser cualquier carácter excepto un salto de línea.
###- **^ (Acento Circunflejo)**: Este símbolo coincide con el inicio de la cadena. En el modo MULTILINE, también coincide inmediatamente después de cada salto de línea. Por ejemplo, `^abc` coincidiría con 'abc' al comienzo de una línea. Esto es útil para validar el inicio de un texto.
###- **$ (Signo de Dólar)**: El signo de dólar coincide con el final de la cadena o justo antes del salto de línea al final de la cadena. En el modo MULTILINE, también coincide antes de un salto de línea. Por ejemplo, `xyz$` coincidiría con 'xyz' al final de una línea, permitiendo validar si una cadena termina con un patrón específico.
###- **\* (Asterisco)**: El asterisco hace que el patrón coincidente permita 0 o más repeticiones del patrón anterior. Por ejemplo, `ab*` coincidiría con 'a' o 'ab' seguido de cualquier número de 'b's, incluyendo ninguno.
###- **+ (Signo de Más)**: El signo de más indica que debe haber 1 o más repeticiones del patrón anterior. Por ejemplo, `ab+` coincidiría con 'a' seguido de al menos una 'b', pero no coincidiría solo con 'a'.
###- **? (Signo de Interrogación)**: Este signo permite que el patrón coincida con 0 o 1 repeticiones del patrón anterior. Por ejemplo, `ab?` coincidiría con 'a' o 'ab', lo que permite la flexibilidad en la búsqueda.
###- **{n


## Ejercicios de Expresiones Regulares



### Ejercicio 1 - Coincidir Direcciones de Correo Electrónico

#Desarrolla un script que busque y extraiga todas las direcciones de correo electrónico de un texto dado. Las direcciones deben seguir el formato estándar que incluye caracteres alfanuméricos, puntos, guiones bajos, porcentajes, signos más y guiones, seguido de un dominio.



### Ejercicio 2 - Extraer Fechas (dd/mm/yyyy)

#Crea un script que encuentre todas las fechas en el formato 'dd/mm/yyyy' dentro de un texto. Las fechas deben estar compuestas por dos dígitos para el día, dos dígitos para el mes y cuatro dígitos para el año, separadas por barras.



### Ejercicio 3 - Encontrar URLs

#Implementa un script que busque y extraiga todas las URLs de un texto. Las URLs pueden comenzar con 'http://' o 'https://' y deben seguir con cualquier carácter que no sea un espacio.



### Ejercicio 4 - Extraer Códigos Postales

#Desarrolla un script que encuentre todos los códigos postales en el formato '#####'. Los códigos postales deben estar compuestos por cinco dígitos.



### Ejercicio 5 - Coincidir Palabras con Guiones

#Crea un script que busque y extraiga todas las palabras que contengan un guion en un texto. Las palabras deben estar formadas por caracteres alfanuméricos, separados por un guion.



### Ejercicio 6 - Extraer Fechas (mm/dd/yyyy)

#Desarrolla un script que encuentre todas las fechas en el formato 'mm/dd/yyyy' dentro de un texto. Las fechas deben estar compuestas por dos dígitos para el mes, dos dígitos para el día y cuatro dígitos para el año, separadas por barras.



### Ejercicio 7 - Extraer Hashtags

#Implementa un script que busque y extraiga todos los hashtags de un texto. Los hashtags deben comenzar con un símbolo de número (#) seguido de uno o más caracteres alfanuméricos.



### Ejercicio 8 - Extraer Usuarios Mencionados

#Desarrolla un script que encuentre y extraiga todos los nombres de usuario mencionados en un texto. Los nombres de usuario deben comenzar con un símbolo de arroba (@) seguido de uno o más caracteres alfanuméricos.



### Ejercicio 9 - Coincidir Números de Teléfono 

#Crea un script que busque y extraiga todos los números de teléfono que pueden incluir un código de país en el formato '(+##) ###-###-###'. Los números deben consistir en un código de país de dos dígitos entre paréntesis, seguido de un espacio, tres dígitos, un guion, tres dígitos, un guion y tres dígitos.



### Ejercicio 10 - Coincidir Palabras Alfanuméricas

#Diseña un script que busque y extraiga todas las palabras que contengan solo caracteres alfanuméricos, es decir, letras y números, sin caracteres especiales ni espacios.


import re



# Textos de ejemplo

#texto1 = "Puedes contactar a juan.perez@example.com, maria@empresa.org, contacto123@dominio.com y ejemplo@mail.com."

#texto2 = "Las fechas importantes son 25/12/2022, 01/01/2023, 15/08/2023 y 31/12/2023."

#texto3 = "Visita ejemplo.com, mi-sitio.org y otro-sitio.net para más información."

#texto4 = "Los códigos postales son 28001, 08002, 41003 y 46004."

#texto5 = "Las palabras con guiones son bienvenidas - ejemplo-palabra, prueba-texto, ejemplo-otro y palabra-por-favor."

#texto6 = "Fechas en formato mm/dd/yyyy son 12/25/2022, 02/14/2023, 07/04/2023 y 10/31/2023."

#texto7 = "Mira #hashtag, #regex, #Python y otros ejemplos de #programación."

#texto8 = "Sigue a @usuario1, @usuario2, @miusuario y @ejemplo en Twitter."

#texto9 = "Puedes marcar los números (+34) 612-345-678, (+34) 678-123-456 y (+34) 911-234-567 para consultas."

#texto10 = "Las palabras alfanuméricas son: Python3, Regex, HTML5 y JavaScript."

#### Clases de Caracteres Adicionales



#- **\d (Dígito)**: Coincide con cualquier dígito decimal; es equivalente a la clase de caracteres `[0-9]`.



#- **\D (No Dígito)**: Coincide con cualquier carácter que no sea un dígito; es equivalente a la clase de caracteres `[^0-9]`.



#- **\s (Espacio en Blanco)**: Coincide con cualquier carácter de espacio en blanco, incluyendo espacio, tabulador, salto de línea, retorno de carro, avance de formulario y tabulador vertical. Esto es equivalente a la clase de caracteres `[ \t\n\r\f\v]`.



#- **\S (No Espacio en Blanco)**: Coincide con cualquier carácter que no sea de espacio en blanco. Esto es equivalente a la clase de caracteres `[^ \t\n\r\f\v]`.



#- **\w (Carácter de Palabra)**: Coincide con cualquier carácter alfanumérico o guion bajo; esto es equivalente a la clase de caracteres `[a-zA-Z0-9_]`.



#- **\W (Carácter No Palabra)**: Coincide con cualquier carácter que no sea alfanumérico o guion bajo; esto es equivalente a la clase de caracteres `[^a-zA-Z0-9_]`.



#- **\b (Límite de Palabra)**: Coincide con una posición donde un carácter de palabra es seguido o precedido por un carácter que no es de palabra. Por ejemplo, `\bword\b` coincidiría con la palabra "word" en "word" pero no en "sword".



#Las expresiones regulares pueden ser complejas, pero son increíblemente poderosas para tareas de procesamiento de texto. Para una documentación más comprensiva y completa, consulta la [Documentación de Expresiones Regulares de Python](docs.python.org/2/library/re.html#re-syntax).

## Definiendo Patrones de Regex



# Al trabajar con expresiones regulares, es fundamental definir patrones que especifican las reglas para las coincidencias. Estos patrones son expresiones que pueden identificar conjuntos específicos de caracteres. A continuación, se presentan algunos ejemplos de patrones de regex y sus descripciones:



# - **`[ABC]`**: Coincide con cualquiera de los caracteres 'A', 'B' o 'C'. Este patrón es útil cuando se desea encontrar cualquiera de un conjunto limitado de opciones.



# - **`[^ABC]`**: Coincide con cualquier carácter excepto 'A', 'B' o 'C'. El símbolo `^` al principio del conjunto indica una negación, lo que permite filtrar caracteres no deseados.



# - **`[ABC^]`**: Coincide con 'A', 'B', 'C' o el símbolo '^'. Este patrón incluye caracteres específicos junto con un carácter especial.



# - **`[0-9]`**: Coincide con cualquier dígito único del '0' al '9'. Este patrón es esencial para identificar números en una cadena.



# - **`[0-4]`**: Coincide con cualquier dígito único del '0' al '4'. Este es un subconjunto específico de los dígitos.



# - **`[A-Z]`**: Coincide con cualquier letra mayúscula de la 'A' a la 'Z'. Este patrón es útil para identificar texto en mayúsculas.



## Definiendo Patrones de Regex



# Al trabajar con expresiones regulares, es fundamental definir patrones que especifican las reglas para las coincidencias. Estos patrones son expresiones que pueden identificar conjuntos específicos de caracteres. A continuación, se presentan algunos ejemplos de patrones de regex y sus descripciones:



# - **`[ABC]`**: Coincide con cualquiera de los caracteres 'A', 'B' o 'C'. Este patrón es útil cuando se desea encontrar cualquiera de un conjunto limitado de opciones.



# - **`[^ABC]`**: Coincide con cualquier carácter excepto 'A', 'B' o 'C'. El símbolo `^` al principio del conjunto indica una negación, lo que permite filtrar caracteres no deseados.



# - **`[ABC^]`**: Coincide con 'A', 'B', 'C' o el símbolo '^'. Este patrón incluye caracteres específicos junto con un carácter especial.



# - **`[0-9]`**: Coincide con cualquier dígito único del '0' al '9'. Este patrón es esencial para identificar números en una cadena.



# - **`[0-4]`**: Coincide con cualquier dígito único del '0' al '4'. Este es un subconjunto específico de los dígitos.



# - **`[A-Z]`**: Coincide con cualquier letra mayúscula de la 'A' a la 'Z'. Este patrón es útil para identificar texto en mayúsculas.



# - **`[a-z]`**: Coincide con cualquier letra minúscula de la 'a' a la 'z'. Similar al anterior, pero enfocado en letras minúsculas.



# - **`[A-Za-z]`**: Coincide con cualquier letra sin importar el caso, abarcando tanto letras mayúsculas como minúsculas. Esto es útil cuando se desea una coincidencia más amplia.



# - **`[A-Za-z0-9]`**: Coincide con cualquier carácter alfanumérico, es decir, letras y números. Este patrón es común en validaciones de entrada.



# - **`[-a-z]`**: Coincide con el carácter '-' o cualquier letra minúscula. El uso de un guion al principio del conjunto permite incluir el guion como una opción válida.



# - **`[- a-z]`**: Coincide con '-', un espacio o cualquier letra minúscula. Al incluir un espacio en el conjunto, este patrón permite más flexibilidad en la coincidencia.





# - **`[a-z]`**: Coincide con cualquier letra minúscula de la 'a' a la 'z'. Similar al anterior, pero enfocado en letras minúsculas.



# - **`[A-Za-z]`**: Coincide con cualquier letra sin importar el caso, abarcando tanto letras mayúsculas como minúsculas. Esto es útil cuando se desea una coincidencia más amplia.



# - **`[A-Za-z0-9]`**: Coincide con cualquier carácter alfanumérico, es decir, letras y números. Este patrón es común en validaciones de entrada.



# - **`[-a-z]`**: Coincide con el carácter '-' o cualquier letra minúscula. El uso de un guion al principio del conjunto permite incluir el guion como una opción válida.



# - **`[- a-z]`**: Coincide con '-', un espacio o cualquier letra minúscula. Al incluir un espacio en el conjunto, este patrón permite más flexibilidad en la coincidencia.

In [45]:
### Ejercicio 1 - Coincidir Direcciones de Correo Electrónico

#Desarrolla un script que busque y extraiga todas las direcciones de correo electrónico de un texto dado. Las direcciones deben seguir el formato estándar que incluye caracteres alfanuméricos, puntos, guiones bajos, porcentajes, signos más y guiones, seguido de un dominio.

# Textos de ejemplo

texto1 = "Puedes contactar a juan.perez@example.com, maria@empresa.org, contacto123@dominio.com y ejemplo@mail.com."

texto2 = "Las fechas importantes son 25/12/2022, 01/01/2023, 15/08/2023 y 31/12/2023."

texto3 = "Visita ejemplo.com, https://mi-sitio.org y otro-sitio.net para más información."

texto4 = "Los códigos postales son 28001, 08002, 41003 y 46004."

texto5 = "Las palabras con guiones son bienvenidas - ejemplo-palabra, prueba-texto, ejemplo-otro y palabra-por-favor."

texto6 = "Fechas en formato mm/dd/yyyy son 12/25/2022, 02/14/2023, 07/04/2023 y 10/31/2023."

texto7 = "Mira #hashtag, #regex, #Python y otros ejemplos de #programación."

texto8 = "Sigue a @usuario1, @usuario2, @miusuario y @ejemplo en Twitter."

texto9 = "Puedes marcar los números (+34) 612-345-678, (+34) 678-123-456 y (+34) 911-234-567 para consultas."

texto10 = "Las palabras alfanuméricas son: Python3, Regex, HTML5 y JavaScript."

import re


def extract_mails (text):
    # Regular expression for matching email addresses
    mail_detect = re.compile(r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}', re.IGNORECASE)

    # Use findall to get all email addresses in the text
    emails = mail_detect.findall(text)

    return emails

# Example text containing email addresses

# Extract emails
email_addresses = extract_mails(texto1)

# Print the extracted emails
print(email_addresses)

['juan.perez@example.com', 'maria@empresa.org', 'contacto123@dominio.com', 'ejemplo@mail.com']


In [42]:
### Ejercicio 2 - Extraer Fechas (dd/mm/yyyy)

#Crea un script que encuentre todas las fechas en el formato 'dd/mm/yyyy' dentro de un texto. Las fechas deben estar compuestas por dos dígitos para el día, dos dígitos para el mes y cuatro dígitos para el año, separadas por barras.

def find_dates (text):
    date_detect = re.compile(r'(?:0[1-9]|1[012])[- /.](?:0[1-9]|[12][0-9]|3[01])[- /.](?:19|20)\d\d')

    dates = date_detect.findall (text)

    return dates

dates = find_dates (texto2)

print (dates)

['01/01/2023']


In [46]:
### Ejercicio 3 - Encontrar URLs

#Implementa un script que busque y extraiga todas las URLs de un texto. Las URLs pueden comenzar con 'http://' o 'https://' y deben seguir con cualquier carácter que no sea un espacio.

def find_urls (text):
    urls_detect = re.compile(r'https?://\S+')

    urls = urls_detect.findall (text)

    return urls

urls = find_urls (texto3)

print (urls)

['https://mi-sitio.org']


In [49]:
### Ejercicio 4 - Extraer Códigos Postales

#Desarrolla un script que encuentre todos los códigos postales en el formato '#####'. Los códigos postales deben estar compuestos por cinco dígitos.


def find_pc (text):
    pc_detect = re.compile(r'\d{5}')

    pc = pc_detect.findall (text)

    return pc

pc = find_pc (texto4)

print (pc)

['28001', '08002', '41003', '46004']


In [69]:
### Ejercicio 5 - Coincidir Palabras con Guiones

#Crea un script que busque y extraiga todas las palabras que contengan un guion en un texto. Las palabras deben estar formadas por caracteres alfanuméricos, separados por un guion.

def find_guion (text):
    guion_detect = re.compile(r'\b\w+-\w+')

    guiones = guion_detect.findall (text)

    return guiones

guiones = find_guion (texto5)

print (guiones)


['ejemplo-palabra', 'prueba-texto', 'ejemplo-otro', 'palabra-por']


In [64]:
### Ejercicio 6 - Extraer Fechas (mm/dd/yyyy)

#Desarrolla un script que encuentre todas las fechas en el formato 'mm/dd/yyyy' dentro de un texto. Las fechas deben estar compuestas por dos dígitos para el mes, dos dígitos para el día y cuatro dígitos para el año, separadas por barras.

def find_dates2 (text):
    date2_detect = re.compile(r'\b\d[1-12]/[-9]|1[0-2])/(0[1-9]|[12][0-9]|3[01])/\d{4}')

    dates2 = date2_detect.findall (text)

    return dates2

full_dates = find_dates2 (texto6)

print (full_dates)


[('12', '25'), ('02', '14'), ('07', '04'), ('10', '31')]
