#### 2024-09-30

# Expresión regular compilada en Python

# Compilando el patrón de expresión regular para un reuso más rápido

# Esto es más eficiente si el patrón se usa varias veces

comp = re.compile(r'(ly|ed|ing|ers)$')

print(bool(comp.search(needle)))



# Los comandos %timeit se usan en Jupyter Notebooks para medir el tiempo de ejecución de pequeños fragmentos de código

# -n 1000 especifica que el comando se ejecutará 1000 veces en cada bucle

# -r 50 indica que habrá 50 de estos bucles

# Esto se utiliza para obtener una medida más precisa del tiempo de ejecución promediando múltiples ejecuciones



# %timeit para el enfoque de Python

%timeit -n 1000 -r 50 bool(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))



# %timeit para la expresión regular al vuelo

%timeit -n 1000 -r 50 bool(re.search(r'(ly|ed|ing|ers)$', needle))



# %timeit para la expresión regular compilada

%timeit -n 1000 -r 50 bool(comp.search(needle))

Anthony Torres Hernández
11:25
### Resumen de Términos para Expresiones Regulares



#### Terminología de Expresiones Regulares



Las expresiones regulares (regex o regexp) son herramientas poderosas para el emparejamiento de patrones y la manipulación de texto. A continuación, se presenta una explicación detallada de algunos términos y símbolos comúnmente utilizados en las expresiones regulares:



- **[ ] (Conjunto de Caracteres)**: Los corchetes denotan un conjunto de caracteres, donde uno de los elementos internos debe coincidir. Por ejemplo, `[abc]` coincidiría con cualquiera de los caracteres 'a', 'b' o 'c'. También puedes especificar rangos como `[0-9]` para coincidir con cualquier dígito.



- **| (Tubo o Alternancia)**: El símbolo de tubo representa una opción entre elementos, actuando como un operador "o". Por ejemplo, `a|b` coincidiría con 'a' o 'b'.



- **{ } (Cuantificador de Intervalo)**: Las llaves se utilizan para especificar un intervalo o la cantidad de veces que un patrón debe repetirse. Por ejemplo, `a{2,4}` coincidiría con 'aa', 'aaa' o 'aaaa', donde el número de 'a's se encuentra entre 2 y 4. También puedes usar un número único, como `{3}`, que coincidiría exactamente con tres repeticiones del patrón anterior.



- **\ (Barra Inversa)**: La barra inversa es un carácter de escape que identifica al siguiente carácter como un literal, evitando que se interprete como un símbolo especial. Por ejemplo, `\.` coincidiría con un punto (.) en lugar de coincidir con cualquier carácter.



- **. (Punto)**: En el modo predeterminado, el punto coincide con cualquier carácter, excepto un salto de línea. Por ejemplo, `a.b` coincidiría con 'axb', 'a#b' o 'a$b', donde 'x', '#', y '$' pueden ser cualquier carácter excepto un salto de línea.



- **^ (Acento Circunflejo)**: Este símbolo coincide con el inicio de la cadena. En el modo MULTILINE, también coincide inmediatamente después de cada salto de línea. Por ejemplo, `^abc` coincidiría con 'abc' al comienzo de una línea. Esto es útil para validar el inicio de un texto.



- **$ (Signo de Dólar)**: El signo de dólar coincide con el final de la cadena o justo antes del salto de línea al final de la cadena. En el modo MULTILINE, también coincide antes de un salto de línea. Por ejemplo, `xyz$` coincidiría con 'xyz' al final de una línea, permitiendo validar si una cadena termina con un patrón específico.



- **\* (Asterisco)**: El asterisco hace que el patrón coincidente permita 0 o más repeticiones del patrón anterior. Por ejemplo, `ab*` coincidiría con 'a' o 'ab' seguido de cualquier número de 'b's, incluyendo ninguno.



- **+ (Signo de Más)**: El signo de más indica que debe haber 1 o más repeticiones del patrón anterior. Por ejemplo, `ab+` coincidiría con 'a' seguido de al menos una 'b', pero no coincidiría solo con 'a'.



- **? (Signo de Interrogación)**: Este signo permite que el patrón coincida con 0 o 1 repeticiones del patrón anterior. Por ejemplo, `ab?` coincidiría con 'a' o 'ab', lo que permite la flexibilidad en la búsqueda.



- **{n}** (Repeticion exacta)


#### Clases de Caracteres Adicionales



- **\d (Dígito)**: Coincide con cualquier dígito decimal; es equivalente a la clase de caracteres `[0-9]`.



- **\D (No Dígito)**: Coincide con cualquier carácter que no sea un dígito; es equivalente a la clase de caracteres `[^0-9]`.



- **\s (Espacio en Blanco)**: Coincide con cualquier carácter de espacio en blanco, incluyendo espacio, tabulador, salto de línea, retorno de carro, avance de formulario y tabulador vertical. Esto es equivalente a la clase de caracteres `[ \t\n\r\f\v]`.



- **\S (No Espacio en Blanco)**: Coincide con cualquier carácter que no sea de espacio en blanco. Esto es equivalente a la clase de caracteres `[^ \t\n\r\f\v]`.



- **\w (Carácter de Palabra)**: Coincide con cualquier carácter alfanumérico o guion bajo; esto es equivalente a la clase de caracteres `[a-zA-Z0-9_]`.



- **\W (Carácter No Palabra)**: Coincide con cualquier carácter que no sea alfanumérico o guion bajo; esto es equivalente a la clase de caracteres `[^a-zA-Z0-9_]`.



- **\b (Límite de Palabra)**: Coincide con una posición donde un carácter de palabra es seguido o precedido por un carácter que no es de palabra. Por ejemplo, `\bword\b` coincidiría con la palabra "word" en "word" pero no en "sword".



Las expresiones regulares pueden ser complejas, pero son increíblemente poderosas para tareas de procesamiento de texto. Para una documentación más comprensiva y completa, consulta la [Documentación de Expresiones Regulares de Python](docs.python.org/2/library/re.html#re-syntax).



In [None]:
import re # Importando el módulo de expresiones regulares


# Definiendo la cadena que vamos a comprobar
needle = 'needlers'


# Enfoque de Python: Usando comprensión de listas y any()
# Esta línea verifica si la cadena 'needle' termina con alguno de los sufijos especificados ('ly', 'ed', 'ing', 'ers')
# any() devuelve True si al menos una de las condiciones es True
print(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))


# Expresión regular al vuelo en Python
# Esto utiliza expresiones regulares para comprobar si 'needle' termina con los sufijos especificados
# La función search() busca en 'needle' cualquier coincidencia con el patrón de expresión regular
# bool() se utiliza para convertir el resultado en True o False
print(bool(re.search(r'(ly|ed|ing|ers)$', needle)))



# Expresión regular compilada en Python
# Compilando el patrón de expresión regular para un reuso más rápido
# Esto es más eficiente si el patrón se usa varias veces
comp = re.compile(r'(ly|ed|ing|ers)$')
print(bool(comp.search(needle)))



# Los comandos %timeit se usan en Jupyter Notebooks para medir el tiempo de ejecución de pequeños fragmentos de código
# -n 1000 especifica que el comando se ejecutará 1000 veces en cada bucle
# -r 50 indica que habrá 50 de estos bucles
# Esto se utiliza para obtener una medida más precisa del tiempo de ejecución promediando múltiples ejecuciones


# %timeit para el enfoque de Python
%timeit -n 1000 -r 50 bool(any([needle.endswith(e) for e in ('ly', 'ed', 'ing', 'ers')]))


# %timeit para la expresión regular al vuelo
%timeit -n 1000 -r 50 bool(re.search(r'(ly|ed|ing|ers)$', needle))


# %timeit para la expresión regular compilada
%timeit -n 1000 -r 50 bool(comp.search(needle))

In [None]:
import re
test_strs = ["hola quew swre we","gfddw pe fin","BVCBCVBAAAAAdfdf"]
for string in test_strs:
    pattern_lower = re.compile(r'[a-z]')
    match = re.findall(r'[a-z]', string)
    print (match)
    m2 = pattern_lower.search(string)
    if m2:
        print ('Letra encontrada:' , m2.group())
type(pattern_lower)    
    

In [None]:
import re

# Textos de ejemplo
texto1 = "Puedes contactar a juan.perez@example.com, maria@empresa.org, contacto123@dominio.com y ejemplo@mail.com."
texto2 = "Las fechas importantes son 25/12/2022, 01/01/2023, 15/08/2023 y 31/12/2023."
texto3 = "Visita ejemplo.com, mi-sitio.org y https://otro-sitio.net/inicio para más información."
texto4 = "Los 4 códigos postales son 28001, 08002, 41003 y 46004."
texto5 = "Las palabras con guiones son bienvenidas - ejemplo-palabra, prueba-texto, ejemplo-otro y palabra-por-favor."
texto6 = "Fechas en formato mm/dd/yyyy son 12/25/2022, 02/14/2023, 07/04/2023 y 10/31/2023."
texto7 = "Mira #hashtag, #regex, #Python y otros ejemplos de #programación."
texto8 = "Sigue a @usuario1, @usuario2, @miusuario y @ejemplo en Twitter."
texto9 = "Puedes marcar los números (+34) 612-345-678, (+34) 678-123-456 y (+34) 911-234-567 para consultas."
texto10 = "Las palabras alfanuméricas son: Python3, Regex, HTML5 y JavaScript."

match = re.findall(r'[a-zA-Z0-9.]*[@]\w*.\w*', texto1)
print(match) #.group())

match = re.findall(r'\d{2}/\d{2}/\d{4}', texto2)
print(match)

#match = re.findall(r'(https?://)?[\w.-]+', texto3) #(r'[http://]*\S', texto3)
# match = re.findall(r'(?:https?://)?(?:www\.)?[a-zA-Z0-9-]+\.\[a-zA-Z0-9-]+(?:/\S*)?', texto3)
match = re.findall(r'(?:https?://)?(?:www\.)?[a-zA-Z-]+\.\w+(?:/\S*)?', texto3)
match = re.findall(r'https?://\S+', texto3)
print(match)

match = re.findall(r'\d{5}', texto4)
print(match)

match = re.findall(r'\b\w+-\w+\b', texto5)
print(match)

match = re.findall(r'\d{2}/\d{2}/\d{4}', texto6)
print(match)

match = re.findall(r'#\w+', texto7)
print(match)

match = re.findall(r'@[a-zA-Z0-9]+', texto8)
print(match)

match = re.findall(r'\(\+\d{2}\)+\s\d{3}+-\d{3}+-\d{3}+', texto9)
print(match)

texto10 = "Las palabras alfanuméricas son: Python3, Regex, HTML5 y JavaScript."
#match = re.findall(r'\s*\w+\s*', texto10)
#match = re.findall(r'\b\w*\w*\b', texto10)
match = re.findall(r'\b\w+\b', texto10)

print(match)

In [3]:
import re
# Using VERBOSE 
regex_email = re.compile(r""" 
            ^[a-z0-9_\.-]+              # local Part 
            @                             # single @ sign 
            [0-9a-z\.-]+                # Domain name 
            \.                            # single Dot . 
            [a-z]{2,6}$                 # Top level Domain   
             """,re.VERBOSE | re.IGNORECASE)    
stra = "fdfg@sdfsf.com"
match = regex_email.findall(stra)
print(match)

['fdfg@sdfsf.com']


In [2]:
def verificar_oraciones(patron, oraciones):
    """
    Verifica las oraciones contra el patrón de expresión regular proporcionado.
    Argumentos:
        patron (str): El patrón de expresión regular con el que comparar.
        oraciones (lista de tuplas): Una lista de tuplas donde cada tupla contiene una oración y un resultado esperado (True o False).
    Retorna:
        None
    Imprime:
        Retroalimentación para cada oración según si coincide con el patrón o no.
    """
    for oracion, resultado_esperado in oraciones:
        # Verifica si el patrón coincide con toda la cadena.
        coincide = bool(re.fullmatch(patron, oracion))
        # Determina si el resultado coincide con el resultado esperado.
        es_valido = coincide == resultado_esperado
        # Imprime retroalimentación basada en la coincidencia.
        if coincide:
            mensaje_resultado = 'Aprobado'
        else:
            mensaje_resultado = 'No Aprobado'
        mensaje_validez = '(Válido)' if resultado_esperado else '(No Válido)'
        # Mejorar la salida para incluir más detalles
        resultado_detalle = "Coincide" if coincide else "No coincide"
        print(f'{mensaje_resultado} --> {oracion} {mensaje_validez} | {resultado_detalle}')    
        
pattern = r'^[\w\-]+\.((gif|jpeg|jpg|TIF))$' # Solo permite las extensiones específicas
# Define una lista de oraciones para ser comprobadas contra el patrón, junto con sus resultados esperados.
sentences = [
    ('test.gif', True),     # Debe coincidir
    ('image.jpeg', True),    # Debe coincidir
    ('image.jpg', True),    # Debe coincidir
    ('image.TIF', True),    # Debe coincidir
    ('test', False),    # No debe coincidir
    ('test.pdf', False),    # No debe coincidir
    ('test.gif.gif', False),    # No debe coincidir, tiene doble extensión
    ('test..jpg', False),     # No debe coincidir, tiene dos puntos
    ('image.jpeg.jpeg', False)    # No debe coincidir, tiene dos extensiones
]
# Llama a la función verificar_oraciones con el patrón y las oraciones para realizar las comprobaciones.
verificar_oraciones(pattern, sentences)

Aprobado --> test.gif (Válido) | Coincide
Aprobado --> image.jpeg (Válido) | Coincide
Aprobado --> image.jpg (Válido) | Coincide
Aprobado --> image.TIF (Válido) | Coincide
No Aprobado --> test (No Válido) | No coincide
No Aprobado --> test.pdf (No Válido) | No coincide
No Aprobado --> test.gif.gif (No Válido) | No coincide
No Aprobado --> test..jpg (No Válido) | No coincide
No Aprobado --> image.jpeg.jpeg (No Válido) | No coincide


In [22]:
import re
# Texto HTML que contiene la información de los dispositivos
texto_html = """
<html>

<head>
    <title>Catálogo de Libros</title>
</head>

<body>
    <h1>Bienvenidos a nuestra tienda de libros</h1>
    <p>Estamos emocionados de presentar una amplia variedad de libros.Algunos de nuestros títulos más populares
        incluyen:</p>
    <div class="producto">
        <p>He estado leyendo un libro fascinante llamado <strong>ElCamino del Artista</strong>, de <em>Julia Cameron</em>. Te lorecomiendo mucho, realmente es transformador.Por cierto, puedes comprarlo por solo
            <span>$15.99</span> site interesa.Recuerda que hay <strong>34 unidades en stock</strong>.</p>
        <p>Si deseas más información, contacta a <ahref="mailto:julia@example.com">julia@example.com</a> o llama al
                +34612 345 678.¡No te olvides de seguir a @juliacameron en redessociales!</p>
    </div>
    <div class="producto">
        <p>En esta sección, también ofrecemos <strong>Cien años desoledad</strong> de <em>Gabriel García Márquez</em>.Es
            un clásico, aunque el precio de <span>$12.50</span> podríaparecer un poco alto.Aún así, tenemos <strong>50 unidades en stock</strong>, asíque no dudes en preguntar.Puedes enviar un correo a
            <ahref="mailto:gabriel@example.com">gabriel@example.com</a> o marcar +57123 456 7890 para más detalles.</p>
        <p>Además, ¡sigue a @gabrielgarciamarquez en Twitter paraactualizaciones!</p>
    </div>
    <div class="producto">
        <p>Si te gustan las historias conmovedoras, deberías leer<strong>El Principito</strong>. Escrito por <em>Antoine de Saint-Exupéry</em>,este libro es ideal para reflexionar sobre la vida. El precioes de solo
            <span>$10.00</span>.Actualmente, tenemos <strong>120 unidades en stock</strong>,¡así que no te lo pierdas!
        </p>
        <p>Para más información, contáctame a <ahref="mailto:antoine@example.com">antoine@example.com</a> o al +33 123
                45 67 89.No te olvides de seguir a @saint_exupery para más contenidointeresante.</p>
    </div>
    <div class="producto">
        <p>He escuchado que <strong>La sombra del viento</strong> de<em>Carlos Ruiz Zafón</em> es un gran libro,y su
            precio es de <span>$13.75</span>. Estamos emocionados detener <strong>78 unidades en stock</strong>.La
            historia es cautivadora, puedes pedir más detalles al <ahref="mailto:carlos@example.com">
                carlos@example.com</a> o al +34 987654 321.</p>
        <p>No olvides seguir a @carlosruizzafon en Instagram, ¡élcomparte mucho contenido interesante!</p>
    </div>
    <div class="producto">
        <p>Finalmente, para aquellos interesados en estrategias,<strong>El arte de la guerra</strong> de <em>Sun Tzu</em> esimprescindible.A solo <span>$9.99</span> y con <strong>25 unidades en stock</strong>, es una
            gran oportunidad.Contacta a <ahref="mailto:sun@example.com">sun@example.com</a> o llama al +86 101234 5678
                para más información.</p>
        <p>Sigue a @suntzu para obtener más consejos estratégicos.</p>
    </div>
    <p>¡Gracias por visitar nuestra tienda de libros! No olvides quetambién tenemos promociones especiales, así que
        estate atento. Sinecesitas ayuda, estamos aquí para ti. ¡Que tengas un gran día!</p>
</body>

</html>
"""

El siguiente bloque de texto HTML contiene información sobre varios libros disponibles en una tienda. Nuestro objetivo es extraer información clave utilizando expresiones regulares y organizarla en una tabla. La información a extraer incluye:

1. Título del libro: El texto que se encuentra dentro de las etiquetas <strong>.    
```<strong>sdfg sdgfsdf ds </strong>```
    
2. Autor del libro: El texto que se encuentra dentro de las etiquetas <em>. 
```<em> sdfg 4353454 sdfsdf4235fgs sdfgdsf</em>```

3. Precio: La cantidad que aparece dentro de las etiquetas <span>, precedida por el símbolo de dólar $.
```<span>$15.99</span>```
    
4. Unidades en stock: El número que aparece después de "unidades en stock" en el texto fuerte <strong>.
```<span>4 unidades en stock</span>```
    
5. Correo electrónico: La dirección de correo que se encuentra dentro de las etiquetas <a> con el atributo href que comienza con mailto:.
```<href>mailto:</href>```

6. Número de teléfono: El número que se menciona al principio de la frase que contiene la palabra "llama al".
```llama al```
    
7. Información de contacto en redes sociales: Los nombres de usuario que aparecen precedidos por @.
```<span>????@sdfasdfasd</span>```

Utiliza expresiones regulares en Python para capturar esta información y construir una tabla organizada.

In [6]:
# Primera prova Cesc:
#print (texto_html)
patron = r'(<span>\$)([\d\-]+\.[\d\-]+)'
#res = re.fullmatch(patron, texto_html)
match = re.findall(patron, texto_html)
precios = []
for i in range(0,len(match)):
        precios.append(match[i][1])
print(precios)
print(match)

['15.99', '12.50', '10.00', '13.75', '9.99']
[('<span>$', '15.99'), ('<span>$', '12.50'), ('<span>$', '10.00'), ('<span>$', '13.75'), ('<span>$', '9.99')]


In [23]:
import re
pa_title = r'<strong>(?!\d)(.*?)<\/strong>'
match_title = re.findall(pa_title, texto_html)
print(match_title)

pa_autor = r'<em>(.*?)<\/em>'
match_autor = re.findall(pa_autor, texto_html)
print(match_autor)

#    <span>$(.*?)<\/span>
pa_price = r'<span>\$(.*?)<\/span>'
match_price = re.findall(pa_price, texto_html)
print(match_price)

#pa_stock = r'<strong>(\d+ unidades en stock)<\/strong>' #"unidades en stock" en el texto fuerte .
pa_stock = r'<strong>(\d+) unidades en stock<\/strong>' #"unidades en stock" en el texto fuerte .
match_stock = re.findall(pa_stock, texto_html)
print(match_stock)

pa_email = r'mailto:'
match_email = re.findall(pa_email, texto_html)
print(match_email)

pa_tel = r'\+\d{2,3}[0-9\s]+'
match_tel = re.findall(pa_tel, texto_html)
print(match_tel)

pa_social =r'(?<!\w)(@\w+)'
match_social = re.findall(pa_social, texto_html)
print(match_social)


['ElCamino del Artista', 'Cien años desoledad', 'El Principito', 'La sombra del viento', 'El arte de la guerra']
['Julia Cameron', 'Gabriel García Márquez', 'Antoine de Saint-Exupéry', 'Carlos Ruiz Zafón', 'Sun Tzu']
['15.99', '12.50', '10.00', '13.75', '9.99']
['34', '50', '120', '78', '25']
['mailto:', 'mailto:', 'mailto:', 'mailto:', 'mailto:']
['+34612 345 678', '+57123 456 7890 ', '+33 123\n                45 67 89', '+34 987654 321', '+86 101234 5678\n                ']
['@juliacameron', '@gabrielgarciamarquez', '@saint_exupery', '@carlosruizzafon', '@suntzu']


In [None]:
import pandas as pd
data = {
    "title": match_title,        
    "autor": match_autor,
    "price": match_price,
    "stock": match_stock,
    "email": match_email,
    "tel": match_tel,
    "social": match_social
}
tap = pd.DataFrame(data)