<a href="https://colab.research.google.com/github/Laquesis/cursoIA/blob/main/respuestaDesafios_Regex_carmen_ramirez.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Desafío con Regex

El siguiente bloque de texto HTML contiene información sobre varios libros disponibles en una tienda. Nuestro objetivo es extraer información clave utilizando **expresiones regulares** y organizarla en una tabla. La información a extraer incluye:

1. **Título del libro**: El texto que se encuentra dentro de las etiquetas `<strong>`.
2. **Autor del libro**: El texto que se encuentra dentro de las etiquetas `<em>`.
3. **Precio**: La cantidad que aparece dentro de las etiquetas `<span>`, precedida por el símbolo de dólar `$`.
4. **Unidades en stock**: El número que aparece después de "unidades en stock" en el texto fuerte `<strong>`.
5. **Correo electrónico**: La dirección de correo que se encuentra dentro de las etiquetas `<a>` con el atributo `href` que comienza con `mailto:`.
6. **Número de teléfono**: El número que se menciona al principio de la frase que contiene la palabra "llama al".
7. **Información de contacto en redes sociales**: Los nombres de usuario que aparecen precedidos por `@`.

A continuación se muestra un ejemplo de cómo podrías escribir un script en Python utilizando **expresiones regulares** para extraer esta información:


In [7]:
import re
import pandas as pd
# Texto HTML que contiene la información de los libros
texto_html = """
<html>
    <head>
        <title>Catálogo de Libros</title>
    </head>
    <body>
        <h1>Bienvenidos a nuestra tienda de libros</h1>
        <p>Estamos emocionados de presentar una amplia variedad de libros.
        Algunos de nuestros títulos más populares incluyen:</p>
        <div class="producto">
            <p>He estado leyendo un libro fascinante llamado <strong>El Camino del Artista</strong>, de <em>Julia Cameron</em>.
            Te lo recomiendo mucho, realmente es transformador.
            Por cierto, puedes comprarlo por solo <span>$15.99</span> si te interesa.
            Recuerda que hay <strong>34 unidades en stock</strong>.</p>
            <p>Si deseas más información, contacta a <a href="mailto:julia@example.com">julia@example.com</a> o llama al +34 612 345 678.
            ¡No te olvides de seguir a @juliacameron en redes sociales!</p>
        </div>
        <div class="producto">
            <p>En esta sección, también ofrecemos <strong>Cien años de soledad</strong> de <em>Gabriel García Márquez</em>.
            Es un clásico, aunque el precio de <span>$12.50</span> podría parecer un poco alto.
            Aún así, tenemos <strong>50 unidades en stock</strong>, así que no dudes en preguntar.
            Puedes enviar un correo a <a href="mailto:gabriel@example.com">gabriel@example.com</a> o marcar +57 123 456 7890 para más detalles.</p>
            <p>Además, ¡sigue a @gabrielgarciamarquez en Twitter para actualizaciones!</p>
        </div>
        <div class="producto">
            <p>Si te gustan las historias conmovedoras, deberías leer <strong>El Principito</strong>. Escrito por
            <em>Antoine de Saint-Exupéry</em>, este libro es ideal para reflexionar sobre la vida. El precio es de solo
            <span>$10.00</span>. Actualmente, tenemos <strong>120 unidades en stock</strong>, ¡así que no te lo pierdas!</p>
            <p>Para más información, contáctame a <a href="mailto:antoine@example.com">antoine@example.com</a> o al +33 1 23 45 67 89. No te olvides de seguir a @saint_exupery para más contenido interesante.</p>
        </div>
        <div class="producto">
            <p>He escuchado que <strong>La sombra del viento</strong> de <em>Carlos Ruiz Zafón</em> es un gran libro,
            y su precio es de <span>$13.75</span>. Estamos emocionados de tener <strong>78 unidades en stock</strong>.
            La historia es cautivadora, puedes pedir más detalles al <a href="mailto:carlos@example.com">carlos@example.com</a>
            o al +34 987 654 321.</p>
            <p>No olvides seguir a @carlosruizzafon en Instagram, ¡él comparte mucho contenido interesante!</p>
        </div>
        <div class="producto">
            <p>Finalmente, para aquellos interesados en estrategias, <strong>El arte de la guerra</strong> de <em>Sun Tzu</em>
            es imprescindible. A solo <span>$9.99</span> y con <strong>25 unidades en stock</strong>, es una gran oportunidad.
            Contacta a <a href="mailto:sun@example.com">sun@example.com</a> o llama al +86 10 1234 5678 para más información.</p>
            <p>Sigue a @suntzu para obtener más consejos estratégicos.</p>
        </div>
        <p>¡Gracias por visitar nuestra tienda de libros! No olvides que también tenemos promociones especiales, así que estate atento.
        Si necesitas ayuda, estamos aquí para ti. ¡Que tengas un gran día!</p>
    </body>
</html>
"""
div_patron =r'<div[^>]*\bclass="[^"]*\bproducto\b[^"]*"[^>]*>(.*?)<\/div>'
patron_strong_texto =r'<strong>([^\d]+?)<\/strong>'
patron_strong_numero =r'<strong>.*?(\d+).*?<\/strong>'
patron_span=r'<span>([0-9.\-$]+)<\/span>'
patron_em=r'<em>([^<]+)<\/em>'
patron_email=r'<a[^>]*href=["\']mailto:([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})["\'][^>]*>'
patron_hashtag=r'\s@\w+\s'
patron_telefono=r'(\+?\d[\d\s-]{7,}\d)'
#r"(?<!\w)()

tabla ={"titulo":[],
        "autor":[],
        "precio":[],
        "stock":[],
        "mail":[],
        "telefono":[],
        "hashtag":[]}


tabla['titulo']= re.findall(patron_strong_texto,texto_html)
tabla['autor'] = re.findall(patron_em,texto_html)
tabla['precio']= re.findall(patron_span,texto_html)
tabla['stock'] = re.findall(patron_strong_numero,texto_html)
tabla['mail'] =re.findall(patron_email, texto_html)
tabla['telefono'] = re.findall(patron_telefono,texto_html)
tabla['hashtag']= re.findall(patron_hashtag,texto_html)
print(tabla)
#data frame
df = pd.DataFrame(tabla)
df

{'titulo': ['El Camino del Artista', 'Cien años de soledad', 'El Principito', 'La sombra del viento', 'El arte de la guerra'], 'autor': ['Julia Cameron', 'Gabriel García Márquez', 'Antoine de Saint-Exupéry', 'Carlos Ruiz Zafón', 'Sun Tzu'], 'precio': ['$15.99', '$12.50', '$10.00', '$13.75', '$9.99'], 'stock': ['34', '50', '120', '78', '25'], 'mail': ['julia@example.com', 'gabriel@example.com', 'antoine@example.com', 'carlos@example.com', 'sun@example.com'], 'telefono': ['+34 612 345 678', '+57 123 456 7890', '+33 1 23 45 67 89', '+34 987 654 321', '+86 10 1234 5678'], 'hashtag': [' @juliacameron ', ' @gabrielgarciamarquez ', ' @saint_exupery ', ' @carlosruizzafon ', ' @suntzu ']}


Unnamed: 0,titulo,autor,precio,stock,mail,telefono,hashtag
0,El Camino del Artista,Julia Cameron,$15.99,34,julia@example.com,+34 612 345 678,@juliacameron
1,Cien años de soledad,Gabriel García Márquez,$12.50,50,gabriel@example.com,+57 123 456 7890,@gabrielgarciamarquez
2,El Principito,Antoine de Saint-Exupéry,$10.00,120,antoine@example.com,+33 1 23 45 67 89,@saint_exupery
3,La sombra del viento,Carlos Ruiz Zafón,$13.75,78,carlos@example.com,+34 987 654 321,@carlosruizzafon
4,El arte de la guerra,Sun Tzu,$9.99,25,sun@example.com,+86 10 1234 5678,@suntzu


In [None]:
# Mostrar DataFrame
tabla

Unnamed: 0,Título del libro,Autor,Precio,Unidades en stock,Correo electrónico,Teléfono,Usuario en redes sociales
0,El Camino del Artista,Julia Cameron,15.99,34,julia@example.com,+34 612 345 678,@juliacameron
1,Cien años de soledad,Gabriel García Márquez,12.5,50,gabriel@example.com,+57 123 456 7890,@gabrielgarciamarquez
2,El Principito,Antoine de Saint-Exupéry,10.0,120,antoine@example.com,+33 1 23 45 67 89,@saint_exupery
3,La sombra del viento,Carlos Ruiz Zafón,13.75,78,carlos@example.com,+34 987 654 321,@carlosruizzafon
4,El arte de la guerra,Sun Tzu,9.99,25,sun@example.com,+86 10 1234 5678,@suntzu


# Desafío con Regex (Problemas en el Texto)

El siguiente bloque de texto HTML contiene información sobre varios libros disponibles en una tienda. Nuestro objetivo es extraer información clave utilizando **expresiones regulares** y organizarla en una tabla. La información a extraer incluye:

1. **Título del libro**: El texto que se encuentra dentro de las etiquetas `<strong>`.
2. **Autor del libro**: El texto que se encuentra dentro de las etiquetas `<em>`.
3. **Precio**: La cantidad que aparece dentro de las etiquetas `<span>`, precedida por el símbolo de dólar `$`.
4. **Unidades en stock**: El número que aparece después de "unidades en stock" en el texto fuerte `<strong>`.
5. **Correo electrónico**: La dirección de correo que se encuentra dentro de las etiquetas `<a>` con el atributo `href` que comienza con `mailto:`.
6. **Número de teléfono**: El número que se menciona al principio de la frase que contiene la palabra "llama al".
7. **Información de contacto en redes sociales**: Los nombres de usuario que aparecen precedidos por `@`.

A continuación se muestra un ejemplo de cómo podrías escribir un script en Python utilizando **expresiones regulares** para extraer esta información:


In [9]:
import re
import pandas as pd
# Texto HTML que contiene la información de los libros
texto_html = """
<html>
<head>
<title>Catálogo de Libros</title>
</head>
<body>
<h1>Bienvenidos a nuestra tienda de libros</h1>
<p>Estamos emocionados de presentar una amplia variedad de libros.
Algunos de nuestros títulos más populares incluyen:</p>
<div class="producto">
<p>He estado leyendo un libro fascinante llamado <strong>El
Camino del Artista</strong>, de <em>Julia Cameron</em>. Te lo
recomiendo mucho, realmente es transformador.
Por cierto, puedes comprarlo por solo <span>$15.99</span> si
te interesa.
Recuerda que hay <strong>34 unidades en stock</strong>.</p>
<p>Si deseas más información, contacta a <a
href="mailto:julia@example.com">julia@example.com</a> o llama al +34
612 345 678.
¡No te olvides de seguir a @juliacameron en redes
sociales!</p>
</div>
<div class="producto">
<p>En esta sección, también ofrecemos <strong>Cien años de
soledad</strong> de <em>Gabriel García Márquez</em>.
Es un clásico, aunque el precio de <span>$12.50</span> podría
parecer un poco alto.
Aún así, tenemos <strong>50 unidades en stock</strong>, así
que no dudes en preguntar.
Puedes enviar un correo a <a
href="mailto:gabriel@example.com">gabriel@example.com</a> o marcar +57
123 456 7890 para más detalles.</p>
<p>Además, ¡sigue a @gabrielgarciamarquez en Twitter para
actualizaciones!</p>
</div>
<div class="producto">
<p>Si te gustan las historias conmovedoras, deberías leer
<strong>El Principito</strong>. Escrito por <em>Antoine de Saint-
Exupéry</em>,
este libro es ideal para reflexionar sobre la vida. El precio
es de solo <span>$10.00</span>.
Actualmente, tenemos <strong>120 unidades en stock</strong>,
¡así que no te lo pierdas!</p>
<p>Para más información, contáctame a <a
href="mailto:antoine@example.com">antoine@example.com</a> o al +33 1
23 45 67 89.
No te olvides de seguir a @saint_exupery para más contenido
interesante.</p>
</div>
<div class="producto">
<p>He escuchado que <strong>La sombra del viento</strong> de
<em>Carlos Ruiz Zafón</em> es un gran libro,
y su precio es de <span>$13.75</span>. Estamos emocionados de
tener <strong>78 unidades en stock</strong>.
La historia es cautivadora, puedes pedir más detalles al <a
href="mailto:carlos@example.com">carlos@example.com</a> o al +34 987
654 321.</p>
<p>No olvides seguir a @carlosruizzafon en Instagram, ¡él
comparte mucho contenido interesante!</p>
</div>
<div class="producto">
<p>Finalmente, para aquellos interesados en estrategias,
<strong>El arte de la guerra</strong> de <em>Sun Tzu</em> es
imprescindible.
A solo <span>$9.99</span> y con <strong>25 unidades en
stock</strong>, es una gran oportunidad.
 Contacta a <a
href="mailto:sun@example.com">sun@example.com</a> o llama al +86 10
1234 5678 para más información.</p>
<p>Sigue a @suntzu para obtener más consejos estratégicos.</p>
</div>
<p>¡Gracias por visitar nuestra tienda de libros! No olvides que
también tenemos promociones especiales, así que estate atento. Si
necesitas ayuda, estamos aquí para ti. ¡Que tengas un gran día!</p>
</body>
</html>
"""
div_patron =r'<div[^>]*\bclass="[^"]*\bproducto\b[^"]*"[^>]*>(.*?)<\/div>'
patron_strong_texto =r'<strong>([^\d]+?)<\/strong>'
patron_strong_numero =r'<strong>.*?(\d+).*?<\/strong>'
patron_span=r'<span>([0-9.\-$]+)<\/span>'
patron_em=r'<em>([^<]+)<\/em>'
patron_email=r'<a[^>]*href=["\']mailto:([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})["\'][^>]*>'
patron_hashtag=r'\s@\w+\s'
patron_telefono=r'(\+?\d[\d\s-]{7,}\d)'

tabla2 ={"titulo":[],
        "autor":[],
        "precio":[],
        "stock":[],
        "mail":[],
        "telefono":[],
        "hashtag":[]}
reagrupacion=""
reagrupacion= re.sub(r'\n', ' ', texto_html)

tabla2['titulo']= re.findall(patron_strong_texto, reagrupacion)
tabla2['autor'] = re.findall(patron_em, reagrupacion)
tabla2['precio']= re.findall(patron_span, reagrupacion)
tabla2['stock'] = re.findall(patron_strong_numero, reagrupacion)
tabla2['mail'] =re.findall(patron_email,  reagrupacion)
tabla2['telefono'] = re.findall(patron_telefono, reagrupacion)
tabla2['hashtag']= re.findall(patron_hashtag, reagrupacion)
#print(tabla2)
#data frame
df = pd.DataFrame(tabla2)
df

Unnamed: 0,titulo,autor,precio,stock,mail,telefono,hashtag
0,El Camino del Artista,Julia Cameron,$15.99,15,julia@example.com,+34 612 345 678,@juliacameron
1,Cien años de soledad,Gabriel García Márquez,$12.50,12,gabriel@example.com,+57 123 456 7890,@gabrielgarciamarquez
2,El Principito,Antoine de Saint- Exupéry,$10.00,10,antoine@example.com,+33 1 23 45 67 89,@saint_exupery
3,La sombra del viento,Carlos Ruiz Zafón,$13.75,13,carlos@example.com,+34 987 654 321,@carlosruizzafon
4,El arte de la guerra,Sun Tzu,$9.99,9,sun@example.com,+86 10 1234 5678,@suntzu


In [None]:
# Mostrar DataFrame
tabla

Unnamed: 0,Título del libro,Autor,Precio,Unidades en stock,Correo Electrónico,Teléfono,Usuario en redes sociales
0,El Camino del Artista,Julia Cameron,15.99,34,julia@example.com,+34 612 345 678,@juliacameron
1,Cien años de soledad,Gabriel García Márquez,12.5,50,gabriel@example.com,+57 123 456 7890,@gabrielgarciamarquez
2,El Principito,Antoine de Saint- Exupéry,10.0,120,antoine@example.com,+33 1 23 45 67 89,@saint_exupery
3,La sombra del viento,Carlos Ruiz Zafón,13.75,78,carlos@example.com,+34 987 654 321,@carlosruizzafon
4,El arte de la guerra,Sun Tzu,9.99,25,sun@example.com,+86 10 1234 5678,@suntzu


# Desafío con Regex

El siguiente bloque de texto HTML contiene información sobre varios dispositivos electrónicos disponibles en una tienda. Nuestro objetivo es extraer información clave utilizando **expresiones regulares** y organizarla en una tabla. La información a extraer incluye:

1. **Nombre del dispositivo**: El texto que se encuentra dentro de las etiquetas `<strong>`, seguido de una etiqueta `<em>`.
2. **Marca del dispositivo**: El texto que se encuentra dentro de las etiquetas `<em>`.
3. **Precio**: La cantidad que aparece dentro de las etiquetas `<span>`, precedida por el símbolo de dólar `$`.
4. **Unidades en stock**: El número que aparece después de "unidades en stock" en el texto fuerte `<strong>`.
5. **Correo electrónico**: La dirección de correo que se encuentra dentro de las etiquetas `<a>` con el atributo `href` que comienza con `mailto:`.
6. **Número de teléfono**: El número que se menciona en el formato internacional, precedido por el símbolo `+`.
7. **Información de contacto en redes sociales**: Los nombres de usuario que aparecen precedidos por `@`.
8. **Código del producto**: El texto que aparece después de "Código del producto:" en el texto fuerte `<strong>`.

Utiliza expresiones regulares en Python para capturar esta información y construir una tabla organizada.


In [10]:
import re

# Texto HTML que contiene la información de los dispositivos
texto_html = """
<html>
<head>
    <title>Catálogo de Dispositivos Electrónicos</title>
</head>
<body>
    <h1>Bienvenidos a nuestra tienda de dispositivos electrónicos</h1>
    <p>Estamos emocionados de presentar una amplia variedad de productos. Algunos de nuestros artículos más populares incluyen:</p>

    <div class="producto">
        <p>He estado usando un dispositivo increíble llamado <strong>Smartwatch Pro</strong>, <em>Gadget Corp</em>.
        Te lo recomiendo mucho, realmente es transformador. Por cierto, puedes comprarlo por solo <span>$199.99</span> si te interesa.
        Recuerda que hay <strong>50 unidades en stock</strong>. Código del producto: <strong>COD-001</strong>.</p>
        <p>Si deseas más información, contacta a <a href="mailto:support@gadgetcorp.com">support@gadgetcorp.com</a> o llama al +34 612 345 678.
        ¡No te olvides de seguir a @gadgetcorp en redes sociales!</p>
    </div>

    <div class="producto">
        <p>En esta sección, también ofrecemos <strong>Cámara Ultra HD</strong>, <em>Camera Inc</em>.
        Es un clásico, aunque el precio de <span>$299.00</span> podría parecer un poco alto.
        Aún así, tenemos <strong>20 unidades en stock</strong>. Código del producto: <strong>COD-002</strong>.</p>
        <p>Puedes enviar un correo a <a href="mailto:sales@camerainc.com">sales@camerainc.com</a> o marcar +57 123 456 7890 para más detalles.</p>
        <p>Además, ¡sigue a @camera_inc en Twitter para actualizaciones!</p>
    </div>

    <div class="producto">
        <p>Si te gustan los gadgets innovadores, deberías leer sobre <strong>Auriculares Inalámbricos</strong>, <em>SoundWave</em>.
        Este producto es ideal para disfrutar de la música. El precio es de solo <span>$89.99</span>.
        Actualmente, tenemos <strong>100 unidades en stock</strong>. Código del producto: <strong>COD-003</strong>.</p>
        <p>Para más información, contáctame a <a href="mailto:info@soundwave.com">info@soundwave.com</a> o al +33 1 23 45 67 89.
        No te olvides de seguir a @soundwave para más contenido interesante.</p>
    </div>

    <div class="producto">
        <p>He escuchado que <strong>Portátil Ultra Ligero</strong>, <em>TechZone</em> es un gran dispositivo,
        y su precio es de <span>$799.99</span>. Estamos emocionados de tener <strong>30 unidades en stock</strong>.
        Código del producto: <strong>COD-004</strong>.</p>
        <p>La historia es cautivadora, puedes pedir más detalles al <a href="mailto:contact@techzone.com">contact@techzone.com</a> o al +34 987 654 321.</p>
        <p>No olvides seguir a @techzone en Instagram, ¡ellos comparten mucho contenido interesante!</p>
    </div>

    <div class="producto">
        <p>Finalmente, para aquellos interesados en videojuegos, <strong>Consola de Juegos Avanzada</strong>, <em>GameSphere</em> es imprescindible.
        A solo <span>$499.99</span> y con <strong>25 unidades en stock</strong>. Código del producto: <strong>COD-005</strong>.</p>
        <p>Contacta a <a href="mailto:support@gamesphere.com">support@gamesphere.com</a> o llama al +86 10 1234 5678 para más información.</p>
        <p>Sigue a @gamesphere para obtener más consejos estratégicos.</p>
    </div>

    <div class="producto">
        <p>¿Buscas una excelente laptop? <strong>Gamer Laptop X</strong>, <em>UltraTech</em> tiene un rendimiento impresionante.
        Su precio es de <span>$1,199.00</span> y tenemos <strong>15 unidades en stock</strong>. Código del producto: <strong>COD-006</strong>.</p>
        <p>Escribe a <a href="mailto:info@ultratech.com">info@ultratech.com</a> o llama al +34 912 345 678 para más información.</p>
        <p>También puedes seguir a @ultratech en redes sociales.</p>
    </div>

    <div class="producto">
        <p>Para quienes buscan una pantalla grande, recomendamos el <strong>Monitor 4K</strong>, <em>Visionary</em>.
        Con un precio de <span>$499.99</span> y <strong>40 unidades en stock</strong>. Código del producto: <strong>COD-007</strong>.</p>
        <p>Contáctanos a través de <a href="mailto:support@visionary.com">support@visionary.com</a> o llama al +34 987 654 321.</p>
        <p>Sigue a @visionary en Twitter para más actualizaciones.</p>
    </div>

    <div class="producto">
        <p>La <strong>Tablet Pro</strong>, <em>TabletMaker</em> es perfecta para el trabajo y el ocio.
        A solo <span>$349.99</span>, tenemos <strong>60 unidades en stock</strong>. Código del producto: <strong>COD-008</strong>.</p>
        <p>Envía un correo a <a href="mailto:info@tabletmaker.com">info@tabletmaker.com</a> o llama al +34 654 321 987.</p>
        <p>No olvides seguir a @tabletmaker en Instagram.</p>
    </div>

    <div class="producto">
        <p>Para los amantes de la música, los <strong>Altavoces Bluetooth</strong>, <em>SoundBlast</em> son ideales.
        A un precio de <span>$89.99</span> y <strong>100 unidades en stock</strong>. Código del producto: <strong>COD-009</strong>.</p>
        <p>Puedes contactarnos a <a href="mailto:support@soundblast.com">support@soundblast.com</a> o al +34 321 654 987.</p>
        <p>Sigue a @soundblast en redes sociales.</p>
    </div>

    <div class="producto">
        <p>Por último, los <strong>Relojes Inteligentes</strong>, <em>TimeSmart</em> son perfectos para los entusiastas de la tecnología.
        Con un precio de <span>$149.99</span> y <strong>75 unidades en stock</strong>. Código del producto: <strong>COD-010</strong>.</p>
        <p>Para consultas, escribe a <a href="mailto:contact@timesmart.com">contact@timesmart.com</a> o llama al +34 765 432 109.</p>
        <p>No olvides seguir a @timesmart para más novedades.</p>
    </div>

    <p>¡Gracias por visitar nuestra tienda de dispositivos electrónicos! No olvides que también tenemos promociones especiales, así que estate atento. Si necesitas ayuda, estamos aquí para ti. ¡Que tengas un gran día!</p>
</body>
</html>
"""
div_patron =r'<div[^>]*\bclass="[^"]*\bproducto\b[^"]*"[^>]*>(.*?)<\/div>'
patron_strong_texto = r'<strong>(?:(?!\d+\s+unidades\s+en\s+stock|COD-\d+)(.*?)<\/strong>)'
patron_strong_numero =r'<strong>(\d+)\s+unidades\s+en\s+stock<\/strong>'
patron_span=r'<span>([0-9.\-$,]+)<\/span>'
patron_em=r'<em>([^<]+)<\/em>'
patron_email=r'<a[^>]*href=["\']mailto:([a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,})["\'][^>]*>'
patron_hashtag=r'\s@\w+\s'
patron_telefono=r'(\+?\d[\d\s-]{7,}\d)'
patron_codigo=r'<strong>\s*(COD-\d+)\s*<\/strong>'

tabla ={"nombre":[],
        "marca":[],
        "precio":[],
        "stock":[],
        "codigo":[],
        "mail":[],
        "telefono":[],
        "hashtag":[]}


tabla['nombre']=re.findall(patron_strong_texto,texto_html)
tabla['marca'] = re.findall(patron_em,texto_html)
tabla['precio']= re.findall(patron_span,texto_html)
tabla['stock'] = re.findall(patron_strong_numero,texto_html)
tabla["codigo"]=re.findall(patron_codigo,texto_html)
tabla['mail'] =re.findall(patron_email, texto_html)
tabla['telefono'] = re.findall(patron_telefono,texto_html)
tabla['hashtag']= re.findall(patron_hashtag,texto_html)
print(tabla)
#data frame
df = pd.DataFrame(tabla)
df


{'nombre': ['Smartwatch Pro', 'Cámara Ultra HD', 'Auriculares Inalámbricos', 'Portátil Ultra Ligero', 'Consola de Juegos Avanzada', 'Gamer Laptop X', 'Monitor 4K', 'Tablet Pro', 'Altavoces Bluetooth', 'Relojes Inteligentes'], 'marca': ['Gadget Corp', 'Camera Inc', 'SoundWave', 'TechZone', 'GameSphere', 'UltraTech', 'Visionary', 'TabletMaker', 'SoundBlast', 'TimeSmart'], 'precio': ['$199.99', '$299.00', '$89.99', '$799.99', '$499.99', '$1,199.00', '$499.99', '$349.99', '$89.99', '$149.99'], 'stock': ['50', '20', '100', '30', '25', '15', '40', '60', '100', '75'], 'codigo': ['COD-001', 'COD-002', 'COD-003', 'COD-004', 'COD-005', 'COD-006', 'COD-007', 'COD-008', 'COD-009', 'COD-010'], 'mail': ['support@gadgetcorp.com', 'sales@camerainc.com', 'info@soundwave.com', 'contact@techzone.com', 'support@gamesphere.com', 'info@ultratech.com', 'support@visionary.com', 'info@tabletmaker.com', 'support@soundblast.com', 'contact@timesmart.com'], 'telefono': ['+34 612 345 678', '+57 123 456 7890', '+33 

Unnamed: 0,nombre,marca,precio,stock,codigo,mail,telefono,hashtag
0,Smartwatch Pro,Gadget Corp,$199.99,50,COD-001,support@gadgetcorp.com,+34 612 345 678,@gadgetcorp
1,Cámara Ultra HD,Camera Inc,$299.00,20,COD-002,sales@camerainc.com,+57 123 456 7890,@camera_inc
2,Auriculares Inalámbricos,SoundWave,$89.99,100,COD-003,info@soundwave.com,+33 1 23 45 67 89,@soundwave
3,Portátil Ultra Ligero,TechZone,$799.99,30,COD-004,contact@techzone.com,+34 987 654 321,@techzone
4,Consola de Juegos Avanzada,GameSphere,$499.99,25,COD-005,support@gamesphere.com,+86 10 1234 5678,@gamesphere
5,Gamer Laptop X,UltraTech,"$1,199.00",15,COD-006,info@ultratech.com,+34 912 345 678,@ultratech
6,Monitor 4K,Visionary,$499.99,40,COD-007,support@visionary.com,+34 987 654 321,@visionary
7,Tablet Pro,TabletMaker,$349.99,60,COD-008,info@tabletmaker.com,+34 654 321 987,@tabletmaker
8,Altavoces Bluetooth,SoundBlast,$89.99,100,COD-009,support@soundblast.com,+34 321 654 987,@soundblast
9,Relojes Inteligentes,TimeSmart,$149.99,75,COD-010,contact@timesmart.com,+34 765 432 109,@timesmart


In [None]:
# Mostrar la tabla resultante
tabla

Unnamed: 0,Nombre del dispositivo,Marca,Precio,Unidades en stock,Correo electrónico,Teléfono,Usuario en redes sociales,Código del producto
0,Smartwatch Pro,Gadget Corp,199.99,50,support@gadgetcorp.com,+34 612 345 678,@gadgetcorp,COD-001
1,Cámara Ultra HD,Camera Inc,299.0,20,sales@camerainc.com,+57 123 456 7890,@camera_inc,COD-002
2,Auriculares Inalámbricos,SoundWave,89.99,100,info@soundwave.com,+33 1 23 45 67 89,@soundwave,COD-003
3,Portátil Ultra Ligero,TechZone,799.99,30,contact@techzone.com,+34 987 654 321,@techzone,COD-004
4,Consola de Juegos Avanzada,GameSphere,499.99,25,support@gamesphere.com,+86 10 1234 5678,@gamesphere,COD-005
5,Gamer Laptop X,UltraTech,1199.0,15,info@ultratech.com,+34 912 345 678,@ultratech,COD-006
6,Monitor 4K,Visionary,499.99,40,support@visionary.com,+34 987 654 321,@visionary,COD-007
7,Tablet Pro,TabletMaker,349.99,60,info@tabletmaker.com,+34 654 321 987,@tabletmaker,COD-008
8,Altavoces Bluetooth,SoundBlast,89.99,100,support@soundblast.com,+34 321 654 987,@soundblast,COD-009
9,Relojes Inteligentes,TimeSmart,149.99,75,contact@timesmart.com,+34 765 432 109,@timesmart,COD-010


# Desafío con Regex

El siguiente bloque de texto contiene información sobre varios eventos que se llevarán a cabo en diferentes lugares. Nuestro objetivo es extraer información clave utilizando **expresiones regulares** y organizarla en una tabla. La información a extraer incluye:

1. **Nombre del evento**: El texto que se encuentra entre las etiquetas `<h2>`.
2. **Fecha del evento**: La fecha que se menciona en el formato DD/MM/AAAA dentro de las etiquetas `<date>`.
3. **Hora de inicio**: La hora que se menciona en el formato HH:MM dentro de las etiquetas `<time>`.
4. **Lugar**: El texto que aparece dentro de las etiquetas `<location>`.
5. **Precio**: El monto que aparece precedido por el símbolo de dólar `$` dentro de las etiquetas `<cost>`.
6. **Organizador**: El nombre que se encuentra dentro de las etiquetas `<organizer>`.
7. **Número de contacto**: El número de teléfono en formato internacional precedido por `+` dentro de las etiquetas `<contact>`.
8. **Sitio web**: La URL que se menciona dentro de las etiquetas `<url>`.

Utiliza expresiones regulares en Python para capturar esta información y construir una tabla organizada.


In [None]:
import re

# Texto HTML que contiene la información de los eventos
texto_html = """
<html>
<head>
    <title>Calendario de Eventos</title>
</head>
<body>
    <h1>Eventos Destacados</h1>
    <p>Explora nuestra variedad de eventos programados a lo largo del año.</p>

    <div class="evento">
        <p>Asiste al <h2>Festival de Música</h2>, <em>Sonidos del Mundo</em>.
        Disfruta de grandes artistas por solo <cost>$50.00</cost>.
        Hay <strong>100 unidades en stock</strong>. Código del evento: <strong>EVT-001</strong>.</p>
        <p>Contacta a <a href="mailto:info@sonidosdelmundo.com">info@sonidosdelmundo.com</a> o llama al <contact>+34 123 456 789</contact>.</p>
        <p>Sigue a @sonidosdelmundo para más novedades.</p>
        <date>15/05/2024</date>
        <time>18:00</time>
        <location>Auditorio Nacional</location>
        <url>www.sonidosdelmundo.com</url>
    </div>

    <div class="evento">
        <p>No te pierdas la <h2>Carrera de Maratón</h2>, <em>Correr es Vida</em>.
        Participa por solo <cost>$30.00</cost>.
        Quedan <strong>200 unidades en stock</strong>. Código del evento: <strong>EVT-002</strong>.</p>
        <p>Puedes enviar un correo a <a href="mailto:contacto@correresvida.com">contacto@correresvida.com</a> o llamar al <contact>+34 987 654 321</contact>.</p>
        <p>Sigue a @correresvida para actualizaciones.</p>
        <date>20/06/2024</date>
        <time>09:00</time>
        <location>Parque Central</location>
        <url>www.correresvida.com</url>
    </div>

    <div class="evento">
        <p>Ven al <h2>Simposio de Tecnología</h2>, <em>Innovadores</em>.
        A un costo de <cost>$100.00</cost>.
        Disponibles <strong>150 unidades en stock</strong>. Código del evento: <strong>EVT-003</strong>.</p>
        <p>Para más información, contacta a <a href="mailto:info@innovadores.com">info@innovadores.com</a> o al <contact>+34 321 654 987</contact>.</p>
        <p>Sigue a @innovadores en redes sociales.</p>
        <date>10/07/2024</date>
        <time>10:00</time>
        <location>Centro de Convenciones</location>
        <url>www.innovadores.com</url>
    </div>

    <div class="evento">
        <p>Participa en la <h2>Exposición de Arte</h2>, <em>Artistas Unidos</em>.
        El precio es de <cost>$25.00</cost>.
        Tenemos <strong>50 unidades en stock</strong>. Código del evento: <strong>EVT-004</strong>.</p>
        <p>Contacta a <a href="mailto:info@artistasunidos.com">info@artistasunidos.com</a> o llama al <contact>+34 987 654 321</contact>.</p>
        <p>No olvides seguir a @artistasunidos en Instagram.</p>
        <date>25/08/2024</date>
        <time>11:00</time>
        <location>Galería de Arte Moderno</location>
        <url>www.artistasunidos.com</url>
    </div>

    <div class="evento">
        <p>Únete al <h2>Congreso de Salud</h2>, <em>Salud y Bienestar</em>.
        A solo <cost>$75.00</cost>.
        Tenemos <strong>80 unidades en stock</strong>. Código del evento: <strong>EVT-005</strong>.</p>
        <p>Puedes escribir a <a href="mailto:contacto@saludybienestar.com">contacto@saludybienestar.com</a> o al <contact>+34 654 321 987</contact>.</p>
        <p>Sigue a @saludybienestar para más información.</p>
        <date>30/09/2024</date>
        <time>15:00</time>
        <location>Centro de Salud y Bienestar</location>
        <url>www.saludybienestar.com</url>
    </div>

    <div class="evento">
        <p>Disfruta de la <h2>Feria del Libro</h2>, <em>Lector en Acción</em>.
        A un costo de <cost>$10.00</cost>.
        Quedan <strong>500 unidades en stock</strong>. Código del evento: <strong>EVT-006</strong>.</p>
        <p>Escribe a <a href="mailto:info@lectoraccion.com">info@lectoraccion.com</a> o llama al <contact>+34 654 321 000</contact>.</p>
        <p>Más información en @lectoraccion.</p>
        <date>05/10/2024</date>
        <time>10:00</time>
        <location>Biblioteca Municipal</location>
        <url>www.lectoraccion.com</url>
    </div>

    <div class="evento">
        <p>Asiste a la <h2>Conferencia sobre Innovación</h2>, <em>Futuro Brillante</em>.
        Participa por <cost>$60.00</cost>.
        Disponibles <strong>300 unidades en stock</strong>. Código del evento: <strong>EVT-007</strong>.</p>
        <p>Puedes contactarnos a <a href="mailto:info@futurobrillante.com">info@futurobrillante.com</a> o al <contact>+34 987 123 456</contact>.</p>
        <p>Sigue a @futurobrillante para actualizaciones.</p>
        <date>15/11/2024</date>
        <time>14:00</time>
        <location>Auditorio Principal</location>
        <url>www.futurobrillante.com</url>
    </div>

    <div class="evento">
        <p>Únete al <h2>Seminario de Marketing Digital</h2>, <em>Marketing al Día</em>.
        A solo <cost>$45.00</cost>.
        Hay <strong>250 unidades en stock</strong>. Código del evento: <strong>EVT-008</strong>.</p>
        <p>Contacta a <a href="mailto:info@marketingaldia.com">info@marketingaldia.com</a> o llama al <contact>+34 321 987 654</contact>.</p>
        <p>No olvides seguir a @marketingaldia en redes sociales.</p>
        <date>12/12/2024</date>
        <time>16:00</time>
        <location>Centro de Formación</location>
        <url>www.marketingaldia.com</url>
    </div>

    <div class="evento">
        <p>No te pierdas la <h2>Encuentro de Fotografía</h2>, <em>Captura el Momento</em>.
        A un costo de <cost>$35.00</cost>.
        Quedan <strong>150 unidades en stock</strong>. Código del evento: <strong>EVT-009</strong>.</p>
        <p>Puedes contactarnos a <a href="mailto:info@capturaelmomento.com">info@capturaelmomento.com</a> o al <contact>+34 999 654 321</contact>.</p>
        <p>Sigue a @capturaelmomento para más información.</p>
        <date>20/01/2025</date>
        <time>10:30</time>
        <location>Estudio Fotográfico</location>
        <url>www.capturaelmomento.com</url>
    </div>

    <div class="evento">
        <p>Participa en la <h2>Convención de Videojuegos</h2>, <em>Gamer Fest</em>.
        El precio es de <cost>$80.00</cost>.
        Hay <strong>200 unidades en stock</strong>. Código del evento: <strong>EVT-010</strong>.</p>
        <p>Escribe a <a href="mailto:info@gamerfest.com">info@gamerfest.com</a> o llama al <contact>+34 888 888 888</contact>.</p>
        <p>No olvides seguir a @gamerfest en redes sociales.</p>
        <date>01/02/2025</date>
        <time>11:00</time>
        <location>Centro de Exposiciones</location>
        <url>www.gamerfest.com</url>
    </div>
</body>
</html>
"""




In [None]:
# Mostrar la tabla resultante
tabla

Unnamed: 0,Nombre del evento,Fecha del evento,Hora de inicio,Lugar,Precio,Organizador,Numero de contacto,Sitio Web
0,Festival de Música,15/05/2024,18:00,Auditorio Nacional,50.0,Sonidos del Mundo,+34 123 456 789,www.sonidosdelmundo.com
1,Carrera de Maratón,20/06/2024,09:00,Parque Central,30.0,Correr es Vida,+34 987 654 321,www.correresvida.com
2,Simposio de Tecnología,10/07/2024,10:00,Centro de Convenciones,100.0,Innovadores,+34 321 654 987,www.innovadores.com
3,Exposición de Arte,25/08/2024,11:00,Galería de Arte Moderno,25.0,Artistas Unidos,+34 987 654 321,www.artistasunidos.com
4,Congreso de Salud,30/09/2024,15:00,Centro de Salud y Bienestar,75.0,Salud y Bienestar,+34 654 321 987,www.saludybienestar.com
5,Feria del Libro,05/10/2024,10:00,Biblioteca Municipal,10.0,Lector en Acción,+34 654 321 000,www.lectoraccion.com
6,Conferencia sobre Innovación,15/11/2024,14:00,Auditorio Principal,60.0,Futuro Brillante,+34 987 123 456,www.futurobrillante.com
7,Seminario de Marketing Digital,12/12/2024,16:00,Centro de Formación,45.0,Marketing al Día,+34 321 987 654,www.marketingaldia.com
8,Encuentro de Fotografía,20/01/2025,10:30,Estudio Fotográfico,35.0,Captura el Momento,+34 999 654 321,www.capturaelmomento.com
9,Convención de Videojuegos,01/02/2025,11:00,Centro de Exposiciones,80.0,Gamer Fest,+34 888 888 888,www.gamerfest.com
