# Clase: Automatización Web y Extracción de Datos con Selenium

## Introducción a Selenium

### ¿Qué es Selenium?

Selenium es una **poderosa herramienta que permite automatizar la navegación web** y realizar acciones interactivas en sitios web de manera programática. 

En Python, puedes utilizar Selenium para **controlar un navegador web y simular las acciones de un usuario**, como hacer clic en elementos, completar formularios, navegar por diferentes páginas y extraer información.

### ¿Por qué es Importante Selenium en el Análisis de Datos?

En el análisis de datos, a menudo necesitamos recopilar información de sitios web, realizar búsquedas, completar formularios o interactuar con aplicaciones web. Selenium nos brinda la capacidad de **automatizar estas acciones repetitivas**, lo que ahorra tiempo y permite acceder a datos valiosos en línea de manera eficiente.

Es especialmente útil para **extraer datos de sitios web dinámicos** que se actualizan en tiempo real mediante JavaScript.

### Ventajas Clave de Selenium

*   **Automatización:** Permite simular acciones de un usuario real, como hacer clic en elementos, ingresar texto, interactuar con formularios y navegar por diferentes páginas.
*   **Soporte Multiplataforma y Multi-navegador:** Es compatible con navegadores como Chrome, Firefox, Safari y Edge.
*   **Flexibilidad y Personalización:** Ofrece una API completa para manipular elementos de una página web de manera automática.
*   **Comunidad Activa y Recursos Disponibles:** Cuenta con una comunidad de usuarios y desarrolladores que proporciona soporte y comparte conocimientos.
*   **Amplia Adopción y Popularidad:** Es una de las herramientas de automatización más utilizadas.

### ¿Cómo Funciona Selenium?

Para usar Selenium, necesitamos un **WebDriver**, que es un controlador específico para el navegador que queremos automatizar. Por ejemplo, para Google Chrome utilizaremos ChromeDriver. El WebDriver actúa como un puente, permitiendo que tu código Python interactúe directamente con el navegador.

---

## Configuración y Operaciones Básicas

### Instalación de Selenium

Para utilizar Selenium en Python, primero debemos instalar las librerías necesarias.


In [None]:
# Instalar Selenium y webdriver-manager
# webdriver-manager se encarga de descargar y gestionar el WebDriver del navegador
# automáticamenter
!pip install selenium
!pip install webdriver-manager

In [1]:
# Importar Librerías Necesarias

# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

### Inicialización del Navegador y WebDriver

Primero, inicializamos el WebDriver para el navegador Chrome.

### Comandos Básicos de Navegación e Interacción

Una vez que el navegador está abierto, podemos empezar a interactuar con él. Algunos comandos básicos incluyen:

*   `get()`: Abre una URL específica en el navegador. Es el primer paso para navegar por la web y acceder al contenido deseado.
*   `maximize_window()`: Maximiza la ventana del navegador. Muy útil para asegurar que todos los elementos sean visibles.
*   `find_element()`: Encuentra un elemento en la página según diferentes criterios, como el ID, la clase, el nombre o la etiqueta.
*   `click()`: Hace clic en un elemento específico de la página, como un botón o un enlace.
*   `send_keys()`: Ingresa texto en un campo de formulario.
*   `close()`: Cierra el navegador y finaliza la sesión de WebDriver, liberando los recursos utilizados.
*   `back()`: Navega a la página anterior en el historial del navegador.

#### **Ejemplo Práctico: Navegación Básica y Captura de Pantalla**

Vamos a navegar a una página, aceptar cookies y hacer una captura de pantalla.


In [3]:
# Inicializar el controlador del navegador Chrome
driver = webdriver.Chrome()
sleep(2)

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")
sleep(2)

# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
driver.find_element("css selector", "#wt-cli-accept-all-btn").click()

# Espera durante 5 segundos (esto puede ser útil para permitir que la página cargue completamente)
sleep(5)

# Captura una captura de pantalla de la página web actual y la guarda como "adalab.png"
driver.save_screenshot('adalab.png')

# Cierra el navegador
driver.close()

#### **Ejemplo Práctico: Búsqueda y Clic en Enlace**

Este ejemplo demuestra cómo encontrar un enlace por su texto visible y hacer clic en él.


In [4]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()
sleep(2)

# Navega a la página web "http://www.adalab.es"
driver.get("http://www.adalab.es")
sleep(2)

driver.maximize_window() # Maximiza la ventana

sleep(2)
# Acepta las cookies haciendo clic en el elemento con el selector CSS "#wt-cli-accept-all-btn"
driver.find_element("css selector", "#wt-cli-accept-all-btn").click()

# Espera durante 5 segundos (esto puede ser útil para asegurarse de que la página se cargue completamente)
sleep(5)

# Busca un elemento en la página web que contenga el texto "BLOG" utilizando "link text" y hacemos click
driver.find_element("link text", 'BLOG').click()

sleep(10)

# entramos en el apartado de Sobre Data Analytics
driver.find_element("link text", 'Sobre Data Analytics').click()
sleep(5)

# cerramos el navegador
driver.close()

## Extracción de Datos (Web Scraping) con Selenium

### Métodos Importantes para la Extracción de Datos

*   `find_element()`: Como vimos, es fundamental para ubicar un elemento específico. Podemos usar diferentes parámetros para encontrar elementos, como `ID`, `TAG_NAME`, `CSS_SELECTOR`, `XPATH`.
*   `.text`: Devuelve el texto visible contenido en un elemento específico. Esto es útil cuando queremos extraer información mostrada en la web.
*   `.get_attribute("attribute_name")`: Permite extraer el valor de cualquier atributo de un elemento HTML, como `href` para enlaces o `src` para imágenes.
*   `Select()`: Se utiliza para interactuar con elementos `<select>` (menús desplegables) en páginas web. Permite seleccionar opciones por su valor, índice o texto visible.



#### **Ejemplo Práctico: Extracción de Información de Productos (Supermercado DIA)**

Este ejemplo muestra cómo navegar, interactuar con la página y extraer datos de múltiples productos, almacenándolos en un diccionario para luego convertirlo en un DataFrame de Pandas.

In [7]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

# Navegar a la página web de DIA
url = "https://www.dia.es/"
driver.get(url)
print("Accediendo a la web con éxito")
sleep(2)

# Maximizar la ventana del navegador para mostrar la página completa
driver.maximize_window()

# Esperar 5 segundos para que la página cargue completamente
sleep(5)

# Aceptar las cookies haciendo clic en el botón correspondiente
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
print("Aceptadas cookies")
# Esperar 2 segundos después de aceptar las cookies
sleep(2)

# Entrar en el apartado de productos
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > button").click()
print("click en productos")
# Esperar 2 segundos
sleep(2)

# Entrar en la categoría "carnicería"
driver.find_element("css selector", "#app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div.categories-list-modal__content > ul > li:nth-child(3) > a").click()
# driver.find_element("css selector", "##app > div > div > div > div.home-view__header > div.dia-header > div.dia-header__section.dia-header__section--start > div > div.categories-list-modal > div > div > div.categories-list-modal__content > ul > li:nth-child(2) > ul > div:nth-child(1) > a > span.sub-category-item__text").click()
sleep(2)              

# Crear un diccionario para almacenar información de productos
diccionario_dia = {
    "nombre_producto": [],
    "precio_kilo": [],
    "precio": [],
    "kilocalorias": [],
    "ingredientes": [],
    "imagen": []
}

print("Iniciando extracción de 5 productos...")

# Iterar a través de productos del 1 al 5
for i in range(1, 6):
    try:
        # Hacer clic en el producto para ver detalles
        # El selector CSS usa f-string para cambiar el número de producto en cada iteración.
        driver.find_element("css selector", f"#app > div > div > div.categories-layout__content > div.categories-layout__right-content > div.plp-l1 > div:nth-child(3) > div:nth-child(1) > div > div.basic-section-l1 > div > ul > li:nth-child({i}) > div > div.search-product-card__top-section > div.search-product-card__top-section-content > a.search-product-card__product-image-link > img").click()

        # Esperar 2 segundos
        sleep(2)

        # Extraer información del producto y agregarla al diccionario 
        diccionario_dia["nombre_producto"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > h1").text)
        diccionario_dia["precio"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__active-price").text)
        diccionario_dia["precio_kilo"].append(driver.find_element("css selector", '#app > div > div > div > div.pdp-view__content > div.pdp-view__right-content > div > div > div.buy-box.primary-information__buy-box > div.buy-box__prices-container > div.buy-box__prices > p.buy-box__price-per-unit').text)
        diccionario_dia["kilocalorias"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__left-content > div.pdp-view__info > div.nutritional > ul > li > div > div.nutritional-values__title-energy > div").text)
        diccionario_dia["ingredientes"].append(driver.find_element("css selector", '#html-container').text)
        diccionario_dia["imagen"].append(driver.find_element("css selector", "#app > div > div > div > div.pdp-view__content > div.pdp-view__left-content > div.product-images > div > div > div > img:nth-child(1)").get_attribute("src"))

        print(f"Datos del producto {i} extraídos.")

        # Esperar 2 segundos antes de volver a la lista de productos
        sleep(2)
        driver.back()
        sleep(2)

    except Exception as e:
        print(f"Error al extraer el producto {i}: {e}. Continuando con el siguiente.")
        driver.back() # Intenta volver a la página anterior incluso si hay un error
        sleep(2)
        continue # Continúa con la siguiente iteración del bucle


# Cerrar el navegador
driver.close()
print('Extracción terminada. Navegador cerrado.')


Accediendo a la web con éxito
Aceptadas cookies
click en productos
Iniciando extracción de 5 productos...
Datos del producto 1 extraídos.
Datos del producto 2 extraídos.
Datos del producto 3 extraídos.
Datos del producto 4 extraídos.
Datos del producto 5 extraídos.
Extracción terminada. Navegador cerrado.


In [8]:
diccionario_dia

{'nombre_producto': ['Filetes de pechuga de pollo corte fino Selección de Dia bandeja 550 g aprox.',
  'Pechuga de pollo entera formato familiar Selección de Dia bandeja 1 Kg aprox.',
  'Jamoncitos de pollo familiar Selección de Dia bandeja 900 g aprox.',
  'Alas partidas de pollo Selección de Dia bandeja 500 g aprox.',
  'Longaniza de pollo Selección de Dia bandeja 400 g'],
 'precio_kilo': ['(8,59 €/KILO)',
  '(6,49 €/KILO)',
  '(3,99 €/KILO)',
  '(5,49 €/KILO)',
  '(7,48 €/KILO)'],
 'precio': ['4,72 €', '6,49 €', '3,59 €', '2,75 €', '2,99 €'],
 'kilocalorias': ['416kJ\n/\n99kcal',
  '416kJ\n/\n99kcal',
  '490kJ\n/\n117kcal',
  '773kJ\n/\n186kcal',
  '645kJ\n/\n155kcal'],
 'ingredientes': ['Carne fresca de Pollo.',
  'Pechuga de pollo.',
  'Jamoncitos de pollo.',
  'Alas de pollo.',
  'Carne de pollo (92%), agua, tripa natural de cordero, sal, almidones (patata y maíz), fibras vegetales, dextrosa, especias, antioxidantes (E331 y E301), conservador (sulfito: E221), proteína vegetal y c

In [9]:
# Convertir el diccionario a un DataFrame de Pandas
df_dia = pd.DataFrame(diccionario_dia)

# Ver las primeras filas del DataFrame
df_dia.head()

Unnamed: 0,nombre_producto,precio_kilo,precio,kilocalorias,ingredientes,imagen
0,Filetes de pechuga de pollo corte fino Selecci...,"(8,59 €/KILO)","4,72 €",416kJ\n/\n99kcal,Carne fresca de Pollo.,https://www.dia.es/product_images/50844/50844_...
1,Pechuga de pollo entera formato familiar Selec...,"(6,49 €/KILO)","6,49 €",416kJ\n/\n99kcal,Pechuga de pollo.,https://www.dia.es/product_images/261371/26137...
2,Jamoncitos de pollo familiar Selección de Dia ...,"(3,99 €/KILO)","3,59 €",490kJ\n/\n117kcal,Jamoncitos de pollo.,https://www.dia.es/product_images/4211/4211_IS...
3,Alas partidas de pollo Selección de Dia bandej...,"(5,49 €/KILO)","2,75 €",773kJ\n/\n186kcal,Alas de pollo.,https://www.dia.es/product_images/261367/26136...
4,Longaniza de pollo Selección de Dia bandeja 400 g,"(7,48 €/KILO)","2,99 €",645kJ\n/\n155kcal,"Carne de pollo (92%), agua, tripa natural de c...",https://www.dia.es/product_images/275700/27570...


#### **Ejemplo Práctico: Interacción con Menús Desplegables (`Select`)**

El elemento `Select` de Selenium es una herramienta esencial para interactuar con menús desplegables en páginas web.

### Extracción datos AEMET

In [None]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

# Navegar a la página web de AEMET que contiene información del tiempo para municipios
driver.get("https://www.aemet.es/es/eltiempo/prediccion/municipios?p=28")

# Esperar 3 segundos para que la página cargue completamente
sleep(3)

# Crear un diccionario llamado "resultados_aemet" para almacenar la información del tiempo
resultados_aemet = {
    "municipio": [],
    "temperatura": [],
    "fecha": []
}

# Encontrar el elemento select donde se selecciona el municipio
select = driver.find_element("css selector", "#localidades_selector")

# Encontrar todas las opciones dentro del elemento select
opcion = select.find_elements("tag name", "option")

# Esperar 3 segundos
sleep(3)

print("Extrayendo datos de los primeros 5 municipios...")
# Iterar a través de las primeras 5 opciones (excluyendo la primera que es un encabezado)
for valores in opcion[1:6]:

    # Imprimir el valor del atributo "value" de cada opción (generalmente contiene el código del municipio)
    print(valores.get_attribute("value"))

    # Obtener el nombre del municipio
    municipio = valores.text

    # Esperar 5 segundos
    sleep(5)

    # Seleccionar la opción actual en el elemento select
    seleccionar = Select(driver.find_element("css selector", "#localidades_selector"))
    seleccionar.select_by_value(valores.get_attribute("value"))

    # Hacer clic para entrar en los datos de este municipio
    driver.find_element("css selector", "#contenedor > div > div.contenedor_contenido > div:nth-child(4) > form > div.contenedor_central > div > input").click()

    # Esperar 5 segundos
    sleep(5)

    # Extraer la fecha de los datos del tiempo
    resultados_aemet["fecha"].append(driver.find_element("css selector", '#tabla_prediccion > thead > tr').text)
    print(f"Extracción fecha para municipio: {municipio} OK!")
    print(resultados_aemet['fecha'])

    # Extraer la temperatura de los datos del tiempo
    resultados_aemet["temperatura"].append(driver.find_element("css selector", "#tabla_prediccion > tbody > tr:nth-child(7)").text)
    print(f"Extracción temperatura para municipio: {municipio} OK!")
    print(resultados_aemet['temperatura'])

    # Agregar el nombre del municipio al diccionario "resultados_aemet"
    resultados_aemet["municipio"].append(municipio)

    # Esperar 5 segundos
    sleep(5)
    
    # Ir a la página anterior (la lista de municipios)
    driver.back()

    # Esperar 2 segundos
    sleep(2)

# Cerrar el navegador
driver.close()
print("Navegador cerrado.")


In [21]:
# almacenar los resultados en un DataFrame
df_aemet = pd.DataFrame(resultados_aemet)

# mostrar los resultados almacenados en el DataFrame
df_aemet.head()

Unnamed: 0,municipio,temperatura,fecha
0,"Acebeda, La",17 / 31 18 / 32 19 / 29 18 / 31 17 / 30 1...,sáb. 28 dom. 29 lun. 30 mar. 01 mié. 02 jue. 0...
1,Ajalvir,21 / 38 23 / 39 23 / 37 22 / 37 22 / 38 2...,sáb. 28 dom. 29 lun. 30 mar. 01 mié. 02 jue. 0...
2,Alameda del Valle,20 / 32 20 / 32 21 / 30 20 / 31 20 / 31 1...,sáb. 28 dom. 29 lun. 30 mar. 01 mié. 02 jue. 0...
3,"Álamo, El",21 / 37 23 / 39 24 / 37 22 / 38 24 / 37 2...,sáb. 28 dom. 29 lun. 30 mar. 01 mié. 02 jue. 0...
4,Alcalá de Henares,21 / 40 23 / 39 24 / 37 22 / 37 23 / 38 2...,sáb. 28 dom. 29 lun. 30 mar. 01 mié. 02 jue. 0...


## Parte 4: Combinación de Selenium y Beautiful Soup

### ¿Por qué combinar Selenium con Beautiful Soup?

*   **Selenium** permite navegar y realizar acciones en un navegador (clicks, rellenar formularios, scroll, etc.), y es excelente para páginas dinámicas que cargan contenido con JavaScript.
*   **Beautiful Soup** es una librería para analizar y extraer información del HTML de una página web. Es muy eficiente para analizar la estructura de un documento HTML una vez que lo tienes.

Por lo tanto, la combinación es útil para **automatizar tareas repetitivas y trabajar con páginas web dinámicas**, optimizando la extracción de datos. Selenium se encarga de las interacciones necesarias para llegar al contenido deseado (por ejemplo, hacer clic en botones de "cargar más" o iniciar sesión), y una vez que la página está cargada y lista, Beautiful Soup puede analizar el HTML resultante de manera más eficiente y con una sintaxis más limpia para la extracción de datos específicos.


### Ejemplo de Uso (Deportes Moya)

Este ejemplo muestra cómo Selenium se usa para navegar y obtener las URLs de los productos, y luego Beautiful Soup para analizar cada URL y extraer los detalles.


In [23]:
# Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

driver.get("https://deportesmoya.es/?gclid=CjwKCAjw1t2pBhAFEiwA_-A-NOgfedASQBU_NF_uwwA7F24sXqVGuoG3VTtZ2z9DOJuugxH6F4WrhRoCU3YQAvD_BwE")

# Maximizar la ventana del navegador
driver.maximize_window()

# Pausa de 3 segundos
sleep(3)

# Aceptar las cookies en la página web
driver.find_element("css selector", "#soycontrolcookies > div.soycontrolcookies_header > div.soycontrolcookies_buttons > button.btn.btn-default.accept-button").click()
print("Cookies aceptadas.")
sleep(2)

# Realizar un scroll hacia abajo en la página web utilizando execute_script
# NOTA: execute_script() permite ejecutar JavaScript en el navegador.
# No es un método de Selenium listado en las "acciones interactivas" pero es muy útil.
# En este caso, el scroll desplazará la página hasta que el eje vertical tenga un valor de 1000 píxeles
driver.execute_script("window.scrollTo(0,1000)")
print('Realizando scroll')

# Pausa de 3 segundos
sleep(3)

# Navegar a la categoría deseada
driver.find_element("css selector", '#soymenu_main_ul > li:nth-child(2) > div.soymm_content_link > a').click()

# Pausa de 5 segundos
sleep(5)

# Crear una lista vacía para almacenar las URLs de productos
lista_url = []

# Iterar para obtener las URLs de los primeros 10 productos
for i in range(1, 11 ):
    try: 
        # En cada iteración, obtener la URL del producto utilizando XPath y get_attribute("href") y agregarla a la lista
        lista_url.append(driver.find_element("xpath", f'//*[@id="js-product-list"]/div/article[{i}]/div/div[1]/h3/a').get_attribute("href"))
    except Exception as e:
        print(f"No se pudo obtener la URL del producto {i}: {e}")
        continue
    

print(f"URLs de {len(lista_url)} productos obtenidos por Selenium.")

# Cerrar el navegador de Selenium una vez que tenemos las URLs
driver.close()
print("Navegador de Selenium cerrado. Ahora Beautiful Soup tomará el control.")

Cookies aceptadas.
Realizando scroll
URLs de 10 productos obtenidos por Selenium.
Navegador de Selenium cerrado. Ahora Beautiful Soup tomará el control.


In [24]:
lista_url

['https://deportesmoya.es/zapato-colegio-gorila-twister-14-mm-negro-nina-90629.html#/2457-tallaje_calzado_junior-25',
 'https://deportesmoya.es/zapato-colegio-gorila-boxcal-15mm-negro-90623.html#/2353-talla_unisex-42',
 'https://deportesmoya.es/zapato-de-colegio-gorila-twister-14mm-negro-nino-90624.html#/2460-tallaje_calzado_junior-26',
 'https://deportesmoya.es/zapatillas-futbol-adidas-predator-club-in-blanco-negro-ninos-149466.html#/2466-tallaje_calzado_junior-28',
 'https://deportesmoya.es/zapatillas-futbol-adidas-f50-club-in-morado-lima-ninos-149470.html#/2466-tallaje_calzado_junior-28',
 'https://deportesmoya.es/sandalias-lona-biomecanics-252188d460-marino-rosa-infantil-149535.html#/2445-tallaje_calzado_junior-21',
 'https://deportesmoya.es/sandalias-lona-biomecanics-252176a089-marino-infantil-149536.html#/2445-tallaje_calzado_junior-21',
 'https://deportesmoya.es/chanclas-adidas-adilette-aqua-blanco-negro-127560.html#/2353-talla_unisex-42',
 'https://deportesmoya.es/zapatillas-ad

In [25]:
# Crear un diccionario para almacenar información de zapatillas.
diccionario_zapatillas = {
    "zapatilla": [],
    "precio_rebajado": [],
    "precio_original": []
}

print("Iniciando extracción detallada con Beautiful Soup...")

# Iterar a través de las URLs recolectadas para extraer información detallada con Beautiful Soup
for url in lista_url:
    try:
        # Hacer una solicitud GET a la URL especificada.
        res_tienda = requests.get(url)

        # Crear un objeto BeautifulSoup para analizar el contenido HTML de la página.
        sopa_tienda = BeautifulSoup(res_tienda.content, "html.parser")

        # Extraer el nombre de la zapatilla y agregarlo al diccionario.
        diccionario_zapatillas["zapatilla"].append(sopa_tienda.find("h1", {"class": "h1"}).text)

        # Extraer el precio rebajado y agregarlo al diccionario.
        diccionario_zapatillas["precio_rebajado"].append(sopa_tienda.find("span", {"class": "price"}).text)

        # Extraer el precio original y agregarlo al diccionario.
        # Algunos productos pueden no tener precio original si no están en oferta, manejar el error
        precio_original = sopa_tienda.find("span", {"class": "regular-price"})
        if precio_original:
            diccionario_zapatillas["precio_original"].append(precio_original.text) #
        else:
            diccionario_zapatillas["precio_original"].append("N/A")

    except Exception as e:
        print(f"Error al extraer detalles de {url}: {e}")
        # Asegurarse de que las listas tengan el mismo tamaño para evitar errores al crear el DataFrame
        diccionario_zapatillas["zapatilla"].append("Error")
        diccionario_zapatillas["precio_rebajado"].append("Error")
        diccionario_zapatillas["precio_original"].append("Error")
        continue

print("Extracción con Beautiful Soup finalizada.")

Iniciando extracción detallada con Beautiful Soup...
Extracción con Beautiful Soup finalizada.


In [26]:
# Convertir el diccionario a DataFrame
df_zapatillas = pd.DataFrame(diccionario_zapatillas)

# Mostrar el DataFrame
df_zapatillas.head(10)

Unnamed: 0,zapatilla,precio_rebajado,precio_original
0,Zapato colegio Gorila Twister 1.4 mm negro niña,"59,95 €","40,00 €"
1,Zapato colegio Gorila Boxcal 1.5mm negro,"70,95 €","50,00 €"
2,Zapato de colegio Gorila Twister 1.4mm negro ...,"52,50 €","42,00 €"
3,Zapatillas fútbol adidas Predator Club IN blan...,"45,00 €","50,00 €"
4,Zapatillas fútbol adidas F50 Club IN morado li...,"45,00 €","50,00 €"
5,Sandalias lona Biomecanics 252188-D460 marino ...,"33,26 €","36,95 €"
6,Sandalias lona Biomecanics 252176-A089 marino ...,"32,36 €","35,95 €"
7,Chanclas adidas Adilette Aqua blanco negro,"23,00 €","40,00 €"
8,Zapatillas adidas Tensaur Run 3.0 EL blanco mo...,"34,20 €","38,00 €"
9,Zapatillas lona Victoria 110 Inglesa Envejecid...,"50,31 €","55,90 €"
