In [2]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


In [3]:
# Inicializa el navegador Chrome y maximiza la ventana
driver = webdriver.Chrome()
sleep(2)
driver.maximize_window()
sleep(3)

# Navega a la página web "https://www.casadellibro.com/"
driver.get("https://www.casadellibro.com/")
sleep(3)

# Acepta las cookies haciendo clic en el elemento con el selector CSS "#didomi-notice-agree-button"
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()
sleep(4)

# Busca un elemento en la página web que contenga el texto "Ficción" utilizando "link text" y hacemos click
driver.find_element("link text", 'Ficción').click()
sleep(3)

#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(1) > a
#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(2) > a

# Crear una lista vacía para almacenar las URLs de productos
lista_url = []
# Iterar desde 1 hasta 5 (inclusive)
for i in range(1, 6):
    # En cada iteración, obtener la URL del producto y agregarla a la lista
    lista_url.append(driver.find_element("css selector", f'#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({i}) > div:nth-child(3) > a').get_attribute("href"))
    sleep(2)                                               

# Crear un diccionario para almacenar información de los resultados
diccionario_resultados = {"título":[], 
                          "autor":[],
                          "precio":[],
                          "editorial":[],
                          "idioma":[],
                          "paginas":[]}


# Iterar a través de las URL en la lista_url
for url in lista_url:
    driver.get(url)
    sleep(10)
    # Extraer el título del libro y agregarlo al diccionario                     
    diccionario_resultados['título'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text)
    sleep(5)
    # Extraer el autor del libro y agregarlo al diccionario                     
    diccionario_resultados['autor'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)").text)
    sleep(5)
    # Extraer el precio del libro y agregarlo al diccionario                     
    diccionario_resultados['precio'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3) > div.col.col-8 > strong").text)
    sleep(5)
    try:
        # Extraer el editorial del libro y agregarlo al diccionario                     
        diccionario_resultados['editorial'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(2) > div > span").text)
        sleep(5)
    except:
        try: 
            diccionario_resultados['editorial'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(1) > div > span").text)
            sleep(5)
        except:
            diccionario_resultados['editorial'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(2) > div > span").text)
            sleep(5)
    try:   
        # Extraer el idioma del libro y agregarlo al diccionario                     
        diccionario_resultados['idioma'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span").text)
        sleep(5)
    except:
        try:
            diccionario_resultados['idioma'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(3) > div > span").text)
            sleep(5)
        except:
            diccionario_resultados['idioma'].append(driver.find_element("css selector", "##app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span").text)
            sleep(5)
    try:   
        # Extraer las páginas del libro y agregarlo al diccionario                    
        diccionario_resultados['paginas'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span").text)
        sleep(5)
    except:
        try:
            diccionario_resultados['paginas'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span").text)
            sleep(5)
        except:
            diccionario_resultados['paginas'].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span").text)
            sleep(5)
    
    
    # Ir a la página anterior
    driver.back()
    sleep(5)

# cerrar el navegador
driver.close()

# convertir el diccionario a DataFrame
df_resultados = pd.DataFrame(diccionario_resultados)
df_resultados

Unnamed: 0,título,autor,precio,editorial,idioma,paginas
0,CUANDO LA TORMENTA PASE,MANEL LOUREIRO,"21,75 €",9788408290049,480,Tapa dura
1,PECADOS 1. REY DE LA IRA. EDICIÓN ESPECIAL,ANA HUANG,"22,75 €",Crossbooks,CASTELLANO,496
2,ESNOB,ELISABET BENAVENT,"20,80 €",SUMA,CASTELLANO,600
3,EL CAZADOR (DARK VERSE 1) (EDICIÓN ESPECIAL) (...,RUNYX,"18,90 €",EDICIONES B,CASTELLANO,416
4,SI TE GUSTA LA OSCURIDAD,STEPHEN KING,"23,65 €",PLAZA&JANES,CASTELLANO,704
