Pair programming Selenium

Ejercicios Selenium Extracción de Datos de Libros de Ficción en La Casa del Libro

Imagina que eres un analista de datos en una importante cadena de librerías y tu misión es recopilar información actualizada sobre los libros de ficción disponibles en el mercado. Esta información es vital para tomar decisiones estratégicas, como determinar qué libros de ficción deben ser promocionados, ajustar los precios competitivamente y gestionar adecuadamente el inventario. La Casa del Libro es uno de los principales competidores, por lo que es esencial mantenerse al tanto de su catálogo.

Objetivo del Ejercicio: El objetivo de este ejercicio es que las alumnas utilicen Selenium en Python para automatizar la extracción de datos de los libros de ficción en el sitio web de La Casa del Libro. Deberán obtener información clave de los libros, incluyendo título, autor, precio, editorial, idioma y número de páginas.

Descripción:

    a.Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.

    b.Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra los 5 primeros libros de libros, extrayendo los siguientes datos de cada libro:

        b.1.Título del libro.

        b.2.Autor(es) del libro.

        b.3.Precio del libro.

        b.4.Editorial del libro.

        b.5.Idioma del libro.

        b.6.Número de páginas del libro.

    c.Almacenamiento de Datos: Los datos extraídos deben almacenarse en un DataFrame.

In [2]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

a. Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.

In [3]:
driver = webdriver.Chrome()
driver.get("https://www.casadellibro.com/?gad_source=1&gclid=CjwKCAjw-O6zBhASEiwAOHeGxbiRVpHOPKfIErNZqH4fZva2i2CkNvovYmqbHhVrju-H3NVFbh5YthoCf2UQAvD_BwE")
driver.maximize_window()

In [4]:
# Rechazar cookies
sleep(3)
driver.find_element("css selector", "#onetrust-reject-all-handler").click()

In [5]:
# Entramos en ficción
sleep(1)
driver.find_element("css selector", "#app > div.v-application--wrap > div.when-mobile > div.cabecera.desktop > div.bottom-row > div > div > div:nth-child(2) > a").click()



b. Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra los 5 primeros libros de libros, extrayendo los siguientes datos de cada libro:

        b.1.Título del libro.

        b.2.Autor(es) del libro.

        b.3.Precio del libro.

        b.4.Editorial del libro.

        b.5.Idioma del libro.

        b.6.Número de páginas del libro.

In [6]:
diccionario_libros = {"titulo":[],
                      "autor":[],
                      "precio":[],
                      "editorial":[],
                      "idioma":[],
                      "número de páginas":[]}

In [7]:
for i in range(1,6):
# Entramos en el primer libro
    sleep(5)
    driver.find_element("css selector", f"#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({i}) > a").click()
    print(f"Entrar en el libro {i}")
    # Cogemos el titulo
    sleep(2)
    nombre_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text
    diccionario_libros["titulo"].append(nombre_libro)
    print(f"Titulo del libro {i}")
    # Cogemos el autor
    sleep(2)
    autor_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)").text
    diccionario_libros["autor"].append(autor_libro)
    print(f"Autor del libro {i}")
    # Cogemos el precio
    sleep(5)
    precio_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3) > div.col.col-8 > strong").text
    diccionario_libros["precio"].append(precio_libro)
    print(f"Precio del libro {i}")
    # Cogemos el editorial
    sleep(5)
    editorial_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.d-none.d-md-inline > div:nth-child(1) > span:nth-child(1)").text
    diccionario_libros["editoria"].append(editorial_libro)
    print(f"editorial del libro {i}")
    # Cogemos el idioma
    sleep(5)
    idioma_libro = driver.find_element("css selector", " #app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span").text
    diccionario_libros["idioma"].append(idioma_libro)
    print(f"idioma del libro {i}")
    # Cogemos el número de páginas
    sleep(5)
    pagina_libro = driver.find_element("css selector", " #app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span").text
    diccionario_libros["número de páginas"].append(pagina_libro)
    print(f"Número de páginas del libro {i}")
    # Volvemos a la página principal
    driver.back()
    print(f"Vuelvo a la página después del libro {i}")
    break



Entrar en el libro 1
Titulo del libro 1
Autor del libro 1
Precio del libro 1


KeyError: 'editoria'

In [36]:
for i in range(1,3):
    driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({}) > a").click()

InvalidSelectorException: Message: invalid selector
from javascript error: {"status":32,"value":"An invalid or illegal selector was specified"}
  (Session info: chrome=126.0.6478.116); For documentation on this error, please visit: https://www.selenium.dev/documentation/webdriver/troubleshooting/errors#invalid-selector-exception
Stacktrace:
	GetHandleVerifier [0x00007FF70EDAEEA2+31554]
	(No symbol) [0x00007FF70ED27ED9]
	(No symbol) [0x00007FF70EBE872A]
	(No symbol) [0x00007FF70EBEE55E]
	(No symbol) [0x00007FF70EBF0EB1]
	(No symbol) [0x00007FF70EBF0F50]
	(No symbol) [0x00007FF70EC37F6C]
	(No symbol) [0x00007FF70EC3853C]
	(No symbol) [0x00007FF70EC7F6A7]
	(No symbol) [0x00007FF70EC5D06F]
	(No symbol) [0x00007FF70EC7C977]
	(No symbol) [0x00007FF70EC5CDD3]
	(No symbol) [0x00007FF70EC2A33B]
	(No symbol) [0x00007FF70EC2AED1]
	GetHandleVerifier [0x00007FF70F0B8B1D+3217341]
	GetHandleVerifier [0x00007FF70F105AE3+3532675]
	GetHandleVerifier [0x00007FF70F0FB0E0+3489152]
	GetHandleVerifier [0x00007FF70EE5E776+750614]
	(No symbol) [0x00007FF70ED3375F]
	(No symbol) [0x00007FF70ED2EB14]
	(No symbol) [0x00007FF70ED2ECA2]
	(No symbol) [0x00007FF70ED1E16F]
	BaseThreadInitThunk [0x00007FF841787344+20]
	RtlUserThreadStart [0x00007FF84339CC91+33]


In [17]:
# Cogemos el número de páginas
sleep(1)
pagina_libro = driver.find_element("css selector", " #app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span").text
print(f"Número de páginas del libro 1")
pagina_libro

Número de páginas del libro 1


'496'

In [None]:
#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(1) > div:nth-child(3)
#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(2) > div:nth-child(3)

#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(1) > a
#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div > div:nth-child(2) > div > div.swiper > div:nth-child(2) > a

#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1
#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1

#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)
#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)

#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.d-none.d-md-inline > div:nth-child(1) > span:nth-child(1)
#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.d-none.d-md-inline > div:nth-child(1) > span:nth-child(1)

#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span
#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span

#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span
#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(5) > div > span