## Ejercicios Selenium Extracción de Datos de Libros de Ficción en La Casa del Libro

Imagina que eres un analista de datos en una importante cadena de librerías y tu misión es recopilar información actualizada sobre los libros de ficción disponibles en el mercado. 
Esta información es vital para tomar decisiones estratégicas, como determinar qué libros de ficción deben ser promocionados, ajustar los precios competitivamente y gestionar adecuadamente el inventario. La Casa del Libro es uno de los principales competidores, por lo que es esencial mantenerse al tanto de su catálogo.

Objetivo del Ejercicio: El objetivo de este ejercicio es que las alumnas utilicen Selenium en Python para automatizar la extracción de datos de los libros de ficción en el sitio web de La Casa del Libro. Deberán obtener información clave de los libros, incluyendo título, autor, precio, editorial, idioma y número de páginas.

- Descripción:
Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.
Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra los 5 primeros libros de libros, extrayendo los siguientes datos de cada libro:
Título del libro.
Autor(es) del libro.
Precio del libro.
Editorial del libro.
Idioma del libro.
Número de páginas del libro.
Almacenamiento de Datos: Los datos extraídos deben almacenarse en un DataFrame.

1. Importar librerías

In [1]:
# Importar librerías para tratamiento de datos
# -----------------------------------------------------------------------
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
# -----------------------------------------------------------------------
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
# -----------------------------------------------------------------------
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
# -----------------------------------------------------------------------
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Configuraciones
# -----------------------------------------------------------------------
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


2. Iniciar driver

In [4]:
# Inicializa el navegador Chrome
driver = webdriver.Chrome()

# Navega a la página web Casa del libro
driver.get("https://www.casadellibro.com")

sleep(3)

#Maximiza la página
driver.maximize_window()

sleep(3)
# Acepta las cookies haciendo clic en el elemento con el selector CSS 
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()

print('Aceptacion cookies')

sleep(3)


#Busqueda de libros de ficcion
driver.find_element("css selector", "#app > div.v-application--wrap > div.when-mobile > div.cabecera.desktop > div.bottom-row > div > div > div:nth-child(2) > a").click()
print('Ingresa a libros de ficcion')


#Diccionario con información de los libros
resultados_ficcion= {
    "Titulo": [],
    "Autor": [],
    "Precio": [],
    "Editorial": [],
    "Idioma": [],
    "Paginas": []}


for libro in range(1,6):

    driver.find_element("css selector", "#buscadorNF > div.col-md-9.col-12 > div > div.grid-view.mt-4 > div:nth-child(1) > a > div > img").click()

    # Titulo libro
    titulo_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text

    #Apender titulo
    resultados_ficcion['Titulo'].append(titulo_libro)

    # Autor libro
    autor_libro = driver.find_element("css selector", " #app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)").text
     #Apender autor
    resultados_ficcion['Autor'].append(autor_libro)


     # Precio libro
    precio_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3) > div.col.col-8 > strong").text
     #Apender precio
    resultados_ficcion['Precio'].append(precio_libro)

    # Editorial libro
    editorial_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(1) > div > span").text
     #Apender editorial
    resultados_ficcion['Editorial'].append(editorial_libro)

     # Idiomas libro
    idiomas_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(3) > div > span").text
     #Apender idiomas
    resultados_ficcion['Idiomas'].append(idiomas_libro)

     # Paginas libro
    paginas_libro = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div > div.caracteristicas.mt-4.pt-4 > div:nth-child(4) > div > span").text
     #Apender paginas
    resultados_ficcion['Paginas'].append(paginas_libro)

print(resultados_ficcion)
    

Aceptacion cookies
Ingresa a libros de ficcion


ElementClickInterceptedException: Message: element click intercepted: Element <button data-v-05bce262="" disabled="disabled" type="button" aria-label="Previous page" class="v-pagination__navigation v-pagination__navigation--disabled">...</button> is not clickable at point (701, 702). Other element would receive the click: <li data-v-05bce262="">...</li>
  (Session info: chrome=128.0.6613.85)
Stacktrace:
0   chromedriver                        0x00000001011db9a8 cxxbridge1$str$ptr + 1887096
1   chromedriver                        0x00000001011d3e10 cxxbridge1$str$ptr + 1855456
2   chromedriver                        0x0000000100dd8be0 cxxbridge1$string$len + 89508
3   chromedriver                        0x0000000100e226fc cxxbridge1$string$len + 391360
4   chromedriver                        0x0000000100e20d28 cxxbridge1$string$len + 384748
5   chromedriver                        0x0000000100e1ef54 cxxbridge1$string$len + 377112
6   chromedriver                        0x0000000100e1e4a0 cxxbridge1$string$len + 374372
7   chromedriver                        0x0000000100e13930 cxxbridge1$string$len + 330484
8   chromedriver                        0x0000000100e133c0 cxxbridge1$string$len + 329092
9   chromedriver                        0x0000000100e564a4 cxxbridge1$string$len + 603752
10  chromedriver                        0x0000000100e11a08 cxxbridge1$string$len + 322508
11  chromedriver                        0x0000000100e1266c cxxbridge1$string$len + 325680
12  chromedriver                        0x00000001011a2068 cxxbridge1$str$ptr + 1651256
13  chromedriver                        0x00000001011a699c cxxbridge1$str$ptr + 1669996
14  chromedriver                        0x00000001011871fc cxxbridge1$str$ptr + 1541068
15  chromedriver                        0x00000001011a726c cxxbridge1$str$ptr + 1672252
16  chromedriver                        0x0000000101178810 cxxbridge1$str$ptr + 1481184
17  chromedriver                        0x00000001011c5108 cxxbridge1$str$ptr + 1794776
18  chromedriver                        0x00000001011c5284 cxxbridge1$str$ptr + 1795156
19  chromedriver                        0x00000001011d3aac cxxbridge1$str$ptr + 1854588
20  libsystem_pthread.dylib             0x000000018aff1f94 _pthread_start + 136
21  libsystem_pthread.dylib             0x000000018afecd34 thread_start + 8


In [None]:
lista_url= []
for pagina in range(1,6):
    url = driver.find_element("css selector", f"#buscadorNF > div.col-md-9.col-12 > div > div:nth-child(4) > div > div > nav > ul > li:nth-child({pagina})").click()


    #buscadorNF > div.col-md-9.col-12 > div > div:nth-child(4) > div > div > nav > ul > li:nth-child(3)
    lista_url.append(url)

print(lista_url)