## Pair programming Selenium
# Ejercicios Selenium Extracción de Datos de Libros de Ficción en La Casa del Libro

Objetivo del Ejercicio: El objetivo de este ejercicio es que las alumnas utilicen Selenium en Python para automatizar la extracción de datos de los libros de ficción en el sitio web de La Casa del Libro. 

    Deberán obtener información clave de los libros, incluyendo título, autor, precio, editorial, idioma y número de páginas.

Descripción:
- Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.
- Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra las 5 primeras páginas de libros, extrayendo los siguientes datos de cada libro:
    - Título del libro.
    - Autor(es) del libro.
    - Precio del libro.
    - Editorial del libro.
    - Idioma del libro.
    - Número de páginas del libro.
- Almacenamiento de Datos: Los datos extraídos deben almacenarse en un DataFrame.


In [8]:
import pandas as pd 
from selenium import webdriver # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select # Select se utiliza para interactuar con elementos <select> en páginas web.
from time import sleep # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.
pd.set_option('display.max_columns', None) # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.
from bs4 import BeautifulSoup
import requests

In [24]:
#Inicializo el Chrome
driver = webdriver.Chrome() 

# Navega a la página web 
driver.get("https://www.casadellibro.com/")

#sleep(2)
#Bloqueamos la opcione de permitir notificaciones
#driver.find_element("css selector", "#onetrust-consent-sdk > div.onetrust-pc-dark-filter.ot-fade-in").click()

sleep(2)
#Aceptamos las cookies (podríamos poner la que no acepta)
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()

sleep(3)
#Maximizamos ventana
#driver.maximize_window()

#Vamos a la página de libros de ficción
driver.find_element("css selector", "#app > div.v-application--wrap > div.when-mobile > div.cabecera.desktop > div.bottom-row > div > div > div:nth-child(2) > a").click()
sleep(4)
diccionario_libros = {"título": [], 
                        "autor": [], 
                        "precio": [], 
                        "editorial": [], 
                        "idioma": [], 
                        "páginas": []}


#Iteramos por los libros
for i in range(1,6):

    #Pinchamos en el libro:
    driver.find_element("css selector", f"#buscadorNF > div.col-md-9.col-12 > div > div.grid-view.mt-4 > div:nth-child({i}) > a > div > img").click()
    sleep(4)

    #Sacar info de los libros y la metemos al diccionario:
    # TÍTULO
    try: #En general: 
        titulo = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text
    except: #Hay casos con distinto lugar para el título:
        titulo = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text
    diccionario_libros["título"].append(titulo)
    sleep(1)

    # AUTOR
    try: #En general: 
        autor = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div").text
    except: #Hay casos con distinto lugar para el autor: 
        autor = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div").text
    diccionario_libros["autor"].append(autor)
    sleep(1)
    
    # PRECIO
    try: #En general:                               
        precio = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3)").text
    except: #Hay casos con distinto lugar para el precio (puede ser porque no hay existencias):
        precio = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3)").text
    #app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(4) > div > div.text-h4.font-weight-bold > span
    #    precio = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(2) > div > div > div").text
    diccionario_libros["precio"].append(precio)
    sleep(1)

    # EDITORIAL
    try: #En general:                                   
        editorial = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.d-none.d-md-inline > div:nth-child(1) > span:nth-child(1)").text
    except: #Hay casos con distinto lugar para la editorial
        editorial = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.d-none.d-md-inline > div:nth-child(1) > span:nth-child(1)").text            
    diccionario_libros["editorial"].append(editorial)
    sleep(1)
    #Hacemos scroll para abajo porque algunos de los datos estaban dando error. Posiblemente no se cargaban.
    driver.execute_script("window.scrollTo(0,200)")
    sleep(3)
    
    # IDIOMA
    try: #En general:
        idioma = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div:nth-child(2) > div > div:nth-child(3) > div:nth-child(2)").text
    except: #Hay casos con distinto lugar para el idioma #app > div.v-application--wrap > main > div > div > div > div:nth-child(6) > div > div:nth-child(2) > div > div:nth-child(3) > div:nth-child(2) > span
        idioma = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(8) > div > div:nth-child(2) > div > div:nth-child(3) > div:nth-child(2)").text
    diccionario_libros["idioma"].append(idioma)  
    sleep(1)

    # PÁGINAS
    try: #En general
        paginas = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(7) > div > div:nth-child(2) > div > div:nth-child(1) > div:nth-child(2) > span").text
    except: #Hay casos con distinto lugar para el número de páginas 
        paginas = driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(8) > div > div:nth-child(2) > div > div:nth-child(1) > div:nth-child(2) > span").text
        sleep(1)
    diccionario_libros["páginas"].append(paginas)
    sleep(1)

    #Volvemos a la página previa
    sleep(12)
    driver.back()
    sleep(4)

print(diccionario_libros)

#Pasamos de página:
sleep(3)

#Cerramos el navegador
driver.close()

{'título': ['LA CHICA DEL VERANO (NOVELA)', 'LA ARMADURA DE LA LUZ (SAGA LOS PILARES DE LA TIERRA 5)', 'EL INFIERNO', 'EL PROBLEMA FINAL', 'TODO VUELVE (SERIE TODO ARDE 2)'], 'autor': ['LA VECINA RUBIA', 'KEN FOLLETT', 'CARMEN MOLA', 'ARTURO PEREZ REVERTE', 'JUAN GOMEZ JURADO'], 'precio': ['18,90 €\nEnvío gratis', '23,65 €\nEnvío gratis', '21,75 €\nEnvío gratis', '20,80 €\nEnvío gratis', '21,75 €\nEnvío gratis'], 'editorial': ['TIMUN MAS', 'PLAZA & JANES EDITORES', 'PLANETA', 'ALFAGUARA', 'EDICIONES B'], 'idioma': ['CASTELLANO', 'CASTELLANO', 'CASTELLANO', 'CASTELLANO', 'CASTELLANO'], 'páginas': ['424', '832', '480', '328', '608']}


In [25]:
print(len(diccionario_libros['título']))

5


In [26]:
print(len(diccionario_libros['páginas']))

5


In [27]:
diccionario_libros

{'título': ['LA CHICA DEL VERANO (NOVELA)',
  'LA ARMADURA DE LA LUZ (SAGA LOS PILARES DE LA TIERRA 5)',
  'EL INFIERNO',
  'EL PROBLEMA FINAL',
  'TODO VUELVE (SERIE TODO ARDE 2)'],
 'autor': ['LA VECINA RUBIA',
  'KEN FOLLETT',
  'CARMEN MOLA',
  'ARTURO PEREZ REVERTE',
  'JUAN GOMEZ JURADO'],
 'precio': ['18,90 €\nEnvío gratis',
  '23,65 €\nEnvío gratis',
  '21,75 €\nEnvío gratis',
  '20,80 €\nEnvío gratis',
  '21,75 €\nEnvío gratis'],
 'editorial': ['TIMUN MAS',
  'PLAZA & JANES EDITORES',
  'PLANETA',
  'ALFAGUARA',
  'EDICIONES B'],
 'idioma': ['CASTELLANO',
  'CASTELLANO',
  'CASTELLANO',
  'CASTELLANO',
  'CASTELLANO'],
 'páginas': ['424', '832', '480', '328', '608']}

In [28]:
df_result = pd.DataFrame(diccionario_libros)
df_result

Unnamed: 0,título,autor,precio,editorial,idioma,páginas
0,LA CHICA DEL VERANO (NOVELA),LA VECINA RUBIA,"18,90 €\nEnvío gratis",TIMUN MAS,CASTELLANO,424
1,LA ARMADURA DE LA LUZ (SAGA LOS PILARES DE LA ...,KEN FOLLETT,"23,65 €\nEnvío gratis",PLAZA & JANES EDITORES,CASTELLANO,832
2,EL INFIERNO,CARMEN MOLA,"21,75 €\nEnvío gratis",PLANETA,CASTELLANO,480
3,EL PROBLEMA FINAL,ARTURO PEREZ REVERTE,"20,80 €\nEnvío gratis",ALFAGUARA,CASTELLANO,328
4,TODO VUELVE (SERIE TODO ARDE 2),JUAN GOMEZ JURADO,"21,75 €\nEnvío gratis",EDICIONES B,CASTELLANO,608
