# Ejercicios Selenium 
### Extracción de Datos de Libros de Ficción en La Casa del Libro

Enunciado - Imagina que eres un analista de datos en una importante cadena de librerías y tu misión es recopilar información actualizada sobre los libros de ficción disponibles en el mercado. Esta información es vital para tomar decisiones estratégicas, como determinar qué libros de ficción deben ser promocionados, ajustar los precios competitivamente y gestionar adecuadamente el inventario. La Casa del Libro es uno de los principales competidores, por lo que es esencial mantenerse al tanto de su catálogo.

**Objetivo del Ejercicio:** El objetivo de este ejercicio es que las alumnas utilicen Selenium en Python para automatizar la extracción de datos de los libros de ficción en el sitio web de La Casa del Libro. Deberán obtener información clave de los libros, incluyendo título, autor, precio, editorial, idioma y número de páginas.

**Descripción**:

Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.

Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra los 5 primeros libros de libros, extrayendo los siguientes datos de cada libro:

Título del libro.

Autor(es) del libro.

Precio del libro.

Editorial del libro.

Idioma del libro.

Número de páginas del libro.

Almacenamiento de Datos: Los datos extraídos deben almacenarse en un DataFrame.

In [1]:
import pandas as pd
from bs4 import BeautifulSoup

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
from webdriver_manager.chrome import ChromeDriverManager
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from time import sleep
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

In [47]:
driver = webdriver.Chrome()

#Navego a la página de La Casa del Libro
driver.get("https://www.casadellibro.com/")

driver.maximize_window()
#Acepto coookies
sleep(5)
driver.find_element("css selector", "#onetrust-accept-btn-handler").click()

sleep(5)
driver.find_element("link text", "Ficción").click()

In [128]:
sleep(5)
#Creo diccionario con los títulos
diccionario_casa_del_libro_titulos = {"título": []}

for i in range(1, 6):
    try:
        titulos = driver.find_elements('css selector', f'#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({i}) > div:nth-child(3)')
        for titulo in titulos:
            titulo_limpio = titulo.text.split('\n')[0].strip()
            diccionario_casa_del_libro_titulos["título"].append(titulo_limpio)
    except NoSuchElementException:
        diccionario_casa_del_libro_titulos['título'].append('No disponible')

diccionario_casa_del_libro_titulos

{'título': ['UN ANIMAL SALVAJE',
  'LAS GUERRERAS MAXWELL, 9. LIBRE COMO EL VIENTO',
  'EL NIÑO',
  'EL ESPEJISMO',
  'LA CIUDAD Y SUS MUROS INCIERTOS']}

In [130]:
#Creo diccionario con los autores
diccionario_casa_del_libro_autores = {"autor(es)": []}

for i in range(1, 6):
    try:
        autores = driver.find_elements('css selector', f'#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({i}) > div:nth-child(3)')
        for nombres in autores:
            autor = nombres.text.split('\n')[1].strip() 
            diccionario_casa_del_libro_autores["autor(es)"].append(autor)
    except NoSuchElementException:
        diccionario_casa_del_libro_autores['autor(es)'].append('No disponible')

diccionario_casa_del_libro_autores

{'autor(es)': ['JOEL DICKER',
  'MEGAN MAXWELL',
  'FERNANDO ARAMBURU',
  'CAMILLA LACKBERG y HENRIK FEXEUS',
  'HARUKI MURAKAMI']}

In [131]:
#Creo diccionario con los precios
diccionario_casa_del_libro_precio = {'precio': []}

for i in range(1, 6):
    try:
        precios = driver.find_elements('css selector', f'#app > div.v-application--wrap > main > div > div > div > div:nth-child(4) > div > div > div:nth-child(2) > div > div.swiper > div:nth-child({i}) > div.price-group')
        for precio in precios:
            precio_limpio = precio.text.split('\n')[0].strip() 
            diccionario_casa_del_libro_precio['precio'].append(precio_limpio)
    except NoSuchElementException:
        diccionario_casa_del_libro_precio['precio'].append('No disponible')

diccionario_casa_del_libro_precio

{'precio': ['23,90 €', '18,00 €', '20,50 €', '23,90 €', '22,90 €']}

In [132]:
#Creo lista urls para iterar sobre los datos de los cinco libros que se encuentran en cada una de sus páginas.
lista_url = []


elementos_a = driver.find_elements('css selector','.d-none a[href]')

for a in elementos_a:
    url_libro = a.get_attribute('href')
    lista_url.append(url_libro)

print(lista_url)

['https://www.casadellibro.com/libro-un-animal-salvaje/9788420476841/14519551', 'https://www.casadellibro.com/libro-las-guerreras-maxwell-9-libre-como-el-viento/9788408285984/15845507', 'https://www.casadellibro.com/libro-el-nino/9788411074445/15843396', 'https://www.casadellibro.com/libro-el-espejismo/9788408287018/15845536', 'https://www.casadellibro.com/libro-la-ciudad-y-sus-muros-inciertos/9788411074278/14508018', 'https://www.casadellibro.com/libro-novia/9788419988126/15821625', 'https://www.casadellibro.com/libro-blackwater-v-la-fortuna/9788419654977/14442382', 'https://www.casadellibro.com/libro-los-alemanes-premio-alfaguara-de-novela-2024/9788420476827/15823409', 'https://www.casadellibro.com/libro-blackwater-iv-la-guerra/9788419654953/14442380', 'https://www.casadellibro.com/libro-la-seduccion/9788419437808/14519498']


In [133]:
#Creo diccionario con las editoriales que itera por las cinco primeras urls de la lista de urls
diccionario_casa_del_libro_editoriales = {'editorial': []}                                    

for url in lista_url[:5]:
    driver.get(url)
    try:
        editoriales = driver.find_elements('xpath', f'//*[@id="app"]/div[1]/main/div/div/div/div[3]/div/div/div[2]/div/div[4]/div[1]')
        for editorial in editoriales:
            nombres_editoriales = editorial.text.split('\n')[0].strip() 
            diccionario_casa_del_libro_editoriales['editorial'].append(nombres_editoriales)
    except NoSuchElementException:
        diccionario_casa_del_libro_editoriales['editorial'].append('No disponible')
    
    driver.back()

diccionario_casa_del_libro_editoriales

{'editorial': ['ALFAGUARA',
  'Esencia',
  'Tusquets Editores S.A.',
  'Editorial Planeta',
  'Tusquets Editores S.A.']}

In [134]:
#Creo diccionario con el número de páginas que itera por las cinco primeras urls de la lista de urls. 
#Cómo la ubicación de este número parece cambiar en cada url opto por poner no disponible cuando no se pueda convertir a int.
diccionario_casa_del_libro_paginas = {'páginas': []}

for url in lista_url[:5]:
    driver.get(url)
    try:
        paginas = driver.find_elements('xpath', f'//*[@id="app"]/div[1]/main/div/div/div/div[7]/div/div/div[2]')
        for numeros in paginas:
            numero_paginas = numeros.text.split('\n')[1].strip()
            # Verificar si el número de páginas es un número
            if numero_paginas.isdigit():
                diccionario_casa_del_libro_paginas['páginas'].append(int(numero_paginas))
            else:
                diccionario_casa_del_libro_paginas['páginas'].append('No disponible')
    except NoSuchElementException:
        diccionario_casa_del_libro_paginas['páginas'].append('No disponible')
    
    driver.back()

diccionario_casa_del_libro_paginas

{'páginas': [448, 512, 'No disponible', 'No disponible', 576]}

In [147]:
df_titulos = pd.DataFrame(diccionario_casa_del_libro_titulos)

# Creo el DataFrame para los autores
df_autores = pd.DataFrame(diccionario_casa_del_libro_autores)

# Creo el DataFrame para los precios
df_precios = pd.DataFrame(diccionario_casa_del_libro_precio)

# Creo el DataFrame para las editoriales
df_editoriales = pd.DataFrame(diccionario_casa_del_libro_editoriales)

# Creo el DataFrame para las páginas
df_paginas = pd.DataFrame(diccionario_casa_del_libro_paginas)

# Creo un diccionario con todos los datos y uso tolsit para poder convertirlos a un DataFrame bonito.
diccionario_completo = {
    'título': df_titulos['título'].tolist(),
    'autor(es)': df_autores['autor(es)'].tolist(),
    'precio': df_precios['precio'].tolist(),
    'editorial': df_editoriales['editorial'].tolist(),
    'páginas': df_paginas['páginas'].tolist()
}

# Muestro el diccionario completo
diccionario_completo
df_casa_del_libro = pd.DataFrame(diccionario_completo)
df_casa_del_libro  

Unnamed: 0,título,autor(es),precio,editorial,páginas
0,UN ANIMAL SALVAJE,JOEL DICKER,"23,90 €",ALFAGUARA,448
1,"LAS GUERRERAS MAXWELL, 9. LIBRE COMO EL VIENTO",MEGAN MAXWELL,"18,00 €",Esencia,512
2,EL NIÑO,FERNANDO ARAMBURU,"20,50 €",Tusquets Editores S.A.,No disponible
3,EL ESPEJISMO,CAMILLA LACKBERG y HENRIK FEXEUS,"23,90 €",Editorial Planeta,No disponible
4,LA CIUDAD Y SUS MUROS INCIERTOS,HARUKI MURAKAMI,"22,90 €",Tusquets Editores S.A.,576
