# PAIR PROGRAMMING- EXTRACCION DE DATOS - SELENIUM 
# Libros de Ficción en La Casa del Libro
MODULO 2

Contexto:
Imagina que eres un analista de datos en una importante cadena de librerías y tu misión es recopilar información actualizada sobre los libros de ficción disponibles en el mercado. Esta información es vital para tomar decisiones estratégicas, como determinar qué libros de ficción deben ser promocionados, ajustar los precios competitivamente y gestionar adecuadamente el inventario. La Casa del Libro es uno de los principales competidores, por lo que es esencial mantenerse al tanto de su catálogo.

Objetivo del Ejercicio: El objetivo de este ejercicio es que las alumnas utilicen Selenium en Python para automatizar la extracción de datos de los libros de ficción en el sitio web de La Casa del Libro. Deberán obtener información clave de los libros, incluyendo título, autor, precio, editorial, idioma y número de páginas.

Descripción:
Acceso a la Página de La Casa del Libro: Utilizando Selenium, deberás automatizar el proceso de navegación hacia la página de libros de ficción en el sitio web de La Casa del Libro.
Extracción de Datos de las 5 Primeras Páginas: Una vez en la página de libros de ficción, debes programar su script para que recorra los 5 primeros libros de libros, extrayendo los siguientes datos de cada libro:

- Título del libro.
- Autor(es) del libro.
- Precio del libro.
- Editorial del libro.
- Idioma del libro.
- Número de páginas del libro.
- Almacenamiento de Datos: Los datos extraídos deben almacenarse en un DataFrame.

In [1]:
#  Instalaciones a realizar
!pip install pandas
!pip install selenium
!pip install beautifulsoup4



In [2]:
# Importar librerías para tratamiento de datos
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python

# Importar librerías para web scraping y manipulación de datos
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.

# Importar librerías para pausar la ejecución
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Importar warnings
import warnings
warnings.filterwarnings('ignore')

# Importar libreria Numpy
import numpy as np

In [3]:
# Configuraciones
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.

In [4]:
# Inicializar el navegador y maximizar la página
driver = webdriver.Chrome()
driver.maximize_window()

# Ir a la página principal de La Casa del Libro
url = "https://www.casadellibro.com/"
driver.get(url)

# Esperar 4 segundos
sleep(4)

# Aceptar las cookies si es necesario
driver.find_element("xpath", '//*[@id="onetrust-accept-btn-handler"]').click()

# Esperar 5 segundos
sleep(5)

# Ir a la sección de libros de ficción
driver.find_element("css selector", '#app > div.v-application--wrap > div.when-mobile > div.cabecera.desktop > div.bottom-row > div > div > div:nth-child(2) > a').click()


# Creacion de diccionario de la casa del libro vacio
diccionario_ficcion = {"Título del libro": [], "Autor(es) del libro": [], "Precio del libro" : [], "Editorial del libro" : [], "Idioma" : [], "Numero de paginas del libro": []}

# Esperar 3 segundos
sleep(3)

# Iterar a través de productos de los 5 primeros elementos
for i in range(1,6):
    # Esperar 5 segundos
    sleep(5)

    # Hacer clic en el producto para ver detalles
    driver.find_element("css selector", f'#buscadorNF > div.col-md-9.col-12 > div > div.grid-view.mt-4 > div:nth-child({i}) > a > div > img').click()
    
    # Esperar 7 segundos
    sleep(7)

    diccionario_ficcion["Título del libro"].append(driver.find_element("css selector","#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > h1").text)
    diccionario_ficcion["Autor(es) del libro"].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.col-md-5.order-lg-2.col-12.order-1 > div > div.text-h5.d-flex.flex-wrap.author.mb-2.justify-center.justify-sm-start > div > a > span:nth-child(1)").text)
    try: # Uso de try...except: para los diferentes precios 
        diccionario_ficcion["Precio del libro"].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(3) > div.col.col-8 > strong").text)
    except:
        diccionario_ficcion["Precio del libro"].append(driver.find_element("css selector", "#app > div.v-application--wrap > main > div > div > div > div:nth-child(3) > div > div.border-left.col-md-4.col-12.order-3 > div > div:nth-child(4) > div > div.text-h4.font-weight-bold > span").text)
    diccionario_ficcion["Editorial del libro"].append(driver.find_element("css selector",'div.caracteristicas.mt-4.pt-4 > div:nth-child(2)').text)
    diccionario_ficcion["Numero de paginas del libro"].append(driver.find_element("css selector", "div.caracteristicas.mt-4.pt-4 > div:nth-child(1)").text)
    diccionario_ficcion["Idioma"].append(driver.find_element("css selector", "div.caracteristicas.mt-4.pt-4 > div:nth-child(3)").text)


# Esperar 3 segundos
    sleep(5)
    # Retroceder a la lista de productos
    driver.back()
    
# Uso de funcion
def limpieza_datos(diccionario):
    
# Creamos un diccionario vacio
    diccionario_ficcion_limpio = {"Título del libro": [], "Autor(es) del libro": [], "Precio del libro" : [], "Editorial del libro" : [], "Idioma" : [], "Numero de paginas del libro": []}

# Este bucle recorre los títulos de los libros en el diccionario original; Divide el título en dos partes utilizando el paréntesis "(" como separador. y Capitaliza la primera parte del título y la agrega al diccionario de libros limpio.
    for titulo in diccionario["Título del libro"]:
        titulo_separado =  titulo.split("(") 
        diccionario_ficcion_limpio["Título del libro"].append(titulo_separado[0].capitalize())
# Este bucle recorre los nombres de los autores en el diccionario original; y Capitaliza el nombre del autor y lo agrega al diccionario de libros limpio.
    for autor in diccionario["Autor(es) del libro"]:
        autor_modificado =  autor.capitalize()
        diccionario_ficcion_limpio["Autor(es) del libro"].append(autor_modificado)
# Este bucle recorre los precios de los libros en el diccionario original; Elimina el símbolo "€" y reemplaza "," por "." en el precio; Convierte el precio a un número decimal (float) y lo agrega al diccionario de libros limpio.
    for precio in diccionario["Precio del libro"]:
        precio_modificado =  float(precio.replace("€","").replace(",","."))
        diccionario_ficcion_limpio["Precio del libro"].append(precio_modificado)
# Este bucle recorre las editoriales de los libros en el diccionario original; Divide la cadena en nuevas líneas y toma la segunda parte como el nombre de la editorial; y Capitaliza el nombre de la editorial y lo agrega al diccionario de libros limpio.
    for editorial in diccionario["Editorial del libro"]:
        editorial_modificada =  editorial.split("\n")
        diccionario_ficcion_limpio["Editorial del libro"].append(editorial_modificada[1].capitalize())
# Este bucle recorre los idiomas de los libros en el diccionario original; Divide la cadena en nuevas líneas y toma la segunda parte como el idioma; y Capitaliza el idioma y lo agrega al diccionario de libros limpio.
    for idioma in diccionario["Idioma"]:
        idioma_modificada =  idioma .split("\n")
        diccionario_ficcion_limpio["Idioma"].append(idioma_modificada[1].capitalize())
# Este bucle recorre el número de páginas de los libros en el diccionario original; Elimina la parte "Nº de páginas:\n" de la cadena; Convierte el número de páginas a un entero y lo agrega al diccionario de libros limpio.
    for paginas in diccionario["Numero de paginas del libro"]:
        paginas_modificado =  int(paginas.replace("Nº de páginas:\n",""))
        diccionario_ficcion_limpio["Numero de paginas del libro"].append(paginas_modificado)

    return diccionario_ficcion_limpio    

In [6]:
dict_limpio = limpieza_datos(diccionario_ficcion)

# Creacion Dataframe
dt_libros = pd.DataFrame(diccionario_ficcion)
dt_libros

Unnamed: 0,Título del libro,Autor(es) del libro,Precio del libro,Editorial del libro,Idioma,Numero de paginas del libro
0,TRES ENIGMAS PARA LA ORGANIZACIÓN,EDUARDO MENDOZA,"20,80 €",Editorial:\nSeix Barral,Idioma:\nCASTELLANO,Nº de páginas:\n408
1,EL HIJO OLVIDADO,MIKEL SANTIAGO,"21,75 €",Editorial:\nB,Idioma:\nCASTELLANO,Nº de páginas:\n576
2,EL ESTRECHO SENDERO ENTRE DESEOS,PATRICK ROTHFUSS,"20,80 €",Editorial:\nPLAZA&JANES,Idioma:\nCASTELLANO,Nº de páginas:\n240
3,LA PACIENTE SILENCIOSA,ALEX MICHAELIDES,"10,40 €",Editorial:\nDEBOLSILLO,Idioma:\nCASTELLANO,Nº de páginas:\n400
4,BAJO TIERRA SECA (PREMIO NADAL 2024),CESAR PEREZ GELLIDA,"22,50 €",Editorial:\nEdiciones Destino,Idioma:\nCASTELLANO,Nº de páginas:\n504
