## REPASO SPRINT 1- MODULO 2

Repaso: Scraping de Datos y Creación de una Base de Datos -- Extracción de Datos (Beautiful Soup, Selenium y API's)

Descripción del Ejercicio:

En este ejercicio de repaso, usaremos la API Books, API de Google y también utilizaremos Selenium para realizar scraping de datos desde una página web de una tienda en línea de libros para obtener información adicional. El objetivo es recopilar información detallada sobre libros de Stephen King y crear una base de datos local para almacenarlos.

Pasos a Seguir:
1. Consulta de Datos de Libros (API Books API - Google Books):
- Utiliza la API Books API para buscar libros de Stephen King.  el link a su documentación.
- Realiza una solicitud a la API y almacena los datos de los libros de Stephen King’s.
2. Scraping de Datos de Libros (Selenium - Book Center):
- Utiliza la biblioteca Selenium para automatizar la navegación en la página web de Book Center, una tienda en línea de libros.
- Realiza búsquedas de libros en el sitio web y navega por las páginas de resultados.
- Extrae información detallada de los libros, como el precio (con y sin descuento si está disponible), editorial, año de edición y número de páginas.
- Almacena estos datos en una estructura de datos, como una lista de diccionarios.
3. Creación de una Base de Datos Local:
- Diseña una BBDD para almacenar la información de los libros.

------------------------------------------------------------------------------


Pasos:
1. Consulta de Datos de Libros (API Books API - Google Books):
- Utiliza la API Books API para buscar libros de Stephen King.  el link a su documentación.
- Realiza una solicitud a la API y almacena los datos de los libros de Stephen King’s.

In [None]:
# Instalar las herramientas a utilizar
!pip install tqdm
!pip install python-dotenv

In [None]:
!pip install requests
!pip install pandas

In [None]:
# Importacion de librerias:

# Librería para manipulación y análisis de datos
import pandas as pd

# Librerías para automatización de navegadores web
from selenium import webdriver
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.common.keys import Keys
from time import sleep
from tqdm import tqdm


# Librerías para hacer solicitudes HTTP y extracción de datos
import requests
from bs4 import BeautifulSoup


# Librería para suprimir advertencias
import warnings
warnings.filterwarnings('ignore')


# Importar librería para ocultar contraseñas
import os
from dotenv import load_dotenv
load_dotenv()

In [4]:
# Configuración para poder visualizar todas las columnas de los DataFrames
pd.set_option('display.max_columns', None) 

In [5]:
# Crear una contraseña 
key_usuario = os.getenv("key_usuario")

In [6]:
# Definir url
url_books = f"https://api.nytimes.com/svc/books/v3/reviews.json?author=Stephen%20King&api-key={key_usuario}"


In [7]:
# Realiza una solicitud GET a la URL proporcionada y almacena la respuesta en 'llamada'.
llamada_books = requests.get(url_books)
    
# Llamamos y imprime el código de estado de la respuesta.
llamada_books.status_code
print(f"La llamada a la API nos ha dado una respuesta de tipo: {llamada_books.status_code}")  

La llamada a la API nos ha dado una respuesta de tipo: 200


In [None]:
books_json = llamada_books.json()
books_json

In [9]:
# Solicito el tipo
type(books_json)

dict

In [10]:
# Observamos la longitud
len(books_json)

4

In [11]:
# Solicitamos las Keys para posteriormente acceder a cada una de ellas
books_json.keys()

dict_keys(['status', 'copyright', 'num_results', 'results'])

In [12]:
books_json["status"]

'OK'

In [13]:
books_json["copyright"]

'Copyright (c) 2024 The New York Times Company.  All Rights Reserved.'

In [14]:
books_json["num_results"]

66

In [None]:
books_json["results"]

In [None]:
books_json["results"][0]

In [17]:
# Imprimimos el DataFrame
df_libros = pd.DataFrame(books_json["results"])
df_libros.head()

Unnamed: 0,url,publication_dt,byline,book_title,book_author,summary,uuid,uri,isbn13
0,http://www.nytimes.com/2011/11/13/books/review...,2011-11-13,ERROL MORRIS,11/22/63,Stephen King,Stephen King’s time traveler tries to undo som...,00000000-0000-0000-0000-000000000000,nyt://book/00000000-0000-0000-0000-000000000000,"[9780307951434, 9780606351461, 9781442344280, ..."
1,http://www.nytimes.com/2011/10/31/books/stephe...,2011-10-31,JANET MASLIN,11/22/63,Stephen King,"Stephen King’s latest novel, “11/22/63,” tells...",00000000-0000-0000-0000-000000000000,nyt://book/00000000-0000-0000-0000-000000000000,"[9780307951434, 9780606351461, 9781442344280, ..."
2,http://www.nytimes.com/2004/01/04/books/the-qu...,2004-01-04,ANDREW O'HEHIR,Wolves of the Calla,Stephen King,,00000000-0000-0000-0000-000000000000,nyt://book/00000000-0000-0000-0000-000000000000,[9781848941137]
3,http://www.nytimes.com/1993/10/24/books/in-sho...,1993-10-24,RICHARD E. NICHOLLS,Nightmares and Dreamscapes,Stephen King,,00000000-0000-0000-0000-000000000000,nyt://book/00000000-0000-0000-0000-000000000000,[9781441615299]
4,http://www.nytimes.com/2001/11/04/books/books-...,2001-11-04,MARY ELIZABETH WILLIAMS,Black House,Stephen King,,00000000-0000-0000-0000-000000000000,nyt://book/00000000-0000-0000-0000-000000000000,[9780375504396]


In [None]:
# Obtención de los datos de la columna title y lista con los nombres unicos sin estar repetidos
df_libros["book_title"].unique()

In [19]:
# guardamos el dataFrame en un csv
df_libros.to_csv("libros.csv")

2. Scraping de Datos de Libros (Selenium - Book Center):
- Utiliza la biblioteca Selenium para automatizar la navegación en la página web de Book Center, una tienda en línea de libros.
- Realiza búsquedas de libros en el sitio web y navega por las páginas de resultados.
- Extrae información detallada de los libros, como el precio (con y sin descuento si está disponible), editorial, año de edición y número de páginas.
- Almacena estos datos en una estructura de datos, como una lista de diccionarios.

In [None]:
!pip install pandas
!pip install requests

In [21]:
# Importar librerías para tratamiento de datos
import pandas as pd  # Pandas es una poderosa librería para manipulación y análisis de datos en Python.

# Importar librerías para web scraping y manipulación de datos
from bs4 import BeautifulSoup
import requests

# Importar librerías para automatización de navegadores web con Selenium
from selenium import webdriver  # Selenium es una herramienta para automatizar la interacción con navegadores web.
from webdriver_manager.chrome import ChromeDriverManager  # ChromeDriverManager gestiona la instalación del controlador de Chrome.
from selenium.webdriver.common.keys import Keys  # Keys es útil para simular eventos de teclado en Selenium.
from selenium.webdriver.support.ui import Select  # Select se utiliza para interactuar con elementos <select> en páginas web.
from tqdm import tqdm

# Importar librerías para pausar la ejecución
from time import sleep  # Sleep se utiliza para pausar la ejecución del programa por un número de segundos.

# Importar libreria para los warnings
import warnings
warnings.filterwarnings('ignore')

# Importar libreria numpy
import numpy as np

# Configuraciones
pd.set_option('display.max_columns', None)  # Establece una opción de Pandas para mostrar todas las columnas de un DataFrame.


In [None]:
# 1.Inicializar un navegador web Chrome a través de WebDriver
driver = webdriver.Chrome()

# 2.Navegar a la página web de BookCenter que contiene información de libros
driver.get("https://www.bookcenter.es/")

# 1.Maximizar la ventana del navegador
driver.maximize_window()

# Esperar 4 segundos
sleep(4)

# 3.Aceptar las cookies en la página web
driver.find_element("css selector", "#cookie-accept").click()

# Esperar 4 segundos
sleep(4)

# 5. Creamos una lista vacia de las url de los libros
listaurl_libros = []

# 6. Iteramos sobre la lista de las url_libros
for libros in tqdm(listaurl_libros):
    try:
        # Uso el texto ingresado para buscar productos en el sitio web de Books center y presione la tecla "Enter" para iniciar la búsqueda.
        driver.find_element("css selector", "#busqueda > input.search-text").send_keys(libros, Keys.ENTER)
    
        # Esperar 2 segundos
        sleep(2)
    
        # Obtener la URL del primer resultado de búsqueda en el sitio web
        url_libro = driver.find_element("css selector", "#main-container > div > div > div.row > ul > li:nth-child(1) > form > dl > dd.title > a").get_attribute("href")

        # Agregar la URL del libro a la lista "lista_url_libros"
        listaurl_libros.append(url_libro)
    except:
        pass
# 8. Cerrar el navegador
driver.close()

In [None]:
listaurl_libros

In [37]:
# Crear un diccionario llamado "diccionario_detalles" con claves para diferentes detalles de libros
diccionario_detalles = {"precios": [], "nombre_libro": [], "Editorial": [], "Año de edicion": [], "Paginas": []}

In [38]:
# Iterar a través de las URL de libros en la lista "lista_url_libros", para obtener la información de los libros de Stephen King
for url in listaurl_libros:
    # Realizar una solicitud HTTP a la URL y obtener la respuesta
    respuesta_libro = requests.get(url)
    
    # Ver el estado de la respuesta
    respuesta_libro.status_code
    
    # Analizar el contenido HTML de la respuesta y almacenarlo en la variable "sopa"
    sopa = BeautifulSoup(respuesta_libro.content, "html.parser")

    detalles = sopa.find_all("dl", {"class": "summary col-md-8 col-sm-8"})[0].text.split("\n")

    diccionario_detalles["nombre_libro"].append(detalles[1])
    diccionario_detalles["precios"].append(detalles[7])

    for indice, elemento in enumerate(detalles):
        if elemento == "Editorial:":
            ind = indice + 1
            diccionario_detalles["Editorial"].append(detalles[ind])
            
        elif elemento == "Páginas:":
            
            ind = indice + 1
            diccionario_detalles["Paginas"].append(detalles[ind])
        
        elif elemento == "Año de edición: ":
            ind = indice + 1
            diccionario_detalles["Año de edicion"].append(detalles[ind])

    if len(diccionario_detalles["Editorial"]) != len(diccionario_detalles["Año de edicion"]):
        diccionario_detalles["Año de edicion"].append("desc")

    if len(diccionario_detalles["Editorial"]) != len(diccionario_detalles["Paginas"]):
        diccionario_detalles["Paginas"].append("desc")
    break 
        
diccionario_detalles

{'precios': [],
 'nombre_libro': [],
 'Editorial': [],
 'Año de edicion': [],
 'Paginas': []}

In [27]:
# Imprimir para ver la información recopilada
diccionario_detalles

{'precios': [],
 'nombre_libro': [],
 'Editorial': [],
 'Año de edicion': [],
 'Paginas': []}

3. Creación de una Base de Datos Local:
- Diseña una BBDD para almacenar la información de los libros.

In [None]:
CREATE TABLE Libros (
    id INT PRIMARY KEY AUTO_INCREMENT,
    nombre_libro VARCHAR(255),
    editorial VARCHAR(255),
    anio_edicion INT,
    paginas INT,
    precio DECIMAL(10, 2));