![MBITSchool](https://i.imgur.com/UiDMkO3.png)

### Proyecto de Consolidación APIs y Web Scraping

##### Alejandro Paredero - paredero@mbitschool.com

**El proyecto de consolidación de Web Scraping, API REST y Streamlit pretende que de forma autónoma combinemos proyectos de captura, procesamiento de datos y visualización basados en un sistema o entre dos o más distintos.**

Aquí la creatividad es muy importante ✔️. Una vez resuelto los retos propuestos siéntete libre de extenderlos con características adicionales.

⚠️ **ATENCIÓN**: <u>Ten a mano las presentaciones y los cuadernos resueltos de las sesiones anteriores, te serán de gran ayuda.</u>

**Los ejercicios EXTRA son opcionales**. Si dais vuestro consentimiento tras la fecha de cierre, podré hacer publicaciones con capturas de pantalla en redes como LinkedIn con objeto de promocionaros.

Para dudas tenéis un foro en el campus o mi correo electrónico 📧 paredero@mbitschool.com

**Datos del alumno:**

- **Nombre:** `Daniel Herraiz Tello`
- **Consentimiento sobre ejercicios EXTRA:** Si realizas el ejercicio, ¿permites que pueda publicar el contenido en foto/vídeo si el resultado es relevante? `SI`
- **Comentario:** Tras realizar los diferentes retos, ¿qué te han parecido? ¿qué problemas has encontrado?


##### Comentarios tras finalizar
* ## Reto 1
* El reto 1 está por completo en reto1.py
* La columna +/- requiere especial atención y me ha dado algunos problemas al variar el nombre de la clase según >0 o <0
* Al realizar el reto inicialmente en el notebook, podía usar una variable global como caché. En el script de python he tenido que usar un sistema distinto:
    * Las variables globales se reinician al interactuar con el UI
    * Ha sido necesario un sistema de archivos
    * Inicialmente probé con un archivo y json (pag1->content1...) pero era muy complicado con los formatos, decidí crear un archivo por página
    * He añadido una sección para ver y vaciar caché en la app para facilitar las pruebas
* ## Reto 2

### Reto 1 - BeautifulSoup y Streamlit: Capturar estadísticas de equipos de hockey

Vista la web https://www.scrapethissite.com/pages/forms/. Examina como se comporta la URL con la paginación.  El objetivo es capturar la información de las primeras 10 páginas y crear una aplicación sencilla en Streamlit que permita mostrar la información de las columnas "Team name", "Year", "Win", "Loses" y "+/-"

##### Ejercicio:
* Captura el los términos listados anteriormente:  "Team name", "Year", "Win", "Loses" y "+/-" , de al menos las primeras 8 páginas.
* Almacena el resultado en un **dataframe** de Steramlit.
* Implementa el cacheo de contenido de las URL (Revisa la presentación) para evitar consultas repetidas a las URL.
* **Extra**: Permite que el usuario elija el rango de página mínima y máxima a capturar contenido
* **Extra**: Permite que el usuario elija filtrar por equipos cuyo "+/-" sea superior a una cifra determinada.

*PISTA: La página 1 tiene la estructura `https://www.scrapethissite.com/pages/forms/?page_num=1` , la página 2 `https://www.scrapethissite.com/pages/forms/?page_num=2` y así sucesivamente.*

In [10]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import selenium
import re
import time

### Reto 2 - Selenium: Captura del valor del oro

Como vimos en clase, hay páginas que implementan medidas para evitar el Web Scraping. En la web de https://www.inversoro.es/precio-del-oro/precio-oro-hoy/ apreciamos cómo la página web cara un valor antiguo y pasados unos segundos actualiza. 

Esto hace que bibliotecas como `request` + `BeautifulSoup` no nos sirva aquí ya que capturamos el instante t=0. Sin embargo, con *Selenium* podemos interactuar en tiempo real mientras el navegador se ejecuta.

#### Ejercicio
Inspecciona la web, obteniendo la etiqueta HTML donde el valor aparece representado y crea un script que utilice Selenium, cargando la página y capturando  dicho valor en tiempo real cada 5 segundos en un periodo de 1 minuto. Almacena el resultado de dicho valor y del timestamp correspondiente (*[ayuda](https://www.geeksforgeeks.org/get-current-timestamp-using-python/)*)

In [None]:
from selenium.webdriver.common.by import By
import datetime
import time
import pandas as pd


In [12]:
# Carga de Driver para Firefox
from selenium import webdriver
from selenium.webdriver.firefox.service import Service

service = Service(executable_path="C:/Repos/Utils/geckodriver.exe")
options = webdriver.FirefoxOptions()
#options.add_argument("-private")

In [None]:
driver = webdriver.Firefox(service=service, options=options)
driver.get("https://www.inversoro.es/precio-del-oro/precio-oro-hoy/")

In [14]:
# #tras realizar el loop y probar varias veces veo que no se actualiza. 
# driver = webdriver.Firefox(service=service, options=options)
# driver.get("https://www.inversoro.es/precio-del-oro/precio-oro-hoy/")
# #Pruebo la págiona "tiempo-real", y ocurre lo mismo, al cargar con el driver no se actualiza
# #Además, salta la comprobación de bot con frecuencia

In [None]:
driver.close()

In [16]:
print(driver.page_source)

<html lang="es"><head>
            <meta charset="utf-8">
            <meta http-equiv="X-UA-Compatible" content="IE=edge">
            <meta name="viewport" content="width=device-width, initial-scale=1">

            <meta name="description" content="Precio de Oro en EUR por Onza troy Hoy">
            <meta name="keywords" content="Oro EUR , onza troy, Hoy">

            <link rel="preload" href="https://www.inversoro.es/static/fonts/bbpicon/bbpicon.woff2" as="font" type="font/woff2" crossorigin="">

            <link rel="preconnect" href="https://www.google-analytics.com">
            <link rel="preconnect" href="https://googleads.g.doubleclick.net">
            <link rel="preconnect" href="https://www.googletagmanager.com">

            <title>Precio del oro hoy | Inversoro</title>

            
    <!-- Instantiate datalayer -->
    <script async="" src="https://www.googletagmanager.com/gtm.js?id=GTM-KDZLTSX"></script><script type="text/javascript">
        window.dataLayer = win

In [17]:
precioOro = driver.find_element(By.XPATH, "/html/body/div[4]/div/div/div[1]/div[2]/div[1]/div[1]/div[2]/div[1]/span")
print(precioOro.text)

2 930,37 €


In [18]:
precioOro = driver.find_element(By.NAME, "current_price_field")
print(precioOro.text)

2 930,37 €


In [19]:
entryList = []
start_time = datetime.datetime.now().timestamp()
while datetime.datetime.now().timestamp() - start_time < 60:
    precio_oro = driver.find_element(By.NAME, "current_price_field").text
    timestamp = datetime.datetime.now()
    entryList.append({"timestamp": timestamp, "precioOro": precio_oro})
    time.sleep(5)
goldPriceDF = pd.DataFrame(entryList)
goldPriceDF

Unnamed: 0,timestamp,precioOro
0,2025-04-19 01:03:00.423722,"2 930,36 €"
1,2025-04-19 01:03:05.446778,"2 930,36 €"
2,2025-04-19 01:03:10.461601,"2 930,36 €"
3,2025-04-19 01:03:15.469491,"2 930,36 €"
4,2025-04-19 01:03:20.475369,"2 930,36 €"
5,2025-04-19 01:03:25.483715,"2 930,36 €"
6,2025-04-19 01:03:30.490403,"2 930,36 €"
7,2025-04-19 01:03:35.500839,"2 930,36 €"
8,2025-04-19 01:03:40.516265,"2 930,36 €"
9,2025-04-19 01:03:45.524195,"2 930,36 €"


In [32]:
entryList = []
start_time = datetime.datetime.now().timestamp()
while datetime.datetime.now().timestamp() - start_time < 60:
    driver = webdriver.Firefox(service=service, options=options)
    driver.get("https://www.inversoro.es/precio-del-oro/precio-oro-hoy/")
    time.sleep(2.5)
    precio_oro = driver.find_element(By.NAME, "current_price_field").text
    timestamp = datetime.datetime.now()
    entryList.append({"timestamp": timestamp, "precioOro": precio_oro})
   # driver.refresh()
    driver.close()
goldPriceDF = pd.DataFrame(entryList)
goldPriceDF

Unnamed: 0,timestamp,precioOro
0,2025-04-11 13:54:31.761804,"2 833,86 €"
1,2025-04-11 13:54:40.337720,"2 833,86 €"
2,2025-04-11 13:54:49.100095,"2 836,79 €"
3,2025-04-11 13:54:57.550843,"2 833,86 €"
4,2025-04-11 13:55:06.044242,"2 833,86 €"
5,2025-04-11 13:55:14.662721,"2 836,79 €"
6,2025-04-11 13:55:23.283841,"2 836,79 €"
7,2025-04-11 13:55:31.820693,"2 833,86 €"


In [None]:
entryList = []
start_time = datetime.datetime.now().timestamp()
while datetime.datetime.now().timestamp() - start_time < 60:
    precio_oro = driver.find_element(By.NAME, "current_price_field").text
    timestamp = datetime.datetime.now()
    entryList.append({"timestamp": timestamp, "precioOro": precio_oro})
    time.sleep(5)
goldPriceDF = pd.DataFrame(entryList)
goldPriceDF

### Reto EXTRA - Selenium, BeautifulSoup y Streamlit: El comparador (simple) de precios 📊📉

Los comparadores de precios <u>es uno de los nichos de mercado más lucrativos en Internet.</u> Dado un producto o servicio a nivel de usuario nos beneficiamos del precio más bajo existente y a nivel de empresa éstas obtienen grandes beneficios gracias a sistemas de referidos o de comisiones por venta realizada.

En esta ocasión vamos a realizar un simple comparador de precios basado en el número ISBN. Un ISBN es un código normalizado internacional para libros (International Standard Book Number). Estos estaban compuestos por 10 dígitos hasta diciembre de 2006 pero, desde enero de 2007, tienen una extensión de 13 dígitos. 


Por ejemplo, el ISBN [9788478884452](https://www.google.es/search?q=9788478884452) (haz click) corresponde al libro "Harry Potter y la piedra filosofal".

Dado que no disponemos de acceso a APIs de las tiendas principales <u>capturaremos el precio a través de técnicas de Web Sraping.</u>

##### Ejercicio 

El objetivo es realizar la consulta de un ISBN, por ejemplo el de "Harry Potter y la Piedra filosofal" en al menos **tres** de las siguientes tiendas propuestas. Captura el primer resultado en EUROS, y devuelve cómo resultado cuál tiene el precio más bajo. 

Crea un sencillo interfaz en Streamlit que pregunte por el ISBN de un número (entre 10 y 13 dígitos) y devuelva como resultado el primer elemento de cada tienda examinada, con el título, la imagen (si la hubiese), el precio y un enlace para hacer click.

Como puntos extra:
* Incluye en la comparativa más de las 3 tiendas propuestas.
* Incluye por texto posteriormente cuál es la diferencia de precio en euros y en porcentaje respecto al valor más bajo detectado para saber cuánto nos estamos ahorrando.
* Crea un diagrama de barras con el precio en cada tienda para representar visualmente el ahorro en precio.

Ejemplo de tiendas propuestas:
- https://www.casadellibro.com/
- https://www.libreriacentral.com/
- https://www.iberlibro.com/
- https://www.amazon.es/
- https://ebay.es
- https://www.elcorteingles.es/

Recuerda que para cada página debes realizar ingeniería inversa, averiguando cómo se comportan las URLs de cada sitio web para hacer una búsqueda directa.

**Pista**: Utiliza Selenium para capturar datos si te resulta request/BeautifulSoup complicado de utilizar.

**Extra**: *¿Conoces alguna otra página donde comprar libros? Inclúyela en el comprador*

**Extra 2**: *¿Cómo podríamos obtener una evolución del precio durante una semana?*

In [187]:
import json
import requests
import streamlit as st
from bs4 import BeautifulSoup
# from selenium import webdriver
from time import sleep

from selenium.webdriver.common.by import By
import datetime
import time
import pandas as pd
# Carga de Driver para Firefox
from selenium import webdriver
from selenium.webdriver.firefox.service import Service
from selenium.webdriver.support.wait import WebDriverWait
from selenium.common.exceptions import NoSuchElementException

from selenium.webdriver import ActionChains
from selenium.webdriver.common.actions.wheel_input import ScrollOrigin

In [37]:
isbn = '9788478884452'
url = f"https://www.casadellibro.com/?query={isbn}"
print(url)
page = requests.get(url)
print(page.status_code)
soup = BeautifulSoup(page.content,"html.parser")
priceList = soup.find_all("span", class_="x-currency")
print(priceList)

with open("casaLibroBs4.txt", "wb") as cacheFile:
        cacheFile.write(page.content)

https://www.casadellibro.com/?query=9788478884452
403
[]


## Con beautifulSoup obtengo "access denied"

In [None]:
driver.close()

: 

In [143]:

service = Service(executable_path="C:/Repos/Utils/geckodriver.exe")
options = webdriver.FirefoxOptions()
#options.add_argument("-private")



In [144]:

isbn = '9788478884452'
url = f"https://www.casadellibro.com/?query={isbn}"
driver = webdriver.Firefox(service=service, options=options)
driver.get(url)

In [28]:
soup = BeautifulSoup(driver.page_source,"html.parser")
priceList = soup.find_all("span", class_="x-currency")
print(priceList)

with open("casaLibroBs4.html", "w",  encoding='utf-8') as cacheFile:
        cacheFile.write(driver.page_source)

[]


In [39]:
search = driver.find_element(By.XPATH, "//input[@id='empathy-search']")
search.send_keys(isbn)

In [42]:
links = driver.find_elements(By.XPATH, "//article[@data-test='search-grid-result']")
print(links)


[]


In [193]:
# availability = driver.find_element(By.XPATH, "//div[@data_test='availability']")
# availability.find_elements(By.XPATH, "//li[@data-test='base-filters-item]")
# print(len(availability))

# --- EXPAND SHADOW DOM ROOT ---
def expand_shadow_element(element):
    shadow_root = driver.execute_script("return arguments[0].shadowRoot", element)
    return shadow_root

root1 = driver.find_element(By.XPATH, "//div[@class='x-root-container']")
shadow_root1 = expand_shadow_element(root1)

button = shadow_root1.find_element(By.CSS_SELECTOR, 'button[data-test="toggle-facets-button"]')
button.click()
# availability = shadow_root1.find_element(By.CSS_SELECTOR, 'div[data-test="availability"]')

In [194]:
availability = shadow_root1.find_element(By.CSS_SELECTOR, 'div[data-test="availability"]')
# print(len(availability))

In [195]:
availability.click()

In [142]:
driver.close()

In [198]:
scroll_origin = ScrollOrigin.from_element(availability)
ActionChains(driver)\
    .scroll_from_origin(scroll_origin, 0, 500)\
    .perform()


In [None]:
html = shadow_root1.find_element(By.XPATH, "//div[@class='x-scroll x-flex-auto x-p-40 x-pr-24 x-pt-0']")
html.send_keys(Keys.END)

In [197]:
# checkboxList = availability.find_elements(By.CSS_SELECTOR, 'li[data-test="base-filters-item"]')
# print(checkboxList)

# print(checkboxList[1].text)
# checkboxList[1].click()

for checkbox in availability.find_elements(By.CSS_SELECTOR, 'li[data-test="base-filters-item"]'):
    if checkbox.text == 'disponible':
        checkbox.click()
        break

In [222]:
sortButton = shadow_root1.find_element(By.CSS_SELECTOR, 'div[data-test="sort"]')
sortButton.click()

In [228]:
sortButton.click()

In [202]:
checkboxListSort = sortButton.find_elements(By.CSS_SELECTOR, 'button[data-test="sort-picker-button"]')
print(checkboxListSort[2].text)
print(len(checkboxListSort))

Precio: De menor a mayor
7


In [203]:
checkboxListSort[2].click()

In [None]:
scroll_origin = ScrollOrigin.from_element(sortButton)
ActionChains(driver)\
    .scroll_from_origin(scroll_origin, 0, 3500)\
    .perform()

# modalFooter = driver.find_element(By.CSS_SELECTOR, 'button[data-test="filters-show-more"]')
# ActionChains(driver)\
#     .scroll_to_element(modalFooter)\
#     .perform()



MoveTargetOutOfBoundsException: Message: Move target (1006, -102) is out of bounds of viewport dimensions (1280, 601)
Stacktrace:
RemoteError@chrome://remote/content/shared/RemoteError.sys.mjs:8:8
WebDriverError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:199:5
MoveTargetOutOfBoundsError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:518:5
assertTargetInViewPort@chrome://remote/content/shared/webdriver/Actions.sys.mjs:3103:11
#assertInViewPort@chrome://remote/content/marionette/actors/MarionetteCommandsChild.sys.mjs:115:17
receiveMessage@chrome://remote/content/marionette/actors/MarionetteCommandsChild.sys.mjs:210:42


In [44]:
links = driver.find_elements(By.XPATH, "//a[@data-test='x-result-link']")
links = driver.find_elements(By.XPATH, "//div[@data-test='x-relative']")
links = driver.find_elements(By.XPATH, "//input[@id='empathy-search']")
print(links)


[<selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="15fd8340-2d7b-4cd1-acea-96637e77e9fc")>]


In [47]:
def expand_shadow_element(element):
    shadow_root = driver.execute_script('return arguments[0].shadowRoot', element)
    return shadow_root

In [62]:
root1 = driver.find_element(By.XPATH, "//div[@class='x-root-container']")
print(root1)
shadow_root1 = expand_shadow_element(root1)
bookPrice = shadow_root1.find_elements(By.CLASS_NAME, "x-currency")
print(bookPrice[0].text)

# bookPrice1 = shadow_root1.find_elements(By.XPATH, "//div[@data-test='result-previous-price']")
bookPrice1 = shadow_root1.find_elements(By.CSS_SELECTOR, 'div[data-test="result-current-price"]')

try:
    bookPrice2 = shadow_root1.find_element(By.CSS_SELECTOR, 'div[data-test="result-current-price"]')
    print("Element found:", bookPrice2.text)
except NoSuchElementException:
    print("Element not found.")

print(bookPrice1[0].text)

<selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="493cd458-721b-4237-9e45-cb542d2524cb")>
16,95 €
Element found: 16,10 €
16,10 €


In [18]:

listaPrecios = driver.find_elements(By.CLASS_NAME, "x-currency")
print(listaPrecios)
listaPrecios2 = driver.find_elements(By.XPATH, "/div/div/div[1]/div/div[3]/div[3]/div/ul/li/article/a[2]/div[1]/div[2]/span")
print(listaPrecios2)
listaPrecios3 = driver.find_elements(By.CSS_SELECTOR, 'div[data-test="result-current-price"]')
print(listaPrecios3)
listaPrecios4 = driver.find_elements(By.XPATH, "//*[@data-test='result-current-price']/span")
print(listaPrecios4)


[]
[]
[]
[]


In [13]:
listaPrecios4 = driver.find_elements(By.CSS_SELECTOR, 'h2[data-test="result-title"]')
print(listaPrecios4)
listaPrecios5 = driver.find_elements(By.TAG_NAME, 'h2')
print(listaPrecios5)

[]
[<selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="455293ad-f0f4-45ca-baf8-20e84364edb5")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="e5b900a6-2ea4-4f3f-aa00-bd422ba79338")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="5d6145ed-371b-43b0-821e-1ad7a7de0157")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="74306c36-5f68-4e6e-9579-dd6164fb3ac5")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="1c1462b9-0131-4c58-a1b0-1b9cf4118398")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="18ba1d59-da19-4f00-8b03-8c897392c621")>, <selenium.webdriver.remote.webelement.WebElement (session="ae533682-0573-4cf9-8819-f64c49859626", element="e

In [None]:
listaPrecios = driver.find_elements(By.CLASS_NAME, "x-currency")
print(listaPrecios)
acceptCookies = driver.find_element(By.XPATH, '//*[@id="onetrust-accept-btn-handler"]')

acceptCookies.click()


[]


In [35]:
url2 = f"https://www.casadellibro.com"
driver.get(url2)
with open("casaLibroDriver.html", "w",  encoding='utf-8') as cacheFile:
        cacheFile.write(driver.page_source)

In [None]:
driver.refresh()

In [40]:
# driver.navigate().to(url)
# firstPrice = driver.find_element(By.CLASS_NAME, "x-currency")
# driver.refresh()
driver.get(url)
wait = WebDriverWait(driver, timeout=2)
wait.until(lambda _ : driver.find_element(By.CLASS_NAME, "x-currency").is_displayed())
listaPrecios = driver.find_elements(By.CLASS_NAME, "x-currency")
# //*[@id="onetrust-accept-btn-handler"]
print(listaPrecios)

TimeoutException: Message: 
Stacktrace:
RemoteError@chrome://remote/content/shared/RemoteError.sys.mjs:8:8
WebDriverError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:199:5
NoSuchElementError@chrome://remote/content/shared/webdriver/Errors.sys.mjs:552:5
dom.find/</<@chrome://remote/content/shared/DOM.sys.mjs:136:16


In [None]:
## ENTREGA AQUÍ EL CÓDIGO PYTHON DE LA APLICACIÓN STREAMLIT



In [8]:
#tienda 2

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.service import Service
from selenium.common.exceptions import NoSuchElementException
from selenium.webdriver.firefox.options import Options
import requests
from bs4 import BeautifulSoup

import time

In [9]:

# --- SETUP FIREFOX DRIVER ---
service = Service(executable_path="C:/Repos/Utils/geckodriver.exe")
options = Options()
searchInput= "piedra filosofal"
query = searchInput.strip().replace(" ","+")
driver = webdriver.Firefox(service=service, options=options)
driver.get(f"https://www.libreriacentral.com/SearchResults.aspx?st={query}&cId=0&sm=qck")

# time.sleep(1) 

# search = driver.find_element(By.XPATH, "//input[@id='empathy-search']")
# search.send_keys(query)   

In [10]:
driver.close()

In [11]:
searchInput= "piedra filosofal"
query = searchInput.strip().replace(" ","+")

url = f"https://www.libreriacentral.com/SearchResults.aspx?st={query}&cId=0&sm=qck"
page = requests.get(url)
soup = BeautifulSoup(page.content,"html.parser")
results = soup.find_all("div",class_="products-preview-list-item")

In [88]:
pricetest = ' '
if not pricetest:
    print('si')
else:
    print('no')

no


In [45]:

# print(results[0].find(attrs={"itemprop": "name"}).get_text())
print(results[0].find("meta", attrs={"itemprop": "author"})['content'])
price_ele = results[0].find("div", class_="precio")
print(results[0].find("div", class_="precio").prettify())

for price_substring in price_ele.find_all("span"):
    # print(price_substring[0].strip() + price_substring[0].strip())
    print(price_substring.get_text().strip())

Rowling, J. K.
<div class="precio" id="ctl00_CPHMainCenter_searchedProducts_rptrProdSearched_ctl00_ProductSmall_pnlPrice">
 <strong>
  <span content="16.10" id="ctl00_CPHMainCenter_searchedProducts_rptrProdSearched_ctl00_ProductSmall_lblPriceWeb" itemprop="price">
   16,10
  </span>
  <span content="EUR" itemprop="priceCurrency">
   €
  </span>
 </strong>
 <strike>
  P.V.P.:
  <span id="ctl00_CPHMainCenter_searchedProducts_rptrProdSearched_ctl00_ProductSmall_lblPrice">
   16,95
  </span>
  €
 </strike>
</div>

16,10
€
16,95


In [80]:
result = results[1]
name_element = result.find(attrs={"itemprop": "name"})
title = name_element.get_text().strip()
author = result.find("meta", attrs={"itemprop": "author"})['content'].strip()
print(author)
price_substrings = result.find("div", class_="precio").find_all("span")
current_price = price_substrings[0].get_text().strip() +' '+price_substrings[1].get_text().strip()
if 2 < len(price_substrings):
    original_price = price_substrings[2].get_text().strip() +' '+price_substrings[1].get_text().strip()
else:
    original_price = current_price

print(current_price)
print(original_price)

img_url = result.find("img", class_='foto')['src']
print(img_url)

availability = result.find("link", attrs={"itemprop": "availability"})
print(availability.get_text().strip())
availability2 = result.find("span", class_='css-disponible')
print(availability2.get_text())

Rowling, J. K.
37,00 €
38,95 €
Resources/Pictures/978841817407.jpg

Disponible


In [None]:

books = []
i = 0
for result in results:
    i+=1
    print(i)
    try:
        #In stock? 
        availability = result.find("span", class_='css-disponible')
        if availability and result.find("span", class_='css-disponible').get_text().strip() == "Disponible":

            # Title
            name_element = result.find(attrs={"itemprop": "name"})
            title = name_element.get_text().strip()
            print(title)

            #Author
            author = result.find("meta", attrs={"itemprop": "author"})['content'].strip()
            print(author)
            detail = 'N/A'

            # Price 
            try:
                price_substrings = result.find("div", class_="precio").find_all("span")
                current_price = price_substrings[0].get_text().strip() +' '+price_substrings[1].get_text().strip()
                if len(price_substrings) > 2:
                    original_price = price_substrings[2].get_text().strip() +' '+price_substrings[1].get_text().strip()
                else:
                    original_price = current_price
            except e:
                current_price = "N/A"
                original_price = "N/A"
            print(current_price)
            # Image
            try:
                img_url = result.find("img", class_='foto')['src']
            except e:
                img_url = "N/A"

            #Link
            try:
                link = name_element["href"]
                print(link)
            except:
                link = "N/A"

            books.append({
                "Title": title,
                "Author": author,
                "Detail": detail,
                "Original Price": original_price,
                "Current Price": current_price,
                "Image url": img_url,
                "Link url": link
            })
    except Exception as e:
        print(f"Error al obtener resultados: {e}")

1
Harry Potter y la piedra filosofal
Rowling, J. K.
16,10 €
2
Harry Potter y la piedra filosofal (Ed. Minalima)
Rowling, J. K.
37,00 €
3
Harry Potter y la piedra filosofal (Harry Potter 1)
Rowling, J. K.
12,30 €
4
harry potter y la piedra filosofal
Rowling, J. K.
19,90 €
5
6
7
8
9
10
11
12
13
14
15
16


In [90]:
query = '9788478884452'
baseUrl = 'https://www.iberlibro.com/'
queryUrl = query.strip().replace(" ","%20")
url = f"{baseUrl}servlet/SearchResults?cond=new&ds=20&fs=es&kn={queryUrl}&n=100046497&pt=book&rollup=on&sortby=2"
page = requests.get(url)
soup = BeautifulSoup(page.content,"html.parser")
results = soup.find_all("div",class_="products-preview-list-item")
print(url)

https://www.iberlibro.com/servlet/SearchResults?cond=new&ds=20&fs=es&kn=9788478884452&n=100046497&pt=book&rollup=on&sortby=2
