In [7]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

lista_libros = []
base_url = "http://books.toscrape.com/"
current_url = base_url + "catalogue/page-1.html" # <-- Empezamos en la primera página

# Usamos un bucle WHILE que se ejecuta mientras 'current_url' tenga un valor
while current_url:
    print(f"Scraping página: {current_url}")

    # 1. Hacemos la petición a la página actual
    response = requests.get(current_url)
    soup = BeautifulSoup(response.text, 'html.parser')

    # -------- LÓGICA DE EXTRACCIÓN DE DATOS DE LA PÁGINA ACTUAL --------

    elementos_articulos = soup.find_all('article', class_='product_pod')

    for articulo in elementos_articulos:
        titulo = articulo.h3.a.attrs['title']
        precio_str = articulo.find('p', class_='price_color').get_text(strip=True)

        # Limpieza y conversión a float para el filtro (como hicimos antes)
        precio_limpio_str = precio_str.replace('£', '').replace('Â', '').strip()
        precio_numerico = float(precio_limpio_str)

        if precio_numerico > 50.00:
             lista_libros.append({
                'Titulo_Libro': titulo,
                'Precio_Euros': precio_limpio_str
            })

    # -------- LÓGICA PARA ENCONTRAR LA PRÓXIMA PÁGINA --------

    next_button = soup.find('li', class_='next')

    if next_button:
        # Extraemos la parte relativa (ej: 'page-2.html')
        next_page_relative_url = next_button.find('a').get('href')

        # ATENCIÓN: Esta parte es crucial y específica de este sitio
        # El enlace es relativo a /catalogue/, no a la raíz.
        # Quitamos "page-X.html" de la URL actual para ir a la base del catálogo.
        current_url = base_url + 'catalogue/' + next_page_relative_url
    else:
        # Si no hay botón 'next', asignamos None, lo que detendrá el bucle while
        current_url = None

# 4. Estructurar y exportar (solo una vez, al final del bucle)
df = pd.DataFrame(lista_libros)
# ... Código para exportar a Excel en Colab ...

print(f"\n✅ Extracción completa. Total de libros extraídos (precio > £50): {len(df)}")

Scraping página: http://books.toscrape.com/catalogue/page-1.html
Scraping página: http://books.toscrape.com/catalogue/page-2.html
Scraping página: http://books.toscrape.com/catalogue/page-3.html
Scraping página: http://books.toscrape.com/catalogue/page-4.html
Scraping página: http://books.toscrape.com/catalogue/page-5.html
Scraping página: http://books.toscrape.com/catalogue/page-6.html
Scraping página: http://books.toscrape.com/catalogue/page-7.html
Scraping página: http://books.toscrape.com/catalogue/page-8.html
Scraping página: http://books.toscrape.com/catalogue/page-9.html
Scraping página: http://books.toscrape.com/catalogue/page-10.html
Scraping página: http://books.toscrape.com/catalogue/page-11.html
Scraping página: http://books.toscrape.com/catalogue/page-12.html
Scraping página: http://books.toscrape.com/catalogue/page-13.html
Scraping página: http://books.toscrape.com/catalogue/page-14.html
Scraping página: http://books.toscrape.com/catalogue/page-15.html
Scraping página: ht

In [8]:
print("\n--- Vista Preliminar del DataFrame ---")
print(df.shape)


--- Vista Preliminar del DataFrame ---
(198, 2)


In [9]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 198 entries, 0 to 197
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Titulo_Libro  198 non-null    object
 1   Precio_Euros  198 non-null    object
dtypes: object(2)
memory usage: 3.2+ KB
None


In [11]:
df.head(100)

Unnamed: 0,Titulo_Libro,Precio_Euros
0,A Light in the Attic,51.77
1,Tipping the Velvet,53.74
2,Soumission,50.10
3,Sapiens: A Brief History of Humankind,54.23
4,The Black Maria,52.15
...,...,...
95,Heaven is for Real: A Little Boy's Astounding ...,52.86
96,Future Shock (Future Shock #1),55.65
97,Between the World and Me,56.91
98,Being Mortal: Medicine and What Matters in the...,55.06
