In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from urllib.parse import urljoin
from IPython.display import display, HTML # Para exibir a tabela formatada no VS Code

BASE_URL = "http://books.toscrape.com/"

def get_books_from_page(url):
    response = requests.get(url)
    response.encoding = response.apparent_encoding

    soup = BeautifulSoup(response.text, "html.parser")
    books = soup.find_all("article", class_="product_pod")

    dados = [
        (
            book.h3.a.get("title"),
            book.find("p", class_="price_color").get_text(strip=True)
        )
        for book in books
    ]

    next_page = soup.select_one("li.next a")
    next_url = urljoin(url, next_page["href"]) if next_page else None
    return dados, next_url


def scrape_all_books():
    url = BASE_URL
    all_books = []
    page = 0

    print("Iniciando raspagem...\n")
    while url:
        page += 1
        livros, url = get_books_from_page(url)
        all_books.extend(livros)
        print(f"Página {page:02d} coletada ({len(livros)} livros)")

    print(f"\nTotal de livros coletados: {len(all_books)}")
    return pd.DataFrame(all_books, columns=["Livro", "Preço"])


if __name__ == "__main__":
    df = scrape_all_books()

    df.to_excel("livros.xlsx", index=False) # exporta para o excel dentro da pasta do projeto


    html = df.to_html(index=False)

    # Exibe a tabela com rolagem e alinhamento à esquerda
    display(HTML(f"""
    <div style="max-height:500px; overflow:auto; border:1px solid #ccc; padding:6px;">
        <style>
            table {{
                text-align: left !important;
                width: 100%;
            }}
            th, td {{
                text-align: left !important;
                padding: 4px 8px;
            }}
        </style>
        {html}
    </div>
    """))


Iniciando raspagem...

Página 01 coletada (20 livros)
Página 02 coletada (20 livros)
Página 03 coletada (20 livros)
Página 04 coletada (20 livros)
Página 05 coletada (20 livros)
Página 06 coletada (20 livros)
Página 07 coletada (20 livros)
Página 08 coletada (20 livros)
Página 09 coletada (20 livros)
Página 10 coletada (20 livros)
Página 11 coletada (20 livros)
Página 12 coletada (20 livros)
Página 13 coletada (20 livros)
Página 14 coletada (20 livros)
Página 15 coletada (20 livros)
Página 16 coletada (20 livros)
Página 17 coletada (20 livros)
Página 18 coletada (20 livros)
Página 19 coletada (20 livros)
Página 20 coletada (20 livros)
Página 21 coletada (20 livros)
Página 22 coletada (20 livros)
Página 23 coletada (20 livros)
Página 24 coletada (20 livros)
Página 25 coletada (20 livros)
Página 26 coletada (20 livros)
Página 27 coletada (20 livros)
Página 28 coletada (20 livros)
Página 29 coletada (20 livros)
Página 30 coletada (20 livros)
Página 31 coletada (20 livros)
Página 32 coleta

  df.to_excel("livros.xlsx", index=False) # exporta para o excel dentro da pasta do projeto


Livro,Preço
A Light in the Attic,£51.77
Tipping the Velvet,£53.74
Soumission,£50.10
Sharp Objects,£47.82
Sapiens: A Brief History of Humankind,£54.23
The Requiem Red,£22.65
The Dirty Little Secrets of Getting Your Dream Job,£33.34
"The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull",£17.93
The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics,£22.60
The Black Maria,£52.15
