### Praca z danymi nieustruktyzowanymi IV

Czasami trzeba obsłużyć paginację. Popatrzmy na przykład.

https://books.toscrape.com/index.html

In [10]:
import requests
from bs4 import BeautifulSoup

url = "https://books.toscrape.com/catalogue/page-1.html"
response = requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')

In [7]:
books = soup.find_all(class_="product_pod")
len(books)

20

In [8]:
data = []
for book in books:
    title = book.select_one("h3 > a").get("title")
    price = book.select_one(".price_color").text.strip()
    data.append({
        "title": title,
        "price": price
    })

data

[{'title': 'A Light in the Attic', 'price': '£51.77'},
 {'title': 'Tipping the Velvet', 'price': '£53.74'},
 {'title': 'Soumission', 'price': '£50.10'},
 {'title': 'Sharp Objects', 'price': '£47.82'},
 {'title': 'Sapiens: A Brief History of Humankind', 'price': '£54.23'},
 {'title': 'The Requiem Red', 'price': '£22.65'},
 {'title': 'The Dirty Little Secrets of Getting Your Dream Job',
  'price': '£33.34'},
 {'title': 'The Coming Woman: A Novel Based on the Life of the Infamous Feminist, Victoria Woodhull',
  'price': '£17.93'},
 {'title': 'The Boys in the Boat: Nine Americans and Their Epic Quest for Gold at the 1936 Berlin Olympics',
  'price': '£22.60'},
 {'title': 'The Black Maria', 'price': '£52.15'},
 {'title': 'Starving Hearts (Triangular Trade Trilogy, #1)',
  'price': '£13.99'},
 {'title': "Shakespeare's Sonnets", 'price': '£20.66'},
 {'title': 'Set Me Free', 'price': '£17.46'},
 {'title': "Scott Pilgrim's Precious Little Life (Scott Pilgrim #1)",
  'price': '£52.29'},
 {'title

###### Widzimy, że na stronie wyświetla się tylko 20 pozycji, mimo że jest ich 1000. Na stronie widzimy też przycisk next. Żeby przejść do następnej strony, trzeba go przycisnąć. Ten button przekierowuje na inną stronę.

Możemy to wszystko obsłużyć z poziomu pythona. Trzeba tylko dla aktualnie wyświetlanej strony zebrać wszystkie dane, a następnie znaleźć na jaki adres przekierowuje przycisk next, przejść na tę stronę i dalej zbierać dane. I tak w pętli aż na stronie nie będzie już przycisku `next`. Spróbujmy to zaimplementować.

In [28]:
import time
import random

import requests
from bs4 import BeautifulSoup

data = []

url = "https://books.toscrape.com/catalogue/"
next_ = "page-1.html"

while next_:
    response = requests.get(url + next_)
    response.encoding = 'utf-8'
    soup = BeautifulSoup(response.text, 'html.parser')
    
    books = soup.find_all(class_="product_pod")
    
    
    for book in books:
        title = book.select_one("h3 > a").get("title")
        price = book.select_one(".price_color").text.strip()
        data.append({
            "title": title,
            "price": price
        })
        
    next_ = soup.select_one('.next > a')
    if next_:
        next_ = next_.get("href")
        
        print(next_)
    
    time.sleep(1 + random.random())

page-2.html
page-3.html
page-4.html
page-5.html
page-6.html
page-7.html
page-8.html
page-9.html
page-10.html
page-11.html
page-12.html
page-13.html
page-14.html
page-15.html
page-16.html
page-17.html
page-18.html
page-19.html
page-20.html
page-21.html
page-22.html
page-23.html
page-24.html
page-25.html
page-26.html
page-27.html
page-28.html
page-29.html
page-30.html
page-31.html
page-32.html
page-33.html
page-34.html
page-35.html
page-36.html
page-37.html
page-38.html
page-39.html
page-40.html
page-41.html
page-42.html
page-43.html
page-44.html
page-45.html
page-46.html
page-47.html
page-48.html
page-49.html
page-50.html


In [29]:
len(data)

1000

In [30]:
data[:5]

[{'title': 'A Light in the Attic', 'price': 'Â£51.77'},
 {'title': 'Tipping the Velvet', 'price': 'Â£53.74'},
 {'title': 'Soumission', 'price': 'Â£50.10'},
 {'title': 'Sharp Objects', 'price': 'Â£47.82'},
 {'title': 'Sapiens: A Brief History of Humankind', 'price': 'Â£54.23'}]

In [31]:
data[-5:]

[{'title': "Alice in Wonderland (Alice's Adventures in Wonderland #1)",
  'price': 'Â£55.53'},
 {'title': 'Ajin: Demi-Human, Volume 1 (Ajin: Demi-Human #1)',
  'price': 'Â£57.06'},
 {'title': "A Spy's Devotion (The Regency Spies of London #1)",
  'price': 'Â£16.97'},
 {'title': "1st to Die (Women's Murder Club #1)", 'price': 'Â£53.98'},
 {'title': '1,000 Places to See Before You Die', 'price': 'Â£26.08'}]

Do przećwiczenia.

Rozbudować informacje o poszczególnych ksiązkach. Więcej informacji bierzemy ze strony z widoku szczegółu książki. Przykład: https://books.toscrape.com/catalogue/in-her-wake_980/index.html