In [1]:
import time
import requests
import lxml.html

In [2]:
from requests.models import Response

def scrape_list_page(response: Response):
    """一覧ページのResponseから詳細ページのURLを抜き出す"""
    root = lxml.html.fromstring(response.content)
    root.make_links_absolute(response.url)
    for a in root.cssselect("#listBook a[itemprop='url']"):
        url = a.get("href")
        yield url

In [3]:
def scrape_detail_page(response):
    """詳細ページの情報をdictで取得する"""
    root = lxml.html.fromstring(response.content)
    ebook = {
        "url": response.url,
        "title": root.cssselect("#bookTitle")[0].text_content(),
        "price": root.cssselect(".buy")[0].text.strip(), # `.text` で直接の子である文字列のみ取得
        "content": [normalize_spaces(h3.text_content()) for h3 in root.cssselect("#content > h3")],
    }
    return ebook

In [4]:
import re

def normalize_spaces(s):
    """連続する空白を一つのスペースに置き換え、前後の空白は削除する"""
    return re.sub(r'\s+', ' ', s).strip()

In [5]:
session = requests.Session()
response = session.get("http://sample.scraping-book.com/dp")
urls = scrape_list_page(response)

In [6]:
for url in urls:
    time.sleep(1) # 1秒ウェイト
    response = session.get(url)
    ebook = scrape_detail_page(response)
    print(ebook)

{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8336-7', 'title': 'これからはじめるプログラミング 作って覚える基礎の基礎', 'price': '2,280円', 'content': ['第0章 まずは道具を準備しよう', '第1章 プログラミングを始めよう', '第2章 プログラムの流れを理解しよう', '第3章 値を入れる箱をマスターしよう', '第4章 プログラムの流れをコントロールしよう', '第5章 ループを使いこなそう', '第6章 アニメーションにチャレンジ', '第7章 一歩進んだプログラミング', '第8章 お掃除ロボットを作ろう！', '第9章 次のステップへ', '付録 ブロック一覧']}
{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8337-4', 'title': '平成28年度【秋期】情報セキュリティマネジメント パーフェクトラーニング過去問題集', 'price': '1,480円', 'content': ['過去問題＋予想問題の詳細解説']}
{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8338-1', 'title': '水泳のきれいなカラダをつくる～スリムな逆三角形になる！ドライランドトレーニング', 'price': '1,280円', 'content': ['Part1 水泳選手のカラダはなぜきれいなのか？', 'Part2 ウォーミングアップ', 'Part3 部位別ドライランドトレーニング', 'Part4 トレーニングの組み立て方']}
{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8346-6', 'title': '30レッスンで絶対合格！ Microsoft Office Specialist PowerPoint 2013 テキスト＋問題集', 'price': '1,980円', 'content': ['Ready 学習をはじめる前に', 'C

{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8288-9', 'title': '今すぐ使えるかんたんExヤフオク！ 本気で儲ける！ プロ技セレクション', 'price': '1,780円', 'content': ['第1章 ヤフオク！の基礎知識', '第2章 まずはここから！基本の出品テクニック', '第3章 利益率アップ！商品仕入れテクニック', '第4章 落札率アップ！商品詳細ページ作成のテクニック', '第5章 落札額アップ！商品出品＆発送のテクニック', '第6章 より大きく儲ける！売上拡大テクニック', '第7章 海外からも買える！さらなる商品仕入れテクニック', '第8章 ヤフオク！で使える便利サービスで効率アップ！', '第9章 ヤフオク！トラブル即効解決Q＆A']}
{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8289-6', 'title': '今すぐ使えるかんたんminiAccess 2016 基本技', 'price': '980円', 'content': ['第1章 Accessデータベースの基本', '第2章 テーブルの作成', '第3章 クエリの作成', '第4章 フォームの作成', '第5章 レポートの作成', '第6章 リレーショナルデータベースの作成', '第7章 覚えておくと便利なテクニック']}
{'url': 'http://sample.scraping-book.com/dp/ebook/2016/978-4-7741-8290-2', 'title': 'ゼロからはじめるOneNote 2016／2013 スマートガイド', 'price': '980円', 'content': ['第1章 OneNoteの基本', '第2章 OneNoteの基本操作', '第3章 ノートブックの整理', '第4章 OneNoteのビジネス活用', '第5章 Office Online版OneNoteの利用', '第6章 ストアアプリ版OneNoteの利用', '第7章 スマートフォン版OneNoteの利用']}
{'url': 'http://sampl