In [25]:
#博客來預購
import requests
from bs4 import BeautifulSoup
import csv
import time
from datetime import datetime
import re  # 用於提取 bookID

# 基本的 URL
url = 'https://www.books.com.tw/web/sys_prebooks/books/?o=1&v=1'

# 用來存取數據的列表
books_data = []

# 設定出版日期的篩選條件
date_threshold = datetime.strptime('2024-01-01', '%Y-%m-%d')

# 發送請求並解析 HTML
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 選擇所有書籍的條目
books = soup.select('div.item')

# 逐一解析每本書籍的資訊
for book in books:
    try:
        # 書名
        title = book.select_one('h4 a').text.strip()

        # 書籍鏈結
        book_link = book.select_one('h4 a')['href'].strip()

        # 提取 bookID (即 URL 中的數字部分)
        book_id = re.search(r'/products/(\d+)', book_link).group(1) if re.search(r'/products/(\d+)', book_link) else 'N/A'

        # 作者及出版日期
        info = book.select_one('li.info').text.strip()
        authors = info.split('，')[0]  # 取出作者
        pub_date_str = info.split('出版日期：')[-1].strip()  # 取出出版日期
        pub_date = datetime.strptime(pub_date_str, '%Y/%m/%d')

        # 如果出版日期在 2024 年 1 月 1 日之後，才抓取數據
        if pub_date > date_threshold:
            # 優惠價和折數
            price_box = book.select_one('ul.price li.set2').text.strip()
            discount = price_box.split('折')[0].strip().replace('優惠價：', '')  # 提取折數
            price = price_box.split('折')[-1].strip().replace('元', '').strip()  # 提取價格

            # 將數據存入列表，包含 bookID
            books_data.append([book_id, title, authors, pub_date_str, f"{discount}折", f"{price}元", book_link])

    except Exception as e:
        print(f"解析書籍時發生錯誤: {e}")

# 休眠一段時間，避免對伺服器發送過多請求
time.sleep(2)

# 生成當天日期並加入到 CSV 文件名中
current_date = datetime.now().strftime('%m%d')
csv_file_path = rf'C:\Users\USER\Desktop\prebooks_data{current_date}.csv'  # 確保替換為正確路徑

# 將結果保存為 CSV 檔案，並新增 bookID 列
with open(csv_file_path, 'w', newline='', encoding='utf-8') as file:
    writer = csv.writer(file)
    writer.writerow(['bookID', '書名', '作者', '出版日期', '折數', '優惠價', '鏈結'])
    writer.writerows(books_data)

print(f"書籍資訊已保存到 {csv_file_path}")




書籍資訊已保存到 C:\Users\USER\Desktop\prebooks_data1008.csv


In [24]:
import csv

# CSV 文件的路徑
csv_file = r"C:\Users\USER\Desktop\prebooks_data1004.csv"

# 打開並讀取 CSV 文件
with open(csv_file, mode='r', encoding='utf-8') as file:
    csv_reader = csv.reader(file)
    
    # 讀取 CSV 文件的每一行
    for row in csv_reader:
        print(row)

['bookID', '書名', '作者', '出版日期', '折數', '優惠價', '鏈結']
['0011002571', '天堂W Artbook國際中文版【附專用虛寶卡】', 'NCSoft', '2024/12/02', '79折', '1422元', 'https://www.books.com.tw/products/0011002571?loc=P_0002_001']
['0011002061', '解讀源氏物語', '林水福', '2024/10/17', '79折', '252元', 'https://www.books.com.tw/products/0011002061?loc=P_0002_002']
['0011002057', '源氏物語（六冊不分售）【首刷特贈限量精美桌屏】', '紫式部', '2024/10/17', '79折', '2528元', 'https://www.books.com.tw/products/0011002057?loc=P_0002_003']
['0011002054', '源氏物語 （含《解讀源氏物語》，特附典藏精裝書盒、限量編號卡、譯者親筆簽名）【首刷限量精裝噴繪版套書】', '紫式部', '2024/10/17', '79折', '4740元', 'https://www.books.com.tw/products/0011002054?loc=P_0002_004']
['0011002378', '絕望者之歌：一個美國白人家族的悲劇與重生【暢銷經典回歸版】', '傑德．凡斯', '2024/10/16', '79折', '331元', 'https://www.books.com.tw/products/0011002378?loc=P_0002_005']
['0011000982', '城堡（卡夫卡最繁複神祕的最終代表作‧逝世100週年紀念）', '卡夫卡', '2024/10/10', '79折', '355元', 'https://www.books.com.tw/products/0011000982?loc=P_0002_006']
['0011001837', 'Python x AI辦公室作業自動化：Word、Excel、PowerPoint、PDF、CSV、Pandas-