In [1]:
import os
import re
import time
import requests
from bs4 import BeautifulSoup

In [None]:
  
folder_name = "project_gutenberg"
os.makedirs(folder_name, exist_ok=True)


base_url = "https://www.gutenberg.org"
url = base_url + "/browse/languages/zh"
response = requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')


book_links = soup.select("li.pgdbetext > a[href]")

print(f"共找到 {len(book_links)} 本中文書籍。")

for link in book_links:
    book_title = link.text.strip()
    
    
    if not re.search(r'[\u4e00-\u9fff]', book_title):
        continue

    book_title = os.path.splitext(book_title)[0]
    book_title = re.sub(r'[\/\\:*?"<>|]', '_', book_title)  
    book_url = base_url + link['href']

    print(f"處理書籍: {book_title} ({book_url})")

    
    book_page = requests.get(book_url)
    book_soup = BeautifulSoup(book_page.text, 'html.parser')

    
    download_link = None
    for a in book_soup.select('a[href]'):
        if 'Plain Text UTF-8' in a.text:
            if a['href'].startswith('http'):
                download_link = a['href']
            else:
                download_link = base_url + a['href']
            break

    if not download_link:
        print(f"未找到 {book_title} 的 Plain Text UTF-8 檔案，略過。")
        continue

    
    try:
        text_response = requests.get(download_link)
        text_response.encoding = 'utf-8'

        content = text_response.text

        
        match = re.search(r'[\u4e00-\u9fff]', content)
        if match:
            start_idx = match.start()
            cleaned_text = content[start_idx:]
        else:
            cleaned_text = content 

        file_path = os.path.join(folder_name, f"{book_title}.txt")
        with open(file_path, 'w', encoding='utf-8') as f:
            f.write(cleaned_text)
        print(f"{book_title}.txt 已儲存。")

        
        time.sleep(1)

    except Exception as e:
        print(f"下載 {book_title} 時發生錯誤：{e}")

共找到 507 本中文書籍。
處理書籍: 豆棚閒話 (https://www.gutenberg.org/ebooks/25328)
豆棚閒話.txt 已儲存。
處理書籍: 戲中戲 (https://www.gutenberg.org/ebooks/24225)
戲中戲.txt 已儲存。
處理書籍: 比目魚 (https://www.gutenberg.org/ebooks/24185)
比目魚.txt 已儲存。
處理書籍: 比目魚 (https://www.gutenberg.org/ebooks/27119)
比目魚.txt 已儲存。
處理書籍: 三字經 (https://www.gutenberg.org/ebooks/12479)
三字經.txt 已儲存。
處理書籍: 山水情 (https://www.gutenberg.org/ebooks/25146)
山水情.txt 已儲存。
處理書籍: 山海經 (https://www.gutenberg.org/ebooks/25288)
山海經.txt 已儲存。
處理書籍: 施公案 (https://www.gutenberg.org/ebooks/23825)
施公案.txt 已儲存。
處理書籍: 施公案 (https://www.gutenberg.org/ebooks/25393)
施公案.txt 已儲存。
處理書籍: 易經 (https://www.gutenberg.org/ebooks/25501)
易經.txt 已儲存。
處理書籍: 木蘭奇女傳 (https://www.gutenberg.org/ebooks/23938)
木蘭奇女傳.txt 已儲存。
處理書籍: 海公案 (https://www.gutenberg.org/ebooks/54494)
海公案.txt 已儲存。
處理書籍: 燕丹子 (https://www.gutenberg.org/ebooks/24068)
燕丹子.txt 已儲存。
處理書籍: 狄公案 (https://www.gutenberg.org/ebooks/27686)
狄公案.txt 已儲存。
處理書籍: 百家姓 (https://www.gutenberg.org/ebooks/25196)
百家姓.txt 已儲存。
處理書籍: 禮記 (https://www