In [1]:
import requests
from bs4 import BeautifulSoup
import csv
import json

In [2]:
# 定義 PTT superbike 版的網址
url = 'https://www.ptt.cc/bbs/SuperBike/index.html'

# 設定爬取的頁數
pages_to_crawl = 20

# 創建一个空列表来儲存文章資料
articles_list = []

#要搜尋的關鍵字
keywords = ["Yamaha", "YAMAHA", "yamaha"]

In [3]:
# 使用 requests 取得網頁內容
response = requests.get(url)
response

<Response [200]>

In [4]:
# 創建一個Session來處理Cookies
session = requests.Session()

# 添加"Over18"的Cookie
over18_cookie = {'over18': '1'}
session.cookies.update(over18_cookie)

In [5]:
for i in range(pages_to_crawl):
    # 使用 requests 取得網頁內容
    response = session.get(url)
    
    # 檢查是否成功取得網頁內容
    if response.status_code != 200:
        print(f'無法取得頁面 {url}')
        break

    # 使用 BeautifulSoup 解析網頁內容
    soup = BeautifulSoup(response.text, 'html.parser')

    # 找出文章標題和連結
    articles = soup.find_all('div', class_='r-ent')
    for article in articles:
        title = article.find('div', class_='title').text.strip()
        
        # 檢查文章內容是否包含"刪除"或其他被刪除的關鍵字
        if "刪除" in title:
            continue  # 跳過已刪除的文章
         
        # 檢查文章内容是否包含"Honda"的關鍵字
        if any(keyword in title.lower() for keyword in keywords):
            article_link = article.find('a')['href']
            date = article.find('div', class_='date').text.strip()
            
            # 將文章資料存為字典
            article_info = {
                '標題': title,
                '日期': date,
                '連結': f'https://www.ptt.cc{article_link}'
            }
            articles_list.append(article_info)
            print(f'標題: {title}')
            print(f'日期: {date}')
            print(f'連結: https://www.ptt.cc{article_link}')
        
    # 找出前一頁的連結
    previous_page = soup.find('div', class_='btn-group-paging').find_all('a')[1]['href']
    url = 'https://www.ptt.cc' + previous_page

標題: [閒聊] 2024 YAMAHA MT09改款
日期: 10/31
連結: https://www.ptt.cc/bbs/SuperBike/M.1698761537.A.EB2.html
標題: [情報] Yamaha XSR900 GP
日期: 10/24
連結: https://www.ptt.cc/bbs/SuperBike/M.1698162829.A.261.html
標題: [買賣] 2020 YAMAHA YZF-R6(售出）
日期: 10/02
連結: https://www.ptt.cc/bbs/SuperBike/M.1696183369.A.A5B.html
標題: [問題] Yamaha life app保養記錄
日期: 9/28
連結: https://www.ptt.cc/bbs/SuperBike/M.1695877836.A.445.html
標題: [問題] Yamaha XSR900 載人？
日期: 9/23
連結: https://www.ptt.cc/bbs/SuperBike/M.1695479350.A.E45.html
標題: [買賣] 2022 YAMAHA MT09SP
日期: 9/06
連結: https://www.ptt.cc/bbs/SuperBike/M.1693976876.A.AAD.html
標題: [心得] Yamaha YZF-R7心得
日期: 8/09
連結: https://www.ptt.cc/bbs/SuperBike/M.1691568825.A.762.html


In [6]:
# 將資料寫入CSV文件
with open('重機版爬蟲.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
    fieldnames = ['標題', '日期', '連結']
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    
    writer.writeheader()
    for article_info in articles_list:
        writer.writerow(article_info)

In [7]:
# 將資料寫入JSON文件
with open('重機版爬蟲.json', 'w', encoding='utf-8') as jsonfile:
    json.dump(articles_list, jsonfile, ensure_ascii=False, indent=4)