In [1]:
import requests
import json
import csv
from datetime import datetime, timezone
from time import sleep

# 讀取 CSV 檔案，確保可以讀取所有景點
input_csv = "locations_list_expand2.csv"
with open(input_csv, mode='r', encoding='utf-8') as file:
    reader = csv.reader(file)
    locations = list(reader)  # 讀取所有行，避免只讀取第一行

# **處理每個景點**
for location, url_template in locations:
    print(f"開始爬取景點：{location}")
    
    # 設定輸出檔案名稱
    output_file = f'./CSV/reviews_output_{location}.csv'

    # 變數初始化
    unique_ids = set()
    total_reviews = 0
    reviews_with_comments = 0
    list_2s = []
    list_2s.clear()

    count = 1
    google = ""  # 初始 2s 碼

    # **抓取評論，直到沒有下一個 2s 碼**
    while True:
        list_2s.append({'page': count, 'code_2s': google})

        # **動態替換 URL 內的 2s 參數**
        url = url_template.replace("2s", f"2s{google}")

        response = requests.get(url)
        response.raise_for_status()
        raw_content = response.text.strip()

        # **移除開頭的 ")]}'"**
        if raw_content.startswith(")]}'"):
            raw_content = raw_content[4:]

        data = json.loads(raw_content)

        # **嘗試取得下一個 2s 碼，若無則跳出迴圈**
        try:
            google = data[1].replace('=', '%3D')
        except:
            break

        
        # **解析評論並儲存**
        with open(output_file, mode='a', encoding='utf-8', newline='') as file:
            writer = csv.writer(file)
            for i in range(10):
                try:
                    user = data[2][i][0][1][4][5][0]
                    user_id = data[2][i][0][1][4][5][3]
                    user_page = data[2][i][0][1][4][2][0]
                    review_id = str(data[2][i][0][0])
                    rating = str(data[2][i][0][2][0][0])
                    timestamp_seconds = data[2][i][0][1][2] // 1000000
                    formatted_date = datetime.fromtimestamp(timestamp_seconds, tz=timezone.utc).strftime('%Y-%m-%d')

                    try:
                        comment = data[2][i][0][2][15][0][0]
                    except (IndexError, TypeError):
                        comment = ""
                    
                    try:
                        language = data[2][i][0][2][14][0]
                    except (IndexError, TypeError):
                        language = ""   
                    
                    try:
                        translated = data[2][i][0][2][15][1][0]
                    except (IndexError, TypeError):
                        translated = ""

                    # **確保 ID 唯一，不重複儲存**
                    if review_id not in unique_ids:
                        writer.writerow([user, user_id, review_id, rating, formatted_date, comment, language, translated,user_page])
                        unique_ids.add(review_id)
                        total_reviews += 1
                        if comment.strip():
                            reviews_with_comments += 1
                except Exception as e:
                    print(f"評論 {i + 1}: 無評論或格式錯誤 ({e})")

        print(f"總共存入 {total_reviews} 筆評論")
        print(f"其中有 {reviews_with_comments} 筆評論有內文")

        count += 1

    print(f"景點 {location} 爬取結束")
    print("=" * 50)

print("所有景點爬取完成")


開始爬取景點：永康商圈
總共存入 10 筆評論
其中有 4 筆評論有內文
總共存入 20 筆評論
其中有 6 筆評論有內文
總共存入 30 筆評論
其中有 8 筆評論有內文
總共存入 40 筆評論
其中有 11 筆評論有內文
總共存入 50 筆評論
其中有 12 筆評論有內文
總共存入 60 筆評論
其中有 16 筆評論有內文
總共存入 70 筆評論
其中有 21 筆評論有內文
總共存入 80 筆評論
其中有 31 筆評論有內文
總共存入 90 筆評論
其中有 36 筆評論有內文
總共存入 100 筆評論
其中有 39 筆評論有內文
總共存入 110 筆評論
其中有 44 筆評論有內文
總共存入 120 筆評論
其中有 51 筆評論有內文
總共存入 130 筆評論
其中有 54 筆評論有內文
總共存入 140 筆評論
其中有 58 筆評論有內文
總共存入 150 筆評論
其中有 58 筆評論有內文
總共存入 160 筆評論
其中有 63 筆評論有內文
總共存入 170 筆評論
其中有 68 筆評論有內文
總共存入 180 筆評論
其中有 72 筆評論有內文
總共存入 190 筆評論
其中有 75 筆評論有內文
總共存入 200 筆評論
其中有 79 筆評論有內文
總共存入 210 筆評論
其中有 84 筆評論有內文
總共存入 220 筆評論
其中有 89 筆評論有內文
總共存入 230 筆評論
其中有 92 筆評論有內文
總共存入 240 筆評論
其中有 96 筆評論有內文
總共存入 250 筆評論
其中有 101 筆評論有內文
總共存入 260 筆評論
其中有 106 筆評論有內文
總共存入 270 筆評論
其中有 112 筆評論有內文
總共存入 280 筆評論
其中有 114 筆評論有內文
總共存入 290 筆評論
其中有 119 筆評論有內文
總共存入 300 筆評論
其中有 121 筆評論有內文
總共存入 310 筆評論
其中有 124 筆評論有內文
總共存入 320 筆評論
其中有 128 筆評論有內文
總共存入 330 筆評論
其中有 137 筆評論有內文
總共存入 340 筆評論
其中有 144 筆評論有內文
總共存入 350 筆評論
其中有 149 筆評論有內文
總共存入 360 筆評論
其中有 153 筆評論有內文
總共存入 370 筆評論
其中有