<a href="https://colab.research.google.com/github/B104020057/PIS2022/blob/main/HW02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Crawler

## __摘要__

本報告旨在透過網路爬蟲技術，自 KKday 網站擷取台北地區最受歡迎景點的前十名資料，並進行整理與分析。藉由觀察景點的價格、評價分數與評價人數，協助使用者快速了解熱門景點，作為旅遊決策之參考依據。

## __引言__

隨著旅遊平台的興起，KKday 作為亞洲知名的旅遊體驗平台，提供了豐富的景點與活動資訊。本專案旨在透過 KKday 網站，蒐集台北地區前十名推薦景點的相關資料，進行分析與視覺化展示，協助使用者快速了解熱門景點資訊，作為旅遊規劃的參考依據。

## __方法__

- 目標網站描述

  - 網站名稱：KKday 台灣官網
  - 類別：台北地區景點（https://www.kkday.com/zh-tw/product/theme/109）
  - 擷取項目：景點名稱、售價（新台幣）、評價分數、評價人數、頁面連結。

- 工具與技術
  - Python 3
  - requests：發送 HTTP 請求
  - BeautifulSoup：解析 HTML 結構
  - pandas：處理與分析資料
  - 發送 GET 請求至目標頁面，取得 HTML 原始碼。
  - 解析 HTML，抓取景點卡片區塊。
  - 從每個卡片擷取標題、價格、評價資訊與連結。
  - 儲存為 Pandas DataFrame 進行後續分析。

In [15]:
import requests
import json

url = 'https://www.kkday.com/zh-tw/category/ajax_get_top_products?productCategory=CATEGORY_078&destination=D-TW-5013'
headers = {
    'user-agent': 'Mozilla/5.0 (X11; Linux aarch64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'
}
response = requests.get(url, headers=headers)
tickets = response.json()

# 最多印 10 筆，但若資料不足就只印到資料數
max_count = min(10, len(tickets['data']))
# 印出票券資訊
for i in range(max_count):
    data = tickets['data'][i]
    print(f"名稱：{data.get('name')}")
    print(f"介紹：{data.get('introduction')}")
    print(f"評價星數：{data.get('rating_star')} 星")
    print(f"標籤：{data.get('display_tags')[0] if data.get('display_tags') else '無'}")
    print(f"連結：https://www.kkday.com/zh-tw/product/{data.get('readable_url')}")
    print(f"圖片：{data.get('img_url_list')[0] if data.get('img_url_list') else '無'}")
    print('---')

data_list = []
for item in tickets['data']:
    data_list.append({
        '名稱': item.get('name'),
        '介紹': item.get('introduction'),
        '評價星數': item.get('rating_star'),
        '標籤': item.get('display_tags')[0] if item.get('display_tags') else '',
        '連結': f"https://www.kkday.com/zh-tw/product/{item.get('readable_url')}",
        '圖片': item.get('img_url_list')[0] if item.get('img_url_list') else ''
    })

名稱：台北喜來登大飯店|親子主題房
介紹：現在預訂台北喜來登大飯店住宿,輕鬆搞定台北住宿!台北喜來登共擁有 688 間全新設計裝潢的各式客房及套房,及多間中、西、日、泰式異國美食餐廳,提供賓客最豐富精采的食宿享受。傳承三十餘年來一貫溫婉細膩的服務精神,台北喜來登誠摯邀請您一同驗證這場充滿感動與驚喜的時尚風華再現!
評價星數：4.62 星
標籤：3天前可免費取消
連結：https://www.kkday.com/zh-tw/product/sheraton-grand-taipei-hotel-family-room-taiwan
圖片：https://image.kkday.com/image/get/w_600%2Cc_fit/s1.kkday.com/product_114932/20220628083751_H4Rp5/jpg
---
名稱：北投溫泉|金都精緻溫泉飯店|湯屋・住宿
介紹：現在訂購金都精緻溫泉飯店泡湯泡湯、住宿券,位於北投親水公園正對面,精心設計的溫泉飯店,透過大面觀景窗,可邊泡湯一邊欣賞北投綠意美景。交通方便,距離捷運新北投站,步行約 10 分鐘,在台北即可輕鬆享受泡湯的樂趣!
評價星數：4.2 星
標籤：立即確認
連結：https://www.kkday.com/zh-tw/product/None
圖片：https://image.kkday.com/image/get/w_600%2Cc_fit/s1.kkday.com/product_124556/20211202024846_0ZGx1/jpg
---
名稱：台北住宿|謙匯普樂室行旅 PLACE X HOTEL住宿券、休息券(須自行電話預約)
介紹：現在透過 KKday 購買優於現場價格,僅需以手機出示電子憑證不必列印。「謙匯 • 普樂室行旅」位處於臺北市中心信義區,著重於行旅租屋領域的專業訓練,以回饋社會、提升服務品質為目標,讓每一位來到 謙匯·普樂室行旅休憩的旅客,都能擁有賓至如歸的感受,成為北台灣旅行休憩的最佳選擇。
評價星數：4 星
標籤：立即確認
連結：https://www.kkday.com/zh-tw/product/None
圖片：https://image.kkday.com/image/get/w_600%2Cc_fit/s1.kkday.com/product

## __結果__

- 數據存儲方式
  - 資料以 CSV 格式儲存，方便後續使用 Excel、Pandas 等工具進行分析。

In [17]:
# 展示資料程式碼
import pandas as pd

df = pd.DataFrame(data_list)
df.head()

df.to_csv("kkday_top10_taipei.csv", index=False, encoding="utf-8-sig")

## __問題與挑戰__

- 技術挑戰
  - 動態網頁加載問題：KKday 的部分資料（如評價人數）可能透過 JavaScript 動態生成，傳統靜態爬蟲工具難以取得完整資訊。
  - 資料結構非一致性：網站上的商品卡片格式不盡相同，有些缺乏價格或評分資訊，需額外判斷與清洗。
  - 反爬蟲機制：若請求頻率過高，可能觸發伺服器限制，導致資料擷取不完整。
  - 資料更新頻率：KKday 平台推薦商品經常變動，未來若重複實驗，可能會得到不同的結果。


## __結論__

- 本報告成功以 Python 網路爬蟲技術擷取 KKday 網站上台北地區推薦景點的前十名資料，並透過評價分數與人數等指標，進行初步的排序與視覺化分析。分析結果顯示：
- 免費或低價景點在台北地區具有高人氣與正面評價，如中正紀念堂、陽明山與台北植物園。
- 地標性景點（如台北101）雖價格偏高，但仍具高評價與旅遊價值。
- 使用者評分與參與人數為衡量景點熱度的重要參考指標。
- 未來若能進一步整合評價文字分析、季節性變化與使用者地點偏好等因素，將能讓旅遊推薦系統更加全面且智能。

## __參考文獻__
- KKday 官方網站：https://www.kkday.com/zh-tw