<a href="https://colab.research.google.com/github/sean950722/hello/blob/main/%E3%80%8CHW02_ipynb%E3%80%8D%E7%9A%84%E5%89%AF%E6%9C%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Crawler

## 題目

尋找澎湖美食的資料

## 摘要

本報告旨在透過網路爬蟲技術，收集 KKday 網站上澎湖美食的推薦資料，為旅遊提供參考。

## 引言

隨著旅遊需求的增加，美食成為旅遊規劃中的重要環節。KKday 作為知名的旅遊平台，提供多樣的美食選擇。

本次爬蟲的目標是獲取 KKday 平台上澎湖美食的推薦，分析其價格，為旅遊者提供決策支持。

## 方法

- 目標網站描述
  - 目標網站：KKday 澎湖美食推薦頁面。  
  https://www.kkday.com/zh-tw/category/tw-penghu/restaurants/list/
  - 頁面結構：包含美食名稱、圖片、價格、評價等資訊。

- 工具與技術
  - 使用 `BeautifulSoup` 解析 HTML。
  - 使用 Google Chrome 開發者工具取得 AJAX 資料。
  - 使用 selenium 模擬使用者與瀏覽器互動取得由JavaScript生成的資料

In [None]:
pip install selenium

Collecting selenium
  Downloading selenium-4.33.0-py3-none-any.whl.metadata (7.5 kB)
Collecting trio~=0.30.0 (from selenium)
  Downloading trio-0.30.0-py3-none-any.whl.metadata (8.5 kB)
Collecting trio-websocket~=0.12.2 (from selenium)
  Downloading trio_websocket-0.12.2-py3-none-any.whl.metadata (5.1 kB)
Collecting typing_extensions~=4.13.2 (from selenium)
  Downloading typing_extensions-4.13.2-py3-none-any.whl.metadata (3.0 kB)
Collecting outcome (from trio~=0.30.0->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl.metadata (2.6 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.12.2->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl.metadata (5.6 kB)
Downloading selenium-4.33.0-py3-none-any.whl (9.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m9.4/9.4 MB[0m [31m18.8 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading trio-0.30.0-py3-none-any.whl (499 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m499.2/499.2 kB[0m [31m19.

In [None]:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from bs4 import BeautifulSoup
import time
import pandas as pd

# 設定 Chrome 瀏覽器的選項
options = Options()
options.add_argument('--headless')  # 無頭模式，不開啟瀏覽器視窗
options.add_argument('--disable-gpu')
options.add_argument('--no-sandbox')

# 初始化 WebDriver
driver = webdriver.Chrome(options=options)

# 打開目標網頁
url = 'https://www.kkday.com/zh-tw/category/tw-penghu/restaurants/list/?currency=TWD&sort=prec&page=1&count=10'
driver.get(url)

# 等待頁面載入完成
time.sleep(5)  # 根據網路速度調整等待時間

# 取得頁面來源
html = driver.page_source
driver.quit()

# 解析 HTML
soup = BeautifulSoup(html, 'html.parser')
#print(soup)
# 根據實際的 HTML 結構，尋找店名元素
# 以下是一個假設的範例，實際的 class 名稱需根據網頁結構調整

food_elements = soup.select('span.product-listview__name')
price_elements = soup.select('div.kk-price-local__normal')

food=[]
price=[]
for item in food_elements:
  food.append(item.text)

for item in price_elements:
  price.append(item.text)


# 清理價格中的逗號和空白並轉成整數
clean_prices = [int(p.strip().replace(',', '')) for p in price]

# 建立 DataFrame
df = pd.DataFrame({
    '餐廳名稱':food,
    '價格（元）':clean_prices
})

df

Unnamed: 0,餐廳名稱,價格（元）
0,【限時9折】澎湖福朋喜來登海鮮吃到飽 Buffet|宜客樂海港百匯自助晚餐(免服務費),1178
1,澎湖潮境 TideLand 特色海鮮餐廳|無菜單料理&季節海鮮套餐,660
2,【限時9折】澎湖福朋喜來登|Swave 微浮酒吧,750
3,澎湖海鮮燒烤吃到飽|澎島之星 BBQ|贈送飛魚卵香腸,530
4,澎湖福朋喜來登|龍膽石斑豪華海鮮麵線,490
5,澎湖BBQ 吃到飽|南海室內燒烤,510
6,2025 燈塔鐵板燒 | 澎湖福朋喜來登,1518
7,【限時9折】澎湖福朋喜來登|藍洞咖啡廳下午茶,880
8,澎湖福朋喜來登|聚味軒海鮮中餐廳,1455
9,【澎湖】帆船岸憩 碼頭微醺午茶|旱鴨子不出海,699


## 結果


將想要的資料取下來做成表格，讓整體變得乾淨明瞭且都是想要的資料


## 問題與挑戰

- 技術挑戰  
    無法直接由開發者工具裡取得AJAX資料


## 結論


- 成功獲取並分析了 KKday 推薦的澎湖美食資訊，為旅遊提供了有價值的參考。
- 未來可擴展至其他旅遊平台，進行跨平台比較分析。

## 參考文獻

* [KKDay](https://www.kkday.com/)
* https://ithelp.ithome.com.tw/articles/10202121