<a href="https://colab.research.google.com/github/880121andy/NSYSU/blob/main/HW02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Crawler

## 題目

PTT韓國旅遊版爬蟲練習: 韓國行前的鄉民攻略蒐集!

## 摘要

本報告旨在透過網路爬蟲技術，爬取 PTT 韓國旅遊版 (Korea_Travel) 中近期的二十個文章，蒐集其文章連結、標題、熱度、日期，以供近期去韓國旅遊行程規畫、注意事項或熱門話題的參考。

## 引言

隨著出國旅遊日漸普及，許多旅客在規劃行程前會透過網路論壇蒐集相關討論與實用經驗。PTT 作為臺灣網友交流旅遊心得的重要平台，提供了真實的鄉民遊記、美食推薦、旅遊物品販售與注意事項等重要資訊。

本次爬蟲的目標是蒐集 PTT 韓國旅遊版近期文章，作為近日民眾 (跟我自己😆) 前往韓國旅遊的資訊參考。

## 方法

- 目標網站描述
  - 目標網站：PTT 韓國旅遊版 (Korea_Travel)
  https://www.ptt.cc/bbs/Korea_Travel/index.html
  - 頁面結構：包含文章列表，熱度，作者，日期等文章資訊。

- 工具與技術
  - 使用 Python 的 `requests` 庫發送 HTTP 請求。
  - 使用 `BeautifulSoup` 解析 HTML。
  - 使用 `pandas` 將爬取的資料儲存為csv檔。


In [None]:
# 安裝 & import
import requests
from bs4 import BeautifulSoup
import pandas as pd

In [None]:
# 爬取資料
url = 'https://www.ptt.cc/bbs/Korea_Travel/index1592.html'
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'}
response = requests.get(url, headers=headers)
print(response.status_code)  # 檢查是否request成功

200


In [None]:
# 用BeautifulSoup解析html
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.find_all('div', class_='r-ent')
print(articles[0])
print(len(articles))

<div class="r-ent">
<div class="nrec"></div>
<div class="title">
<a href="/bbs/Korea_Travel/M.1744714726.A.AA2.html">[徵求] 5/10-12 首爾旅伴或食伴</a>
</div>
<div class="meta">
<div class="author">lice57332</div>
<div class="article-menu">
<div class="trigger">⋯</div>
<div class="dropdown">
<div class="item"><a href="/bbs/Korea_Travel/search?q=thread%3A%5B%E5%BE%B5%E6%B1%82%5D+5%2F10-12+%E9%A6%96%E7%88%BE%E6%97%85%E4%BC%B4%E6%88%96%E9%A3%9F%E4%BC%B4">搜尋同標題文章</a></div>
<div class="item"><a href="/bbs/Korea_Travel/search?q=author%3Alice57332">搜尋看板內 lice57332 的文章</a></div>
</div>
</div>
<div class="date"> 4/15</div>
<div class="mark"></div>
</div>
</div>
20


In [None]:
# 爬取文章: 1.連結 2.標題 3.熱度 4.日期
data_list = []
for a in articles:
    data = {}
    link = a.find('div', class_='title') # 爬取連結
    if link and link.a:
        link = 'https://www.ptt.cc' + link.a['href']
    else:
        link = '沒有連結'
    data['連結'] = link

    title = a.find('div', class_='title') # 爬取標題
    if title and title.a:
        title = title.a.text
    else:
        title = '沒有標題'
    data['標題'] = title

    popularity = a.find('div', class_='nrec') # 爬取人氣
    if popularity and popularity.span:
        popularity = popularity.span.text
    else:
        popularity = 'N/A'
    data['熱度'] = popularity

    date = a.find('div', class_='date') # 爬取日期
    if date:
        date = date.text
    else:
        date = 'N/A'
    data['日期'] = date
    data_list.append(data)
    print(f'連結:{link}, 標題:{title}, 人氣:{popularity}, 日期:{date}')
print(data_list)

連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744714726.A.AA2.html, 標題:[徵求] 5/10-12 首爾旅伴或食伴, 人氣:N/A, 日期: 4/15
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744723340.A.D98.html, 標題:（已售出）韓國E-sim上網卡三天, 人氣:N/A, 日期: 4/15
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744791855.A.4A4.html, 標題:[徵求] 台南徵求三張氣候卡, 人氣:N/A, 日期: 4/16
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744815936.A.6D3.html, 標題:[交通] 徵5/9仁川機場到弘大共乘, 人氣:2, 日期: 4/16
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744818188.A.9C2.html, 標題:[問題] 萬國插座, 人氣:8, 日期: 4/16
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744853854.A.A5C.html, 標題:[遊記] 廣安 人氣面海餐廳海鮮刀削麵-Nasari食堂, 人氣:N/A, 日期: 4/17
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744853974.A.823.html, 標題:[交通] 鳳山售氣候卡2張, 人氣:N/A, 日期: 4/17
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1744875675.A.25C.html, 標題:[出售] cashbee 三張~~釜山PASS外觀, 人氣:N/A, 日期: 4/17
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1745005541.A.9B8.html, 標題:[出售] 韓國4天總量5GB用完降速吃到飽eSIM, 人氣:N/A, 日期: 4/19
連結:https://www.ptt.cc/bbs/Korea_Travel/M.1745037045.A.E91.htm

## 結果


- 數據存儲方式
  - 將數據存儲為 CSV 格式，方便後續分析。

In [None]:
# 儲存成dataframe
df = pd.DataFrame(data_list)
df.to_csv('ptt_data.csv', index=False)

## 問題與挑戰

- 技術挑戰  
    雖然 PTT 韓國旅遊版的資料請求方式相對穩定且簡單（可以在 Network 中直接找到 `index.html`），但對於第一次嘗試爬取自己感興趣資料的爬蟲初學者來說，在一個個尋找標題、日期、連結等子標籤的過程中，仍然是一場挑戰，也相當考驗眼力。

- 資料限制  
    韓國旅遊版相較其他熱門看板(nba, 八卦, 閒聊等)的討論熱度較為低靡，因此較無法單從爬取的20筆文章中，顯著看到熱門話題及冷門話題的差異。

## 結論


- 成功爬取了PTT韓國旅遊版近期的20筆文章，以及其相關資料，提供了韓國旅遊的參考。
- 未來可將資料爬取擴展至其他知名論壇，獲得更全面的資訊蒐集。

## 參考文獻

* [PPT韓國旅遊版](https://www.ptt.cc/bbs/Korea_Travel/index.html)
* [PPT爬蟲教學YouTube影片](https://www.youtube.com/watch?v=1PHp1prsxIM)