<a href="https://colab.research.google.com/github/ououou92/ooo/blob/main/HW2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# HW02 Web Crawler

## 題目

###爬取 104 人力銀行網站上的實習職缺資訊

## 摘要

本專案目標為從 104 人力銀行網站爬取與「實習」相關的職缺資訊。透過觀察網頁後台 API，使用 Python 的 requests 模組直接存取 JSON 資料，解析後提取出「工作職稱」與「公司名稱」，並以表格形式呈現。本爬蟲程式可以快速取得指定頁數的實習職缺資訊，作為職涯探索與資料分析的基礎。

## 引言

隨著資訊科技普及，越來越多學生希望透過實習累積工作經驗。而 104 人力銀行是台灣最主要的徵才平台之一，其網站提供大量職缺資訊。本專案以「實習」為關鍵字，從 104 平台中擷取公開的職缺資料，幫助使用者快速掌握市場上的實習機會。

## 方法

⚙️ 方法說明：
觀察資料來源：使用 Chrome 開發者工具（F12）觀察網頁請求，找出 104 使用的資料 API。

確認資料格式：該 API 回傳 JSON 格式資料，包含所有職缺的詳細資訊。

使用 Python 實作爬蟲：

使用 requests 送出 HTTP 請求並取得 JSON。

使用 pandas 將目標欄位整理為 DataFrame。

提取欄位：

工作職稱（jobName）

公司名稱（custName）

呈現與匯出：

將結果以表格顯示，並可匯出為 .csv 檔以利儲存或分析。



In [None]:
import requests
import pandas as pd

# 目標 API（這是第 2 頁的搜尋結果）
url = "https://www.104.com.tw/jobs/search/list"
params = {
    "ro": "0",
    "kwop": "7",
    "keyword": "實習",
    "area": "6001016000",
    "order": "15",
    "page": "2",
    "mode": "s",
    "jobsource": "joblist_search"
}
headers = {
    "User-Agent": "Mozilla/5.0",
    "Referer": "https://www.104.com.tw/jobs/search/"
}

# 發送請求
res = requests.get(url, headers=headers, params=params)
data = res.json()

# 擷取職缺清單
jobs = data['data']['list']

# 整理成表格
job_list = []
for job in jobs:
    job_name = job['jobName']
    company_name = job['custName']
    job_list.append({'工作職稱': job_name, '公司名稱': company_name})

df = pd.DataFrame(job_list)
df


Unnamed: 0,工作職稱,公司名稱
0,中租保經行政實習生(高雄)-歡迎夜間部學生,中租控股_中租迪和股份有限公司
1,[Alpha] 新創早期項目研究實習 Intern｜遠端・委任制・非勞動契約,大門科技顧問有限公司
2,學校實習生(各單位),東南旅行社股份有限公司
3,校園實習生(台南.嘉義.高雄.屏東.台東.澎湖),英莩留學服務股份有限公司
4,法務實習生,隆順綠能科技股份有限公司
5,【大港青年實習】ESG永續管理實習生,新盛力科技股份有限公司
6,【實習生】助理工程師 (高雄),SCREEN SPE Taiwan_台灣迪恩士半導體科技股份有限公司
7,行銷實習/工讀生,南瓜虛擬科技股份有限公司
8,【實習生Intern】和逸高雄中山館,國泰飯店觀光事業_國泰商旅股份有限公司
9,PHP軟體工程師（實習）,宥倍實業股份有限公司


## 結果


- 數據存儲方式
  - 將數據存儲為 CSV 格式，方便後續分析。

In [None]:
# 展示資料程式碼
df.to_csv("intern_jobs.csv", index=False)

## 問題與挑戰

#### 1. 資料為動態載入
104 網站的職缺資訊不是寫死在 HTML 裡，而是透過 JavaScript 在網頁載入後動態產生。

這使得原本使用 BeautifulSoup 抓 HTML 的方法無法獲得職缺清單。

解決方法是：改抓取 104 背後的 JSON API，繞過網頁表面內容，直接擷取原始資料來源。

#### 2. API 不易察覺
該 JSON API 並非官方公開，而是藏在網頁行為背後，需透過 Chrome 開發者工具觀察 Network 中的請求才能發現。

找到對應的 request 並提取出參數（如關鍵字、地區、頁數）是成功關鍵。

## 結論

本次專案成功爬取 104 實習職缺的資料，並驗證了透過 API 抓取資料比解析 HTML 更為穩定與快速。過程中學會使用 Chrome 開發工具找出資料來源，也練習了 Python 中 requests 與 pandas 套件的實作。透過這次經驗，不僅更了解爬蟲原理，也對資料的實際取得與應用有了實務體驗，對未來資料分析或職涯探索都大有幫助。

## 參考文獻

https://medium.com/@kaojia/%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-python%E7%88%AC%E8%9F%B2%E5%85%A5%E9%96%80%E5%AF%A6%E4%BD%9C-%E7%B6%B2%E9%A0%81%E6%9E%B6%E6%A7%8B-%E9%9D%9C%E6%85%8B%E7%B6%B2%E9%A0%81%E7%88%AC%E8%9F%B2-33225a8ba9d4