# 如何成為資料分析師：Cake Resume Scraper 2023

> https://hahow.in/cr/dajourney

郭耀仁 <yaojenkuo@datainpoint.com>

In [1]:
import os
import requests
from bs4 import BeautifulSoup
import pandas as pd

## 定義函數下載搜尋結果前五頁的網頁檔案

```python
def download_first_five_pages():
    for page_number in range(1, 6):
        html_to_save = f"https://www.cakeresume.com/jobs/data%20analyst?location_list%5B0%5D=Taiwan&job_type%5B0%5D=full_time&seniority_level%5B0%5D=entry_level&page={page_number}"
        r = requests.get(html_to_save)
        with open(f"cake_resume/search_result_page_{page_number}.html", "w") as file:
            file.write(r.text)
```

## 定義函數擷取前五頁搜尋結果的職缺連結

```python
def get_job_url_list() -> list:
    job_title_css_selector = "div.JobSearchItem_headerTitle__CuE3V > a"
    job_url_list = []
    for page_number in range(1, 6):
        with open(f"cake_resume/search_result_page_{page_number}.html") as file:
            soup = BeautifulSoup(file, 'html.parser')
        job_url_hrefs = [elem.get("href") for elem in soup.select(job_title_css_selector)]
        job_urls = [f"https://www.cakeresume.com{job_url_href}" for job_url_href in job_url_hrefs]
        job_url_list += job_urls
    return job_url_list
```

## 定義函數下載職缺連結的網頁檔案

```python
def download_job_descriptions(job_url_list: list):
    for job_url in job_url_list:
        r = requests.get(job_url)
        soup = BeautifulSoup(r.text)
        page_name = job_url.split("/")[-1]
        with open(f"cake_resume/job_descriptions/{page_name}.html", "w") as file:
            file.write(r.text)
```

## 依序執行函數

```python
download_first_five_pages()
job_url_list = get_job_url_list()
download_job_descriptions(job_url_list)
```

## 擷取職缺的工作敘述

In [3]:
list_dir = os.listdir("cake_resume/job_descriptions/")
job_titles, employers, job_descriptions = [], [], []
for html_file in list_dir:
    with open(f"cake_resume/job_descriptions/{html_file}") as file:
        soup = BeautifulSoup(file, 'html.parser')
    job_title = soup.select("h2")[0].text
    employer = soup.select("a.JobDescriptionLeftColumn_name__ABAp9")[0].text
    job_description = soup.select("div.JobDescriptionBlock_container__W_6Sp > div > div.JobDescriptionBlock_content__EldPn > div.JobDescriptionBlock_leftColumn__16yxb > div > div.JobDescriptionLeftColumn_row__iY44x.JobDescriptionLeftColumn_mainContent__VrTGs")[0].text
    job_titles.append(job_title)
    employers.append(employer)
    job_descriptions.append(job_description)
df = pd.DataFrame()
df["employer"] = employers
df["job_title"] = job_titles
df["job_description"] = job_descriptions

In [4]:
df

Unnamed: 0,employer,job_title,job_description
0,創造智能科技股份有限公司,數據分析師/數據分析顧問,行銷ATL行銷人員職缺大約 2 個月前更新雇主活躍於大約 1 小時前職缺描述為什麼『創造智能...
1,優貝特有限公司,資深數位廣告優化師【Senior Digital Advertising Analyst】,行銷數位行銷人員職缺 8 天前更新雇主活躍於 8 天前職缺描述【工作內容】\n1. ...
2,全家便利商店股份有限公司,系統分析師(數據/ERP系統),軟體軟體工程師職缺 7 天前更新雇主活躍於 7 天前職缺描述1.情報系統機能維護\n2.情報...
3,美商法里亞有限公司台灣分公司,Data Specialist,軟體資料庫職缺大約 1 年前更新雇主活躍於 13 天前職缺描述DESCRIPTION\nFa...
4,Sandline Discovery,Project Analyst (需具SQL 資料分析經驗 擅長資料庫應用),經營、管理、商務數據分析師職缺 2 個月前更新雇主活躍於 2 個月前職缺描述Sandline...
5,麻布數據科技股份有限公司,Junior Data Analyst | 資料分析師 ( invos 引客數據),軟體數據科學家職缺 4 天前更新雇主活躍於大約 18 小時前職缺描述我們正在尋找一位 Jun...
6,統一超商股份有限公司（7-ELEVEN),統一超商數據分析管理師,經營、管理、商務數據分析師職缺 7 天前更新雇主活躍於大約 4 小時前職缺描述1.數據透過數...
7,聯合報股份有限公司,【總管理處數據發展部】- 數據分析師 (行銷),經營、管理、商務數據分析師職缺大約 1 個月前更新雇主活躍於大約 3 小時前職缺描述本職務主...
8,遠傳電信股份有限公司,C6251 商業智能工程師,經營、管理、商務數據分析師職缺大約 23 小時前更新雇主活躍於大約 23 小時前職缺描述遠傳...
9,遠傳電信股份有限公司,C6251 商業分析師,經營、管理、商務數據分析師職缺大約 23 小時前更新雇主活躍於大約 23 小時前職缺描述1....
