In [1]:
import time
import random
import requests

In [2]:
class Job104Spider():
    def search(self, keyword, max_nun=10, filter_params=None, sort_type='符合度', is_sort_asc=False):
        # 產生搜尋結果
        jobs = []
        total_count = 0

        url = 'https://www.104.com.tw/jobs/search/list'
        # 這個url不是從網址來的，要到F12>XHR>Headers中查找，所以一定要最後面的list
        query = f'ro=0&kwop=7&keyword={keyword}&expansionType=area,spec,com,job,wf,wktm&mode=s&jobsource=2018indexpoc'
        if filter_params:
            # 加上篩選參數，要先轉換為 URL 參數字串格式
            query += ''.join([f'&{key}={value}' for key, value, in filter_params.items()])
            
        # 加上排序條件
        sort_dict = {
            '符合度': '1',
            '日期': '2',
            '經歷': '3',
            '學歷': '4',
            '應徵人數': '7',
            '待遇': '13',
        }
        
        # 結果排序
        sort_params = f"&order={sort_dict.get(sort_type, '1')}"
        sort_params += '&asc=1' if is_sort_asc else '&asc=0'
        query += sort_params
            
        # 設定headers，偽裝成真人搜尋，避免被網頁偵測到
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36',
            'Referer': 'https://www.104.com.tw/jobs/search/',
        }
        
        page = 1
        while len(jobs) < max_nun:
            params = f'{query}&page={page}'
            r = requests.get(url, params=params, headers=headers)
            if r.status_code != requests.codes.ok:
                print('請求失敗', r.status_code)
                data = r.json()
                print(data['status'], data['statusMsg'], data['errorMsg'])
                break

            data = r.json()
            total_count = data['data']['totalCount']
            jobs.extend(data['data']['list'])

            if (page == data['data']['totalPage']) or (data['data']['totalPage'] == 0):
                break
            page += 1
            time.sleep(random.uniform(3, 5))

        return total_count, jobs[:max_nun]
    
    def get_job(self):
        # 查看搜尋結果詳情
        pass
    
    def search_job_transform(self):
        # 轉換格式
        pass

In [3]:
job104_spider = Job104Spider()

In [4]:
filter_params = {
    'area': '6001001000,6001016000',  # (地區) 台北市,高雄市
    # 's9': '1,2,4,8',  # (上班時段) 日班,夜班,大夜班,假日班
    # 's5': '0',  # 0:不需輪班 256:輪班
    # 'wktm': '1',  # (休假制度) 週休二日
    # 'isnew': '0',  # (更新日期) 0:本日最新 3:三日內 7:一週內 14:兩週內 30:一個月內
    # 'jobexp': '1,3,5,10,99',  # (經歷要求) 1年以下,1-3年,3-5年,5-10年,10年以上
    # 'newZone': '1,2,3,4,5',  # (科技園區) 竹科,中科,南科,內湖,南港
    # 'zone': '16',  # (公司類型) 16:上市上櫃 5:外商一般 4:外商資訊
    # 'wf': '1,2,3,4,5,6,7,8,9,10',  # (福利制度) 年終獎金,三節獎金,員工旅遊,分紅配股,設施福利,休假福利,津貼/補助,彈性上下班,健康檢查,團體保險
    # 'edu': '1,2,3,4,5,6',  # (學歷要求) 高中職以下,高中職,專科,大學,碩士,博士
    # 'remoteWork': '1',  # (上班型態) 1:完全遠端 2:部分遠端
    # 'excludeJobKeyword': '科技',  # 排除關鍵字
    # 'kwop': '1',  # 只搜尋職務名稱
    }

In [5]:
total_count, jobs= job104_spider.search('python', max_nun=10, filter_params=filter_params)

In [6]:
print(total_count)

3406


In [10]:
print(jobs)

[{'jobType': '1', 'jobNo': '12426242', 'jobName': '電子商務 前端工程師(Web engineer)', 'jobNameSnippet': '電子商務 前端工程師(Web engineer)', 'jobRole': '1', 'jobRo': '1', 'jobAddrNo': '6001001004', 'jobAddrNoDesc': '台北市松山區', 'jobAddress': '復興北路369號6樓', 'description': '[職務說明]\n - CAFE24服務之網站管理 /製作 /維護 \n - 構建解決方案及營運維護\n - 其他主管交代事項\n\n[必要條件]\n - Html5, css3, javascript, Jquery, \n - 對網站/行動裝置 UI 有興趣\n - 響應式網頁的製作經驗\n - RESTful API 經驗\n - 具備組織中換位思考及良好的溝通能力\n - 樂觀積極的處事態度\n - 附上作品集\n - 通韓文/英文 者佳\n\n[加分條件]\n - PL 經驗\n - 網頁框架經驗 (vue, react, angular 等)\n - 後端經驗 (php/python/nodejs 等)\n - 資料分析撰寫能力', 'optionEdu': '大學', 'period': '00', 'periodDesc': '經歷不拘', 'applyCnt': '00015', 'applyDesc': '11~30人應徵', 'custNo': '130000000063000', 'custName': '韓商咖菲二十四貿易有限公司台灣分公司', 'coIndustry': '', 'coIndustryDesc': '', 'salaryLow': '0035000', 'salaryHigh': '9999999', 'salaryDesc': '月薪35,000元以上', 's10': '50', 'appearDate': '20211220', 'appearDateDesc': '12/20', 'optionZone': '0', 'isApply': '0', 'applyDate': '', 'isSave': '0', 'desc