# Web Scraping
- [slide](https://docs.google.com/presentation/d/1gn4d5gzXzgyEAIz_AOdM3pmJ0-6iiN7EbTjKqCQlgPo/edit?usp=sharing) for getting json data online
- Finding data url
- Scraping 104.com job info
- Understanding how to send request and get back response
- Send request with Cookie, payload, Referer...

# Using requests library to send web requests

用 chrome development tool (devtools) 來觀察網頁的 request and response
* Document: http://docs.python-requests.org/en/master/ 
* Quickstart http://docs.python-requests.org/en/master/user/quickstart/

In [6]:
import requests
import json
response = requests.get('https://www.dcard.tw/service/api/v2/search/forums?limit=30&query=%E6%84%9F%E6%83%85&country=HK')
raw = response.json()
print(type(raw))
print(type(raw[0]))
print(raw[0].keys())

print(response.status_code)
print(response.text)
print(response.headers)

<class 'list'>
<class 'dict'>
dict_keys(['id', 'alias', 'name'])
200
[{"id":"42851318-b9e2-4a75-8a05-9fe180becefe","alias":"relationship","name":"感情"},{"id":"f04ba238-e83a-4361-a654-2bbbb62cb37e","alias":"hkmacrelationship","name":"港澳感情事"},{"id":"50b54456-b7d2-455c-a5b3-a883bba6f1a2","alias":"tarot","name":"塔羅"},{"id":"4c6964fc-8b39-4480-a844-847f09e4e09d","alias":"horoscopes","name":"星座"},{"id":"f11e8d02-6756-4376-9db3-e1cca4d2a66c","alias":"marriage","name":"結婚"},{"id":"75a726e6-d4e3-4902-a410-2430a39fffcb","alias":"mood","name":"心情"},{"id":"c1f60d65-4f49-4a56-9c00-f162c93e31a9","alias":"parentchild","name":"親子"},{"id":"24a9c5cb-ce6d-4091-aa1e-7918dc9d327a","alias":"hklgbt","name":"港澳 LGBT"},{"id":"f8acd3e6-17e9-4d9d-bc7c-bf24d94c2ad1","alias":"literature","name":"詩文"},{"id":"af1a2923-2b26-4fe1-927d-d3304616d709","alias":"hkmacboy","name":"港澳男生"},{"id":"b5b2653a-6304-4564-9ea0-a4cec0be7aee","alias":"rainbow","name":"彩虹"},{"id":"030327e0-75ec-47ba-8103-f2152a9822a0","alias":"hkmacgirl

## (Practice): Find out and traverse data behind urls

請逐一測試過每一個link是否都讀得到資料，以獲得對這些資料概略了解。
* (hint) Using `requests.get(url, timeout=(x, y))` to set the limitation of waiting time
* `timeout=(x, y)`: Max x seconds to connect to server and max y seconds to wait on response
* https://data.moi.gov.tw/moiod/System/Principle.aspx?Sample=2

In [7]:
url_AQX = "https://opendata.epa.gov.tw/api/v1/AQI?%24skip=0&%24top=1000&%24format=json"
url_pchome = "http://ecshweb.pchome.com.tw/search/v3.3/all/results?q=X100F&page=1&sort=rnk/dc"
url_cnyes = "https://news.cnyes.com/api/v3/news/category/headline?startAt=1588262400&endAt=1589212799&limit=30"

# Need Referer = https://www.104.com.tw/
url_104 = "https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc"

# Need user-agent "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
url_dcard = "https://www.dcard.tw/_api/forums/relationship/posts?popular=true"

# POST
url_sinyi = 'https://pixel-api.scupio.com/v0/event?cb=0.3497148401321104'

In [None]:
# res = requests.get(url_dcard, timeout=(3, 5)).json() # with timeout
# res = requests.get(url_AQX).json() # without timeout
# print(type(res))

# res = requests.get(url_dcard, timeout=(3, 5)) # with timeout
# res = requests.get(url_AQX) # without timeout

res = requests.get(url_cnyes).json()
print(res)

# user_agent_dcard = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
# headers = {
#     'User-Agent': user_agent_dcard
# }
# res = requests.get(url_dcard, headers = headers)
print(res.text)
# print(res.keys())


## (Option) Write a function to load json data

In [26]:
def get_web_json(url, headers=""):
    response = requests.get(url, timeout=(3, 5), headers=headers)
    print("Response Code:", response.status_code)
    if not response.ok:
        return None
    data = response.json()
    return data



## (Option) Check data type (list or dict)

In [28]:
import pandas as pd
user_agent_dcard = "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36"
headers = {
    'User-Agent': user_agent_dcard
}
data = get_web_json(url_dcard, headers = headers)

data = get_web_json(url_dcard)
if isinstance(data, dict):
    print("A dict with", data.keys())
elif isinstance(data, list):
#     print("A list with the first data enetry\n", data[0])
    print(pd.DataFrame(data).head())

Response Code: 200
Response Code: 200
          id               title  \
0  235931948     #公告 關於感情板的微西斯內容   
1  237337957     女友的媽媽需求大…..有點困擾   
2  237340353      因為大蒜讓我跟木頭男友復合了   
3  237336221  明明就有男友幹嘛還這麼主動找我聊天🧐   
4  237336667              我也想睡覺啊   

                                             excerpt  anonymousSchool  \
0  各位卡友們好，小天使近期收到許多關於感情板西斯內容的檢舉以及相關詢問，我們了解感情板是為討論...            False   
1  女友爸媽因為家裡裝潢，要出去租房子，我想說家裡有空房，不如請他們來我們家住～（^^）想說來個...             True   
2  *更，好港動釣出一堆大蒜人，店家資訊在b6（好吃然後老闆人好好大推），很怕大家看到這篇文都要...             True   
3  前一陣子參加了一場活動認識一位女孩 其實我對她一開始印象不深 但有互相留聯絡方式，本來覺得就...             True   
4  和男友交往了四年 在昨天晚上分手了，好難過ㄛ哈哈 明明在談分手的時候都沒哭，（因為已經冷戰快...             True   

   anonymousDepartment  pinned                               forumId replyId  \
0                 True    True  42851318-b9e2-4a75-8a05-9fe180becefe    None   
1                 True   False  42851318-b9e2-4a75-8a05-9fe180becefe    None   
2                 True   False  42851318-b9e2-4a75-8a05-9fe180bece

### (Deprecated) Problmatic url? See requests doc
* Try to get back the url https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=2&searchtype=1&region=1
* You will get an 404 status_code
```
url_591 = "https://rent.591.com.tw/home/search/rsList?is_new_list=1&type=1&kind=0&searchtype=1&region=1&section=12&firstRow=30&totalRows=495"
response = requests.get(url_591)
print(response.ok)
print(response.status_code)
```
* Solution: https://stackoverflow.com/questions/10606133/sending-user-agent-using-requests-library-in-python

# Scraping 104.com
* Slide: https://docs.google.com/presentation/d/e/2PACX-1vRW84XoB5sFRT1Eg-GrK4smX23qoNkFffz_h8oRU4AIvJAgrrxBn8059_0UeHv_pFBks_Z37vNbLGai/pub?start=false&loop=false&delayms=3000
```
https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc
```

## 1. Get the first page, but fails

* 嘗試獲取104.com的搜尋結果的第一頁資料網址，結果應該會傳回來一個空的HTML無法傳回資料。這是因為通常服務提供方會嘗試要求提出拜訪要求的瀏覽器需要提供一些簡單的驗證機制，例如是用什麼瀏覽器連上去的（Dcard要求這樣的資訊）、是從哪一個頁面跳過去的（104.com要求）。
* 撰寫爬蟲時必須「模仿」瀏覽器的機制，如果對方希望提供瀏覽器提供這樣的資訊，那撰寫爬蟲時也就要提供這樣的資訊。


In [9]:
url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc&langFlag=0'
response = requests.get(url_104)
print(response.status_code)
print(response.text) # failed, <body>...</body>裡面的內容看不到
print(response.headers)

200
<html xmlns="http://www.w3.org/1999/xhtml"><head><META HTTP-EQUIV="CONTENT-TYPE" CONTENT="TEXT/HTML; CHARSET=utf-8"/><title></title></head>
<body>
<SCRIPT LANGUAGE="JavaScript">
window.location="https://www.104.com.tw/jobs/main/syserr?eid=1098407289332938935";
</script>
</body>
</html>
{'Cache-Control': 'no-cache', 'Connection': 'close', 'Pragma': 'no-cache', 'Content-Type': 'text/html; charset=utf-8', 'Content-Length': '292'}


### Write html to file

當明明可以用**devtool**知道他是一個json，卻一直無法順利用`.json()`將其拆且為`list` or `dict`的型態時，最有可能的問題是，該網址設了一些檢核機制讓我們不能那麼粗暴草率地拿到資料，導致它傳回來給我們的是一個用html編寫成的錯誤訊息，例如stuatus code: 403。這時候我要怎麼知道發生錯誤？一種方式是把status code印出來看看；另一種方式是，他可能也是傳給你status code:200，但實際上就是傳回一個告知你不能存取的html。這時候我們可以採取的作法就是把該HTML，也就是回傳的結果寫入到.html檔，然後用瀏覽器開啟看看他究竟傳回來什麼錯誤訊息。

一定有什麼是網路瀏覽器有送出request，但我們的程式沒有送的。這個可以在**devtool**的`request headers`裡面檢查。可能是以下的東西出問題：
只能一個一個測試，但建議從Referer以及User-Agent開始測試。
   * Cookie
   * Host
   * Referer
   * User-Agent
   * X-Requested_With

In [11]:
with open('temp_output.html', 'w') as fout: # directory 會跑出 temp_output.html file
    fout.write(response.text)
fout.close()

# webbrowser cannot work, but why?
import webbrowser
webbrowser.open_new_tab('temp_output.html')

True

### (Practice) Observing youbike data headers

Is is differnt from 104.com's?觀察看看，是否youbike也有類似的問題，或者youbike data headers是什麼？務必觀察看看，因為如果我們要很會寫爬蟲，一定要會觀察header，而這只是最簡單的一種情形。


In [12]:
import requests
import json
response = requests.get('https://tcgbusfs.blob.core.windows.net/blobyoubike/YouBikeTP.gz')
print(response)
print(response.status_code)
print(type(response)) # <class 'requests.models.Response'>
print(type(response.text)) # <class 'str'>

<Response [200]>
200
<class 'requests.models.Response'>
<class 'str'>


In [13]:
print(response.headers)
import pandas as pd
print(pd.DataFrame.from_dict(response.headers, orient='index'))

{'Content-Length': '32793', 'Content-Type': 'application/octet-stream', 'Content-Encoding': 'gzip', 'Content-MD5': '+mB7tfxDFb7wVPNnmZFNFA==', 'Last-Modified': 'Thu, 04 Nov 2021 13:01:01 GMT', 'ETag': '0x8D99F93270E6482', 'Server': 'Windows-Azure-Blob/1.0 Microsoft-HTTPAPI/2.0', 'x-ms-request-id': 'e1bcd645-901e-0053-1b7c-d1e6dc000000', 'x-ms-version': '2009-09-19', 'x-ms-lease-status': 'unlocked', 'x-ms-blob-type': 'BlockBlob', 'Access-Control-Allow-Origin': '*', 'Date': 'Thu, 04 Nov 2021 13:01:09 GMT'}
                                                                        0
Content-Length                                                      32793
Content-Type                                     application/octet-stream
Content-Encoding                                                     gzip
Content-MD5                                      +mB7tfxDFb7wVPNnmZFNFA==
Last-Modified                               Thu, 04 Nov 2021 13:01:01 GMT
ETag                                          

## 2. Add referer to get back 104 data

現在我們來加入一些對方伺服器可能會要求我們發出request的時候提供的東西，最常見的有以下的資訊。但，實際上我們得一個一個測試看看，才會知道對方要求什麼。通常會從User-agent測起，再來Referer、再來Cookie。但有經驗的人多半一看就猜得到。
* User-Agent: 你用什麼瀏覽器或系統
* Referer: 你從哪個頁面點選、跳轉過來
* Cookies: 經過與伺服器建立連結後，他給了你什麼資訊好讓你持續可以待在這個頁面。

In [45]:
url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc&langFlag=0'
# headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36'}
headers = {'referer': 'https://www.104.com.tw/'}
raw = requests.get(url_104, headers = headers).json()
print(type(raw))

<class 'dict'>


## 3. Traverse data to get the data block

觀察一下資料的概況，並把他轉為pandas來觀察它。

In [46]:
print(raw.keys())
print(type(raw['data']))
print(raw['data'].keys())
print(raw['data']['pageNo']) # url_104 是第二頁的資料
print(type(raw['data']['list']))
print(len(raw['data']['list']))
print(type(raw['data']['list'][0]))
pd.DataFrame(raw['data']['list'])

dict_keys(['status', 'action', 'data', 'statusMsg', 'errorMsg'])
<class 'dict'>
dict_keys(['query', 'filterDesc', 'queryDesc', 'list', 'count', 'pageNo', 'totalPage', 'totalCount'])
2
<class 'list'>
20
<class 'dict'>


Unnamed: 0,jobType,jobNo,jobName,jobNameSnippet,jobRole,jobRo,jobAddrNo,jobAddrNoDesc,jobAddress,description,...,descSnippet,tags,landmark,link,jobsource,jobNameRaw,custNameRaw,lon,lat,remoteWorkType
0,2,12275681,數據分析與洞察服務-數據分析資深顧問,<em class='b-txt--highlight'>數據分析</em>與洞察服務-<e...,1,1,6001001007,台北市信義區,松仁路100號20樓,1. 提供企業客戶在[[[數據]]]驅動決策的應用議題上，設計應用場景與規劃建置，執行專案需...,...,1. 提供企業客戶在<em class='b-txt--highlight'>數據</em>...,[員工3900人],距捷運象山站280公尺,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析與洞察服務-數據分析資深顧問,勤業眾信聯合會計師事務所,121.5679504,25.034403,0
1,2,12207401,數據分析師,<em class='b-txt--highlight'>數據分析</em>師,1,1,6001008008,台中市南屯區,大墩十街300號8樓,司內部資源，完成[[[分析]]]系統 。\n4.以解決內部[[[分析]]]問題為目標，提供諮...,...,司內部資源，完成<em class='b-txt--highlight'>分析</em>系統...,[],距捷運文心森林公園站340公尺,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師,凡谷興業有限公司,120.6456351,24.1479635,0
2,0,12279550,數據分析師,<em class='b-txt--highlight'>數據分析</em>師,1,1,6001008007,台中市西屯區,潮洋里市政北二路238號15樓之5,1.具備[[[資料]]]庫結構(MySQL)與擷取[[[資料]]]\n2.熟悉大[[[數據]...,...,1.具備<em class='b-txt--highlight'>資料</em>庫結構(My...,[],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師,芮陽國際有限公司,120.637619,24.163573,0
3,2,12471169,會員數據分析師,會員<em class='b-txt--highlight'>數據分析</em>師,1,1,6001002003,新北市板橋區,新站路,1.\t[[[分析]]]會員數位行為及消費[[[數據]]]，提出[[[數據]]]洞察，以鞏固...,...,1.\t<em class='b-txt--highlight'>分析</em>會員數位行為...,[員工150人],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,會員數據分析師,遠東集團HAPPY GO_鼎鼎聯合行銷股份有限公司,121.4657335,25.0141188,0
4,0,11070714,【資訊】大數據分析人員,【資訊】大<em class='b-txt--highlight'>數據分析</em>人員,1,1,6001001004,台北市松山區,民生東路三段156號13F,若您對大[[[數據分析]]]與運用有高度興趣，且具備金融顧客經營/證券[[[數據分析]]]能...,...,若您對大<em class='b-txt--highlight'>數據分析</em>與運用有...,"[上市上櫃, 員工2000人]",,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,【資訊】大數據分析人員,群益金鼎證券股份有限公司,121.5477936,25.057202,0
5,0,12453354,數據分析師,<em class='b-txt--highlight'>數據分析</em>師,1,1,6001001005,台北市大安區,光復南路116巷7號3樓,庫柏資訊是台灣資安產品的領導者，應徵者將會加入我們軟體產品的研發團隊，應徵者需要瞭解公司的軟...,...,庫柏資訊是台灣資安產品的領導者，應徵者將會加入我們軟體產品的研發團隊，應徵者需要瞭解公司的軟...,[員工50人],距捷運國父紀念館站230公尺,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師,庫柏資訊軟體股份有限公司,121.5565414,25.0432386,0
6,2,8239307,雲端數據分析師_資料科學家,雲端<em class='b-txt--highlight'>數據分析</em>師_<em ...,1,1,6001002015,新北市中和區,中正路700號五樓,1. AWS雲端服務架構[[[分析]]]、概念驗證、移轉規劃與實施。\r\n2. AWS 雲...,...,1. AWS雲端服務架構<em class='b-txt--highlight'>分析</e...,[員工60人],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,雲端數據分析師_資料科學家,銓鍇國際股份有限公司,121.4859734,24.9966484,0
7,2,11818357,數據分析師/數據工程師,<em class='b-txt--highlight'>數據分析</em>師/<em cl...,1,1,6001001005,台北市大安區,敦化南路二段77號14樓,1.\t各種[[[數據]]]蒐集規劃、追蹤、[[[分析]]]、應用\n2.\tGoogle ...,...,1.\t各種<em class='b-txt--highlight'>數據</em>蒐集規劃...,[],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師/數據工程師,好房國際股份有限公司,121.5491618,25.0300998,0
8,0,12453743,數據分析師,<em class='b-txt--highlight'>數據分析</em>師,1,1,6001001004,台北市松山區,敦化南路一段,1. 透過使用者研究、蒐集團隊回饋、競爭者[[[分析]]]等多項管道進行[[[數據分析]]]...,...,1. 透過使用者研究、蒐集團隊回饋、競爭者<em class='b-txt--highlig...,[],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師,王牌數位創新股份有限公司,121.5491384,25.0461824,0
9,0,12460836,數據分析師,<em class='b-txt--highlight'>數據分析</em>師,1,1,6001008007,台中市西屯區,市政北二路282號,[[[數據分析]]]，作為公司營運、行銷策略規劃參考。\n\n5.熟練各類Office辦公軟...,...,<em class='b-txt--highlight'>數據分析</em>，作為公司營運、...,[員工25人],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,jolist_c_relevance,數據分析師,能通國際有限公司,120.6364943,24.1644631,0


## 4. Get next page: get the 2nd, 1st, 3rd, ..., page urls

接下來要從Chrome Development Tools來觀察，下二頁、三頁、四頁的網址為何（例如以下網址）。然後要去觀察這些網址的變化，應該不難觀察在page=1, page=2, page=3的數字上有所變化。通常這種網址的變化都是有規律性的。
```
第二頁
https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc&langFlag=0

第三頁
https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=3&mode=s&jobsource=2018indexpoc&langFlag=0

第四頁
https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=4&mode=s&jobsource=2018indexpoc&langFlag=0
```

In [47]:
for page in range(1, 6):
    url = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page='+ str(page) +'&mode=s&jobsource=2018indexpoc&langFlag=0'
    headers = {'referer': 'https://www.104.com.tw/'}
    raw = requests.get(url, headers = headers).json()
    print(page, "Data Length", len(raw['data']['list'])) # 看每一頁抓到幾筆資料的 list

1 Data Length 30
2 Data Length 20
3 Data Length 20
4 Data Length 20
5 Data Length 20


除了列印出來以外，用`all_data`這個變項儲存資料，並在for-loop中把每一頁的資料用`extend()`附加到`all_data`中。

In [48]:
all_data = []
for page in range(1, 6):
    url = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=' + str(page) + '&mode=s&jobsource=2018indexpoc'
    headers = {'referer': 'https://www.104.com.tw/'}
    raw = requests.get(url, headers=headers).json()
    all_data.extend(raw['data']['list']) # .append() 是一筆一筆加，要一次綑綁加一組資料是 .extend()
    print(page, "Data Length", len(all_data))

# all_data[0] # all_data is a list of dict

1 Data Length 30
2 Data Length 50
3 Data Length 70
4 Data Length 90
5 Data Length 110


最後我們把整筆資料轉為pandas比較好觀察。

In [49]:
df = pd.DataFrame(all_data)
print(df.shape)
print(len(set(df.jobNo))) # if row number is not equal to len(set(df.jobNo)， 就代表有資料重複
df.drop_duplicates("jobNo").shape # 去掉重複觀察值

(110, 39)
102


(102, 39)

## 5. detect ending condition

前面的步驟中我們知道要如何一步一步抓取每一頁的資料，最後還有一個問題就是，抓到什麼時候才要停？通常程式設計師也得留一個線索，才知道要如何在網頁上自動化呈現最後一頁（如同你看網頁時所看到的最後一頁的頁碼）。所以我們得去揣測程式設計師的邏輯，看他是怎麼設計最後一頁的停止機制的。

通常最主要有兩種：
1. 直接顯示最後一頁是多少：那就寫一個爬蟲，直接去偵測這個最後一頁是多少，然後把他當成ending condition。如104.com的例子是有總資料筆數的，除以頁數就可以知道總頁數。
2. 不直接顯示最後一頁是多少（e.g. PCHOME），就設一個夠大的迴圈，讓爬蟲抓抓抓抓到當掉，或者抓到資料沒再新增了，我們就偵測如果抓到的資料是零筆，就讓他跳出迴圈。

In [50]:
print(raw.keys())
print(type(raw['data']))
print(raw['data'].keys())
print(raw['data']['pageNo'])
print(raw['data']['totalPage']) # 知道 totalPage 之後就可以知道要讓爬蟲停在什麼地方
print(raw['data']['count'])
print(raw['data']['totalCount'])

dict_keys(['status', 'action', 'data', 'statusMsg', 'errorMsg'])
<class 'dict'>
dict_keys(['query', 'filterDesc', 'queryDesc', 'list', 'count', 'pageNo', 'totalPage', 'totalCount'])
5
150
['7278', '6956', '155', '24', '143', '0', '0']
7278


In [54]:
# url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=11&keyword=%E6%95%B8%E6%93%9A%E5%88%86%E6%9E%90&expansionType=job&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc&langFlag=0'
# headers = {'referer': 'https://www.104.com.tw/'}
# raw = requests.get(url_104, headers = headers).json()
totalPage = raw['data']['totalPage']


for page in range(1, totalPage + 1):
    url = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=data%20scientist&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=' + str(page) + '&mode=s&jobsource=2018indexpoc'
    headers = {'referer': 'https://www.104.com.tw/'}
    raw = requests.get(url, headers=headers).json()
    all_data.extend(raw['data']['list'])
    print(page, "Data Length", len(all_data))

1 Data Length 960
2 Data Length 980
3 Data Length 1000
4 Data Length 1020
5 Data Length 1040
6 Data Length 1060
7 Data Length 1080
8 Data Length 1100
9 Data Length 1120
10 Data Length 1140
11 Data Length 1160
12 Data Length 1180
13 Data Length 1200
14 Data Length 1220
15 Data Length 1240
16 Data Length 1260
17 Data Length 1280
18 Data Length 1300
19 Data Length 1320
20 Data Length 1340
21 Data Length 1360
22 Data Length 1380
23 Data Length 1400
24 Data Length 1420
25 Data Length 1440
26 Data Length 1460
27 Data Length 1480
28 Data Length 1500
29 Data Length 1520
30 Data Length 1540
31 Data Length 1560
32 Data Length 1580
33 Data Length 1600
34 Data Length 1620
35 Data Length 1640
36 Data Length 1660
37 Data Length 1680
38 Data Length 1700
39 Data Length 1720
40 Data Length 1740
41 Data Length 1760
42 Data Length 1780
43 Data Length 1800
44 Data Length 1820
45 Data Length 1840
46 Data Length 1860
47 Data Length 1880
48 Data Length 1900
49 Data Length 1920
50 Data Length 1940


KeyboardInterrupt: 

## 6. convert to dataframe

In [57]:
df = pd.DataFrame(all_data)
print(df.shape)
print(len(set(df.jobNo)))
print(df.drop_duplicates("jobNo").shape)
df = df.drop_duplicates("jobNo")
df.head()

(1940, 39)
851
(851, 39)


Unnamed: 0,jobType,jobNo,jobName,jobNameSnippet,jobRole,jobRo,jobAddrNo,jobAddrNoDesc,jobAddress,description,...,descSnippet,tags,landmark,link,jobsource,jobNameRaw,custNameRaw,lon,lat,remoteWorkType
0,1,12382442,(院本部)網路數據分析實驗室_專案研究人員（台北）,(院本部)網路數據分析實驗室_專案研究人員（台北）,1,1,6001001005,台北市大安區,,1.資安卓越中心規劃建置計畫-網路數據分析實驗：\n(1)網路數據分析與資通安全相關前瞻研究...,...,1.資安卓越中心規劃建置計畫-網路數據分析實驗：\n(1)網路數據分析與資通安全相關前瞻研究...,[員工1500人],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,hotjob_chr,(院本部)網路數據分析實驗室_專案研究人員（台北）,財團法人國家實驗研究院,121.5433783,25.0249441,0
1,1,7536977,Senior Electrical Design Engineer,Senior Electrical Design Engineer,1,1,6001001011,台北市南港區,三重路19之2號2樓,Why Verifone\n\nFor more than 30 years VeriFon...,...,Why Verifone\n\nFor more than 30 years VeriFon...,[員工113人],距捷運南港展覽館站230公尺,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,hotjob_chr,Senior Electrical Design Engineer,新加坡商惠爾訊科技股份有限公司台灣分公司(VeriFone Systems Pte Ltd ...,121.61412,25.055361,0
2,1,8196599,美製淨水精品銷售顧問(大台北）Water Filters Sales Representative,美製淨水精品銷售顧問(大台北）Water Filters Sales Representative,1,1,6001001005,台北市大安區,忠孝東路三段300號,【職位要求】\n如果你：\n【服務熱忱】 【精品經驗】\n個性開朗活潑，熱愛服務，期望從銷售...,...,【職位要求】\n如果你：\n【服務熱忱】 【精品經驗】\n個性開朗活潑，熱愛服務，期望從銷售...,[],距捷運忠孝復興站100公尺,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,hotjob_chr,美製淨水精品銷售顧問(大台北）Water Filters Sales Representative,偉太健康科技有限公司,121.5432417,25.0408932,0
3,1,8702890,人資管理師 Human Resources Specialists,人資管理師 Human Resources Specialists,1,1,6001001010,台北市內湖區,新湖二路8號5樓,1. 薪資考勤及所得申報等流程作業\n2. 各類獎金計算發放作業\n3. 年度調薪作業\n4...,...,1. 薪資考勤及所得申報等流程作業\n2. 各類獎金計算發放作業\n3. 年度調薪作業\n4...,[],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,hotjob_chr,人資管理師 Human Resources Specialists,偉太健康科技有限公司,121.5825677,25.0648819,0
4,1,12244348,Senior Embedded Software Engineer -觸控優先,Senior Embedded Software Engineer -觸控優先,1,1,6001002023,新北市林口區,公園路199號,We are looking forward to building a team of S...,...,We are looking forward to building a team of S...,[],,{'applyAnalyze': '//www.104.com.tw/jobs/apply/...,hotjob_chr,Senior Embedded Software Engineer -觸控優先,邁新科技有限公司,121.3721698,25.0725328,0


# Dump files for backup

* 因為抓取資料很久很辛苦，所以通常會把它寫到後端的檔案、資料庫，或者雲端的資料庫中。在此，我們選擇把他寫到pandas或者`.json()`比較好讀的json檔。通常不會寫到CSV，因為CSV是以逗點分隔為辨識基礎，但文本中可能也會有逗點，會比較容易出錯。
* 建議若設計了寫入，就立刻讀出來看看，省得不小心寫入錯誤，屆時程式關閉了，資料就取不回來了。
* 還有另外一種檔案是python的pickle檔。pickle是一種暫存檔，也就是我們現在如果有一個變數是pandas dataframe，寫到pickle再讀出來，他還會是一個pandas dataframe，而且資料型態都不會變。這點其實非常好用，因為如果你把一個dataframe轉為json，你要特別注意那些datetime欄位或multiindex的東西被轉成什麼，又是否能夠讀得回來。也就是如果時間物件要寫入到json檔時，理應要先轉成string，然後讀取回來要做分析時，也要再轉回來datetime。但如果你轉為pickle檔，存進去是什麼樣子，拿出來就是什麼樣子。那pickle檔有缺點嗎？有！就和其他的程式例如R或網頁程式無法通用，也無法直接寫到雲端資料庫。


## M1. Dump one variable to json by json library
* https://docs.python.org/3/library/json.html

In [58]:
import json
with open('104_list.json', 'w') as outfile: # 'w' 代表寫入
    json.dump(all_data, outfile)

## M2. Dump and load json by pandas library

In [59]:
with open('104_df.json', 'w') as f:
    f.write(df.to_json())

In [62]:
with open("104_df.json") as fin:
    data2 = pd.read_json(fin)
data2.head()
data2.shape

(851, 39)

## M3. Dump multiple variables to pickle

In [63]:
import pickle
with open('104.pkl', 'wb') as fout:  # Python 3: open(..., 'wb'), write in binary
    pickle.dump([all_data, df], fout) # use list to wrap all_data and df up

### Load multiple variables back to objects

In [64]:
with open('104.pkl', "rb") as fin:  # Python 3: open(..., 'rb'), read in binary
    test = pickle.load(fin)
    print(type(test[0]))
    print(type(test[1]))

<class 'list'>
<class 'pandas.core.frame.DataFrame'>


In [65]:
test[0][0].keys()

dict_keys(['jobType', 'jobNo', 'jobName', 'jobNameSnippet', 'jobRole', 'jobRo', 'jobAddrNo', 'jobAddrNoDesc', 'jobAddress', 'description', 'optionEdu', 'period', 'periodDesc', 'applyCnt', 'applyDesc', 'custNo', 'custName', 'coIndustry', 'coIndustryDesc', 'salaryLow', 'salaryHigh', 'salaryDesc', 's10', 'appearDate', 'appearDateDesc', 'optionZone', 'isApply', 'applyDate', 'isSave', 'descSnippet', 'tags', 'landmark', 'link', 'jobsource', 'jobNameRaw', 'custNameRaw', 'lon', 'lat', 'remoteWorkType'])

## Using timestamp as file name

因為我們抓取資料的for-loop如果有幾千或幾萬個iterations，勢必很怕抓到一半斷掉或當機，卻又得重抓。所以最好的方式就是，每抓個幾百筆或幾千筆，就留一份檔案。但要如何區分這些檔案的先後順序？通常會用撈取的時間加上資料筆數的先後來作為檔名的一部分，這樣之後就可以觀看這些檔名來知道，究竟資料有沒有抓完，或者當在哪裡。

In [66]:
from datetime import datetime

now = datetime.now().strftime("%Y%m%d%H%M%S")
print("Current Time =", now)
with open('104_%s.pkl'%(now), 'wb') as fout:  # Python 3: open(..., 'wb')
    pickle.dump([all_data, df], fout)

Current Time = 20211105020402


# Clean version. 104


In [165]:
headers = {'referer': 'https://www.104.com.tw/'}
search_str = '數據分析'

# Detecting totalPage
url_104 = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=' + search_str + '&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=2&mode=s&jobsource=2018indexpoc'
raw = requests.get(url_104, headers=headers).json()
totalPage = raw['data']['totalPage']
print(totalPage)

# Getting data by loop
all_data = []
for page in range(1, totalPage):
    url = 'https://www.104.com.tw/jobs/search/list?ro=0&kwop=7&keyword=' + search_str + '&expansionType=area%2Cspec%2Ccom%2Cjob%2Cwf%2Cwktm&order=14&asc=0&page=' + str(page) + '&mode=s&jobsource=2018indexpoc'
    raw = requests.get(url, headers=headers).json()
    all_data.extend(raw['data']['list'])
    print(len(all_data), end = " ")
print()
df = pd.DataFrame(all_data)


# Saving and Backing up data
import pickle
from datetime import datetime

now = datetime.now().strftime("%Y%m%d%H%M%S")
print("Current Time =", now)
with open('104_%s_%s.pkl'%(search_str, now), 'wb') as fout:  # Python 3: open(..., 'wb')
    pickle.dump([all_data, df], fout)

150
30 50 70 90 110 130 150 170 190 210 230 250 270 290 310 330 350 370 390 410 430 450 470 490 510 530 550 570 590 610 630 650 670 690 710 730 750 770 790 810 830 850 870 890 910 930 950 970 990 1010 1030 1050 1070 1090 1110 1130 1150 1170 1190 1210 1230 1250 1270 1290 1310 1330 1350 1370 1390 1410 1430 1450 1470 1490 1510 1530 1550 1570 1590 1610 1630 1650 1670 1690 1710 1730 1750 1770 1790 1810 1830 1850 1870 1890 1910 1930 1950 1970 1990 2010 2030 2050 2070 2090 2110 2130 2150 2170 2190 2210 2230 2250 2270 2290 2310 2330 2350 2370 2390 2410 2430 2450 2470 2490 2510 2530 2550 2570 2590 2610 2630 2650 2670 2690 2710 2730 2750 2770 2790 2810 2830 2850 2870 2890 2910 2930 2950 2970 2990 
Current Time = 20210325125357
