# 4-2 如何進行「資料爬取」

> 補充教材

郭耀仁

## 關於資料爬取

網站爬蟲的核心任務可以簡單區分為兩個，依序是請求資料（requesting data）與解析資料（parsing data）。請求資料的運作就像我們在瀏覽器中輸入網址一般，只不過送出請求的管道由瀏覽器改變為 Python 程式碼、從向伺服器請求一個網頁改變為資料；解析資料的運作則是將回傳資料內容去蕪存菁，萃取必要的一小部分。

- 請求資料所需要的先備知識有：瀏覽器的開發者工具、HTTP 請求/回應、`requests` 套件
- 解析資料所需要的先備知識有：HTML/CSS/JavaScript、`BeautifulSoup4` 套件

## 關於瀏覽器的開發者工具

我們專注介紹 Chrome 的開發者工具，Chrome 開發者工具是一套內建在 Google Chrome 的 Web 開發測試工具，可用來對網站進行開發、測試和分析。打開 Chrome 開發者工具的方法：

- 在 Chrome 選單中點選 **更多工具** > **開發者工具**
- 在頁面元素上右鍵點擊，選擇 **檢查**
- 使用 快捷鍵 Ctrl+Shift+I (Windows) 或 Cmd+Opt+I (Mac)

![Imgur](https://i.imgur.com/3Synk8m.png?1)

Chrome 開發者工具常用的功能面板有：Elements、Console 與 Network；Elements 可以操作 DOM 和 CSS 來設計頁面。

![Imgur](https://i.imgur.com/dCIw6t1.png?1)

Console 可以觀察開發記錄以及作為 JavaScript 的互動環境。

![Imgur](https://i.imgur.com/ch7xERW.png?1)

Networks 可以瞭解 HTTP 請求和下載的資料。

![Imgur](https://i.imgur.com/ISFurQx.png?1)

進行網頁資料擷取時，會高度仰賴 Chrome 開發者工具中的 Elements 與 Network。

## 關於 HTTP 請求/回應

> 超文本傳輸協定 (HTTP) 是一種用來傳輸超媒體文件 (像是HTML文件) 的應用層協定，被設計來讓瀏覽器和伺服器進行溝通，但也可做其他用途。HTTP 遵循標準客戶端—伺服器模式，由客戶端連線以發送請求，然後等待接收回應。HTTP 定義了一組給定資源，執行特定操作的請求方法（request methods）。

Source: <https://developer.mozilla.org/zh-TW/docs/Web/HTTP>

HTTP 請求/回應是雙向的，由瀏覽器發給網頁伺服器的請求稱為 HTTP Requests，由網頁伺服器發給瀏覽器的回應稱為 HTTP Response，順利取得資料之後，瀏覽器會將回應的內容（Body）顯示出來。在將回應的內容解析出來之前，我們通常會先檢視回應的狀態碼（Status Code），常見的狀態碼有：

- 200 OK：請求成功
- 403 Forbidden：用戶端並無訪問權限
- 404 Not Found：伺服器找不到請求的資源，因為在網路上它很常出現，也許最為人所知悉

Source: <https://developer.mozilla.org/zh-TW/docs/Web/HTTP/Status>

## 關於 `requests` 套件

> Requests 是一個簡潔且優雅的 HTTP 套件，讓 Python 使用者能夠簡單地利用它扮演「客戶端」發送 HTTP 請求給網頁伺服器等待回應。使用 `requests` 發送 GET 請求時不用再手動添加查詢字串、發送 POST 請求時不用再手動編碼表單，這些事項都只要以 Python 字典傳入請求函式即可。查詢字串（Query String Parameters）是在網址上添加參數的一種方法，如此一來網頁伺服器就可以扮演像是函式（function）的角色，當接收到不同查詢字串的客戶端請求時，可以傳送不同內容的伺服器回應。

Source: <https://requests.readthedocs.io/en/master/>

## 關於字典（`dict`）

至於 Python 字典（`dict`）則是一種極為常用的資料結構，這種資料結構除了儲存資料（values）以外，還另外利用標籤（keys）來對資料作索引，這樣的特性讓我們在選擇時可以使用資料的標籤，如此一來在面對長度很大的資料時，不需要耗時計算資料所在的位置，在建立的時候使用大括號 `{}` 將希望儲存的資訊包括起來，然後分別將資料與標籤以 `keys` 與 `values` 記錄。

In [1]:
top_rated_movie = {
    'title': 'The Shawshank Redemption',
    'releaseYear': 1994,
    'imdbRating': 9.2,
    'stars': ['Tim Robbins', 'Morgan Freeman', 'Bob Gunton']
}
# 印出外觀
print(top_rated_movie)

{'title': 'The Shawshank Redemption', 'releaseYear': 1994, 'imdbRating': 9.2, 'stars': ['Tim Robbins', 'Morgan Freeman', 'Bob Gunton']}


In [2]:
# 印出型別
print(type(top_rated_movie))
# 以 [key] 取值
print(top_rated_movie['title'])
print(top_rated_movie['releaseYear'])
print(top_rated_movie['imdbRating'])
print(top_rated_movie['stars'])

<class 'dict'>
The Shawshank Redemption
1994
9.2
['Tim Robbins', 'Morgan Freeman', 'Bob Gunton']


## 關於 HTML/CSS/JavaScript

網頁的基本組成是標記式語言、樣式表與程式語言的結合：

- 標記式語言：HTML
- 樣式表：CSS
- 程式語言：JavaScript

對比一間大樓的組成，可以這樣想像：

- 鋼筋水泥：HTML
- 裝潢隔間：CSS
- 管線設施：JavaScript

HTML，全名 HyperText Markup Language，譯作超文本標記語言，常與 CSS 以及 JavaScript 被用於設計網頁（Webpages，泛指靜態、不隨使用者帳戶更動的網站）與網頁應用程式（Web Applications，泛指動態、隨使用者帳戶更動的網站）之使用者介面，瀏覽器（Chrome、Firefox 與 Safari 等）皆可以讀取 HTML 的檔案，並將其呈現為我們雙眼所接收到的網頁內容。在與 CSS 和 JavaScript 的分工上頭，HTML 是負責描述一個網站的結構，用許多的標記（Tags，外觀像是 `</>`）來讓瀏覽器得知標題、段落或表格等應該座落在網頁的哪個位置。

CSS，全名 Cascading Style Sheets，譯作層疊樣式表或階層式樣式表，用來為網頁添加樣式，運用屬性與選擇器來影響 HTML 中標記在瀏覽器中被呈現出來的外觀。

JavaScript 是輕量級、直譯式的程式語言，它因為用作網頁的腳本語言而大為知名，別搞混了 JavaScript 和 Java 程式語言。雖然 "Java" 和 "JavaScript" 都是 Oracle 公司在美國和其他國家的商標或註冊商標，但兩個語言有著非常不同的語法、語意和用途。

Source: <https://developer.mozilla.org/zh-TW/>

## 關於 `BeautifulSoup4` 套件

> BeautifulSoup4 是一個可以從 HTML 文件中解析資料的 Python 套件，能夠透過 CSS 選擇器萃取出使用者需要的部分：我們時常會解析 HTML 標記中所記錄的文字資訊（Text）以及屬性（Attributes），像是 `<a>...</a>` 標記中的 `href` 或 `<img>` 標記中的 `src` 都能協助取得連結或圖片的網路位址，除了特定標記獨有的屬性以外，尚有 `id` 與 `class` 兩種大眾化的屬性，可以將標記分門別類，這也讓解析特定資料任務變得更加簡單，通常 `id` 用作區隔單一個標記，`class` 用作區隔同一組標記。

Source: <https://www.crummy.com/software/BeautifulSoup/bs4/doc/>

CSS 選擇器是 CSS 規則的一部分，它能讓你選定要調整哪個（或哪些）元素的樣式。

![Imgur](https://i.imgur.com/MNSO2qH.png?1)

Source: <https://developer.mozilla.org/zh-TW/docs/Learn/Getting_started_with_the_web/CSS_basics>

常用的 `BeautifulSoup4` 函數

- `BeautifulSoup()`：創建 `BeautifulSoup` 類別

常用的 `BeautifulSoup` 類別之方法

- `soup.select()`：尋找所有符合 CSS 選擇的資料

常用的 `element.Tag` 屬性、方法

- `element.Tag.text`：取出標記中的文字值
- `element.Tag.get(attr)`：取出標記中的指定屬性

## 快速的 `reqeusts` 與 `BeautifulSoup4` 整合示例

In [3]:
import requests
from bs4 import BeautifulSoup

In [4]:
request_url = "https://www.indeed.com/jobs"
query_string_parameters = {
    'q': 'data analyst',
    'jt': 'fulltime',
    'explvl': 'entry_level',
    'start': '0'
}
response = requests.get(request_url, params=query_string_parameters)
print(response.status_code) # HTTP 狀態碼

200


In [5]:
print(response.text) # 完整的 html 文件

<!DOCTYPE html>
<html lang="en" dir="ltr">
<head>
<meta http-equiv="content-type" content="text/html;charset=UTF-8">
<script type="text/javascript" src="/s/712ff66/en_US.js"></script>
<link href="/s/1ab3172/jobsearch_all.css" rel="stylesheet" type="text/css">
<link rel="alternate" type="application/rss+xml" title="Data Analyst Jobs, Employment" href="http://rss.indeed.com/rss?q=data+analyst&jt=fulltime&explvl=entry_level">
<link rel="alternate" media="only screen and (max-width: 640px)" href="/m/jobs?q=data+analyst&jt=fulltime&explvl=entry_level">
<link rel="alternate" media="handheld" href="/m/jobs?q=data+analyst&jt=fulltime&explvl=entry_level">

<script type="text/javascript">

if (typeof window['closureReadyCallbacks'] == 'undefined') {
window['closureReadyCallbacks'] = [];
}

function call_when_jsall_loaded(cb) {
if (window['closureReady']) {
cb();
} else {
window['closureReadyCallbacks'].push(cb);
}
}
</script>
<meta name="ppstriptst" content="1">
<script>
var _scriptDownloadCount

In [6]:
soup = BeautifulSoup(response.text) # 轉換成為 BeautifulSoup 類別
print(type(soup))

<class 'bs4.BeautifulSoup'>


In [7]:
# 透過 .select 方法取出對應 CSS 選擇器的標記
print(soup.select('.title a'))

[<a class="jobtitle turnstileLink" data-tn-element="jobTitle" href="/rc/clk?jk=f13ffd0ea121b4d8&amp;fccid=978d9fd9799d55a8&amp;vjs=3" id="jl_f13ffd0ea121b4d8" onclick="setRefineByCookie(['jobtype', 'explvl']); return rclk(this,jobmap[0],true,0);" onmousedown="return rclk(this,jobmap[0],0);" rel="noopener nofollow" target="_blank" title="Data Analyst – University Graduate">
<b>Data</b> <b>Analyst</b> – University Graduate</a>, <a class="jobtitle turnstileLink" data-tn-element="jobTitle" href="/rc/clk?jk=2532431132ffbda1&amp;fccid=30c994b6c2f39768&amp;vjs=3" id="jl_2532431132ffbda1" onclick="setRefineByCookie(['jobtype', 'explvl']); return rclk(this,jobmap[1],true,0);" onmousedown="return rclk(this,jobmap[1],0);" rel="noopener nofollow" target="_blank" title="Entry Level Data Analyst">
Entry Level <b>Data</b> <b>Analyst</b></a>, <a class="jobtitle turnstileLink" data-tn-element="jobTitle" href="/rc/clk?jk=3a376da0784075d1&amp;fccid=210934531891f9be&amp;vjs=3" id="jl_3a376da0784075d1" onc

In [8]:
# 使用一種稱為 list comprehension 的技法將所有符合 .title a CSS 選擇標記中的 href 屬性擷取出存入一個 list
# list comprehension 是 Python 使用者常用的技巧，它能夠用一行語法將 for 迴圈與 list 創建完成
ref_routes = [e.get('href') for e in soup.select('.title a')]
print(ref_routes)

['/rc/clk?jk=f13ffd0ea121b4d8&fccid=978d9fd9799d55a8&vjs=3', '/rc/clk?jk=2532431132ffbda1&fccid=30c994b6c2f39768&vjs=3', '/rc/clk?jk=3a376da0784075d1&fccid=210934531891f9be&vjs=3', '/rc/clk?jk=c04a8d5fa0e7869c&fccid=ed3db458f28ca6b3&vjs=3', '/rc/clk?jk=c676a737179fa1c3&fccid=978d9fd9799d55a8&vjs=3', '/rc/clk?jk=2871ed5f3065b89c&fccid=9f7b4a9692015a8a&vjs=3', '/rc/clk?jk=3634e45314aa3499&fccid=8ce3cf8e1e3ddd14&vjs=3', '/rc/clk?jk=f514128346e50195&fccid=734cb5a01ee60f80&vjs=3', '/rc/clk?jk=45b9fc153445c7c9&fccid=2a341562d64c7cdb&vjs=3', '/rc/clk?jk=a09ad89a55a25f09&fccid=211878d9f5fc148d&vjs=3']
