# 成為初級資料分析師 | Python 與資料科學應用

> 網頁資料擷取（a.k.a. 網路爬蟲）

郭耀仁

## 大綱

- 網頁資料擷取的核心任務
- 擷取 JSON 格式網頁資料
- 擷取 XML 格式網頁資料
- 擷取 HTML 格式網頁資料
- 瀏覽器自動化

## 網頁資料擷取的核心任務

## 盤點核心任務

以 Python 豐富的套件、Chrome 瀏覽器外掛與開發者工具來進行兩項核心任務：

1. 請求資料 Requesting Data
2. 解析資料 Parsing Data

## 請求資料

- 使用 [Quick JavaScript Switcher](https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje) 與 Chrome 開發者工具判斷網頁資料類型
- 以 `requests` 或 `selenium` 發送 HTTP 請求獲得網頁資料

## 常用的 `requests` 方法、屬性

- `requests.get()`：進行 GET 請求
- `r.status_code`：查看 HTTP 狀態碼
- `r.json()`：將回應直接轉換為 Python 的資料結構（`list` 或 `dict`）
- `r.content`：將回應轉換為 `bytes`
- `r.text`：將回應轉換為 `str`

## 解析資料

- 如果資料是 JSON 格式：以 `requests` 獲取後可直接以 Python 資料結構解析
- 如果資料是 XML 格式：以 `lxml` 搭配 XPath 解析
- 如果資料是 HTML 格式：以 `bs4`、`pyquery` 或 `selenium` 搭配 CSS Selector/XPath 解析

## 擷取 JSON 格式網頁資料

## JSON 格式網頁資料範例

- [空氣品質指標(AQI)](https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json)
- [data.nba](http://data.nba.net/prod/v1/today.json)
- [PChome](https://ecshweb.pchome.com.tw/search/v3.3/all/results?q=macbook&page=1&sort=sale/dc)

## 幫助瀏覽 JSON 資料的 Chrome 外掛

[JSON View](https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc)

## 擷取 JSON 格式網頁資料步驟

- `requests.get()`
- `r.json()`
- 視需求進行摘要

## 以 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json> 示範

In [None]:
import requests

aqi_url = "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json"
r = requests.get(aqi_url, verify=False)
aqi = r.json()
print(type(aqi))
print(aqi)

## 隨堂練習

## 台灣的測站共有幾個？

In [None]:
n_sites = len(aqi)
print("台灣的測站共有 {} 個".format(n_sites))

## 位於台北市與新北市的測站共有幾個？

In [None]:
sites_in_tp = [d["SiteName"] for d in aqi if (d["County"] == "臺北市") or (d["County"] == "新北市")]
print("位於台北市與新北市的測站共有 {} 個：".format(len(sites_in_tp)))
print(sites_in_tp)

## 過去一小時 PM2.5_AVG 最高與最低的測站分別為？

In [None]:
pm25_avg = [float(d["PM2.5_AVG"]) for d in aqi]
max_val, min_val = max(pm25_avg), min(pm25_avg)
max_sites, min_sites = [], []
for d in aqi:
    if float(d["PM2.5_AVG"]) == max_val:
        max_sites.append(d["SiteName"])
    elif float(d["PM2.5_AVG"]) == min_val:
        min_sites.append(d["SiteName"])
print("過去一小時 PM2.5_AVG 最高為 {}，測站為：".format(max_val), max_sites)
print("過去一小時 PM2.5_AVG 最低為 {}，測站為：".format(min_val), min_sites)

## 擷取 XML 格式網頁資料

## 擷取 XML 格式網頁資料步驟

- `requests.get()`
- `r.content`
- 以 `lxml` 搭配 XPath 解析

## 以 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml> 示範

In [None]:
import requests

aqi_url = "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml"
r = requests.get(aqi_url, verify=False)

In [None]:
from lxml import etree
from io import BytesIO

f = BytesIO(r.content)
tree = etree.parse(f)
site_names = [t.text for t in tree.xpath("//SiteName")]
print(site_names)

## 擷取 HTML 格式網頁資料

## 擷取 HTML 格式網頁資料步驟

- `requests.get()`
- `r.text`
- 以 `bs4` 或 `pyquery` 搭配 Tag Name/CSS Selector 解析

## 常見用來標示 HTML 資料的方法

- **HTML 的標籤名稱**
- HTML 標籤中給予的 id
- HTML 標籤中給予的 class
- **資料所在的 CSS 選擇器（CSS Selector）**
- 資料所在的 XPath

## 幫助 CSS 選擇的 Chrome 外掛

[SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)

## [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

1. 點選 SelectorGadget 的外掛圖示
2. 留意 SelectorGadget 的 CSS 選擇器
3. 移動滑鼠到想要定位的元素
3. 在想要定位的資料上面點選左鍵，留意 Clear 後面數字表示有多少個元素被選擇到
4. 移動滑鼠點選不要選擇的元素（改以紅底標記），並同時注意 CSS 選擇器位址與 Clear 後面數字

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型

## 使用 bs4 或 pyquery 解析網頁資料

```python
from bs4 import BeautifulSoup
from pyquery import PyQuery as pq
```

## 常用的 bs4 方法、屬性

- `BeautifulSoup()`：創建 `soup` 類別
- `soup.find()`：尋找第一個符合標記名稱的資料
- `soup.find_all()`：尋找所有符合標記名稱的資料
- `soup.select()`：尋找所有符合 CSS Selectors 的資料
- `element.Tag.text`：取出標記中的文字值
- `element.Tag.get(attr)`：取出標記中的指定屬性

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 bs4

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
soup = BeautifulSoup(html_doc)
print(type(soup))

In [None]:
print(soup.find("h1"))
print(type(soup.find("h1")))
print(soup.find("h1").text)

In [None]:
print(len(soup.find_all("img")))
print(soup.find_all("img")[2])
print(soup.find_all("img")[2].get("alt"))
print(soup.find_all("img")[2].get("src"))

In [None]:
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

## 隨堂練習

## 以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
import requests
from bs4 import BeautifulSoup

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
soup = BeautifulSoup(html_doc)
genre = soup.select(".subtext a")
genre.pop()
for g in genre:
    print(g.text)

## 常用的 pyquery 方法、屬性

- `PyQuery()`：創建 `PyQuery` 類別
- `d("YOUR-CSS-SELECTOR")`：尋找所有符合 CSS Selectors 的資料
- `d("YOUR-CSS-SELECTOR").items()`：回傳所有符合 CSS Selectors 的文字與屬性
- `elem.text()`：取出標記中的文字值
- `elem.attr(ATTR)`：取出標記中的指定屬性

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 PyQuery

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
print(type(d))

In [None]:
print(d("h1"))
print(type(d("h1")))
for i in d("h1").items():
    print(i.text())

In [None]:
for i in d(".poster img").items():
    print(i.attr("src"))

In [None]:
for i in d("strong span").items():
    print(float(i.text()))

## 隨堂練習

## 以 `requests` 搭配 `pyquery` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
genre = [i.text() for i in d(".subtext a").items()]
genre.pop()
print(genre)

## 以 `requests` 搭配 `pyquery` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的演員陣容

In [None]:
import requests
from pyquery import PyQuery as pq

r = requests.get("https://www.imdb.com/title/tt4154796")
html_doc = r.text
d = pq(html_doc)
cast = [i.text() for i in d(".primary_photo+ td a").items()]
print(cast)

## 自訂一個函數 `get_movie_data()`

In [None]:
def get_movie_data(movie_url):
    """Getting movie data from IMDB.com"""
    page_url = "https://www.imdb.com/title/tt4154664"
    rating_css = "strong span"
    genre_css = ".subtext a"
    cast_css = ".primary_photo+ td a"
    html_doc = pq(page_url)
    rating = [float(i.text()) for i in html_doc.items(rating_css)][0]
    genre = [i.text() for i in html_doc.items(genre_css)]
    release_date = genre.pop()
    cast = [i.text() for i in html_doc.items(cast_css)]
    movie_data = {
        "movieRating": rating,
        "movieGenre": genre,
        "movieReleaseDate": release_date,
        "movieCast": cast
    }
    return movie_data

In [None]:
get_movie_data("https://www.imdb.com/title/tt4154664")

## 隨堂練習

## 讓 `get_movie_data()` 更方便使用

- 可以輸入電影名稱，而非 URL！
- 以 `urllib.parse.quote_plus()` 製作 query string
- 以 `.attr('href')` 獲得連結

## 擷取華航電影清單再前往 IMDB 查詢評等

[華航電影清單](http://www.fantasy-sky.com/ContentList.aspx?section=002)

## 幫助檢視 Cookies 的 Chrome 外掛

[EditThisCookie](https://chrome.google.com/webstore/detail/editthiscookie/fngmhnnpilhplaeedifhccceomclgfbg)

## 操縱自動化瀏覽器擷取網頁資料

## 在研究如何使 `get_movie_data()` 更方便的過程中我們做了幾個動作

1. 前往 <https://www.imdb.com/> 首頁
2. 輸入電影名稱
3. 點選搜尋
4. 點選 Movie 分類標籤
5. 點選相似度最高的搜尋結果

## 這些操作可以利用 `selenium` 模組來自動化！

## 什麼是 Selenium

- Selenium 是瀏覽器自動化測試的解決方案
- Python 透過 Selenium WebDriver 呼叫瀏覽器驅動程式，再由瀏覽器驅動程式去呼叫瀏覽器
- 對 **Google Chrome** 與 Mozilla Firefox 兩個主流瀏覽器的支援最好

## Selenium 環境設定

- 前往[官方網站](https://www.google.com/chrome/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [ChromeDriver](http://chromedriver.chromium.org/)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## 測試是否設定完成

用程式碼透過 ChromeDriver 操控 Chrome 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
#!pip install selenium
from selenium import webdriver

driver_path = "/Users/kuoyaojen/Downloads/chromedriver"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Chrome(executable_path=driver_path) # Use Chrome
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 常使用的方法

- `driver.get()` ：前往 IMDB 首頁
- `driver.find_element_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結
- `driver.current_url` ：取得當下瀏覽器的網址
- `elem.send_keys()` ：輸入電影名稱
- `elem.click()` ：按下搜尋按鈕與連結

## 隨堂練習

## 以 `selenium` 實作 `get_movie_data()`

## 延伸閱讀 

- [Requests: HTTP for Humans](http://docs.python-requests.org/en/master/)
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)
- [pyquery: a jquery-like library for python](https://pythonhosted.org/pyquery/)
- [Selenium with Python](https://selenium-python.readthedocs.io/)
- [Python 與網頁資料擷取 - DataInPoint](https://medium.com/datainpoint/web-scraping-with-python/home)

## 作業

## 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796/releaseinfo) 的上映日期列表，最多的上映日期為哪一天？有幾個國家在那天上映？