# 成為資料分析師 | Python 與資料科學應用

> 網頁資料擷取

## 郭耀仁

## 大綱

- 網頁資料擷取的先修知識
- 網頁資料擷取的核心任務
- 擷取 JSON 格式網頁資料
- 擷取 XML 格式網頁資料
- 擷取 HTML 格式網頁資料
- 瀏覽器自動化
- 延伸閱讀
- 隨堂練習

## 網頁資料擷取的先修知識

## 網頁的基本組成是標記式語言、樣式表與程式語言的結合

- 標記式語言：HTML
- 樣式表：CSS
- 程式語言：JavaScript

## 對比：一間大樓的組成

- 鋼筋水泥：HTML
- 裝潢隔間：CSS
- 管線設施：JavaScript

## 其中 HTML 負責的是網頁架構

![Imgur](https://i.imgur.com/93ZoqA7.png?1)

## 網頁可以分成兩種大類

1. 靜態：未與伺服器及資料庫連結，頁面內容需要開啟編輯器修改
2. 動態：又稱網路應用程式（Web APP），具有後端程式與資料庫連結

## 基本 HTML 內容有兩個部分

1. head: 設定與網頁相關的資訊、提供網頁需要的資源檔
2. body: 使用者在瀏覽器看到的內容

## 基本 HTML 內容

```
<!DOCTYPE html>
<html>
  <head>
  
  </head>
  
  <body>
  
  </body>
</html>
```

## 其中 CSS 負責網頁樣式

> 樣式表（Cascading Style Sheets，CSS）是一種用來為 HTML 添加樣式（字型、間距和顏色等）的電腦語言，由 W3C 定義和維護。

Source: <https://zh.wikipedia.org/zh-tw/%E5%B1%82%E5%8F%A0%E6%A0%B7%E5%BC%8F%E8%A1%A8>

## CSS 的撰寫規則

- 選擇器
- 屬性
- 屬性值

![Imgur](https://i.imgur.com/MNSO2qH.png?1)

Source: <https://developer.mozilla.org/zh-TW/docs/Learn/Getting_started_with_the_web/CSS_basics>

## 選擇器的宣告方式

- 單一標記：#id
- 多組標記：.class、標記名稱

## 網頁資料擷取的核心任務

## 盤點核心任務

以 Python 豐富的套件、Chrome 瀏覽器外掛與開發者工具來進行兩項核心任務：

1. 請求資料 Requesting Data
2. 解析資料 Parsing Data

## HTTP

> 超文本傳輸協定 (HTTP) 是一種用來傳輸超媒體文件 (像是HTML文件) 的應用層協定，被設計來讓瀏覽器和伺服器進行溝通，但也可做其他用途。HTTP 遵循標準客戶端—伺服器模式，由客戶端連線以發送請求，然後等待接收回應。

Source: <https://developer.mozilla.org/zh-TW/docs/Web/HTTP>

## HTTP 定義了一組能令給定資源，執行特定操作的請求方法（request methods），其中與網頁資料擷取最相關的是：

- GET
- POST

## 請求資料是雙向的

- 由瀏覽器發給網頁伺服器的請求稱為 HTTP Request
- 由網頁伺服器發給瀏覽器的回應稱為 HTTP Response
- Request Header 中的 Request Method 表示瀏覽器希望網頁伺服器做些什麼事
- 順利取得資料之後，瀏覽器會將 Response Body 顯示出來

## 請求資料需要使用的工具

- Chrome 開發者工具
- [Quick JavaScript Switcher](https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje)
- `requests` 套件

## Chrome 開發者工具

> Chrome 開發者工具是一套內建於 Google Chrome 中的 Web 開發和測試工具。

Source: <https://developers.google.com/web/tools/chrome-devtools/?hl=zh-TW>

![Imgur](https://i.imgur.com/3Synk8m.png?1)

## 進行網頁資料擷取時，會高度仰賴 Chrome 開發者工具中的 Network 頁籤

使用 Network 頁籤瞭解請求和下載的檔案

## 點選 Network 之後重新整理網頁觀察

![Imgur](https://i.imgur.com/OG0Huwj.png?1)

## 通常我們需要擷取的資料會被歸類在這兩個大類檔案中

- XHR(XMLHttpRequest)
- Doc

## 可以使用 Quick JavaScript Switcher 協助判斷

> 快速地開啟、關閉 JavaScript

Source: <https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje>

## 示範 Quick JavaScript Switcher 功能

- <https://www.imdb.com/title/tt7286456/>
- <https://ecshweb.pchome.com.tw/search/v3.3/>

## 找到資料之後即可檢視細節

- Headers
    - General
    - Response Headers
    - Request Headers
    - Query String Parameters(if any)
    - Form Data(if any, for POST)
- Preview
- Response
- Cookies

![Imgur](https://i.imgur.com/cTva78r.png?1)

![Imgur](https://i.imgur.com/LMVp0m7.png?1)

## 常用的 `requests` 函數

- `requests.get()`：進行 GET 請求（下載檔案）、常搭配 Query String Parameters
- `requests.post()`：進行 POST 請求（上傳資料）、搭配 Form Data

In [None]:
import requests

request_url = "https://www.imdb.com/"
response = requests.get(request_url)

In [None]:
request_url = "https://mops.twse.com.tw/mops/web/t05st10_ifrs"
response = requests.post(request_url)

## 回應（Response 類別）的方法與屬性

- `response.status_code`：查看狀態碼
- `response.json()`：將回應直接轉換為 Python 的資料結構（`list` 或 `dict`）
- `response.content`：將回應轉換為 `bytes`
- `response.text`：將回應轉換為 `str`

## 檢視資料細節的 Preview 與 Response確認格式

- 如果資料是 JSON 格式：呼叫回應的 `.json()` 方法後直接以 Python 資料結構解析
- 如果資料是 XML 格式：呼叫回應的 `.content` 屬性後以 `lxml` 搭配 XPath 解析
- 如果資料是 HTML 格式：呼叫回應的 `.text` 屬性後以 `bs4` 搭配 CSS Selector 解析

## 擷取 JSON 格式網頁資料

## 什麼是 JSON？

> JavaScript Object Notation (JSON) 為將結構化資料 (structured data) 呈現為 JavaScript 物件的標準格式，常用於網站上的資料呈現、傳輸。

Source: [mozilla.org](https://developer.mozilla.org/zh-TW/docs/Learn/JavaScript/Objects/JSON)

## JSON 是依照 JavaScript 物件語法的資料格式，經 Douglas Crockford 推廣普及。雖然 JSON 是以 JavaScript 語法為基礎，但可獨立使用，且許多程式設計環境亦可讀取 (剖析) 並產生 JSON。

Source: [mozilla.org](https://developer.mozilla.org/zh-TW/docs/Learn/JavaScript/Objects/JSON)

## JSON 怎麼利用 Python 剖析與對應？

- Python 具有標準套件 `json` 作為剖析的媒介
- JSON 物件對應 Python 的 `dict` 類別
- 陣列作為 JSON(array of JSON) 對應 Python 的 `list` of `dict`

## JSON 格式網頁資料範例

- [data.nba](http://data.nba.net/prod/v1/today.json)
- [PChome](https://ecshweb.pchome.com.tw/search/v3.3/all/results?q=macbook&page=1&sort=sale/dc)

## 幫助瀏覽 JSON 資料的 Chrome 外掛

[JSON View](https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc)

## 擷取 JSON 格式網頁資料步驟

- 使用 `requests` 請求資料
- 呼叫回應的 `.json()` 方法，例如 `response.json()`
- 視需求進行摘要

## 以 <http://data.nba.net/prod/v2/2019/teams.json> 示範

In [None]:
request_url = "http://data.nba.net/prod/v2/2019/teams.json"
response = requests.get(request_url)
teams = response.json()
print(type(teams))
print(teams)

## 擷取 XML 格式網頁資料

## 什麼是 XML？

> 可延伸標示語（Extensible Markup Language）是一個讓文件同時能夠很容易地讓人去閱讀，又很容易讓電腦程式去辨識的語言格式，和 JSON 格式相同常被用於網站上的資料呈現、傳輸。

Source: <https://www.w3schools.com/xml/>

## 擷取 XML 格式網頁資料步驟

- 使用 `requests` 請求資料
- 使用回應的 `.content` 屬性，例如 `response.content`
- 以 `lxml` 搭配 XPath 解析

## 什麼是 XPath？

> XML Path Language，譯作 XML 路徑語言，用來定位 XML 檔案中特定資訊的位置。

Source: <https://www.w3schools.com/xml/xpath_intro.asp>

## 以 https://emap.pcsc.com.tw 示範

In [None]:
import requests

#進行 POST 請求時要攜帶資料
form_data = {
    "commandid": "GetTown",
    "cityid": "01"
}
request_url = "https://emap.pcsc.com.tw/EMapSDK.aspx"
response = requests.post(request_url, data=form_data)
print(response.status_code)

## 使用 `.content` 屬性

In [None]:
response_content = response.content
print(response_content)

## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：行政區

![Imgur](https://i.imgur.com/3kPU5sV.png)

## TownName 標籤的 XPath

- `/iMapSDKOutput/GeoPosition/TownName` 或
- `//TownName`

## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：路段資訊

![Imgur](https://i.imgur.com/QpUSEzF.png)

## rd_name_1 標籤的 XPath

- `/iMapSDKOutput/RoadName/rd_name_1` 或
- `//rd_name_1`

## section_1 標籤的 XPath

- `/iMapSDKOutput/RoadName/section_1` 或
- `//section_1`

## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：商店資訊

![Imgur](https://i.imgur.com/CKuV4KT.png)

## POIName 標籤的 XPath

- `/iMapSDKOutput/GeoPosition/POIName` 或
- `//POIName`

## 以 `lxml` 解析行政區資訊

In [None]:
from lxml import etree
from io import BytesIO

file = BytesIO(response_content)
tree = etree.parse(file)
town_names = [t.text for t in tree.xpath("//TownName")] # XPath 亦可以指定 /iMapSDKOutput/GeoPosition/TownName
print(town_names)

## 擷取 HTML 格式網頁資料

## 擷取 HTML 格式網頁資料步驟

- 使用 `requests` 請求資料
- 使用回應的 `.text` 屬性，例如 `response.text`
- 以 `bs4` 搭配 Tag Name/CSS Selector 解析

## 常見用來標示 HTML 資料的方法

- HTML 的標籤名稱
- HTML 標籤中給予的 id
- HTML 標籤中給予的 class
- **資料所在的 CSS 選擇器（CSS Selector）**
- 資料所在的 XPath

## 幫助定位 CSS 選擇器的 Chrome 外掛

[SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)

## [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

1. 點選 SelectorGadget 的外掛圖示
2. 留意 SelectorGadget 的 CSS 選擇器
3. 移動滑鼠到想要定位的元素
3. 在想要定位的資料上面點選左鍵，留意 Clear 後面數字表示有多少個元素被選擇到
4. 移動滑鼠點選不要選擇的元素（改以紅底標記），並同時注意 CSS 選擇器位址與 Clear 後面數字

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 bs4

## 常用的 bs4 函式

`BeautifulSoup()`：創建 `BeautifulSoup` 類別

In [None]:
# !pip install -U BeautifulSoup4
from bs4 import BeautifulSoup

request_url = "https://www.imdb.com/title/tt4154796"
response = requests.get(request_url)
response_text = response.text
soup = BeautifulSoup(response_text)
print(type(soup))

## 常用的方法

- `soup.find()`：尋找第一個符合標記名稱的資料
- `soup.find_all()`：尋找所有符合標記名稱的資料
- `soup.select()`：尋找所有符合 CSS 選擇的資料

In [None]:
print(soup.find("h1"))
print(type(soup.find("h1")))
print(soup.find("h1").text)
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

## 常用的 element.Tag 屬性、方法

- `element.Tag.text`：取出標記中的文字值
- `element.Tag.get(attr)`：取出標記中的指定屬性

In [None]:
print(len(soup.find_all("img")))
print(soup.find_all("img")[2])
print(soup.find_all("img")[2].get("alt"))
print(soup.find_all("img")[2].get("src"))

In [None]:
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

## 讓 `get_movie_data()` 更方便使用

- 可以輸入電影名稱，而非 URL！
- 觀察 <https://www.imdb.com/find?q=Avengers%3A+Endgame&ref_=nv_sr_sm>

## 在 `get()` 中加入 `params`

```python
query_string_parameters = {
    'q': 'Avengers: Endgame',
    'ref_': 'nv_sr_sm'
}
```

![Imgur](https://i.imgur.com/KOE4EGm.png?1)

In [None]:
query_string_parameters = {
    'q': 'Avengers: Endgame',
    'ref_': 'nv_sr_sm'
}
request_url = "https://www.imdb.com/find"
response = requests.get(request_url, params=query_string_parameters)
print(response.status_code)

## 利用 `.result_text > a` CSS 選擇器把所有的搜尋結果擷取下來

In [None]:
soup = BeautifulSoup(response.text)
result_hrefs = [e.get("href") for e in soup.select(".result_text > a")]
print(result_hrefs)

## 最相近搜尋結果的電影頁面網址

In [None]:
movie_url = "https://www.imdb.com" + result_hrefs[0]
print(movie_url)

## 隨堂練習：自訂一個函數 `get_movie_data(movie_title)`

In [None]:
from urllib.parse import quote_plus

def get_movie_data(movie_title):
    query_str = quote_plus(movie_title)
    query_url = "https://www.imdb.com/find?q={}&s=tt&ttype=ft&ref_=fn_ft".format(query_str)
    r = requests.get(query_url)
    d = pq(r.text)
    search_results = [i.attr("href") for i in d(".result_text a").items()]
    movie_url = "https://www.imdb.com" + search_results[0]
    r = requests.get(movie_url)
    d = pq(r.text)
    movie_title = [i.text().replace("\xa0", " ") for i in d("h1").items()][0]
    movie_poster = [i.attr("src") for i in d(".poster img").items()][0]
    movie_rating = [float(i.text()) for i in d("strong span").items()][0]
    movie_genre = [i.text() for i in d(".subtext a").items()]
    movie_genre.pop()
    movie_cast = [i.text() for i in d(".primary_photo+ td a").items()]
    movie_data = {
        "movieTitle": movie_title,
        "moviePoster": movie_poster,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

In [None]:
get_movie_data("Avengers: Endgame (2019)")

## 有時候 `requests` 送出的請求需要攜帶餅乾（cookies），否則回傳的資料會不符合預期

- [PTT 八卦版](https://www.ptt.cc/bbs/Gossiping/index.html)
- [華航機上電影清單](http://www.fantasy-sky.com/ContentList.aspx?section=002)

In [None]:
response = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html")
print(response.text)

In [None]:
response = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002")
soup = BeautifulSoup(response.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

## 從開發人員工具檢視 Cookies

![Imgur](https://i.imgur.com/dvVHg29.png?1)

![Imgur](https://i.imgur.com/lTYWNmX.png)

In [None]:
import requests

response = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html", cookies={'over18': '1'})
print(response.text)

In [None]:
import requests
from bs4 import BeautifulSoup

response = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002", cookies={'COOKIE_LANGUAGE': 'en'})
soup = BeautifulSoup(response.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

## 隨堂練習：擷取所有華航機上電影清單

In [None]:
ca_movie_urls = ["http://www.fantasy-sky.com/ContentList.aspx?section=002&category=0020{}".format(i) for i in range(1, 5)]
# Continue from here ...

In [None]:
ca_movie_titles = []
for ca_url in ca_movie_urls:
    r = requests.get(ca_url, cookies={'COOKIE_LANGUAGE': 'en'})
    d = pq(r.text)
    movie_titles = [i.text() for i in d(".movies-name").items()]
    ca_movie_titles += movie_titles

In [None]:
print(ca_movie_titles)

## 隨堂練習：找出華航機上最高評等的電影

In [None]:
movie_ratings = []
movie_titles_with_error = []
for movie_title in ca_movie_titles:
    print("正在擷取 {} 的評等".format(movie_title))
    try:
        movie_data = get_movie_data(movie_title)
        movie_rating = movie_data["movieRating"]
        movie_ratings.append(movie_rating)
    except:
        print("在擷取 {} 的資訊時產生錯誤".format(movie_title))
        movie_titles_with_error.append(movie_title)

In [None]:
for movie_title in movie_titles_with_error:
    ca_movie_titles.remove(movie_title)

In [None]:
best_movie_index = movie_ratings.index(max(movie_ratings))

In [None]:
print(ca_movie_titles[best_movie_index])

## Web Scraping in a Nutshell

- 請求資料
    - 以 Quick JavaScript Switcher 判斷資料分類在 XHR 或 Doc
    - 以 Chrome 開發人員工具檢視 Preview/Response 確認資料格式
    - 以 Chrome 開發人員工具檢視請求資料的 Request URL/Request Method/Query String Parameters/Form Data/Cookies
    - 以 `requests` 發送請求獲得回應
- 解析資料
    - 資料是 JSON 格式，呼叫回應的 `.json()` 方法後直接以 Python 資料結構解析
    - 資料是 XML 格式，使用回應的 `.content` 屬性後以 `lxml` 搭配 XPath 解析
    - 資料是 HTML 格式，使用回應的 `.text` 屬性後以 `bs4` 搭配 CSS Selector 解析

## 瀏覽器自動化

## 在研究如何使 `get_movie_data()` 更方便的過程中我們做了幾個動作

1. 前往 <https://www.imdb.com/> 首頁
2. 輸入電影名稱
3. 點選搜尋
4. 點選 Movie 分類標籤
5. 點選相似度最高的搜尋結果

## 這些操作可以利用 `selenium` 來自動化！

## 什麼是 Selenium

- Selenium 是瀏覽器自動化測試的解決方案
- Python 透過 Selenium WebDriver 呼叫瀏覽器驅動程式，再由瀏覽器驅動程式去呼叫瀏覽器
- 對 Google Chrome 與 Mozilla Firefox 兩個主流瀏覽器的支援最好

## Selenium 環境設定：移除教室電腦中不必要的 Python 版本

- Python.org 的版本
- 安裝在非使用者路徑下的 Anaconda 版本

## Selenium 環境設定：安裝 Miniconda 的步驟

1. 前往 [Miniconda](https://docs.conda.io/en/latest/miniconda.html) 下載頁面，依照作業系統點選對應的 Python 3.X 安裝檔
2. 依照提示點選下一步
3. 選擇安裝路徑
4. 依照提示點選我同意
5. 等待安裝完成

## Selenium 環境設定：建立環境步驟

1. 開啟 Anaconda Prompt
2. 更新 conda
3. 安裝 jupyter
4. 創建環境
5. 啟動環境
6. 安裝套件
7. 創建 Jupyter Notebook Kernel（在已經啟動環境的情況下）
8. 卸載環境
9. 開啟 Jupyter Notebook

## 開啟 Anaconda Prompt

![Imgur](https://i.imgur.com/vcBpOJq.png?1)

## 更新 conda

```shell
# run in command line
(base) conda update conda
```

## 安裝 jupyter

```shell
# run in command line
(base) conda install jupyter
```

## 檢視可用環境

```shell
# run in command line
(base) conda env list
```

## 創建環境

```shell
# run in command line
(base) conda create --name <env_name> python=3.7
```

## 啟動環境

```shell
# run in command line
(base) conda activate <env_name>
# conda deactivate # 回到原本的 (base)
```

## 安裝套件

```shell
# run in command line
(env_name) conda install ipykernel requests lxml beautifulsoup4 selenium
```

## 這些套件的用途分別是

- 環境
    - ipykernel
- 網路爬蟲
    - requests
    - lxml
    - beautifulsoup4
    - selenium

## 創建 Jupyter Notebook Kernel（在已經啟動環境的情況下）

```shell
# run in command line
(env_name) python -m ipykernel install --user --name <kernel_name> --display-name "Python Web Scraping"
```

## 檢視可用的 Jupyter Notebook Kernel

```shell
# run in command line
(env_name) jupyter kernelspec list
```

## Selenium 環境設定：Chrome

- 前往 [Chrome 官方網站](https://www.google.com/chrome/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [ChromeDriver](http://chromedriver.chromium.org/)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## Selenium 環境設定：Firefox

- 前往 [Firefox 官方網站](https://www.mozilla.org/zh-TW/firefox/new/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [geckodriver](https://github.com/mozilla/geckodriver/releases)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## 測試 Chrome 是否設定完成

用程式碼透過 ChromeDriver 操控 Chrome 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
from selenium import webdriver

driver_path = "c:/YOUR/PATH/TO/CHROMEDRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Chrome(executable_path=driver_path) # Use Chrome
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 測試 Firefox 是否設定完成

用程式碼透過 geckodriver 操控 Firefox 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
from selenium import webdriver

driver_path = "c:/YOUR/PATH/TO/GECKODRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Firefox(executable_path=driver_path) # Use Firefox
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 常使用的 `driver` 方法、屬性

- `driver.get()` ：前往指定網址
- `driver.find_element_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.find_element_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.current_url` ：取得當下瀏覽器的網址

## 幫助檢視 XPath 的 Chrome 外掛

[XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl)

## [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 點選 XPath Helper 的外掛圖示
- 留意 XPath Helper 介面左邊的 XPath 與右邊被定位到的資料
- 按住 shift 鍵移動滑鼠到想要定位的元素
- 試著縮減 XPath，從最前面開始刪減並置換為 `//`

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 常使用的 `element` 方法、屬性

- `element.send_keys()` ：輸入文字
- `element.click()` ：按下搜尋按鈕與連結
- `element.text`：取出標記中的文字值
- `element.get_attribute(ATTR)`：取出標記中的指定屬性

## 隨堂練習：以 `selenium` 實作 `get_movie_data(movie_title)`

In [None]:
from selenium import webdriver

def get_movie_data(movie_title):
    chrome_driver_path = "/Users/kuoyaojen/Downloads/chromedriver"
    driver = webdriver.Chrome(executable_path=chrome_driver_path)
    driver.get("https://www.imdb.com")
    elem = driver.find_element_by_xpath("//input[@id='navbar-query']")
    elem.send_keys(movie_title)
    elem = driver.find_element_by_xpath("//div[@class='magnifyingglass navbarSprite']")
    elem.click()
    elem = driver.find_element_by_xpath("//ul[@class='findTitleSubfilterList']/li[1]/a")
    elem.click()
    elem = driver.find_element_by_xpath("//div[@class='findSection'][1]/table[@class='findList']/tbody/tr[@class='findResult odd'][1]/td[@class='result_text']/a")
    elem.click()
    elem = driver.find_element_by_xpath("//h1")
    movie_title = elem.text
    elem = driver.find_element_by_xpath("//strong/span")
    movie_rating = float(elem.text)
    elem = driver.find_element_by_xpath("//div[@class='poster']/a/img")
    movie_poster_link = elem.get_attribute("src")
    elem = driver.find_elements_by_xpath("//div[@class='subtext']/a")
    movie_genre = [i.text for i in elem]
    movie_genre.pop()
    elem = driver.find_elements_by_xpath("//tbody/tr/td[2]/a")
    movie_cast = [i.text for i in elem]
    driver.close()
    movie_data = {
        "movieTitle": movie_title,
        "moviePosterLink": movie_poster_link,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

In [None]:
get_movie_data("Avengers: Endgame (2019)")

## 隨堂練習：以 selenium 擷取四部復仇者聯盟的電影資訊

```python
avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
```

In [None]:
import random
import time

avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
avengers_movie_data = []
for am in avengers_movies:
    print("開始擷取 {} 的電影資訊...".format(am))
    movie_data = get_movie_data(am)
    avengers_movie_data.append(movie_data)
    sleep_secs = random.randint(3, 10)
    print("休息 {} 秒...".format(sleep_secs))
    time.sleep(sleep_secs)

In [None]:
print(avengers_movie_data)

## 將擷取的電影資訊匯出

In [None]:
import json

with open("avengers.json", "w") as f:
    json.dump(avengers_movie_data, f)

## 延伸閱讀 

- [Requests: HTTP for Humans](http://docs.python-requests.org/en/master/)
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)
- [Selenium with Python](https://selenium-python.readthedocs.io/)
- [Python 與網頁資料擷取 - DataInPoint](https://medium.com/datainpoint/web-scraping-with-python/home)

## 隨堂練習

[隨堂練習：網頁資料擷取]()

In [None]:
import requests
from lxml import etree
from io import BytesIO
from bs4 import BeautifulSoup
import time
import random

## 隨堂練習：2019-2020 球季 NBA 有幾支球隊？

In [None]:
def number_of_nba_teams(request_url):
    """
    >>> number_of_nba_teams("http://data.nba.net/prod/v2/2019/teams.json")
    30
    """
    response = requests.get(request_url)
    response_json = response.json()
    teams = response_json["league"]["standard"]
    n_nba_teams = 0
    for t in teams:
        if t["isNBAFranchise"]:
            n_nba_teams += 1
    return n_nba_teams

## 隨堂練習：divName 為 Atlantic 與 Southwest 的球隊有哪些？

In [None]:
def find_atlantic_southwest_teams(request_url):
    """
    >>> atlantic_southwest_teams = number_of_nba_teams("http://data.nba.net/prod/v2/2019/teams.json")
    >>> atlantic_southwest_teams['Atlantic']
    ['Boston Celtics', 'Brooklyn Nets', 'New York Knicks', 'Philadelphia 76ers', 'Toronto Raptors']
    >>> atlantic_southwest_teams['Southwest']
    ['Dallas Mavericks', 'Houston Rockets', 'Memphis Grizzlies', 'New Orleans Pelicans', 'San Antonio Spurs']
    """
    response = requests.get(request_url)
    response_json = response.json()
    teams = response_json["league"]["standard"]
    team_dict = dict()
    for t in teams:
        div = t["divName"]
        full_name = t["fullName"]
        if div in team_dict:
            team_dict[div].append(full_name)
        else:
            team_dict[div] = [full_name]
    return team_dict

## 隨堂練習：擷取台北市所有 7-11 商店資訊

In [None]:
def get_tpe_711_stores(request_url):
    """
    >>> tpe_711_stores = get_tpe_711_stores("https://emap.pcsc.com.tw/EMapSDK.aspx")
    >>> tpe_711_stores["松山區"][0]
    {'POIID': '170945', 'POIName': '上弘', 'Longitude': 121.548287390895, 'Latitude': 25.056390968531797, 'Address': '台北市松山區敦化北路168號B2'}
    >>> tpe_711_stores["信義區"][0]
    {'POIID': '167651', 'POIName': '一零一', 'Longitude': 121.565077, 'Latitude': 25.033373, 'Address': '台北市信義區信義路五段7號35樓'}
    >>> tpe_711_stores["大安區"][0]
    {'POIID': '153319', 'POIName': '大台', 'Longitude': 121.53261437826, 'Latitude': 25.0179598345753, 'Address': '台北市大安區羅斯福路三段283巷14弄16號1樓'}
    """
    form_data = {
        "commandid": "GetTown",
        "cityid": "01"
    }
    response = requests.post(request_url, data=form_data)
    file = BytesIO(response.content)
    tree = etree.parse(file)
    town_names = [t.text for t in tree.xpath("//TownName")]
    tpe_711_stores = dict()
    for town in town_names:
        form_data = {
            "commandid": "SearchStore",
            "city": "台北市",
            "town": town
        }
        r = requests.post(request_url, data=form_data)
        f = BytesIO(r.content)
        tree = etree.parse(f)
        poi_ids = [t.text.strip() for t in tree.xpath("//POIID")]
        poi_names = [t.text for t in tree.xpath("//POIName")]
        lons = [float(t.text)/1000000 for t in tree.xpath("//X")]
        lats = [float(t.text)/1000000 for t in tree.xpath("//Y")]
        adds = [t.text for t in tree.xpath("//Address")]
        tpe_711_stores[town] = []
        for poi_id, poi_name, lon, lat, add in zip(poi_ids, poi_names, lons, lats, adds):
            store_info = {
                "POIID": poi_id,
                "POIName": poi_name,
                "Longitude": lon,
                "Latitude": lat,
                "Address": add
            }
            tpe_711_stores[town].append(store_info)
        time.sleep(random.randint(1, 5))
    return tpe_711_stores

## 隨堂練習：以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
def find_endgame_genre(request_url):
    """
    >>> find_endgame_genre("https://www.imdb.com/title/tt4154796")
    ['Action', 'Adventure', 'Drama']
    """
    response = requests.get(request_url)
    soup = BeautifulSoup(response.text)
    elems = soup.select(".subtext a")
    genre = [e.text for e in elems]
    genre.pop()
    return genre

## 隨堂練習：以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的演員陣容

In [None]:
def find_endgame_cast(request_url):
    """
    >>> find_endgame_cast("https://www.imdb.com/title/tt4154796")
    ['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo', 'Chris Hemsworth', 'Scarlett Johansson', 'Jeremy Renner', 'Don Cheadle', 'Paul Rudd', 'Benedict Cumberbatch', 'Chadwick Boseman', 'Brie Larson', 'Tom Holland', 'Karen Gillan', 'Zoe Saldana', 'Evangeline Lilly']
    """
    response = requests.get(request_url)
    soup = BeautifulSoup(response.text)
    elems = soup.select(".primary_photo+ td a")
    cast = [e.text.strip() for e in elems]
    return cast

## 隨堂練習：自訂函式 `get_movie_data(request_url)`

In [None]:
def get_movie_data(request_url):
    """
    >>> movie_data = get_movie_data("https://www.imdb.com/title/tt4154796")
    >>> movie_data["movieTitle"]
    'Avengers: Endgame(2019)'
    >>> movie_data["moviePoster"]
    'https://m.media-amazon.com/images/M/MV5BMTc5MDE2ODcwNV5BMl5BanBnXkFtZTgwMzI2NzQ2NzM@._V1_UX182_CR0,0,182,268_AL_.jpg'
    >>> movie_data["movieGenre"]
    ['Action', 'Adventure', 'Drama']
    >>> movie_data["movieCast"]
    ['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo', 'Chris Hemsworth', 'Scarlett Johansson', 'Jeremy Renner', 'Don Cheadle', 'Paul Rudd', 'Benedict Cumberbatch', 'Chadwick Boseman', 'Brie Larson', 'Tom Holland', 'Karen Gillan', 'Zoe Saldana', 'Evangeline Lilly']
    """

## 隨堂練習參考解答

[隨堂練習：網頁資料擷取參考解答]()