# 成為資料分析師 | Python 與資料科學應用

> 網頁資料擷取

## 郭耀仁

## 大綱

- 網頁資料擷取的先修知識
- 網頁資料擷取的核心任務
- 擷取 JSON 格式網頁資料
- 擷取 XML 格式網頁資料
- 擷取 HTML 格式網頁資料
- 瀏覽器自動化
- 延伸閱讀

## 網頁資料擷取的先修知識

## 網頁的基本組成是標記式語言、樣式表與程式語言的結合

- 標記式語言：HTML
- 樣式表：CSS
- 程式語言：JavaScript

## 對比：一間大樓的組成

- 鋼筋水泥：HTML
- 裝潢隔間：CSS
- 管線設施：JavaScript

## HTML 負責網頁結構

```
<!DOCTYPE html>
<html>
  <head>
  
  </head>
  
  <body>
  
  </body>
</html>
```

## CSS 負責網頁樣式

> 樣式表（Cascading Style Sheets，CSS）是一種用來為 HTML 添加樣式（字型、間距和顏色等）的電腦語言，由 W3C 定義和維護。

Source: <https://zh.wikipedia.org/zh-tw/%E5%B1%82%E5%8F%A0%E6%A0%B7%E5%BC%8F%E8%A1%A8>

## CSS 的撰寫規則

- 選擇器
- 屬性
- 屬性值

![Imgur](https://i.imgur.com/MNSO2qH.png?1)

Source: <https://developer.mozilla.org/zh-TW/docs/Learn/Getting_started_with_the_web/CSS_basics>

## 選擇器的宣告方式

- 單一標記：#id
- 多組標記：
    - .class
    - 標記名稱

## 網頁資料擷取的核心任務

## 盤點核心任務

以 Python 豐富的套件、Chrome 瀏覽器外掛與開發者工具來進行兩項核心任務：

1. 請求資料 Requesting Data
2. 解析資料 Parsing Data

## HTTP

> 超文本傳輸協定 (HTTP) 是一種用來傳輸超媒體文件 (像是HTML文件) 的應用層協定，被設計來讓瀏覽器和伺服器進行溝通，但也可做其他用途。HTTP 遵循標準客戶端—伺服器模式，由客戶端連線以發送請求，然後等待接收回應。

Source: <https://developer.mozilla.org/zh-TW/docs/Web/HTTP>

## HTTP 定義了一組能令給定資源，執行特定操作的請求方法（request methods），其中與網頁資料擷取最相關的是：

- GET
- POST

## 請求資料是雙向的

- 由瀏覽器發給網頁伺服器的請求稱為 HTTP Request
- 由網頁伺服器發給瀏覽器的回應稱為 HTTP Response
- Request Header 中的 Request Method 表示瀏覽器希望網頁伺服器做些什麼事
- 順利取得資料之後，瀏覽器會將 Response Body 顯示出來

## 請求資料需要使用的工具

- Chrome 開發者工具
- [Quick JavaScript Switcher](https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje)
- `requests` 套件

## Chrome 開發者工具

> Chrome 開發者工具是一套內建於 Google Chrome 中的 Web 開發和測試工具。

Source: <https://developers.google.com/web/tools/chrome-devtools/?hl=zh-TW>

![Imgur](https://i.imgur.com/3Synk8m.png?1)

## 進行網頁資料擷取時，會高度仰賴 Chrome 開發者工具中的 Network 頁籤

使用 Network 頁籤瞭解請求和下載的檔案

## 點選 Network 之後重新整理網頁觀察

![Imgur](https://i.imgur.com/OG0Huwj.png?1)

## 通常我們需要擷取的資料會被歸類在這兩個大類檔案中

- XHR(XMLHttpRequest)
- Doc

## 可以使用 Quick JavaScript Switcher 協助判斷

> 快速地開啟、關閉 JavaScript

Source: <https://chrome.google.com/webstore/detail/quick-javascript-switcher/geddoclleiomckbhadiaipdggiiccfje>

## 示範 Quick JavaScript Switcher 功能

- <https://www.imdb.com/title/tt7286456/>
- <https://ecshweb.pchome.com.tw/search/v3.3/>

## 找到資料之後即可檢視細節

- Headers
    - General
    - Response Headers
    - Request Headers
    - Query String Parameters(if any)
    - Form Data(if any, for POST)
- Preview
- Response
- Cookies

![Imgur](https://i.imgur.com/cTva78r.png?1)

![Imgur](https://i.imgur.com/LMVp0m7.png?1)

## 常用的 `requests` 函式

- `requests.get()`：進行 GET 請求（下載檔案）、常搭配 Query String Parameters
- `requests.post()`：進行 POST 請求（上傳資料）、搭配 Form Data

In [1]:
import requests

request_url = "https://www.imdb.com/"
response = requests.get(request_url)

In [2]:
request_url = "https://mops.twse.com.tw/mops/web/t05st10_ifrs"
response = requests.post(request_url)

## 回應（Response 類別）的方法與屬性

- `response.status_code`：查看狀態碼
- `response.json()`：將回應直接轉換為 Python 的資料結構（`list` 或 `dict`）
- `response.text`：將回應轉換為 `str`

## 檢視資料細節的 Preview 與 Response確認格式

- 如果資料是 JSON 格式：呼叫回應的 `.json()` 方法後直接以 Python 資料結構解析
- 如果資料是 XML 格式：呼叫回應的 `.text` 屬性後以 `xml` 搭配 XPath 解析
- 如果資料是 HTML 格式：呼叫回應的 `.text` 屬性後以 `bs4` 搭配 CSS Selector 解析

## 擷取 JSON 格式網頁資料

## 什麼是 JSON？

> JavaScript Object Notation (JSON) 為將結構化資料 (structured data) 呈現為 JavaScript 物件的標準格式，常用於網站上的資料呈現、傳輸。

Source: [mozilla.org](https://developer.mozilla.org/zh-TW/docs/Learn/JavaScript/Objects/JSON)

## JSON 是依照 JavaScript 物件語法的資料格式，經 Douglas Crockford 推廣普及。雖然 JSON 是以 JavaScript 語法為基礎，但可獨立使用，且許多程式設計環境亦可讀取 (剖析) 並產生 JSON。

Source: [mozilla.org](https://developer.mozilla.org/zh-TW/docs/Learn/JavaScript/Objects/JSON)

## JSON 怎麼利用 Python 剖析與對應？

- Python 具有標準套件 `json` 作為剖析的媒介
- JSON 物件對應 Python 的 `dict` 類別
- 陣列作為 JSON(array of JSON) 對應 Python 的 `list` of `dict`

## JSON 格式網頁資料範例

- [data.nba](http://data.nba.net/prod/v1/today.json)
- [PChome](https://ecshweb.pchome.com.tw/search/v3.3/all/results?q=macbook&page=1&sort=sale/dc)

## 擷取 JSON 格式網頁資料步驟

- 使用 `requests` 請求資料
- 呼叫回應的 `.json()` 方法，例如 `response.json()`
- 視需求進行摘要

## 以 <http://data.nba.net/prod/v2/2019/teams.json> 示範

In [3]:
request_url = "http://data.nba.net/prod/v2/2019/teams.json"
response = requests.get(request_url)
teams = response.json()
print(type(teams))
print(teams)

<class 'dict'>
{'_internal': {'pubDateTime': '2019-06-26 06:00:23.891 EDT', 'igorPath': 'cron,1561543218800,1561543218800|router,1561543218800,1561543218922|domUpdater,1561543219144,1561543219858|feedProducer,1561543221917,1561543224371', 'xslt': 'NBA/xsl/league/roster/marty_teams_list.xsl', 'xsltForceRecompile': 'true', 'xsltInCache': 'false', 'xsltCompileTimeMillis': '1545', 'xsltTransformTimeMillis': '540', 'consolidatedDomKey': 'qamanual__transform__marty_teams_list__5498140551604', 'endToEndTimeMillis': '5571'}, 'league': {'standard': [{'isNBAFranchise': False, 'isAllStar': False, 'city': 'Croatia', 'altCityName': 'Croatia', 'fullName': 'Team Croatia', 'tricode': 'CRO', 'teamId': '70', 'nickname': 'Croatia', 'urlName': 'croatia', 'teamShortName': 'Croatia', 'confName': 'summer', 'divName': ''}, {'isNBAFranchise': False, 'isAllStar': False, 'city': 'China', 'altCityName': 'China', 'fullName': 'Team China', 'tricode': 'CHN', 'teamId': '45', 'nickname': 'China', 'urlName': 'china', '

## 擷取 XML 格式網頁資料

## 什麼是 XML？

> 可延伸標示語（Extensible Markup Language）是一個讓文件同時能夠很容易地讓人去閱讀，又很容易讓電腦程式去辨識的語言格式，和 JSON 格式相同常被用於網站上的資料呈現、傳輸。

Source: <https://www.w3schools.com/xml/>

## 擷取 XML 格式網頁資料步驟

- 使用 `requests` 請求資料
- 使用回應的 `.text` 屬性，例如 `response.text`
- 以 `xml` 搭配 XPath 解析

## 什麼是 XPath？

> XML Path Language，譯作 XML 路徑語言，用來定位 XML 檔案中特定資訊的位置。

Source: <https://www.w3schools.com/xml/xpath_intro.asp>

## 以 https://emap.pcsc.com.tw 示範

In [4]:
#進行 POST 請求時要攜帶資料
form_data = {
    "commandid": "GetTown",
    "cityid": "01"
}
request_url = "https://emap.pcsc.com.tw/EMapSDK.aspx"
response = requests.post(request_url, data=form_data)
print(response.status_code)

200


## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：行政區

![Imgur](https://i.imgur.com/3kPU5sV.png)

## TownName 標籤的 XPath

`./GeoPosition/TownName` 或 `.//TownName`

## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：路段資訊

![Imgur](https://i.imgur.com/QpUSEzF.png)

## rd_name_1 標籤的 XPath

`./RoadName/rd_name_1` 或 `.//rd_name_1`

## section_1 標籤的 XPath

`./RoadName/section_1` 或 `.//section_1`

## 利用開發人員工具的 Preview 頁籤檢視 XML 的樹狀結構：商店資訊

![Imgur](https://i.imgur.com/CKuV4KT.png)

## POIName 標籤的 XPath

`./GeoPosition/POIName` 或 `.//POIName`

## 以 `xml` 解析行政區資訊

In [5]:
from xml.etree import ElementTree as etree

tree = etree.fromstring(response.text)
town_names = [t.text for t in tree.findall(".//TownName")] # XPath 亦可以指定 ./GeoPosition/TownName
print(town_names)

['松山區', '信義區', '大安區', '中山區', '中正區', '大同區', '萬華區', '文山區', '南港區', '內湖區', '士林區', '北投區']


## 擷取 HTML 格式網頁資料

## 擷取 HTML 格式網頁資料步驟

- 使用 `requests` 請求資料
- 使用回應的 `.text` 屬性，例如 `response.text`
- 以 `bs4` 搭配 Tag Name/CSS Selector 解析

## 常見用來標示 HTML 資料的方法

- 資料所在的 CSS 選擇器（CSS Selector）
    - HTML 的標記名稱
    - HTML 標記中的 id
    - HTML 標記中的 class

## 幫助定位 CSS 選擇器的 Chrome 外掛

[SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb)

## [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

1. 點選 SelectorGadget 的外掛圖示
2. 留意 SelectorGadget 的 CSS 選擇器
3. 移動滑鼠到想要定位的元素
3. 在想要定位的資料上面點選左鍵，留意 Clear 後面數字表示有多少個元素被選擇到
4. 移動滑鼠點選不要選擇的元素（改以紅底標記），並同時注意 CSS 選擇器位址與 Clear 後面數字

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [SelectorGadget](https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 bs4

## 常用的 bs4 函式

`BeautifulSoup()`：創建 `BeautifulSoup` 類別

In [6]:
# !pip install -U BeautifulSoup4
from bs4 import BeautifulSoup

request_url = "https://www.imdb.com/title/tt4154796"
response = requests.get(request_url)
response_text = response.text
soup = BeautifulSoup(response_text)
print(type(soup))

<class 'bs4.BeautifulSoup'>


## 常用的方法

`soup.select()`：尋找所有符合 CSS 選擇的資料

In [7]:
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

[<span itemprop="ratingValue">8.4</span>]
8.4


## 常用的 element.Tag 屬性、方法

- `element.Tag.text`：取出標記中的文字值
- `element.Tag.get(attr)`：取出標記中的指定屬性

In [8]:
print(len(soup.find_all("img")))
print(soup.find_all("img")[2])
print(soup.find_all("img")[2].get("alt"))
print(soup.find_all("img")[2].get("src"))

84
<img class="pro_logo" src="https://m.media-amazon.com/images/G/01/imdb/IMDbConsumerSiteProTitleViews/images/logo/pro_logo_dark-3176609149._CB468516142_.png"/>
None
https://m.media-amazon.com/images/G/01/imdb/IMDbConsumerSiteProTitleViews/images/logo/pro_logo_dark-3176609149._CB468516142_.png


In [9]:
print(soup.select("strong span"))
print(float(soup.select("strong span")[0].text))

[<span itemprop="ratingValue">8.4</span>]
8.4


## 讓 `get_movie_data()` 更方便使用

- 可以輸入電影名稱，而非 URL！
- 觀察 <https://www.imdb.com/find?q=Avengers%3A+Endgame&ref_=nv_sr_sm>

## 在 `get()` 中加入 `params`

```python
query_string_parameters = {
    'q': 'Avengers: Endgame',
    'ref_': 'nv_sr_sm'
}
```

![Imgur](https://i.imgur.com/KOE4EGm.png?1)

In [10]:
query_string_parameters = {
    'q': 'Avengers: Endgame',
    'ref_': 'nv_sr_sm'
}
request_url = "https://www.imdb.com/find"
response = requests.get(request_url, params=query_string_parameters)
print(response.status_code)

200


In [11]:
soup = BeautifulSoup(response.text)
result_hrefs = [e.get("href") for e in soup.select(".result_text a")]
print(result_hrefs)

['/title/tt4154796/', '/title/tt10255990/', '/title/tt8055070/', '/title/tt9827182/', '/title/tt9449376/', '/title/tt10025738/', '/title/tt10279074/', '/title/tt5659872/', '/title/tt11569352/', '/title/tt11055838/', '/title/tt10259724/', '/title/tt6128606/', '/search/keyword?keywords=avengers-endgame', '/search/keyword?keywords=reference-to-avengers-endgame', '/search/keyword?keywords=reference-to-%27avengers-endgame%27-2019']


## 最相近搜尋結果的電影頁面網址

In [12]:
movie_url = "https://www.imdb.com" + result_hrefs[0]
print(movie_url)

https://www.imdb.com/title/tt4154796/


## 有時候 `requests` 送出的請求需要攜帶餅乾（cookies），否則回傳的資料會不符合預期

- [PTT 八卦版](https://www.ptt.cc/bbs/Gossiping/index.html)
- [華航機上電影清單](http://www.fantasy-sky.com/ContentList.aspx?section=002)

In [13]:
response = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html")
print(response.text)

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">




	</head>
    <body>
		
<div class="bbs-screen bbs-content">
    <div class="over18-notice">
        <p>本網站已依網站內容分級規定處理</p>

        <p>警告︰您即將進入之看板內容需滿十八歲方可瀏覽。</p>

        <p>若您尚未年滿十八歲，請點選離開。若您已滿十八歲，亦不可將本區之內容派發、傳閱、出售、出租、交給或借予年齡未滿18歲的人士瀏覽，或將本網站內容向該人士出示、播放或放映。</p>
    </div>
</div>

<div class="bbs-screen bbs-content center clear">
    <form action="/ask/over18"

In [14]:
response = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002")
soup = BeautifulSoup(response.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

['隱形人', '不完美的正義', '絕命直播', '艾瑪', '珍西寶', '鋼鐵勳章', '浪潮', '日常的愛', '1917', '絕地戰警FOR LIFE', '1/2的魔法', '音速小子', '吹哨人', '男人真命苦\u3000歡迎回來…', '極地守護犬', '溫蒂', '大約在冬季', '王牌辯士', '白頭山：半島浩劫', '絕命大平台', '82年生的金智英', '今夜，我們無罪']


## 從開發人員工具檢視 Cookies

![Imgur](https://i.imgur.com/dvVHg29.png?1)

![Imgur](https://i.imgur.com/lTYWNmX.png)

In [15]:
response = requests.get("https://www.ptt.cc/bbs/Gossiping/index.html", cookies={'over18': '1'})
print(response.text)

<!DOCTYPE html>
<html>
	<head>
		<meta charset="utf-8">
		

<meta name="viewport" content="width=device-width, initial-scale=1">

<title>看板 Gossiping 文章列表 - 批踢踢實業坊</title>

<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">
<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">




	</head>
    <body>
		
<div id="topbar-container">
	<div id="topbar" class="bbs-content">
		<a id="logo" href="/bbs/">批踢踢實業坊</a>
		<span>&rsaquo;</span>
		<a class="board" href="/bbs/Gossiping/index.html"><span class="board-label">看板 </span>Gossiping</a>
		<a class="right small" href="/about.html">關於我們</a>
		<a class="right small" href="/co

In [16]:
response = requests.get("http://www.fantasy-sky.com/ContentList.aspx?section=002", cookies={'COOKIE_LANGUAGE': 'en'})
soup = BeautifulSoup(response.text)
movie_titles = [i.text for i in soup.select(".movies-name")]
print(movie_titles)

['The Invisible Man', 'Just Mercy', 'Line of Duty', 'Emma', 'Seberg', 'The Last Full Measure', 'The Wave', 'Ordinary Love', '1917', 'Bad Boys for Life', 'Disney and Pixar’s Onward', 'Sonic the Hedgehog', 'The Whistleblower', 'Tora-san, Wish You Were Here', 'The Call of the Wild', 'Wendy', 'Somewhere Winter', 'Talking the Pictures', 'Ashfall', 'The Platform', 'Kim Ji-young: Born 1982', 'Oh Mercy!']


## Web Scraping in a Nutshell

- 請求資料
    - 以 Quick JavaScript Switcher 判斷資料分類在 XHR 或 Doc
    - 以 Chrome 開發人員工具檢視 Preview/Response 確認資料格式
    - 以 Chrome 開發人員工具檢視請求資料的 Request URL/Request Method/Query String Parameters/Form Data/Cookies
    - 以 `requests` 發送請求獲得回應
- 解析資料
    - 資料是 JSON 格式，呼叫回應的 `.json()` 方法後直接以 Python 資料結構解析
    - 資料是 XML 格式，使用回應的 `.text` 屬性後以 `xml` 搭配 XPath 解析
    - 資料是 HTML 格式，使用回應的 `.text` 屬性後以 `bs4` 搭配 CSS Selector 解析

## 瀏覽器自動化

## 在研究如何使 `get_movie_data()` 更方便的過程中我們做了幾個動作

1. 前往 <https://www.imdb.com/> 首頁
2. 輸入電影名稱
3. 點選搜尋
4. 點選相似度最高的搜尋結果

## 這些操作可以利用 `selenium` 來自動化！

## 什麼是 Selenium

- Selenium 是瀏覽器自動化測試的解決方案
- Python 透過 Selenium WebDriver 呼叫瀏覽器驅動程式，再由瀏覽器驅動程式去呼叫瀏覽器
- 對 Google Chrome 與 Mozilla Firefox 兩個主流瀏覽器的支援最好

## Selenium 環境設定：確認教室電腦中的 Python 版本

- Python.org 的版本
- Anaconda 的版本

## Selenium 環境設定：安裝 Miniconda 的步驟

1. 前往 [Miniconda](https://docs.conda.io/en/latest/miniconda.html) 下載頁面，依照作業系統點選對應的 Python 3.X 安裝檔
2. 依照提示點選下一步
3. 選擇安裝路徑
4. 依照提示點選我同意
5. 等待安裝完成

## Selenium 環境設定：建立環境步驟

1. 開啟 Anaconda Prompt
2. 更新 conda
3. 安裝 jupyter
4. 創建環境
5. 啟動環境
6. 安裝套件
7. 創建 Jupyter Notebook Kernel（在已經啟動環境的情況下）
8. 卸載環境
9. 開啟 Jupyter Notebook

## 開啟 Anaconda Prompt

![Imgur](https://i.imgur.com/vcBpOJq.png?1)

## 更新 conda

```shell
# run in command line
(base) conda update conda
```

## 安裝 jupyter

```shell
# run in command line
(base) conda install jupyter
```

## 檢視可用環境

```shell
# run in command line
(base) conda env list
```

## 創建環境

```shell
# run in command line
(base) conda create --name <env_name> python=3.7
```

## 啟動環境

```shell
# run in command line
(base) conda activate <env_name>
# conda deactivate # 回到原本的 (base)
```

## 安裝套件

```shell
# run in command line
(base) conda install selenium
```

## 這些套件的用途分別是

- 環境
    - ipykernel
- 網路爬蟲
    - requests
    - lxml
    - beautifulsoup4
    - selenium

## 創建 Jupyter Notebook Kernel（在已經啟動環境的情況下）

```shell
# run in command line
(env_name) python -m ipykernel install --user --name <kernel_name> --display-name "Python Web Scraping"
```

## 檢視可用的 Jupyter Notebook Kernel

```shell
# run in command line
(env_name) jupyter kernelspec list
```

## Selenium 環境設定：Chrome

- 前往 [Chrome 官方網站](https://www.google.com/chrome/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [ChromeDriver](http://chromedriver.chromium.org/)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## Selenium 環境設定：Firefox

- 前往 [Firefox 官方網站](https://www.mozilla.org/zh-TW/firefox/new/)下載最新版的瀏覽器
- 下載最新版的瀏覽器驅動程式 [geckodriver](https://github.com/mozilla/geckodriver/releases)
- 下載完成以後解壓縮在熟悉路徑讓後續指派較為方便

## 測試 Chrome 是否設定完成

用程式碼透過 ChromeDriver 操控 Chrome 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
from selenium import webdriver

driver_path = "c:/YOUR/PATH/TO/CHROMEDRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Chrome(executable_path=driver_path) # Use Chrome
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 測試 Firefox 是否設定完成

用程式碼透過 geckodriver 操控 Firefox 瀏覽器前往 IMDB 首頁並將首頁的網址印出再關閉瀏覽器

In [None]:
from selenium import webdriver

driver_path = "c:/YOUR/PATH/TO/GECKODRIVER"
imdb_home = "https://www.imdb.com/"
driver = webdriver.Firefox(executable_path=driver_path) # Use Firefox
driver.get(imdb_home)
print(driver.current_url)
driver.close()

## 常使用的 `driver` 方法、屬性

- `driver.get()` ：前往指定網址
- `driver.find_element_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_css_selector()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.find_element_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（單數）
- `driver.find_elements_by_xpath()` ：定位搜尋欄位、搜尋按鈕與搜尋結果連結（複數）
- `driver.current_url` ：取得當下瀏覽器的網址

## 幫助檢視 XPath 的 Chrome 外掛

[XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl)

## [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 點選 XPath Helper 的外掛圖示
- 留意 XPath Helper 介面左邊的 XPath 與右邊被定位到的資料
- 按住 shift 鍵移動滑鼠到想要定位的元素
- 試著縮減 XPath，從最前面開始刪減並置換為 `//`

## 以 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 示範 [XPath Helper](https://chrome.google.com/webstore/detail/xpath-helper/hgimnogjllphhhkhlmebbmlgjoejdpjl) 的使用方法

- 電影名稱
- 電影海報
- 評分
- 劇情類型
- 演員陣容

## 常使用的 `element` 方法、屬性

- `element.send_keys()` ：輸入文字
- `element.click()` ：按下搜尋按鈕與連結
- `element.text`：取出標記中的文字值
- `element.get_attribute(ATTR)`：取出標記中的指定屬性

## 以 `selenium` 實作 `get_movie_data(movie_title)`

In [None]:
from selenium import webdriver

def get_movie_data(movie_title):
    chrome_driver_path = "/Users/kuoyaojen/Downloads/chromedriver"
    driver = webdriver.Chrome(executable_path=chrome_driver_path)
    driver.get("https://www.imdb.com")
    elem = driver.find_element_by_css_selector("#navbar-query")
    elem.send_keys(movie_title)
    elem = driver.find_element_by_css_selector("#suggestion-search-button")
    elem.click()
    elems = driver.find_elements_by_css_selector(".result_text a")
    elems[0].click()
    elem = driver.find_element_by_css_selector("h1")
    movie_title = elem.text
    elem = driver.find_element_by_css_selector("strong span")
    movie_rating = float(elem.text)
    elem = driver.find_element_by_css_selector(".poster img")
    movie_poster_link = elem.get_attribute("src")
    elems = driver.find_elements_by_css_selector(".subtext a")
    movie_genre = [i.text for i in elems]
    movie_genre.pop()
    elems = driver.find_elements_by_css_selector(".primary_photo+ td a")
    movie_cast = [i.text for i in elems]
    driver.close()
    movie_data = {
        "movieTitle": movie_title,
        "moviePosterLink": movie_poster_link,
        "movieRating": movie_rating,
        "movieGenre": movie_genre,
        "movieCast": movie_cast
    }
    return movie_data

## 以 selenium 擷取四部復仇者聯盟的電影資訊

```python
avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
```

In [None]:
import random
import time

avengers_movies = ["The Avengers (2012)", "Avengers: Age of Ultron (2015)", "Avengers: Infinity War (2018)", "Avengers: Endgame (2019)"]
avengers_movie_data = []
for am in avengers_movies:
    print("開始擷取 {} 的電影資訊...".format(am))
    movie_data = get_movie_data(am)
    avengers_movie_data.append(movie_data)
    sleep_secs = random.randint(3, 10)
    print("休息 {} 秒...".format(sleep_secs))
    time.sleep(sleep_secs)

In [None]:
print(avengers_movie_data)

## 延伸閱讀 

- [Requests: HTTP for Humans](http://docs.python-requests.org/en/master/)
- [Beautiful Soup Documentation](https://www.crummy.com/software/BeautifulSoup/bs4/doc/#)
- [Selenium with Python](https://selenium-python.readthedocs.io/)
- [Python 與網頁資料擷取 - DataInPoint](https://medium.com/datainpoint/web-scraping-with-python/home)

## 隨堂練習

[隨堂練習：網頁資料擷取](https://mybinder.org/v2/gh/yaojenkuo/python-data-analysis/master?filepath=exercises%2F01-exercises.ipynb)

In [None]:
import requests
from xml.etree import ElementTree as etree
from bs4 import BeautifulSoup
import time
import random

## 隨堂練習：2019-2020 球季 NBA 有幾支球隊？

In [None]:
def number_of_nba_teams(request_url):
    """
    >>> number_of_nba_teams("http://data.nba.net/prod/v2/2019/teams.json")
    30
    """

## 隨堂練習：divName 為 Atlantic 與 Southwest 的球隊有哪些？

In [None]:
def find_atlantic_southwest_teams(request_url):
    """
    >>> atlantic_southwest_teams = find_atlantic_southwest_teams("http://data.nba.net/prod/v2/2019/teams.json")
    >>> atlantic_southwest_teams['Atlantic']
    ['Boston Celtics', 'Brooklyn Nets', 'New York Knicks', 'Philadelphia 76ers', 'Toronto Raptors']
    >>> atlantic_southwest_teams['Southwest']
    ['Dallas Mavericks', 'Houston Rockets', 'Memphis Grizzlies', 'New Orleans Pelicans', 'San Antonio Spurs']
    """

## 隨堂練習：擷取台北市所有 7-11 商店資訊

In [None]:
def get_tpe_711_stores(request_url):
    """
    >>> tpe_711_stores = get_tpe_711_stores("https://emap.pcsc.com.tw/EMapSDK.aspx")
    >>> tpe_711_stores["松山區"][0]
    {'POIID': '170945', 'POIName': '上弘', 'Longitude': 121.548287390895, 'Latitude': 25.056390968531797, 'Address': '台北市松山區敦化北路168號B2'}
    >>> tpe_711_stores["信義區"][0]
    {'POIID': '167651', 'POIName': '一零一', 'Longitude': 121.565077, 'Latitude': 25.033373, 'Address': '台北市信義區信義路五段7號35樓'}
    >>> tpe_711_stores["大安區"][0]
    {'POIID': '153319', 'POIName': '大台', 'Longitude': 121.53261437826, 'Latitude': 25.0179598345753, 'Address': '台北市大安區羅斯福路三段283巷14弄16號1樓'}
    """

## 隨堂練習：以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的劇情類型

In [None]:
def find_endgame_genre(request_url):
    """
    >>> find_endgame_genre("https://www.imdb.com/title/tt4154796")
    ['Action', 'Adventure', 'Drama']
    """

## 隨堂練習：以 `requests` 搭配 `bs4` 擷取 [Avengers: Endgame (2019)](https://www.imdb.com/title/tt4154796) 的演員陣容

In [None]:
def find_endgame_cast(request_url):
    """
    >>> find_endgame_cast("https://www.imdb.com/title/tt4154796")
    ['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo', 'Chris Hemsworth', 'Scarlett Johansson', 'Jeremy Renner', 'Don Cheadle', 'Paul Rudd', 'Benedict Cumberbatch', 'Chadwick Boseman', 'Brie Larson', 'Tom Holland', 'Karen Gillan', 'Zoe Saldana', 'Evangeline Lilly']
    """

## 隨堂練習：自訂函式 `get_movie_data_from_url(request_url)`

In [None]:
def get_movie_data_from_url(request_url):
    """
    >>> movie_data = get_movie_data_from_url("https://www.imdb.com/title/tt4154796")
    >>> movie_data["moviePoster"]
    'https://m.media-amazon.com/images/M/MV5BMTc5MDE2ODcwNV5BMl5BanBnXkFtZTgwMzI2NzQ2NzM@._V1_UX182_CR0,0,182,268_AL_.jpg'
    >>> movie_data["movieGenre"]
    ['Action', 'Adventure', 'Drama']
    >>> movie_data["movieCast"]
    ['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo', 'Chris Hemsworth', 'Scarlett Johansson', 'Jeremy Renner', 'Don Cheadle', 'Paul Rudd', 'Benedict Cumberbatch', 'Chadwick Boseman', 'Brie Larson', 'Tom Holland', 'Karen Gillan', 'Zoe Saldana', 'Evangeline Lilly']
    """

## 隨堂練習：自訂函式 `get_movie_data_from_title(movie_title)`

In [None]:
def get_movie_data_from_title(movie_title):
    """
    >>> movie_data = get_movie_data_from_title("Avengers: Endgame (2019)")
    >>> movie_data["moviePoster"]
    'https://m.media-amazon.com/images/M/MV5BMTc5MDE2ODcwNV5BMl5BanBnXkFtZTgwMzI2NzQ2NzM@._V1_UX182_CR0,0,182,268_AL_.jpg'
    >>> movie_data["movieGenre"]
    ['Action', 'Adventure', 'Drama']
    >>> movie_data["movieCast"]
    ['Robert Downey Jr.', 'Chris Evans', 'Mark Ruffalo', 'Chris Hemsworth', 'Scarlett Johansson', 'Jeremy Renner', 'Don Cheadle', 'Paul Rudd', 'Benedict Cumberbatch', 'Chadwick Boseman', 'Brie Larson', 'Tom Holland', 'Karen Gillan', 'Zoe Saldana', 'Evangeline Lilly']
    """

## 隨堂練習：擷取所有華航機上電影清單

<http://www.fantasy-sky.com/ContentList.aspx?section=002>

In [None]:
def get_ca_movie_titles():
    """
    >>> ca_movie_titles = get_ca_movie_titles()
    >>> type(ca_movie_titles)
    list
    """

## 隨堂練習：找出華航機上最高評等的電影

In [None]:
def find_highest_rated_movies():
    """
    >>> find_highest_rated_movies()
    ['Inception']
    """

## 隨堂練習參考解答

[隨堂練習：網頁資料擷取參考解答](https://mybinder.org/v2/gh/yaojenkuo/python-data-analysis/master?filepath=suggested_answers%2F01-suggested-answers.ipynb)