# CSS 與 XPath 選擇

## 郭耀仁

## CSS 選擇

- 簡單的結構可以利用文件物件模型（Document Object Model, DOM）判斷

In [1]:
library(rvest)

raw_html <- '
<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width">
    <title>Basic HTML Page</title>
</head>
<body>
    <p>Hello HTML</p>
</body>
</html>
'
hello_html <- read_html(raw_html) %>%
    html_nodes(css = "body p") %>%
    html_text()
hello_html

Loading required package: xml2


## CSS 選擇（2）

- 複雜的結構透過 Chrome 外掛：[SelectorGadget](https://chrome.google.com/webstore/search/selectorgadget?hl=zh-TW)
- 我們繼續以 [IMDb](http://www.imdb.com/title/tt3783958/) 為例
- 評等（Rating）

## CSS 選擇（3）

- 點選 SelectorGadget 的外掛圖示
- 先點選評等（Rating）

![](img/ch0701.png)

## CSS 選擇（4）

- 會有多個元素被選出（標註黃色），因為這頁有很多 `<span></span>`

![](img/ch0702.png)

## CSS 選擇（5）

- 接著點選不要的元素（標註紅色）

![](img/ch0703.png)

## CSS 選擇（6）

- 這時我們就得到正確的 CSS 選擇：`strong span`

![](img/ch0704.png)

## CSS 選擇（7）

- 這時就知道在 `html_nodes()` 函數中需要指定 `css = "strong span"`

In [2]:
library(rvest)

url <- "http://www.imdb.com/title/tt3783958/"
lalaland <- read_html(url)
rating <- lalaland %>%
    html_nodes(css = "strong span") %>%
    html_text() %>%
    as.numeric()
rating

## CSS 選擇（8）

- 再練習一次，這次我們要將這頁的演員名單（Cast）擷取出來：

![](img/ch0705.png)

## CSS 選擇（9）

- 先點選男主角 Ryan Gosling
- 乍看之下好像 `.itemprop` 這個類別就對了

![](img/ch0706.png)

## CSS 選擇（10）

- 但是其實其他的元素也有使用 `.itemprop` 這個類別

![](img/ch0707.png)

![](img/ch0708.png)

## CSS 選擇（11）

- 於是點選不要的元素（標註紅色）

![](img/ch0709.png)

## CSS 選擇（12）

- 這時我們就得到正確的 CSS 選擇：`.itemprop .itemprop`

![](img/ch0710.png)

## CSS 選擇（13）

- 這時就知道在 `html_nodes()` 函數中需要指定 `css = ".itemprop .itemprop"`

In [3]:
library(rvest)

url <- "http://www.imdb.com/title/tt3783958/"
lalaland <- read_html(url)
cast <- lalaland %>%
    html_nodes(css = ".itemprop .itemprop") %>%
    html_text()
cast

## 練習

- 使用 CSS 選擇將 <https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse> 的股票代號/名稱與成交價抓出來
- 股票代號/名稱可能會有編碼的問題：
    - `read_html(x, encoding = "cp950")`
    - `iconv(from = "UTF-8", to = "UTF-8")`

## XPath 選擇

- 簡單的結構可以利用文件物件模型（Document Object Model, DOM）判斷

In [4]:
library(rvest)

raw_html <- '
<!DOCTYPE html>
<html>
<head>
    <meta charset="utf-8">
    <meta name="viewport" content="width=device-width">
    <title>Basic HTML Page</title>
</head>
<body>
    <p>Hello HTML</p>
</body>
</html>
'
hello_html <- read_html(raw_html) %>%
    html_nodes(xpath = "//body/p") %>%
    html_text()
hello_html

## XPath 選擇（2）

- 複雜的結構透過 Chrome 外掛：[XPath Helper](https://chrome.google.com/webstore/search/xpath%20helper?hl=zh-TW)
- 我們繼續以 [IMDb](http://www.imdb.com/title/tt3783958/) 為例
- 評等（Rating）

## XPath 選擇（3）

- 點選 XPath Helper 外掛圖示
- 按住 shift 之後將游標移到評等（Rating）上面

![](img/ch0711.png)

## XPath 選擇（4）

- 試著將 XPath 縮短一點，可以得到 XPath 選擇：`//strong/span`

![](img/ch0712.png)

## XPath 選擇（5）

- 這時就知道在 `html_nodes()` 函數中需要指定 `xpath = "//strong/span"`

In [5]:
library(rvest)

url <- "http://www.imdb.com/title/tt3783958/"
lalaland <- read_html(url)
rating <- lalaland %>%
    html_nodes(xpath = "//strong/span") %>%
    html_text() %>%
    as.numeric()
rating

## XPath 選擇（6）

- 再練習一次，這次我們要將這頁的演員名單（Cast）擷取出來：

![](img/ch0705.png)

## XPath 選擇（7）

- 按住 shift 後點選男主角 Ryan Gosling

![](img/ch0713.png)

## XPath 選擇（8）

- 按住 shift 後點選女主角 Emma Stone

![](img/ch0714.png)

## XPath 選擇（9）

- 再點選幾個演員之後會發現 `/tbody/tr[@class='even']` 跟 `/tbody/tr[@class='odd']` 一直在變更
- 試著將變更的部分都刪除掉，得到我們要的 XPath 選擇：`//td[@class='itemprop']/a/span[@class='itemprop']`

![](img/ch0715.png)

## XPath 選擇（10）

- 這時就知道在 `html_nodes()` 函數中需要指定 `xpath = "//td[@class='itemprop']/a/span[@class='itemprop']"`

In [6]:
library(rvest)

url <- "http://www.imdb.com/title/tt3783958/"
lalaland <- read_html(url)
cast <- lalaland %>%
    html_nodes(xpath = "//td[@class='itemprop']/a/span[@class='itemprop']") %>%
    html_text()
cast

## 練習

- 使用 XPath 選擇將 <https://tw.stock.yahoo.com/d/i/rank.php?t=pri&e=tse> 的股票代號/名稱與成交價抓出來
- 股票代號/名稱可能會有編碼的問題：
    - `read_html(x, encoding = "cp950")`
    - `iconv(from = "UTF-8", to = "UTF-8")`