# 成為初級資料分析師 | R 程式設計與資料科學應用

> 網頁爬蟲

## 郭耀仁

> The world’s most valuable resource is no longer oil, but data.
>
> The Economist

## 大綱

- 網站爬蟲的核心任務
- JSON 格式資料
- HTML 格式資料

## 網站爬蟲的核心任務

## 核心任務可以簡單區分為兩個

- 請求資料（requesting data）
- 解析資料（parsing data）

## 請求資料的運作就像在瀏覽器中輸入網址一般，不過送出請求的管道由瀏覽器改變成為 R 語言程式碼

## 解析資料的運作則是將請求所得之不同格式資料轉換為 R 資料結構，常見的有

- JSON 格式
- HTML 格式

## JSON 格式資料

## 使用 `jsonlite` 套件中的 `fromJSON()` 函數

`fromJSON()` 函數一次就處理了兩個核心任務：

- 對網站發出請求
- 將請求的回應解析為
    - `data.frame`（Array of JSONs）
    - `list`（JSON）

## 安裝 `jsonlite` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("jsonlite")
```

## 載入 `jsonlite` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("jsonlite")
```

## 安裝 Chrome 瀏覽器外掛：JSONView

- <https://chrome.google.com/webstore/detail/jsonview/chklaanhfefbnpoihckbnefhakgolnmc>
- 更漂亮地在瀏覽器上預覽 JSON 格式資料

## 安裝好 JSONView 後用瀏覽器預覽 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json>

## 擷取 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json> 資料

In [1]:
library("jsonlite")

aqi_url <- "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json"
aqi <- fromJSON(aqi_url)
class(aqi)

## 隨堂練習：全台灣有幾個空氣品質測站？

In [2]:
library("jsonlite")

aqi_url <- "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=json"
aqi <- fromJSON(aqi_url)
ans <- nrow(aqi)

In [3]:
ans

## 隨堂練習：列出位於臺北市與新北市的空氣品質測站

In [4]:
library("dplyr")

ans <- aqi %>% 
    filter(County %in% c("臺北市", "新北市")) %>% 
    select(County, SiteName)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



In [5]:
ans

County,SiteName
新北市,新北(樹林)
新北市,富貴角
新北市,永和
新北市,三重
臺北市,陽明
臺北市,大同
臺北市,松山
臺北市,古亭
臺北市,萬華
臺北市,中山


## XML 格式資料

## 使用 `xml2` 套件

- `read_xml()` 函數請求資料
- `xml_find_all()` 與 `xml_text()` 函數解析資料

## 安裝 `xml2` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("xml2")
```

## 載入 `xml2` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("xml2")
```

## 請求 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml> 資料

In [6]:
# requesting data
library("xml2")

aqi_url <- "https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml"
aqi <- read_xml(aqi_url)
class(aqi)

## 解析 <https://opendata.epa.gov.tw/ws/Data/AQI/?$format=xml> 資料

In [7]:
# parsing data
library("dplyr")

site_names <- aqi %>%
  xml_find_all(xpath = "//SiteName") %>%
  xml_text()
site_names

In [8]:
# parsing data
counties <- aqi %>%
  xml_find_all(xpath = "//County") %>% 
  xml_text()
counties

## HTML 格式資料

## 使用 `rvest` 套件中的

- `read_html()` 函數對網站發出請求
- `html_nodes(CSS = )` 定位 HTML 中指定的標記
- `html_text()` 解析標記中的文字
- `html_attr(ATTR)` 解析標記中的屬性

## 安裝 `rvest` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("rvest")
```

## 載入 `rvest` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("rvest")
```

## 以 `read_html()` 請求 <https://www.imdb.com/title/tt4154796> 資料

In [9]:
library("rvest")

html_doc <- read_html("https://www.imdb.com/title/tt4154796")
class(html_doc)

## 安裝 Chrome 瀏覽器外掛：Selector Gadget

- <https://chrome.google.com/webstore/detail/selectorgadget/mhjhnkcfbdhnjickkkdbjoemdmbfginb>
- 查詢 HTML 標記的 CSS Selector

## 以 `html_nodes()` 解析 `html_doc`

In [10]:
# rating
html_doc %>%
  html_nodes(css = "strong span")

{xml_nodeset (1)}
[1] <span itemprop="ratingValue">8.5</span>

## 以 `html_text()` 解析標記中的文字

In [11]:
# rating
html_doc %>%
  html_nodes(css = "strong span") %>% 
  html_text() %>% 
  as.numeric()

## 以 `html_attr(ATTR)` 解析標記中的屬性

In [12]:
# poster image link
html_doc %>%
  html_nodes(css = ".poster img") %>% 
  html_attr("src")

## 隨堂練習：寫作一個函數 `get_movie_info()`

In [13]:
# install.packages(c("rvest", "magrittr"))
library(rvest)
library(magrittr) # 使用 %>% 運算子

get_movie_info <- function(movie_url) {
  # 指定電影資訊的 CSS 選擇器
  rating_css <- "strong span"
  genre_css <- ".subtext a"
  poster_css <- ".poster img"
  cast_css <- ".primary_photo+ td a"
  title_css <- "h1"
  
  movie_doc <- movie_url %>% 
    read_html()
  # 擷取資訊
  movie_rating <- movie_doc %>% 
    html_nodes(css = rating_css) %>%
    html_text() %>%
    as.numeric()
  movie_genre <- movie_doc %>% 
    html_nodes(css = genre_css) %>% 
    html_text() %>% 
    trimws() %>% 
    gsub(pattern = "\n", replacement = "")
  movie_genre_len <- length(movie_genre)
  movie_genre <- movie_genre[-movie_genre_len]
  movie_poster <- movie_doc %>% 
    html_nodes(css = poster_css) %>% 
    html_attr("src")
  movie_cast <- movie_doc %>% 
    html_nodes(css = cast_css) %>% 
    html_text() %>% 
    trimws() %>% 
    gsub(pattern = "\n", replacement = "")
  movie_title <- movie_doc %>% 
    html_nodes(css = title_css) %>% 
    html_text() %>% 
    trimws()
  
  # 回傳資訊
  movie_info <- list(
    title = movie_title,
    rating = movie_rating,
    genre = movie_genre,
    posterLink = movie_poster,
    cast = movie_cast
  )
  return(movie_info)
}

In [14]:
movie_url <- "https://www.imdb.com/title/tt7286456"
joker_movie_info <- get_movie_info(movie_url)
print(joker_movie_info$title)
print(joker_movie_info$rating)
print(joker_movie_info$genre)
print(joker_movie_info$posterLink)
print(joker_movie_info$cast)

[1] "小丑 (2019)"
[1] 8.6
[1] "Crime"    "Drama"    "Thriller"
[1] "https://m.media-amazon.com/images/M/MV5BNGVjNWI4ZGUtNzE0MS00YTJmLWE0ZDctN2ZiYTk2YmI3NTYyXkEyXkFqcGdeQXVyMTkxNjUyNQ@@._V1_UX182_CR0,0,182,268_AL_.jpg"
 [1] "Joaquin Phoenix" "Robert De Niro"  "Zazie Beetz"     "Frances Conroy" 
 [5] "Brett Cullen"    "Shea Whigham"    "Bill Camp"       "Glenn Fleshler" 
 [9] "Leigh Gill"      "Josh Pais"       "Rocco Luna"      "Marc Maron"     
[13] "Sondra James"    "Murphy Guyer"    "Douglas Hodge"  
