R 語言資料處理
以下教材部分取材自 R 語言翻轉教室 by Wush Wu

這堂課要教的是資料處理

我們會以 Hadley 所開發其 tidyverse 套件集中的 dplyr 套件為主

並且對照 baseR 的語法，讓同學們了解其中差異

In [None]:
# install.packages("dplyr")
# vignette(package = "dplyr")
# vignette("introduction", package = "dplyr")
# 各位同學可以嘗試閱讀 dplyr 套件的文件，了解其源流與用法
library(dplyr)


In [None]:
# 我們將使用紐約機場起降的飛機資料來進行練習
# install.packages("nycflights13")
library(nycflights13)

In [None]:
# 參閱 https://cran.r-project.org/web/packages/nycflights13/nycflights13.pdf
# 會知道這個資料集中包含了 airlines, airports, flights, planes 以及 weather 等五個資料表
# 首先針對 flights 資料表進行觀察
# 請同學找出這個資料表共有多少筆、有哪些欄位、

In [None]:
# 首先我們介紹的是可以從資料表中依照條件過濾資料的 filter
# 請嘗試下列指令
filter(flights, month == 1, day == 1)

# 上述指令會將資料表中所有 1 月 1 日 起降的班機取出

In [None]:
# 在 BaseR 會這樣下指令
flights[flights$month == 1 & flights$day == 1,]

In [None]:
# 或者可以嘗試
with(flights, flights[month == 1 & day == 1,])

In [None]:
# 請各位以 dplyr 以及 baseR 語法進行下列練習
# 取出當年上半年度 (1 月 ~ 6 月的資料)

In [None]:
# 取出 7月 與 8 月中旬 (11 日到 20 日) 的資料

In [None]:
# 下列指令取出資料表中起飛時發生延遲 (dep_delay > 0) 的班機數量
delayed <- filter(flights, dep_delay > 0)
nrow(delayed)

In [None]:
# 請各位以 baseR 語法做同樣的事情，並且比較其結果

In [None]:
# 像是 grepl 這種條件式，也可以用於條件中字串的搜索
# 請各位同學撈出資料表中班機編號 (tailnum) 以 "AA" 開頭的班機資料

In [None]:
# dplyr 可以用 slice 指令取出指定列數的資料
slice(flights, 1000:2000)

In [None]:
# baseR 的寫法
flights[1000:2000,]

In [None]:
# 請練習以 dplyr 語法以及 baseR 語法取出 flights 資料表中奇數列的資料

In [None]:
# 請練習以 dplyr 語法以集 baseR 語法取出 flights 資料表中 1000 到 2000 列 以及 2500 到 3500 列的資料

In [None]:
# arrange 可以將取出的資料依照指定欄位進行排序，請嘗試下列指令
arrange(flights, month, day, dep_time)

In [None]:
# 在 baseR 中語法如下
with(flights, flights[order(month, day, dep_time),])

In [None]:
# 請參閱 arrange 與 order 的 help，試著由大至小進行排序

In [None]:
# 請嘗試改動用來排序之欄位的順序，觀察如此排序後的資料表與先前之資料表有什麼區別

In [None]:
# 上述資料中第一列的 dep_time 為 517
# 代表了 1 月 1 日 當天最早的班機是 5:17 起飛的
# 那麼整個紀錄中起飛時刻最早是幾點呢？
# 請同學參閱 min 函式的 help 並且找出來

In [None]:
# 假如我們只想觀察資料表中的部分欄位，那就要使用 select，請嘗試下列指令
select(flights, month, day, dep_time)

In [None]:
# 如果使用 baseR 操作上述指令，要如何操作呢？

In [None]:
# select 有一些特別的方便功能，請各位嘗試
select(flights, year:day)

In [None]:
select(flights, -(year:day))

In [None]:
# 請各位做個練習，分別以 dplyr 以及 baseR 語法取出 dep_time 中不是 NA 之資料列中，其班機起降的日期 (year, month, day)

In [None]:
# distinct 可以取出資料表中獨一無二的資料列，請各位嘗試下列指令
distinct(select(flights, year:day))

In [None]:
#以 baseR 語法會比較麻煩一點
ff.date = flights[, c("year","month","day")]
ff.date[!duplicated(ff.date),]

In [None]:
# mutate 指令可以以現有欄位進行計算，以產生新的屬性，請嘗試下列指令
flights2 = flights
mutate(flights2, gain = arr_delay - dep_delay)

# 請注意，上述資料的新增，除非將其存入 flights2 資料表，否則並不會影響 flights2 資料表本身

In [None]:
# 使用 baseR 語法要做類似動作可以這樣子
flights2 = flights
colnames(flights2)

flights2$gain = flights2$arr_delay - flights2$dep_delay

colnames(flights2)

In [None]:
# sample_n, sample_frac 可以對資料表進行抽樣，請嘗試下列指令
sample_n(flights, 1000)

In [None]:
sample_frac(flights, 0.01)

In [None]:
# 以 baseR 指令想要達成上述效果，需要使用 sample
# 請各位同學參照 sample 的 help 並且嘗試下列指令
flights[sample(1:nrow(flights), 1000),]

In [None]:
# 要如何以 sample 指令達成 dplyr 中 sample_frac 的效果呢？請各位同學練習看看

In [None]:
# 接下來介紹類似 SQL aggregation 功能，可以將資料整合計算的指令 summarise
summarise(flights, mean(dep_delay, na.rm = TRUE))

In [None]:
# 這項指令並不能顯示 summarise 指令真正的威力，其真正的威力要搭配 group_by 指令才能發揮
flights.month_grp = group_by(flights, month)
summarise(flights.month_grp, mean(dep_delay, na.rm = TRUE))

In [None]:
# 請嘗試以航空公司為單位，計算其平均的起飛與降落遲延

接下來我們跟同學介紹R 在2014年開始發展的一種寫法，稱作「pipeline operator」

在剛剛的練習中，同學可能會寫出如：summarise(filter(flights, ...))的程式碼。 或是使用大量的暫存變數，如：a1 <- filter(flights, ...)以及a2 <- summarise(a1, ...)。 在整理資料的時候，我們常常要對數據做連續的操作（例如:先filter再進行summarise等）

這時後，我們可能只能建立大量的暫存變數，如a1，a2，或者是寫出不好讀的程式碼， 如：summarise(filter(flights, ...))

在dplyr中導入了magrittr在2014年的發明：pipeline operator，%>%。 %>%會將上一個函數的輸出，放到後面函數的第一個參數。 也就是說，上述的程式碼可以改寫成：filter(flights, ...) %>% summarise(...)。

而%>%是可以串接的，所以實務上，我們就可以寫出：filter(flights, ...) %>% select(...) %>% mutate(...) %>% summarise。 每一個函數的輸出，都是下一個函數的第一個參數（也就是要進行處理的data.frame）。 所以這段程式碼中，filter的輸出就交給select處理後，再交給mutate，最後給summarise。

In [None]:
# 以 %>% 指令改寫 group_by, summarise 流程會十分簡單
group_by(flights, month) %>%
summarise(avg.dep_delay = mean(dep_delay, na.rm = TRUE))

In [None]:
# 這邊我們做一個練習，請問美國航空公司 (carrier == "AA")，其班機尾標是否都有 AA 字眼

In [None]:
# 請嘗試計算各航空公司，其不同時段 (0000-0559, 0600-1159, 1200-1759, 1800-2359) 之航班的平均起飛遲延、以及平均降落遲延