# 数据分析基础

## 数据获取和保存

利用R语言中原始的`read.table()`函数读取测试文件：

In [1]:
students <- read.table('../Data/students-read.txt', header=T)
print(students)

  ID   Name Gender Score
1  1    Leo   Male    90
2  2    Tom   Male    80
3  3 Olivia Female    89
4  4   John   Male    77
5  5   Jacy Female    83


利用R语言中原始的`write.table()`函数写入测试文件：

In [2]:
colleagues <- data.frame(
    names = c('Leo', 'Tom', 'Jacy'),
    gender = c('Male', 'Male', 'Female'),
    age = c(26, 24, 25)
)
write.table(colleagues, '../Data/colleagues-write.txt', quote=F, sep='\t')

利用readr包读取测试文件：

In [3]:
library(readr)
students <- read_tsv('../Data/students-read.txt', col_names=T, col_types=cols('c', 'c', 'c', 'd'))
print(students)

# A tibble: 5 x 4
     ID   Name Gender Score
  <chr>  <chr>  <chr> <dbl>
1     1    Leo   Male    90
2     2    Tom   Male    80
3     3 Olivia Female    89
4     4   John   Male    77
5     5   Jacy Female    83


利用readr包写入测试文件：

In [4]:
write_tsv(colleagues, '../Data/colleagues-write.txt', col_names=T)

## 数据变换

dplyr除了包含了很多实用的数据变换函数外，还为我们带来了新的数据类型和语法。dplyr中提供了一种名为tbl的数据类型，tbl类型数据相比R中的数据框，更方便用户查看。`tbl_df()`函数可以将一个数据框转换成为一个tbl类型数据，tbl类型数据可以根据显示区的大小自动显示合适的行数。

In [5]:
library(dplyr)
library(tidyr)

options(max.print=30)
options(width = 100)


Attaching package: ‘dplyr’

The following objects are masked from ‘package:stats’:

    filter, lag

The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union



In [6]:
print(iris)

    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1            5.1         3.5          1.4         0.2     setosa
2            4.9         3.0          1.4         0.2     setosa
3            4.7         3.2          1.3         0.2     setosa
4            4.6         3.1          1.5         0.2     setosa
5            5.0         3.6          1.4         0.2     setosa
6            5.4         3.9          1.7         0.4     setosa
 [ reached getOption("max.print") -- omitted 144 rows ]


In [7]:
iris_tb <- tbl_df(iris)
print(iris_tb)

# A tibble: 150 x 5
   Sepal.Length Sepal.Width Petal.Length Petal.Width Species
          <dbl>       <dbl>        <dbl>       <dbl>  <fctr>
 1          5.1         3.5          1.4         0.2  setosa
 2          4.9         3.0          1.4         0.2  setosa
 3          4.7         3.2          1.3         0.2  setosa
 4          4.6         3.1          1.5         0.2  setosa
 5          5.0         3.6          1.4         0.2  setosa
 6          5.4         3.9          1.7         0.4  setosa
 7          4.6         3.4          1.4         0.3  setosa
 8          5.0         3.4          1.5         0.2  setosa
 9          4.4         2.9          1.4         0.2  setosa
10          4.9         3.1          1.5         0.1  setosa
# ... with 140 more rows


dplyr还提供了一种描述数据的函数glimpse()，功能类似summary()和str()函数。

In [8]:
summary(iris)

  Sepal.Length    Sepal.Width     Petal.Length    Petal.Width          Species  
 Min.   :4.300   Min.   :2.000   Min.   :1.000   Min.   :0.100   setosa    :50  
 1st Qu.:5.100   1st Qu.:2.800   1st Qu.:1.600   1st Qu.:0.300   versicolor:50  
 Median :5.800   Median :3.000   Median :4.350   Median :1.300   virginica :50  
 Mean   :5.843   Mean   :3.057   Mean   :3.758   Mean   :1.199                  
 3rd Qu.:6.400   3rd Qu.:3.300   3rd Qu.:5.100   3rd Qu.:1.800                  
 Max.   :7.900   Max.   :4.400   Max.   :6.900   Max.   :2.500                  

In [9]:
str(iris)

'data.frame':	150 obs. of  5 variables:
 $ Sepal.Length: num  5.1 4.9 4.7 4.6 5 5.4 4.6 5 4.4 4.9 ...
 $ Sepal.Width : num  3.5 3 3.2 3.1 3.6 3.9 3.4 3.4 2.9 3.1 ...
 $ Petal.Length: num  1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 ...
 $ Petal.Width : num  0.2 0.2 0.2 0.2 0.2 0.4 0.3 0.2 0.2 0.1 ...
 $ Species     : Factor w/ 3 levels "setosa","versicolor",..: 1 1 1 1 1 1 1 1 1 1 ...


In [10]:
glimpse(iris)

Observations: 150
Variables: 5
$ Sepal.Length <dbl> 5.1, 4.9, 4.7, 4.6, 5.0, 5.4, 4.6, 5.0, 4.4, 4.9, 5.4, 4.8, 4.8, 4.3, 5.8,...
$ Sepal.Width  <dbl> 3.5, 3.0, 3.2, 3.1, 3.6, 3.9, 3.4, 3.4, 2.9, 3.1, 3.7, 3.4, 3.0, 3.0, 4.0,...
$ Petal.Length <dbl> 1.4, 1.4, 1.3, 1.5, 1.4, 1.7, 1.4, 1.5, 1.4, 1.5, 1.5, 1.6, 1.4, 1.1, 1.2,...
$ Petal.Width  <dbl> 0.2, 0.2, 0.2, 0.2, 0.2, 0.4, 0.3, 0.2, 0.2, 0.1, 0.2, 0.2, 0.1, 0.1, 0.2,...
$ Species      <fctr> setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, setosa, s...


### 选取符合条件的的子集数据

`filter(.data, ...)`，其中.data 为待处理的数据；...为选取子集的条件表达式。例如选取iris数据集中萼片长度大于7的数据：

In [11]:
iris_filtered <- filter(iris, Sepal.Length > 7)
print(iris_filtered)

   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
1           7.1         3.0          5.9         2.1 virginica
2           7.6         3.0          6.6         2.1 virginica
3           7.3         2.9          6.3         1.8 virginica
4           7.2         3.6          6.1         2.5 virginica
5           7.7         3.8          6.7         2.2 virginica
6           7.7         2.6          6.9         2.3 virginica
 [ reached getOption("max.print") -- omitted 6 rows ]


`filter(.data, ...)`支持的过滤函数有：

- `==, >, >= etc`
- `&, |, !, xor()`
- `is.na()`
- `between(), near()`

In [12]:
iris_filtered <- filter(iris, Sepal.Length > 7 & Sepal.Width >= 3)
print(iris_filtered)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
1          7.1         3.0          5.9         2.1 virginica
2          7.6         3.0          6.6         2.1 virginica
3          7.2         3.6          6.1         2.5 virginica
4          7.7         3.8          6.7         2.2 virginica
5          7.2         3.2          6.0         1.8 virginica
6          7.2         3.0          5.8         1.6 virginica
 [ reached getOption("max.print") -- omitted 2 rows ]


### 删除重复数据

`distinct(.data, ...)`，其中.data为待处理的数据；...为可选的判断重复的数据列，如果省略该参数则根据全部数据列判断数据是否重复，也可以利用计算后的值作为判断是否重复的条件。例如：

In [13]:
dim(iris)

In [14]:
iris_distinct <- distinct(iris)
print(iris_distinct)

    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
1            5.1         3.5          1.4         0.2     setosa
2            4.9         3.0          1.4         0.2     setosa
3            4.7         3.2          1.3         0.2     setosa
4            4.6         3.1          1.5         0.2     setosa
5            5.0         3.6          1.4         0.2     setosa
6            5.4         3.9          1.7         0.4     setosa
 [ reached getOption("max.print") -- omitted 143 rows ]


In [15]:
iris_distinct <- distinct(iris, Species)
print(iris_distinct)

     Species
1     setosa
2 versicolor
3  virginica


In [16]:
iris_distinct <- distinct(iris, Sepal.Diff=abs(Sepal.Length-Sepal.Width))
print(head(iris_distinct))

  Sepal.Diff
1        1.6
2        1.9
3        1.5
4        1.5
5        1.4
6        1.5


### 数据采样

```
sample_n(tbl, size, replace = FALSE, weight = NULL, .env = parent.frame())
sample_frac(tbl, size = 1, replace = FALSE, weight = NULL, .env = parent.frame())
```

其中tbl为待处理的数据；size对于sample_n为采样的个数，对于sample_frac为采样的比例；replace表示是否又放回的抽样；weight为采样的权重。例如：

In [17]:
# 采样结果每次可能不一样
iris_sample <- sample_n(iris, 3)
print(iris_sample)

    Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
24           5.1         3.3          1.7         0.5    setosa
148          6.5         3.0          5.2         2.0 virginica
11           5.4         3.7          1.5         0.2    setosa


In [18]:
# 采样结果每次可能不一样
iris_sample <- sample_frac(iris, 0.05, replace=T)
print(iris_sample)

     Sepal.Length Sepal.Width Petal.Length Petal.Width    Species
90            5.5         2.5          4.0         1.3 versicolor
95            5.6         2.7          4.2         1.3 versicolor
10            4.9         3.1          1.5         0.1     setosa
113           6.8         3.0          5.5         2.1  virginica
10.1          4.9         3.1          1.5         0.1     setosa
141           6.7         3.1          5.6         2.4  virginica
 [ reached getOption("max.print") -- omitted 2 rows ]


### 选择指定行

```
slice(.data, ...)
top_n(x, n, wt)
```

slice可以选择指定的若干行，其中.data为待处理的数据；...为指定选取的行。top_n为选取数据的前n行，其中x为待处理的数据；n为选取的数据行数，如果数据是分组的（即排序值出现重复），则可能返回超过n行；wt为可选的排序变量，如果不传入该参数，则会使用数据中最后一个变量进行排序。例如：

In [19]:
iris_slice <- slice(iris, c(1, 2, 4))
print(iris_slice)

# A tibble: 3 x 5
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
         <dbl>       <dbl>        <dbl>       <dbl>  <fctr>
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.6         3.1          1.5         0.2  setosa


In [20]:
iris_slice <- slice(iris, 1:3)
print(iris_slice)

# A tibble: 3 x 5
  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
         <dbl>       <dbl>        <dbl>       <dbl>  <fctr>
1          5.1         3.5          1.4         0.2  setosa
2          4.9         3.0          1.4         0.2  setosa
3          4.7         3.2          1.3         0.2  setosa


In [21]:
iris_top_n <- top_n(iris, 3)
print(iris_top_n)

Selecting by Species


   Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
1           6.3         3.3          6.0         2.5 virginica
2           5.8         2.7          5.1         1.9 virginica
3           7.1         3.0          5.9         2.1 virginica
4           6.3         2.9          5.6         1.8 virginica
5           6.5         3.0          5.8         2.2 virginica
6           7.6         3.0          6.6         2.1 virginica
 [ reached getOption("max.print") -- omitted 44 rows ]


In [22]:
iris_top_n <- top_n(iris, 3, Sepal.Length)
print(iris_top_n)

  Sepal.Length Sepal.Width Petal.Length Petal.Width   Species
1          7.7         3.8          6.7         2.2 virginica
2          7.7         2.6          6.9         2.3 virginica
3          7.7         2.8          6.7         2.0 virginica
4          7.9         3.8          6.4         2.0 virginica
5          7.7         3.0          6.1         2.3 virginica


### 选取指定列

```
select(.data, ...)
```

其中.data为待处理数据；...表示选取的列名或符合条件的列，可用的函数如下：

- `starts_with(x, ignore.case = TRUE)` 选取起始文本符合要求的列
- `ends_with(x, ignore.case = TRUE)` 选取末尾文本符合要求的列
- `contains(x, ignore.case = TRUE)` 选取包含指定文本的列
- `matches(x, ignore.case = TRUE)` 选取符合表达式x的列
- `num_range("x", 1:5, width = 2)` 选取x01至x05列
- `one_of("x", "y", "z")` 选取名称在指定的字符向量中的列
- `everything()` 选择所有列

In [23]:
iris_selected <- select(iris, Sepal.Length, Species)
print(iris_selected)

    Sepal.Length    Species
1            5.1     setosa
2            4.9     setosa
3            4.7     setosa
4            4.6     setosa
5            5.0     setosa
6            5.4     setosa
7            4.6     setosa
8            5.0     setosa
9            4.4     setosa
10           4.9     setosa
11           5.4     setosa
12           4.8     setosa
13           4.8     setosa
14           4.3     setosa
15           5.8     setosa
 [ reached getOption("max.print") -- omitted 135 rows ]


In [24]:
iris_selected <- select(iris, starts_with('Petal'))
print(iris_selected)

    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
3            1.3         0.2
4            1.5         0.2
5            1.4         0.2
6            1.7         0.4
7            1.4         0.3
8            1.5         0.2
9            1.4         0.2
10           1.5         0.1
11           1.5         0.2
12           1.6         0.2
13           1.4         0.1
14           1.1         0.1
15           1.2         0.2
 [ reached getOption("max.print") -- omitted 135 rows ]


In [25]:
iris_selected <- select(iris, ends_with('Width'))
print(iris_selected)

    Sepal.Width Petal.Width
1           3.5         0.2
2           3.0         0.2
3           3.2         0.2
4           3.1         0.2
5           3.6         0.2
6           3.9         0.4
7           3.4         0.3
8           3.4         0.2
9           2.9         0.2
10          3.1         0.1
11          3.7         0.2
12          3.4         0.2
13          3.0         0.1
14          3.0         0.1
15          4.0         0.2
 [ reached getOption("max.print") -- omitted 135 rows ]


In [26]:
iris_selected <- select(iris, contains('etal'))
print(iris_selected)

    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
3            1.3         0.2
4            1.5         0.2
5            1.4         0.2
6            1.7         0.4
7            1.4         0.3
8            1.5         0.2
9            1.4         0.2
10           1.5         0.1
11           1.5         0.2
12           1.6         0.2
13           1.4         0.1
14           1.1         0.1
15           1.2         0.2
 [ reached getOption("max.print") -- omitted 135 rows ]


In [27]:
iris_selected <- select(iris, matches('.t.'))
print(iris_selected)

    Sepal.Length Sepal.Width Petal.Length Petal.Width
1            5.1         3.5          1.4         0.2
2            4.9         3.0          1.4         0.2
3            4.7         3.2          1.3         0.2
4            4.6         3.1          1.5         0.2
5            5.0         3.6          1.4         0.2
6            5.4         3.9          1.7         0.4
7            4.6         3.4          1.4         0.3
 [ reached getOption("max.print") -- omitted 143 rows ]


In [28]:
iris_selected <- select(iris, one_of(c('Petal.Length', 'Petal.Width')))
print(iris_selected)

    Petal.Length Petal.Width
1            1.4         0.2
2            1.4         0.2
3            1.3         0.2
4            1.5         0.2
5            1.4         0.2
6            1.7         0.4
7            1.4         0.3
8            1.5         0.2
9            1.4         0.2
10           1.5         0.1
11           1.5         0.2
12           1.6         0.2
13           1.4         0.1
14           1.1         0.1
15           1.2         0.2
 [ reached getOption("max.print") -- omitted 135 rows ]


In [29]:
iris_selected <- select(iris, -starts_with('Petal'))
print(iris_selected)

    Sepal.Length Sepal.Width    Species
1            5.1         3.5     setosa
2            4.9         3.0     setosa
3            4.7         3.2     setosa
4            4.6         3.1     setosa
5            5.0         3.6     setosa
6            5.4         3.9     setosa
7            4.6         3.4     setosa
8            5.0         3.4     setosa
9            4.4         2.9     setosa
10           4.9         3.1     setosa
 [ reached getOption("max.print") -- omitted 140 rows ]


### 数据集概括

```
summarise(.data, ...)
summarise_all(tbl, funs, ...)
summarise_if(.tbl, .predicate, .funs, ...)
summarise_at(.tbl, .vars, .funs, ..., .cols = NULL)
```

summarise可以将数据集进行按照指定的函数和数据列进行汇总概括，summarise_each可以对数据集中的所有列应用相同的函数进行汇总概括，summarise_if可以根据条件对相应的列进行汇总概括，summarise_at可以对指定的列进行汇总概括。例如：

In [30]:
iris_summarised <- summarise(iris, mean(Sepal.Width))
print(iris_summarised)

  mean(Sepal.Width)
1          3.057333


In [31]:
iris_summarised <- summarise_all(iris, funs(mean))
print(iris_summarised)

“argument is not numeric or logical: returning NA”

  Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1     5.843333    3.057333        3.758    1.199333      NA


In [32]:
iris_summarised <- summarise_if(iris, is.numeric, funs(mean))
print(iris_summarised)

  Sepal.Length Sepal.Width Petal.Length Petal.Width
1     5.843333    3.057333        3.758    1.199333


In [33]:
iris_summarised <- summarise_at(iris, c('Sepal.Length', 'Sepal.Width'), funs(mean))
print(iris_summarised)

  Sepal.Length Sepal.Width
1     5.843333    3.057333


除了利用summarise()和summarise_each()两个函数进行汇总概括以外，dplyr还提供了系列方便的概括方法，如下：

- `count(x, ..., wt = NULL, sort = FALSE)` 计算行数（可带权重）
- `nth(x, n, order_by = NULL, default = default_missing(x))` 向量的第n个值
- `first(x, order_by = NULL, default = default_missing(x))` 向量的第1个值
- `last(x, order_by = NULL, default = default_missing(x))` 向量的最后1个值
- `n()` 向量中元素的个数（不可直接调用）
- `n_distinct(x)` 向量中的不同元素的个数

In [34]:
iris_count <- count(iris, Species)
print(iris_count)

# A tibble: 3 x 2
     Species     n
      <fctr> <int>
1     setosa    50
2 versicolor    50
3  virginica    50


In [35]:
iris_count <- count(iris, Species, wt=Sepal.Length)
print(iris_count)

# A tibble: 3 x 2
     Species     n
      <fctr> <dbl>
1     setosa 250.3
2 versicolor 296.8
3  virginica 329.4


In [36]:
x <- 1:9
y <- c(x, 8, 9, 10)
nth(x, 6)
first(x)
last(x)
n_distinct(x)
n_distinct(y)

### 数据分组

```
group_by(.data, ..., add = FALSE)
```

group_by()函数可以根据指定的数据列进行分组，分组完后可以在分组内部进行其他相关处理。例如：计算不同品种鸢尾花的萼片长度（Sepal_Length）均值，萼片宽度（Sepal_Width）均值，花瓣长度（Petal_Length）均值和花瓣宽度（Petal_Width）的均值：

In [37]:
iris_grouped <- group_by(iris, Species)
iris_grouped_summarised <- summarise_all(iris_grouped, funs(mean))
print(iris_grouped_summarised)

# A tibble: 3 x 5
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
      <fctr>        <dbl>       <dbl>        <dbl>       <dbl>
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026


dplyr提供了一种类似“管道”（Pipeline）功能的新语法，及操作符“`%>%`”。“`%>%`”可以将前面 的对象所谓第一个参数传递到后面的函数中去，例如：`x %>% f(y)`相当于`f(x, y)`。利用dplyr中的“`%>%`”操作符可以进一步改写成管道命令样式：

In [38]:
iris %>%
    group_by(Species) %>%
    summarise_all(funs(mean)) %>%
    print

# A tibble: 3 x 5
     Species Sepal.Length Sepal.Width Petal.Length Petal.Width
      <fctr>        <dbl>       <dbl>        <dbl>       <dbl>
1     setosa        5.006       3.428        1.462       0.246
2 versicolor        5.936       2.770        4.260       1.326
3  virginica        6.588       2.974        5.552       2.026


### 关联

```
xxx_join(x, y, by = NULL, copy = FALSE, ...)
```

dplyr提供了6中数据关联的方法，xxx_join及其对应的含义如下所示：

- `left_join` 左关联（保留x表数据，尽量关联y表数据）
- `right_join` 右关联（保留y表数据，尽量关联x表数据）
- `inner_join` 内关联（仅保留完全匹配项）
- `full_join` 外关联（保留x表和y表中所有数据项）
- `semi_join` 半关联（均在x表和y表中x表数据项）
- `anti_join` 反关联（在x表中，但不在y表中x表数据项）

In [39]:
nationality <- tibble(
    Name = c('Leo', 'Tom', 'John'),
    Nationality = c('China', 'America', 'England')
)
gender <- tibble(
    Name = c('Leo', 'Tom', 'Tracy'),
    Gender = as.factor(c('Male', 'Male', 'Female'))
)
print(nationality)
print(gender)

# A tibble: 3 x 2
   Name Nationality
  <chr>       <chr>
1   Leo       China
2   Tom     America
3  John     England
# A tibble: 3 x 2
   Name Gender
  <chr> <fctr>
1   Leo   Male
2   Tom   Male
3 Tracy Female


In [40]:
left_join(nationality, gender, by='Name') %>% print

# A tibble: 3 x 3
   Name Nationality Gender
  <chr>       <chr> <fctr>
1   Leo       China   Male
2   Tom     America   Male
3  John     England   <NA>


In [41]:
right_join(nationality, gender, by='Name') %>% print

# A tibble: 3 x 3
   Name Nationality Gender
  <chr>       <chr> <fctr>
1   Leo       China   Male
2   Tom     America   Male
3 Tracy        <NA> Female


In [42]:
inner_join(nationality, gender, by='Name') %>% print

# A tibble: 2 x 3
   Name Nationality Gender
  <chr>       <chr> <fctr>
1   Leo       China   Male
2   Tom     America   Male


In [43]:
full_join(nationality, gender, by='Name') %>% print

# A tibble: 4 x 3
   Name Nationality Gender
  <chr>       <chr> <fctr>
1   Leo       China   Male
2   Tom     America   Male
3  John     England   <NA>
4 Tracy        <NA> Female


In [44]:
semi_join(nationality, gender, by='Name') %>% print

# A tibble: 2 x 2
   Name Nationality
  <chr>       <chr>
1   Leo       China
2   Tom     America


In [45]:
anti_join(nationality, gender, by='Name') %>% print

# A tibble: 1 x 2
   Name Nationality
  <chr>       <chr>
1  John     England


### 集合操作

dplyr提供了3种集合操作函数，分别是交集，并集和差集：

```
intersect(x, y, ...)
union(x, y, ...)
setdiff(x, y, ...)
```

In [46]:
nationality_1 <- tibble(
    Name = c('Leo', 'Tom', 'John'),
    Nationality = c('China', 'America', 'England')
)
nationality_2 <- tibble(
    Name = c('Tom', 'John', 'Tracy'),
    Nationality = c('America', 'England', 'America')
)
print(nationality_1)
print(nationality_2)

# A tibble: 3 x 2
   Name Nationality
  <chr>       <chr>
1   Leo       China
2   Tom     America
3  John     England
# A tibble: 3 x 2
   Name Nationality
  <chr>       <chr>
1   Tom     America
2  John     England
3 Tracy     America


In [47]:
intersect(nationality_1, nationality_2) %>% print

# A tibble: 2 x 2
   Name Nationality
  <chr>       <chr>
1   Tom     America
2  John     England


In [48]:
union(nationality_1, nationality_2) %>% print

# A tibble: 4 x 2
   Name Nationality
  <chr>       <chr>
1 Tracy     America
2  John     England
3   Tom     America
4   Leo       China


In [49]:
setdiff(nationality_1, nationality_2) %>% print

# A tibble: 1 x 2
   Name Nationality
  <chr>       <chr>
1   Leo       China


### 捆绑

dplyr提供了数据集按行捆绑和按列捆绑的函数：`bind_rows()`和`bind_cols()`。

In [50]:
bind_rows(nationality_1, nationality_2) %>% print

# A tibble: 6 x 2
   Name Nationality
  <chr>       <chr>
1   Leo       China
2   Tom     America
3  John     England
4   Tom     America
5  John     England
6 Tracy     America


In [51]:
bind_cols(nationality_1, nationality_2) %>% print

# A tibble: 3 x 4
   Name Nationality Name1 Nationality1
  <chr>       <chr> <chr>        <chr>
1   Leo       China   Tom      America
2   Tom     America  John      England
3  John     England Tracy      America


### 数据重组

数据的原始格式往往不一定适用后续的操作，例如：原始数据包含不同类型的多列数据，但在进行某些操作时（例如绘图），往往需要将多列数据汇集成行，有些时候则需要逆向的装换。tidyr提供了由列转行和由行转列的两个函数，分别为：

```
gather(data, key, value, ..., na.rm = FALSE, convert = FALSE)
spread(data, key, value, fill = NA, convert = FALSE, drop = TRUE)
```

对于由列转行函数gather()，data表示待处理数据；key和value表示新生成数据集新的列名；...表示选取那些列进行转换，支持dplyr的select()语法；na.rm表示是否删除value列为NA的数据；convert表示是否对key列自动应用type.convert()函数。

In [52]:
stocks <- tibble(
    time = as.Date('2016-01-01') + 0:1,
    x = rnorm(2, 0, 1),
    y = rnorm(2, 0, 2),
    z = rnorm(2, 0, 4))
print(stocks)

“unknown timezone 'default/Asia/Shanghai'”

# A tibble: 2 x 4
        time          x         y         z
      <date>      <dbl>     <dbl>     <dbl>
1 2016-01-01 -0.6344844 -3.274426 -1.654253
2 2016-01-02  0.4306258 -3.143939  6.385287


In [53]:
stock_gathered <- gather(stocks, name, price, -time)
print(stock_gathered)

# A tibble: 6 x 3
        time  name      price
      <date> <chr>      <dbl>
1 2016-01-01     x -0.6344844
2 2016-01-02     x  0.4306258
3 2016-01-01     y -3.2744258
4 2016-01-02     y -3.1439392
5 2016-01-01     z -1.6542528
6 2016-01-02     z  6.3852866


对于由行转列函数spread()函数，data表示待处理数据；key表示用于展开的列；value表示用于填充数据值的列；fill为当转换后无对应位置数据值填充的数据；convert表示是否对新生成的列自动应用type.convert()函数；drop如果为FALSE，将会保留数据中未出现的因子水平。

In [54]:
spread(stock_gathered, name, price) %>% print

# A tibble: 2 x 4
        time          x         y         z
*     <date>      <dbl>     <dbl>     <dbl>
1 2016-01-01 -0.6344844 -3.274426 -1.654253
2 2016-01-02  0.4306258 -3.143939  6.385287


In [55]:
spread(stock_gathered, time, price) %>% print

# A tibble: 3 x 3
   name `2016-01-01` `2016-01-02`
* <chr>        <dbl>        <dbl>
1     x   -0.6344844    0.4306258
2     y   -3.2744258   -3.1439392
3     z   -1.6542528    6.3852866


tidyr还提供了列分解和合并的函数，分别为：

```
separate(data, col, into, sep = "[^[:alnum:]]+", remove = TRUE, convert = FALSE, extra = "error", ...)
unite(data, col, ..., sep = "_", remove = TRUE)
```

对于separate()函数，data表示待处理的数据；col为分解的列；into为分解后的列；sep为分解时使用的分隔符；remove表示是否从结果中删除原始的列；convert表示是否对新生成的列自动应用type.convert()函数；extra表示当分解后的个数与into的长度不同时的处理方式，如果为“error”则会报错，如果为“drop”则会补全不足的部分或删除多余的部分，如果为“merge”则至多会分割into长度的次数，即多余部分会补充到最后一个中。

In [56]:
days <- tibble(
    date = as.Date('2016-01-01') + 0:2
)
print(days)

# A tibble: 3 x 1
        date
      <date>
1 2016-01-01
2 2016-01-02
3 2016-01-03


In [57]:
days_sep <- separate(days, date, c('year', 'month', 'day'))
print(days_sep)

# A tibble: 3 x 3
   year month   day
* <chr> <chr> <chr>
1  2016    01    01
2  2016    01    02
3  2016    01    03


In [58]:
kvs <- tibble(
    kv = c("x:123", "y:error:7")
)
print(kvs)

# A tibble: 2 x 1
         kv
      <chr>
1     x:123
2 y:error:7


In [59]:
kvs %>% separate(kv, c('key', 'value'), ':', extra='warn') %>% print

“Too many values at 1 locations: 2”

# A tibble: 2 x 2
    key value
* <chr> <chr>
1     x   123
2     y error


In [60]:
kvs %>% separate(kv, c('key', 'value'), ':', extra='drop') %>% print

# A tibble: 2 x 2
    key value
* <chr> <chr>
1     x   123
2     y error


In [61]:
kvs %>% separate(kv, c('key', 'value'), ':', extra='merge') %>% print

# A tibble: 2 x 2
    key   value
* <chr>   <chr>
1     x     123
2     y error:7


对于unite()函数，data表示待处理数据；col为合并后的列；...为待合并的列，支持dplyr的select()语法；sep为合并时的连接符；remove表示是否从结果中删除原始的列。

In [62]:
days_sep %>% unite(date, year, month, day, sep='-') %>% print

# A tibble: 3 x 1
        date
*      <chr>
1 2016-01-01
2 2016-01-02
3 2016-01-03


### 数据衍生

数据衍生是指根据目前已有的数据列，按照一定的规则构造出新的数据列的过程。dplyr提供了两种用于数据衍生的函数mutate()和transmute()。

```
mutate(.data, ...)
transmute(.data, ...)
```

mutate()函数会保留原始的数据列而transmute()函数不会，其中.data为待处理数据；...为衍生的新数据列。示例如下：

In [63]:
mutate(iris, Sepal.Diff=Sepal.Length-Sepal.Width) %>% print

    Sepal.Length Sepal.Width Petal.Length Petal.Width    Species Sepal.Diff
1            5.1         3.5          1.4         0.2     setosa        1.6
2            4.9         3.0          1.4         0.2     setosa        1.9
3            4.7         3.2          1.3         0.2     setosa        1.5
4            4.6         3.1          1.5         0.2     setosa        1.5
5            5.0         3.6          1.4         0.2     setosa        1.4
 [ reached getOption("max.print") -- omitted 145 rows ]


In [64]:
transmute(iris, Sepal.Diff=Sepal.Length-Sepal.Width) %>% print

    Sepal.Diff
1          1.6
2          1.9
3          1.5
4          1.5
5          1.4
6          1.5
7          1.2
8          1.6
9          1.5
10         1.8
11         1.7
12         1.4
13         1.8
14         1.3
15         1.8
16         1.3
17         1.5
18         1.6
19         1.9
20         1.3
21         2.0
22         1.4
23         1.0
24         1.8
25         1.4
26         2.0
27         1.6
28         1.7
29         1.8
30         1.5
 [ reached getOption("max.print") -- omitted 120 rows ]


## apply函数族及其扩展

### apply函数族

apply函数可以对矩阵或数组按照行或列进行运算，更一般而言，可以对多维数据的任意几个维度进行运算。apply函数的定义如下：

```
apply(X, MARGIN, FUN, ...)
```

其中X是一个矩阵或数组；MARGIN为进行运算的维度，1表示按行，2表示按列，c(1, 2)表示同时按行和按列，如果数据的各个维度有名称亦可以用名称；FUN为进行运算的函数；...为传递给FUN的可选参数。

In [65]:
m <- matrix(1:12, 4, 3)
print(m)

     [,1] [,2] [,3]
[1,]    1    5    9
[2,]    2    6   10
[3,]    3    7   11
[4,]    4    8   12


In [66]:
apply(m, 1, mean) %>% print

[1] 5 6 7 8


In [67]:
apply(m, 2, mean) %>% print

[1]  2.5  6.5 10.5


lapply函数是对列表的每个元素进行运算，并返回运算后的结果。lapply函数定义如下：

```
lapply(X, FUN, ...)
```

In [68]:
lst <- list(num=c(1, 1, 2, 3, 3, 4),
           txt=c('a', 'a', 'b'),
           logic=c(T, F, T, F))
print(lst)

$num
[1] 1 1 2 3 3 4

$txt
[1] "a" "a" "b"

$logic
[1]  TRUE FALSE  TRUE FALSE



In [69]:
lapply(lst, table) %>% print

$num

1 2 3 4 
2 1 2 1 

$txt

a b 
2 1 

$logic

FALSE  TRUE 
    2     2 



sapply函数可以理解为一个更加友好版本的lapply，sapply也是对列表的每个元素进行运算，并返回运算后的结果。但根据返回结果的长度不同，sapply函数返回结果的类型也不同。如果对列表的每个元素计算返回的结果长度均为1，则sapply函数返回一个向量；如果对列表的每个元素计算返回的结果长度相同但大于1，则sapply函数返回一个矩阵；否则返回和lapply一样的列表。

In [70]:
lst <- list(temperature=c(19, 20, 22, 18, 26, 30, 26, 23, 26, 21),
           humidity=c(0.75, 0.80, 0.92, 0.62, 0.77, 0.56, 0.66, 0.67, 0.59, 0.78))
print(lst)

$temperature
 [1] 19 20 22 18 26 30 26 23 26 21

$humidity
 [1] 0.75 0.80 0.92 0.62 0.77 0.56 0.66 0.67 0.59 0.78



In [71]:
sapply(lst, mean) %>% print

temperature    humidity 
     23.100       0.712 


In [72]:
sapply(lst, quantile) %>% print

     temperature humidity
0%         18.00   0.5600
25%        20.25   0.6300
50%        22.50   0.7100
75%        26.00   0.7775
100%       30.00   0.9200


tapply函数主要用于分组统计，可以将一个函数应用到特定的分组组合。tapply函数定义如下：

```
tapply(X, INDEX, FUN = NULL, ..., simplify = TRUE)
```

其中X通常为一个向量；INDEX为一个list，list中的每个元素和X具有相同的长度；FUN为应用的函数；simplify表示是否简化结果，如果为TRUE，则返回一个数组，如果为FALSE，则返回一个列表。

In [73]:
print(cars)

   speed dist
1      4    2
2      4   10
3      7    4
4      7   22
5      8   16
6      9   10
7     10   18
8     10   26
9     10   34
10    11   17
11    11   28
12    12   14
13    12   20
14    12   24
15    12   28
 [ reached getOption("max.print") -- omitted 35 rows ]


In [74]:
with(cars, tapply(dist, speed, mean)) %>% print

       4        7        8        9       10       11       12       13       14       15       16 
 6.00000 13.00000 16.00000 10.00000 26.00000 22.50000 21.50000 35.00000 50.50000 33.33333 36.00000 
      17       18       19       20       22       23       24       25 
40.66667 64.50000 50.00000 50.40000 66.00000 54.00000 93.75000 85.00000 


mapply函数是对一个函数，利用指定的参数集合进行计算。mapply函数的定义如下：

```
mapply(FUN, ..., MoreArgs = NULL, SIMPLIFY = TRUE, USE.NAMES = TRUE)
```

其中FUN为应用的函数；...为指定的参数集合；SIMPLIFY和tapply中的含义下同；USE.NAME为一个逻辑值参数，当...参数集合中的第一个参数具有名称或是一个字符向量时，则利用字符向量作为结果的名称。

In [75]:
mapply(rep, 1:4, 1:4) %>% print

[[1]]
[1] 1

[[2]]
[1] 2 2

[[3]]
[1] 3 3 3

[[4]]
[1] 4 4 4 4



上面的示例表示分别执行了rep(1, 1)，rep(2, 2)，rep(3, 3)和rep(4, 4)。

## apply函数族扩展

根据作者Hadley Wickham的描述，plyr包的主要思想为“分割-处理-合并”（Split-Apply-Combine）。我们通过一个示例来概括plyr扩展包的功能，首先我们比较循环版本和apply版本。plyr扩展包中的ozone数据集包含了美国中部地区不同地点和月份的臭氧数据，ozone数据集为一个24x24x72的矩阵，其三个维度分别为经度（long），维度（lat）和时间（time）。我们需要分析不同经纬度地区臭氧数据和时间变化的关系。

先定义一些共用变量和函数：

In [76]:
library(MASS)
library(plyr)
library(plotly)

month <- ordered(rep(1:12, length = 72))

deseas_fun <- function(value) {
    rlm(value ~ month - 1, maxit=100) # Fit a linear model by robust regression using an M estimator.
}


Attaching package: ‘MASS’

The following object is masked from ‘package:dplyr’:

    select

--------------------------------------------------------------------------------------------------
You have loaded plyr after dplyr - this is likely to cause problems.
If you need functions from both plyr and dplyr, please load plyr first, then dplyr:
library(plyr); library(dplyr)
--------------------------------------------------------------------------------------------------

Attaching package: ‘plyr’

The following objects are masked from ‘package:dplyr’:

    arrange, count, desc, failwith, id, mutate, rename, summarise, summarize

Loading required package: ggplot2

Attaching package: ‘plotly’

The following object is masked from ‘package:ggplot2’:

    last_plot

The following objects are masked from ‘package:plyr’:

    arrange, mutate, rename, summarise

The following object is masked from ‘package:MASS’:

    select

The following object is masked from ‘package:stats’:

    filter

Th

循环版本的代码如下：

In [77]:
models <- as.list(rep(NA, 24 * 24))
dim(models) <- c(24, 24)

deseas <- array(NA, c(24, 24, 72))
dimnames(deseas) <- dimnames(ozone)

for (i in seq_len(24)) {
    for (j in seq_len(24)) {
        model <- deseas_fun(ozone[i, j, ])
        
        models[[i, j]] <- model
        deseas[i, j, ] <- resid(model)
    }
}

“'rlm' failed to converge in 100 steps”

apply版本的代码如下：

In [78]:
models <- apply(ozone, 1:2, deseas_fun)
resids_list <- lapply(models, resid)

resids <- unlist(resids_list)
dim(resids) <- c(72, 24, 24)
deseas <- aperm(resids, c(2, 3, 1))
dimnames(deseas) <- dimnames(ozone)

“'rlm' failed to converge in 100 steps”

plyr版本代码如下：

In [79]:
models <- alply(ozone, 1:2, deseas_fun)
deseas <- laply(models, resid)

“'rlm' failed to converge in 100 steps”

3种不同方法得到的结果一致，但从代码的简洁性上可以看出，利用plyr扩展包中的函数可以简洁高效的实现循环和系统apply函数族的功能。