# Advanced R
---

## 数据结构

给定一个对象，知道它是由什么数据结构组成的最好办法就是使用str()。


### 向量

R中最基础的数据结构就是向量。它包括两种风格：

- 原子向量 - 所有元素必须是相同类型的数据

- 列表

它们共有3个共同性质属性

- 类型 - typeof()，它是什么

- 长度 - length()，它包含多少元素

- 属性 - attributes()，附加的任意元数据

> 使用is.atomic(x) || is.list(x)来判别一个对象是否为向量。


#### 原子向量

4种常见类型的原子向量

- 逻辑型(logical)
- 整型(integer)
- 双精度型(double)（通常又称为数值型(numeric)）
- 字符型(character)

通常使用c()来创建原子向量。原子向量总是被展开的，即使嵌套使用c()。

缺失值用NA代表，它是一个长度为1的逻辑向量

In [1]:
print(c(1, c(2, c(3, 4))))
print(c(1, 2, 3, 4))

# [1] 1 2 3 4
# [1] 1 2 3 4

[1] 1 2 3 4
[1] 1 2 3 4


**类型和测试**

给定一个向量，可以使用typeof()来确定它的类型，或者使用"is"函数来判断它是否为制定的类型。

- is.character()
- is.double()
- is.integer()
- is.logical()

或者更一般地

- is.atomic()

**强制转换**

当把不同类型的数据结合成一个向量时，它们会被强制转换成最具灵活性的数据类型。

用户也可以使用as.character()、as.double()、as.integer()或as.logical()来进行显式强制转换。


#### 列表

列表中的元素可以是任意类型。列表有时称为递归向量。

In [2]:
x <- list(list(list()))
str(x)
# List of 1
# $ :List of 1
#  ..$ : list()

print(is.recursive(x))
# [1] TRUE

List of 1
 $ :List of 1
  ..$ : list()
[1] TRUE


可以使用is.list()来判断列表，使用as.list()强制转换为列表，使用unlist()将列表转换为原子向量。数据框和线性模型对象（使用lm()构建）都是列表。

In [3]:
print(is.list(mtcars))
# [1] TRUE

[1] TRUE


### 属性

所有的对象都可以通过任意附加的属性来存储对象的元数据。可以通过attr()单独访问对象的每一个属性，也可以使用attributes()同时访问所有的属性。

In [4]:
y <- 1:10
attr(y, "my_attribute") <- "This is a vector"
print(attr(y, "my_attribute"))
# [1] "This is a vector"

str(attributes(y))
# List of 1
#  $ my_attribute: chr "This is a vector"

[1] "This is a vector"
List of 1
 $ my_attribute: chr "This is a vector"


structure()函数可以返回一个属性被修改了的新对象。默认情况下，当向量被修改后它的大多数属性都会丢失。但3个最重要的属性不会丢失：

- 名字 name
- 维度 dimension
- 类 class

In [5]:
print(y[1])
# [1] 1

print(attributes(y[1]))
# NULL

[1] 1
NULL


这些属性中的每一个都使用特定的存取函数来获取和设置。当使用这些属性时，使用names(x)、class(x)和dim(x)，而不是attr(x, "names")、attr(x, "class")和attr(x, "dim")。

**名字**

可以用3种方式来命名向量中的元素。

- 创建时命名
- 修改现有向量的名字
- 复制一个向量并修改它的名字

可以使用unname(x)来创建没有名字的新向量，或者使用names(x) <- NULL去掉向量中的名称。

In [6]:
# 创建时命名
x <- c(a = 1, b = 2, c = 3)

# 修改现有向量的名字
x <- 1:3
names(x) <- c("a", "b", "c")

# 复制一个向量并修改它的名字
x <- setNames(1:3, c("a", "b", "c"))

#### 因子

因子经常用来存储分类数据，它建立在整型向量的基础之上。它具有两个属性：class()和levels()。levels()定义因子中所有可能的取值。虽然因子看上去很像字符串向量，但它其实是整型。

在调用read.csv()函数时，对na.strings参数进行设置通常是一个好的方法。

In [7]:
x <- factor(c("a", "b", "b", "a"))
print(x)
# [1] a b b a
# Levels: a b

print(levels(x))
# [1] "a" "b"

[1] a b b a
Levels: a b
[1] "a" "b"


### 矩阵和数组

给一个原子向量添加dim()属性之后，它的行为就像多维数组（array）了。数组的一个特例就是矩阵（matrix），它是二维的。

In [8]:
a <- matrix(1:6, ncol = 3, nrow = 2)
print(a)
#      [,1] [,2] [,3]
# [1,]    1    3    5
# [2,]    2    4    6

c <- 1:6
dim(c) <- c(3, 2)
print(c)
#      [,1] [,2]
# [1,]    1    4
# [2,]    2    5
# [3,]    3    6

     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
     [,1] [,2]
[1,]    1    4
[2,]    2    5
[3,]    3    6


length()和names()具有高维普适性。

- 对矩阵来说，length()返回矩阵元素个数，dim()返回矩阵维度（相当于nrow()和ncol()）

- 对矩阵来说，names()相当于rownames()和colnames()；对数组来说，相当于dimnames()

In [9]:
print(length(a))
# [1] 6

print(dim(a))
# [1] 2 3

print(nrow(a))
# [1] 2

print(ncol(a))
# [1] 3

print(names(a))
# NULL

[1] 6
[1] 2 3
[1] 2
[1] 3
NULL


### 数据框

#### 数据框构建

使用data.frame()来构建数据框。注意的是，data.frame()的默认行为是把字符串转换为因子，使用参数stringAsFactors=FALSE来禁止这种转换。

In [10]:
df <- data.frame(
    x = 1:3,
    y = c("a", "b", "c"),
    stringsAsFactors = FALSE
)
str(df)
# 'data.frame':	3 obs. of  2 variables:
#  $ x: int  1 2 3
#  $ y: chr  "a" "b" "c"

'data.frame':	3 obs. of  2 variables:
 $ x: int  1 2 3
 $ y: chr  "a" "b" "c"


#### 类型判断与强制转换

要判断一个对象是不是数据框，可以使用class()，或者直接使用is.data.frame()。

In [11]:
print(typeof(df))
# [1] "list"

print(class(df))
# [1] "data.frame"

print(is.data.frame(df))
# [1] TRUE

[1] "list"
[1] "data.frame"
[1] TRUE


#### 合并数据框

可以使用cbind()和rbind()对数据框进行合并。经常犯的一个错误就是使用cbind()将向量合并到一起来创建数据框，这是没用的，因为cbind()将创建一个矩阵，除非其中一个参数本身就是数据框。

#### 特殊列

数据框也可能有一列是由列表构成的，但是直接用data.frame()创建时会出错，可以使用I()来避免这种错误。

In [12]:
df <- data.frame(x = 1:3)
df$y <- list(1:2, 1:3, 1:4)
print(df)
#   x          y
# 1 1       1, 2
# 2 2    1, 2, 3
# 3 3 1, 2, 3, 4

df1 <- data.frame(x = 1:3, y = I(list(1:2, 1:3, 1:4)))
print(df1)
#   x          y
# 1 1       1, 2
# 2 2    1, 2, 3
# 3 3 1, 2, 3, 4

  x          y
1 1       1, 2
2 2    1, 2, 3
3 3 1, 2, 3, 4
  x          y
1 1       1, 2
2 2    1, 2, 3
3 3 1, 2, 3, 4


## 子集选取

### 数据类型

#### 原子向量

- 正整数返回指定位置上的元素

- 负整数不包括指定位置上的元素

- 逻辑向量只选择对应于逻辑向量的相应位置为TRUE的位置

- 空索引返回原始向量

- 0（Zero）返回长度为0的向量

- 字符串向量返回与索引中的名字相匹配的元素

In [13]:
x <- c(2.1, 4.2, 3.3, 5.4)
# [1] 2.1 4.2 3.3 5.4

print(x[c(1, 3)])
# [1] 2.1 3.3

print(x[-c(1, 3)])
# [1] 4.2 5.4

print(x[x > 3])
# [1] 4.2 3.3 5.4

print(x[])
# [1] 2.1 4.2 3.3 5.4

print(x[0])
# numeric(0)

(y <- setNames(x, letters[1:4]))
#   a   b   c   d 
# 2.1 4.2 3.3 5.4
print(y[c("a", "a", "a")])
#   a   a   a 
# 2.1 2.1 2.1 

[1] 2.1 3.3
[1] 4.2 5.4
[1] 4.2 3.3 5.4
[1] 2.1 4.2 3.3 5.4
numeric(0)


  a   a   a 
2.1 2.1 2.1 


#### 列表

使用 \[ 总是返回列表，使用\[\[ 和 $，可以取出列表中的元素

#### 矩阵和数组

可以使用3种方法从高维数据结构中选取子集

- 使用多个向量 - 对一维选取方法进行泛化：为每一维数据给出一个一维索引，用逗号隔开，如果某一维的索引为空，说明要保留这一维的所有数据

- 使用单个向量

- 使用矩阵

默认情况下，\[ 将结果简化到尽可能低的维度

In [14]:
a <- matrix(1:9, nrow = 3)
colnames(a) <- c("A", "B", "C")
print(a[1:2, ])
#      A B C
# [1,] 1 4 7
# [2,] 2 5 8

vals <- outer(1:5, 1:5, FUN = "paste", sep = ",")
select <- matrix(ncol = 2, byrow = TRUE, c(
    1, 1,
    3, 1,
    2, 4
))
print(vals[select])
# [1] "1,1" "3,1" "2,4"

     A B C
[1,] 1 4 7
[2,] 2 5 8
[1] "1,1" "3,1" "2,4"


#### S4对象

如果要从S4对象选取子集，还需要另外两个运算符：@（等价于\$）和slot()（等价于\[\[）

### 子集选取运算符

\[\[ 和 \[ 类似，但它只能返回一个值，并可以让你取出列表的内容。 $运算符与选定的字符串一起就成为\[\[的简写。

当处理列表时应该使用\[\[。这是因为当 \[ 应用于列表时，它总是返回一个列表，它永远不会返回列表的内容。

由于数据框是由列构成的列表，所以可以使用 \[\[ 提取一列：mtcars[[1]], mtcars[["cyl"]]。

In [15]:
a <- list(a = 1, b =2)
print(a[1])
# $a
# [1] 1

print(a[[1]])
# [1] 1

$a
[1] 1

[1] 1


#### 简化和保留

在子集选取时，我们一定要注意最后的子集是不是还保持这原有的数据结构，这一点非常重要。对于不同的数据类型，如何在简化和保留之间进行转换也是不同的。

- 向量 - 简化：x[[1]]， 保留：x[1]

- 列表 - 简化：x[[1]]， 保留：x[1]

- 因子 - 简化：x[1:4, drop = T]， 保留：x[1:4]

- 数组 - 简化：x[1, ] 或 x[ , 1]， 保留：x[1, , drop = F] 或 x[ , 1, drop = F]

- 数据框 - 简化：x[ , 1] 或 x[[1]]， 保留：x[ , 1, drop = F] 或 x[1]

In [16]:
# 原子向量：去除名字
x <- c(a = 1, b = 2)
print(x[1])
# a 
# 1

print(x[[1]])
# [1] 1

# 列表：返回列表中的对象，而不是一个元素列表
y <- list(a = 1, b = 2)
str(y[1])
# List of 1
#  $ a: num 1

str(y[[1]])
#  num 1

# 因子：扔掉所有不用的水平
z <- factor(c("a", "b"))
print(z[1])
# [1] a
# Levels: a b

print(z[1, drop = TRUE])
# [1] a
# Levels: a

# 矩阵或者数组：抛弃所有长度为1的维度
a <- matrix(1:4, nrow = 2)
print(a[1, , drop = FALSE])
#      [,1] [,2]
# [1,]    1    3

print(a[1, ])
# [1] 1 3

# 数据框：如果输出仅有一列，返回一个向量而不是数据框
df <- data.frame(a = 1:2, b = 1:2)
str(df[1])
# 'data.frame':	2 obs. of  1 variable:
#  $ a: int  1 2

str(df[[1]])
# int [1:2] 1 2

str(df[, "a", drop = FALSE])
# 'data.frame':	2 obs. of  1 variable:
#  $ a: int  1 2

str(df[, "a"])
# int [1:2] 1 2

a 
1 
[1] 1
List of 1
 $ a: num 1
 num 1
[1] a
Levels: a b
[1] a
Levels: a
     [,1] [,2]
[1,]    1    3
[1] 1 3
'data.frame':	2 obs. of  1 variable:
 $ a: int  1 2
 int [1:2] 1 2
'data.frame':	2 obs. of  1 variable:
 $ a: int  1 2
 int [1:2] 1 2


#### \\$

\\$是一个简写运算符，这里x\\$y等价于x[["y", exact = FALSE]]。它经常用来访问数据框中的变量，例如mtcars\\$cyl。

\\$与\[\[之间有一点非常重要的不同。\\$是部分匹配。

In [17]:
x <- list(abc = 1)
print(x$a)
# [1] 1

print(x[["a"]])
# NULL

[1] 1
NULL


#### 缺失/超出索引边界

当索引越界时，\[ 和 \[\[ 的行为略有不同。

In [18]:
x <- 1:4
str(x[5])
# int NA

str(x[NULL])
# int(0)

str(x[[5]])
# Error in x[[5]]: 下标出界

str(x[[NULL]])
# Error in x[[NULL]]: attempt to select less than one element in get1index

 int NA
 int(0) 


ERROR: Error in x[[5]]: 下标出界


### 子集选取与赋值

所有的子集选取运算符可以和赋值结合在一起使用，从而修改输入向量的选定的值。

子集选取时使用空引号再结合赋值操作会比较有用，因为它会保持原有的对象类和数据结构。对比而言，第一个，mtcars仍然是数据框，第二个，mtcars就会变成列表。

对于列表，可以使用子集选取+赋值+NULL来去除列表中元素。使用 \[ 和list(NULL)在列表中添加合法的NULL。

In [19]:
x <- 1:5
x[c(1, 2)] <- 2:3
print(x)
# [1] 2 3 3 4 5

mtcars[] <- lapply(mtcars, as.integer)
mtcars <- lapply(mtcars, as.integer)

x <- list(a = 1, b = 2)
x[["b"]] <- NULL
str(x)
# List of 1
#  $ a: num 1

y <- list(a = 1)
y["b"] <- list(NULL)
str(y)
# List of 2
#  $ a: num 1
#  $ b: NULL

[1] 2 3 3 4 5
List of 1
 $ a: num 1
List of 2
 $ a: num 1
 $ b: NULL


#### 查询表（字符子集选取）

字符匹配为创建查询表提供了一个强大的方法。例如，你想将简写转换成全拼

In [20]:
x <- c("m", "f", "u", "f", "f", "m")
lookup <- c(m = "Male", f = "Female", u = NA)
print(lookup[x])
#        m        f        u        f        f        m 
#   "Male" "Female"       NA "Female" "Female"   "Male" 

print(unname(lookup[x]))
# [1] "Male"   "Female" NA       "Female" "Female" "Male"

       m        f        u        f        f        m 
  "Male" "Female"       NA "Female" "Female"   "Male" 
[1] "Male"   "Female" NA       "Female" "Female" "Male"  


#### 人工对比与合并（整数子集选取）

可以应用具有多个信息列的复杂查询表。假设有一个成绩向量，其取值为整数；还有一个表描述整数成绩的性质。从info表中查找与grades变量的取值相匹配的数据，从而把info表中相应于grades变量的每一个值的数据复制过来。有两种方法

- 使用match()和整数子集选取

- 使用rownames()和字符子集选取

In [21]:
grades <- c(1, 2, 2, 3, 1)
info <- data.frame(
    grade = 3:1,
    desc = c("Excellent", "Good", "Poor"),
    fail = c(F, F, T)
)

id <- match(grades, info$grade)
print(info[id, ])
#     grade      desc  fail
# 3       1      Poor  TRUE
# 2       2      Good FALSE
# 2.1     2      Good FALSE
# 1       3 Excellent FALSE
# 3.1     1      Poor  TRUE

rownames(info) <- info$grade
print(info[as.character(grades), ])
#     grade      desc  fail
# 3       1      Poor  TRUE
# 2       2      Good FALSE
# 2.1     2      Good FALSE
# 1       3 Excellent FALSE
# 3.1     1      Poor  TRUE

    grade      desc  fail
3       1      Poor  TRUE
2       2      Good FALSE
2.1     2      Good FALSE
1       3 Excellent FALSE
3.1     1      Poor  TRUE
    grade      desc  fail
1       1      Poor  TRUE
2       2      Good FALSE
2.1     2      Good FALSE
3       3 Excellent FALSE
1.1     1      Poor  TRUE


#### 随机样本/自助法（整数子集选取）

可以应用整数值索引来对向量或者数据框进行随机采用或者自助法抽样。函数sample()产生一个索引向量，然后用它为索引来提取相应的值。

In [22]:
df <- data.frame(x = rep(1:3, each = 2), y = 6:1, z = letters[1:6])

print(df[sample(nrow(df), 3),])
#   x y z
# 1 1 6 a
# 6 3 1 f
# 2 1 5 b

  x y z
6 3 1 f
4 2 3 d
3 2 4 c


#### 排序（整数子集选取）

order()以一个向量作为输入，返回一个用于描述其中子集向量排序顺序的整型向量。

In [2]:
x <- c("b", "c", "a")
print(order(x))
# [1] 3 1 2

print(x[order(x)])
# [1] "a" "b" "c"

[1] 3 1 2
[1] "a" "b" "c"


#### 展开重复记录(整数子集选取）

有时候得到的数据框是整理过的，其中相同的记录已经整合为一条记录，数据框增加一列来统计此条记录出现的次数。此时可以使用rep()来创建重复行的索引，再使用整数子集选取将这些整合的重复记录展开。

In [3]:
df <- data.frame(x = c(2, 4, 1), y = c(9, 11, 6), n = c(3, 5, 1))
print(rep(1:nrow(df), df$n))
# [1] 1 1 1 2 2 2 2 2 3

print(df[rep(1:nrow(df), df$n),])
#     x  y n
# 1   2  9 3
# 1.1 2  9 3
# 1.2 2  9 3
# 2   4 11 5
# 2.1 4 11 5
# 2.2 4 11 5
# 2.3 4 11 5
# 2.4 4 11 5
# 3   1  6 1

[1] 1 1 1 2 2 2 2 2 3
    x  y n
1   2  9 3
1.1 2  9 3
1.2 2  9 3
2   4 11 5
2.1 4 11 5
2.2 4 11 5
2.3 4 11 5
2.4 4 11 5
3   1  6 1


#### 剔除数据框中某些列（字符子集选取）

有两种方式从数据框中剔除列数据

- 可以把这些列分别设为NULL

- 可以进行子集选择只返回需要的列

In [5]:
df <- data.frame(x = 1:3, y = 3:1, z = letters[1:3])
df$z <- NULL

print(df)
#   x y
# 1 1 3
# 2 2 2
# 3 3 1

  x y
1 1 3
2 2 2
3 3 1


#### 根据条件选取行（逻辑子集选取）

要使用向量的布尔运算符&和|，而不是短路标量运算符$$和||。短路标量运算符在if语句中非常有用。

In [7]:
print(mtcars[mtcars$gear == 5 & mtcars$cyl == 4,])
#                mpg cyl  disp  hp drat    wt qsec vs am gear carb
# Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.7  0  1    5    2
# Lotus Europa  30.4   4  95.1 113 3.77 1.513 16.9  1  1    5    2

               mpg cyl  disp  hp drat    wt qsec vs am gear carb
Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.7  0  1    5    2
Lotus Europa  30.4   4  95.1 113 3.77 1.513 16.9  1  1    5    2


subset()是对数据框进行子集选取的专用简写函数。

In [11]:
print(subset(mtcars, gear == 5 & cyl == 4))
#                mpg cyl  disp  hp drat    wt qsec vs am gear carb
# Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.7  0  1    5    2
# Lotus Europa  30.4   4  95.1 113 3.77 1.513 16.9  1  1    5    2

               mpg cyl  disp  hp drat    wt qsec vs am gear carb
Porsche 914-2 26.0   4 120.3  91 4.43 2.140 16.7  0  1    5    2
Lotus Europa  30.4   4  95.1 113 3.77 1.513 16.9  1  1    5    2


#### 布尔代数与集合（逻辑和整数子集选取）

集合运算和布尔代数之间具有天然的对等性。which()函数可以将布尔表示转换成整数表示。

In [15]:
x <- sample(10) < 4
print(x)
# [1] FALSE FALSE FALSE FALSE FALSE  TRUE FALSE  TRUE  TRUE FALSE

print(which(x))
# [1] 6 8 9

 [1] FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE  TRUE
[1]  6  9 10


## 函数

### 函数组成部分

所有的R函数都包含3个部分

- body() - 函数的内部代码

- formals() - 控制如何调用函数的参数列表

- environment() - 函数变量位置的“地图”

可以使用body()、formals()和environment()的赋值形式对函数进行修改。

In [20]:
f <- function(x) x^2

print(formals(f))
# $x

print(body(f))
# x^2

print(environment(f))
# <environment: R_GlobalEnv>

$x


x^2
<environment: R_GlobalEnv>


#### 原函数

原函数使用.Primitive()直接调用C代码且不包含R代码，因此它们的formals()、body()和environment()都是NULL。

### 词法作用域

词法作用域是一组规则，它指引R如何找到一个符号的值。

R词法作用域实现的4个基本原则是

- 名字屏蔽

- 函数与变量

- 重新开始

- 动态查找

#### 名字屏蔽

如果名字不是在函数内部定义的，那么R就会到上一层进行查找。

In [22]:
j <- function(x) {
    y <- 2
    function() {
        c(x, y)
    }
}
k <- j(1)
print(k())
# [1] 1 2

[1] 1 2


#### 函数与变量

寻找函数与寻找变量的方法相同。

In [24]:
l <- function(x) x + 1
m <- function() {
    l <- function(x) x * 2
    l(10)
}
print(m())
# [1] 20

[1] 20


#### 重新开始

每次调用某个函数都会创建一个新的环境。一个函数不可能知道上次被调用时发生了什么；每次调用都是完全独立的。

#### 动态查找

当函数运行时，R查找这些值，而不是在函数创建时。这就意味着，依据环境中的对象函数的输出可能不同。

In [1]:
f <- function() x
x <- 15
f()

x <- 20
f()

通常情况下，你应该避免这种情况发生，因为这表示函数已经不是独立的。检查这个问题的一种方法是使用codetools包中findGlobals()函数。这个函数返回一个函数的所有外界依赖关系。

In [4]:
f <- function() x + 1
print(codetools::findGlobals(f))
# [1] "+" "x"

[1] "+" "x"


另一种尝试解决问题的方法是手动将函数的环境设置为emptyenv()。

In [6]:
environment(f) <- emptyenv()
f()
# Error in x + 1: 没有"+"这个函数

ERROR: Error in x + 1: 没有"+"这个函数


### 每个运算都是一次函数调用

R中的每个运算都是一次函数调用，不管它看上去是否像函数调用。所以可以对这些特殊函数的定义进行重写，但基本上可以肯定这是一个坏主意。

In [11]:
x <- 10; y <- 5
'+'(x, y)
# 15

print(sapply(1:5, "+", 3))
# [1] 4 5 6 7 8

x <- list(1:3, 4:9, 10:12)
print(sapply(x, "[", 2))
# [1]  2  5 11

[1] 4 5 6 7 8
[1]  2  5 11


### 函数参数

#### 函数调用

将实参映射到形参的方法的优先级是：首先将名字完全匹配的参数进行映射；再将前缀匹配的参数进行映射；最后是将位置匹配的参数进行映射。命名参数应该总是放在匿名参数的后面。

#### 使用参数列表来调用函数

要将参数列表发送给函数，需要使用do.call()。

In [14]:
args <- list(1:10, na.rm = TRUE)
do.call(mean, args)
# 5.5

mean(1:10, na.rm = TRUE)
# 5.5

#### 默认参数和缺失参数

R中的函数参数可以有默认值。由于R中的参数使用惰性求值，所以参数的默认值可以通过其他参数来定义。对于重要的参数，可以将其默认值设置为NULL，然后使用函数is.null()来检查这个参数是否被设置了。

In [16]:
g <- function(a = 1, b = a * 2){
    c(a, b)
}
print(g())
# [1] 1 2

[1] 1 2


#### 惰性求值

默认情况下，R函数的参数都是用惰性求值——它们只有在实际被用到时才会被求值。它在if语句中是很有用的——只有当第一个条件为真时，它后续的第二个语句才会被求值。

In [22]:
add <- function(x){
    function(y) x + y
}
adders <- lapply(1:10, add)
print(adders[[1]])
# function(y) x + y
# <environment: 0x00000000057acef8>

print(adders[[1]](10))
# [1] 11

print(adders[[2]](10))
# [1] 12

x <- NULL
if (!is.null(x) && x > 0){}

function(y) x + y
<environment: 0x0000000005ce8ee8>
[1] 11
[1] 12


从技术上讲，没有被求值的参数称为约定(promise)或者形式转换(thumk)。约定通常有两部分组成：

- 产生延迟计算的表达式

- 创建和计算表达式的环境

当第一次访问一个约定时，表达式将在创建它的环境中求值。将这个值缓存，所以后续对这个已经求值约定的访问不必重新计算该值。可以使用pryr::promise_info()找到更多关于约定的信息。

#### ...参数

这个参数将与所有没有匹配的参数进行匹配，并可以很容易地传递给其他函数。当如何想收集参数来调用其他函数，但又不想提前设定这些参数的名字时，这个特殊参数就很有用。

In [26]:
f <- function(...){
    names(list(...))
}
print(f(a = 1, b = 2))
# [1] "a" "b"

[1] "a" "b"


### 特殊调用

#### 中缀函数

R中的大多数函数都是“前缀”运算符：函数的名字在参数的前面。也可以创建中缀函数，使函数的名字排在参数的中间，例如+或-。所有用户创建的中缀函数必须以%开头，以%结尾。中缀函数的命名比普通的R函数更灵活，它可以包含任何字符。

In [29]:
"%+%" <- function(a, b) paste(a, b, sep = "")
print("new" %+% "string")
# [1] "newstring"

print("%+%"("new", "string"))
# [1] "newstring"

[1] "newstring"
[1] "newstring"


#### 替换函数

替换函数看上去就像对它们的参数进行原地修改，而且有一个特殊的名字“xxx<-”。虽然可以有多个参数，但通常情况下只有两个(x和value)，而且必须返回被修改的对象。例如，下面的函数允许你对一个向量的第二个值进行修改。

#### 返回值

在一个函数中最后一个被计算的表达式成为函数的返回值，也就是调用该函数的结果。如果出现提前返回时，应当显示地使用return()函数。

#### 退出时

当函数退出时可以使用on.exit()来触发其他事件。它经常用来确保全局状态的改变能够恢复原状。

## 面向对象编程指南

### 基础类型

所有R对象的底层都是一个用来描述这个对象如何在内存中存储的C结构体。此结构体包含这个对象的内容、内存分配信息以及类型（type）。这是R对象的基础类型。

### S3

S3是R的第一个也是最简单的OO系统。它是R基础包和统计包中唯一使用的OO系统，也是CRAN软件包中最常用的系统。

#### 认识对象、泛函函数和方法

检验一个对象是不是S3对象

- is.object(x) & !isS4(x) 确认x是对象但不是S4

- 使用pryr::otype()

In [3]:
library(pryr)

df <- data.frame(x = 1:10, y = letters[1:10])
print(otype(df))
# [1] "S3"

print(otype(df$x))
# [1] "base"

print(otype(df$y))
# [1] "S3"

[1] "S3"
[1] "base"
[1] "S3"


在S3中，方法属于函数，这个函数称为泛型函数（generic function）或者简称泛型。S3方法不属于对象或类。这与其他大多数编程语言都不同。

为了知道一个函数是不是S3泛型函数，可以查看它的源码，找到函数调用UseMethod()，这个函数指出调用的正确方法，也就是方法分派（method dispatch）的过程。pryr还提供了ftype()函数，如果有与函数相关联的对象系统，它可以描述该系统。

与sum()和cbind()类似，有些S3泛型函数不调用UseMethod()，因为它们用C语言实现。在C代码中执行方法分派的函数称为内部泛型（internal generics）。

假定有一个类，S3泛型函数的任务就是调用正确的S3方法，根据名字就可以认别S3方法，它们看上去像generic.class()。例如print()的因子方法调用print.factor()。这就是大多数现代风格指南不支持在函数名中使用“.”。

可以使用methods()来查看属于一个泛型函数的所有方法。

In [7]:
print(ftype(mean))
# [1] "s3"      "generic"

print(methods(mean))
# [1] mean.Date     mean.default  mean.difftime mean.POSIXct  mean.POSIXlt 
# [6] mean.quosure*
# see '?methods' for accessing help and source code

[1] "s3"      "generic"
[1] mean.Date     mean.default  mean.difftime mean.POSIXct  mean.POSIXlt 
[6] mean.quosure*
see '?methods' for accessing help and source code


#### 定义类和创建对象

在绝大多数面向对象编程语言环境中，都从正式定义类结构开始，然后还会对类中的每个元素进行限制。然而，S3实现了一种面向对象编程的懒惰形式，允许在没有正式定义类的情况下实例化新类（即创建实例）。

在创建时可以使用structure()，或者最后使用class<-()。

In [8]:
foo <- structure(list(), class = "foo")

foo <- list()
class(foo) <- "foo"

可以使用class(x)检查任意对象的属性，并可以使用inherits(x, "classname")来查看一个对象是否继承于一个特殊类。

In [11]:
print(class(foo))
# [1] "foo"

print(inherits(foo, "foo"))
# [1] TRUE

[1] "foo"
[1] TRUE


大多数S3类都提供了一个构造函数

In [12]:
foo <- function(x) {
    if (!is.numeric(x)) stop("X must be numeric")
    structure(list(x), class = "foo")
}

#### 创建新方法和泛型函数

为了添加一个新的泛型函数，创建一个调用UseMethod()的函数。UseMethod()有两个参数：泛型函数的名字和方法分派的参数。

In [14]:
f  <- function(x) UseMethod("f")

f.a <- function(x) "Class a"

a <- structure(list(), class = "a")
print(class(a))
# [1] "a"

print(f(a))
# [1] "Class a"

mean.a <- function(x) "a"
print(mean(a))
# [1] "a"

[1] "a"
[1] "Class a"
[1] "a"


#### 方法分派

UseMethod()创建一个由函数名构成的向量，类似于paste0("generic", ".", c(class(x), "default"))，并且按顺序依次查找。默认类使我们可以为其他未知类建立一个回滚方法。

In [19]:
f <- function(x) UseMethod("f")

f.a <- function(x) "Class a"
f.default <- function(x) "Unknown class"

print(f(structure(list(), class = "a")))
# [1] "Class a"

print(f(structure(list(), class = c("b", "a"))))
# [1] "Class a"

print(f(structure(list(), class = "c")))
# [1] "Unknown class"

[1] "Class a"
[1] "Class a"
[1] "Unknown class"


## 环境

### 环境基础

环境的作用就是将一些名字与一些值进行关联，或者绑定（bind）。可以把环境看作一个装满名字的口袋，每个名字都指向存储在内存中的一个对象。如果对象没有指向它的名字，那么这个对象就会被垃圾回收器自动删除。

每个环境都有父环境，它是另一个环境。如果一个名字在一个当前环境中没有找到，R就会到它的父环境中寻找（直到找到或者找遍所有环境）。只有空（empty）环境没有父环境。

4个特殊环境

- globalenv()，或者全局环境，它是一个交互式的工作空间。通常情况下我们就是在这个环境中工作。全局环境的父环境是由library()或require()添加的最后一个添加包。

- baseenv()，基础环境。它是R基础软件包的环境。它的父环境是空环境。

- emptyenv()，空环境。它是所有环境的祖先，也是唯一一个没有父环境的环境。

- environment()，它是当前环境。

search()可以列出全局环境的所有父环境，这称为搜索路径。你可以用as.environment()访问搜索列表中的任何环境。

In [23]:
print(search())
#  [1] ".GlobalEnv"        "package:pryr"      "jupyter:irkernel" 
#  [4] "jupyter:irkernel"  "package:stats"     "package:graphics" 
#  [7] "package:grDevices" "package:utils"     "package:datasets" 
# [10] "package:methods"   "Autoloads"         "package:base"

as.environment("package:pryr")
# <environment: package:pryr>
# attr(,"name")
# [1] "package:pryr"
# attr(,"path")
# [1] "C:/Users/glenz/Documents/R/win-library/3.6/pryr"

 [1] ".GlobalEnv"        "package:pryr"      "jupyter:irkernel" 
 [4] "jupyter:irkernel"  "package:stats"     "package:graphics" 
 [7] "package:grDevices" "package:utils"     "package:datasets" 
[10] "package:methods"   "Autoloads"         "package:base"     


<environment: package:pryr>
attr(,"name")
[1] "package:pryr"
attr(,"path")
[1] "C:/Users/glenz/Documents/R/win-library/3.6/pryr"

使用new.env()可以手动创建一个环境。使用ls()可以将此环境的对象框中的所有绑定关系列出来，可以使用parent.env()查看它的父环境。

In [27]:
e <- new.env()

e$a <- 1
e$b <- 2
e$.a <- 3
print(ls(e))
# [1] "a" "b"

print(ls(e, all.names = TRUE))
# [1] ".a" "a"  "b"

print(ls.str(e))
# a :  num 1
# b :  num 2

[1] "a" "b"
[1] ".a" "a"  "b" 
a :  num 1
b :  num 2


给定一个名字，可以使用$、[[或get()来获取与其绑定的值

- $和[[只在一个环境中进行查找，如果不存在就返回NULL

- get()使用普通的作用域法则，如果没有找到绑定它就会抛出一个错误

In [29]:
e$c <- 3
print(e[["c"]])
# [1] 3

print(get("c", envir=e))
# [1] 3

[1] 3
[1] 3


**删除对象**

从环境中删除对象与从列表中删除对象有些不同。在列表中可以通过将其设置为NULL来删除一个表项。而在环境中，这样做将创建一个对NULL的新绑定。因此，使用rm()来删除绑定。

In [31]:
e <- new.env()

e$a <- 1
print(ls(e))
# [1] "a"

rm("a", envir = e)
print(ls(e))
# character(0)

[1] "a"
character(0)


可以使用exists()来确定一个绑定是否存在。它的默认行为是按照普通的作用域法则在其父环境中查找。如果你不希望在父环境中查找，可以设置参数inherits = FALSE。

使用identical()而不是==对两个环境进行比较。

In [34]:
x <- 10
print(exists("x", envir = e))
# [1] TRUE

print(identical(globalenv(), environment()))
# [1] TRUE

[1] TRUE
[1] TRUE


### 环境递归

给定一个名字，pryr::where()就会使用R的作用域法则找到定义这个名字的环境。where()有两个参数：要查找的名字（一个字符串）；开始查找的环境。

In [38]:
library(pryr)

x <- 5
where("x")
# <environment: R_GlobalEnv>

<environment: R_GlobalEnv>

### 函数环境

大多数环境并不是通过new.env()创建的，而是使用函数的结果。4种与函数相关的环境

- 封闭

- 绑定

- 执行

- 调用

封闭（enclosing）环境就是创建函数的环境。每个函数有且仅有一个封闭环境。对于其他三种类型的环境，每个函数可以有0个、1个或多个相关联的环境

- 使用 <- 将一个函数与一个名字进行绑定，这样就可以定义一个绑定（binding）环境

- 调用函数创建一个临时执行（execution）环境，它用来存储执行期间创建的各种变量

- 每一个执行环境都与一个调用（calling）环境相关联，它说明函数在哪里调用

#### 封闭环境

当创建一个函数时，它就获得对创建它的环境的引用。这就是封闭环境（enclosing enviroment）。为了确定一个函数的封闭环境，只需要调用environment()，并将函数名作为第一个参数。

In [39]:
y <- 1
f <- function(x) x + y
print(environment(f))
# <environment: R_GlobalEnv>

<environment: R_GlobalEnv>


#### 绑定环境

如果在global环境中定义函数，那么封闭环境与绑定环境是相同的。但是，将一个函数分配给另一个不同的环境，那么他们就不同了。

In [1]:
e <- new.env()
e$g <- function() 1

封闭环境决定了这个函数如何找到值，而绑定环境空间决定如何找到函数。

软件包命名空间使软件包之间保持独立。例如，如果软件包A使用基础包中的mean()函数，那么如果软件包B也创建了它自己的mean()函数会有什么后果呢？命名空间确保软件包A能够继续使用基础包中的mean()函数而不受软件包B的影响。

命名空间使用环境来实现，利用函数不一定存在于它们自己的封闭环境中的事实。例如，基础包中的sd()函数，它的封闭环境与绑定环境是不同的。

In [6]:
library(pryr)

print(environment(sd))
# <environment: namespace:stats>

print(where("sd"))
# <environment: package:stats>

<environment: namespace:stats>
<environment: package:stats>
attr(,"name")
[1] "package:stats"
attr(,"path")
[1] "C:/Program Files/R/R-3.6.0/library/stats"


#### 执行环境

当在另一个函数中创建一个函数时，子函数的封闭环境就是父函数的执行环境，而且执行环境也不再是临时的。

#### 调用环境

在调用环境而不是封闭环境中查找变量称为动态作用域（dynamic scoping）。

In [7]:
h <- function() {
    x <- 10
    function() {
        x
    }
}

i <- h()
x <- 20
print(i())

[1] 10


### 绑定名字和数值

普通的赋值箭头 <- 总是在当前环境中创建一个变量。强制赋值箭头 <<- 不会在当前环境中创建变量，但是它修改父环境中已有的变量，它经常用在闭包中。也可以使用assign()来进行深度绑定。name <<- value就等价于assign("name", value, inherits = TRUE)。

另外还有两个特殊类型的绑定

- 延时绑定 - 不是立即把结果赋值给一个表达式，它创建和存储一个约定（promise），在需要时对约定中的表达式进行求值。用特殊的赋值运算符%<d-%来创建延时绑定。

- 主动绑定 - 不是绑定到常量对象。相反，每次对其进行访问时都要重新计算。用特殊的赋值符号%<a-%进行主动绑定。

In [9]:
x %<a-% runif(1)

print(x)
# [1] 0.220334
print(x)
# [1] 0.2674983

[1] 0.6150704
[1] 0.3442705


### 显式环境

环境也是一种很有用的数据结构，因此它们有引用语义。和R中的大多数对象不同，当你对环境进行修改时，R不会对其进行复制。

当你创建自己的环境时，应该将父环境设置为空环境。这样就可以确保不会从其他地方继承对象。

环境时解决下面3类常见问题的有用数据结构。

- 避免大数据的复制 - 在3.1.0版的R中，修改列表可以有效地重用已有的向量，能够节省许多时间。

- 管理一个软件包内部的状态

- 根据名字高效地查找与其绑定的值

## 调试、条件处理和防御性编程

### 调试工具

RStudio有3个主要的调试工具

- 错误查看器和traceback()，它列出导致错误的调用顺序

- "Rerun with Debug"工具和options(error = browser)，它在错误发生的地方打开一个交互式对话

- 断点和browser()，它可以在代码中的任意位置打开一个交互式对话

#### 确定调用顺序

第一个工具是调用栈（call stack），导致错误的调用顺序。

In [10]:
f <- function(a) g(a)
g <- function(b) h(b)
h <- function(c) i(c)
i <- function(d) "a" + d
f(10)

ERROR: Error in "a" + d: 二进列运算符中有非数值参数


在RStudio中可以看到错误消息的右侧有两个选项：“Show Traceback” 和“Rerun with Debug”。或者使用traceback()函数获得相同的信息。

#### 查看错误

打开交互式调试器的最简单方法就是单击“Rerun with Debug”。

#### 其他类型的故障

函数可能产生一个意想不到的警告。查找警告的最简单方法就是使用options(warn = 2)将其转变成错误，并再使用常规调试工具。

## 条件处理

在R中，有3个处理条件编程的工具

- try()允许我们在错误发生时继续执行代码

- tryCatch()可以让我们设置一个处理器（handler）函数

- withCallingHandlers()是tryCatch()的一个变体

### 使用try来忽略错误

try()允许我们在错误发生时继续执行代码。

In [12]:
f2 <- function(x) {
    try(log(x))
    10
}
f2("a")
# Error in log(x) : 数学函数中用了非数值参数
# 10

Error in log(x) : 数学函数中用了非数值参数


我们还可以捕获try()的输出。如果执行成果，返回值就是括号中代码块的最后结果。如果失败，返回值就是一个“try-error”类的（不可见的）对象。

In [15]:
success <- try(1 + 2)
failure <- try("a" + "b")
print(class(success))
# [1] "numeric"

print(class(failure))
# [1] "try-error"

Error in "a" + "b" : 二进列运算符中有非数值参数
[1] "numeric"
[1] "try-error"


当需要对一个列表中多个元素使用一个函数时，try()就相当有用。

In [18]:
elements <- list(1:10, c(-1, 10), c(T, F), letters)
results <- lapply(elements, function(x) try(log(x)))

"产生了NaNs"

Error in log(x) : 数学函数中用了非数值参数


没有内置函数可以检测try-error类，因此需要我们自己定义一个，然后就可以使用sapply()方便地找到错误的位置，并提取成功信息或者查找导致失败的输入。

In [19]:
is.error <- function(x) inherits(x, "try-error")
succeeded <- !sapply(results, is.error)

str(results[succeeded])
# List of 3
#  $ : num [1:10] 0 0.693 1.099 1.386 1.609 ...
#  $ : num [1:2] NaN 2.3
#  $ : num [1:2] 0 -Inf

List of 3
 $ : num [1:10] 0 0.693 1.099 1.386 1.609 ...
 $ : num [1:2] NaN 2.3
 $ : num [1:2] 0 -Inf


try()的另一种常用方法是在表达式失败时使用默认值。只需要在try代码块的外边进行简单的赋值，然后运行这个风险代码。还可以使用plyr::failwith()，它使这种策略更容易实施。

In [22]:
default <- NULL
try(default <- read.csv("possibly-bad-input.csv"), silent = TRUE)
print(default)
# NULL

"无法打开文件'possibly-bad-input.csv': No such file or directory"

NULL


#### 使用tryCatch()处理条件

使用tryCatch()是处理条件的一个通用工具：除了处理错误外，还可以对警告、消息和中断采取不同的行动。

In [26]:
show_condition <- function(code) {
    tryCatch(code, 
        error = function(c) "error",
        warning = function(c) "warning",
        message = function(c) "message"
    )
}

print(show_condition(stop("!")))
# [1] "error"

print(show_condition(warning("!")))
# [1] "warning"

print(show_condition(message("!")))
# [1] "message"

[1] "error"
[1] "message"
