# 循环函数

之前介绍的for,while 循环在交互式命令行操作时不够简洁，在R中有几种循环函数，通常 名字里都带有apply— 词

- lapply:用途，有一个对象列表，遍历这个对象列表，对列表的每个元素运用函数 
- sapply: 是lapply的一个变体，简化了lapply()的结果
- apply: 对数组进行行或列运算的函数，对矩阵和高维数组做总结 
- tapply:table apply()的缩写，将函数应用于向量的子集
- mapply: 是lapply的多变量版本
- split: 不对对象做任何操作，将对象分成子块，和lapply,sapply  结合使用

In [1]:
lapply


lapply有三个参数：     
(1)列表x,如果不是列表会强制转换成列表as.list,不成功则报错；      
(2)函数或者函数名；     
(3)其他参数可以传递给参数…,参数…传递给之前的函数    

内部真正的循环是通过C代码实现的

In [2]:
x <- list(a = 1:5, d = rnorm(100, 5))
lapply(x, mean)


In [3]:
x <- 1:3
lapply(x, runif) # 函数是为了生成一个指定范围内的随机数


In [1]:
x <- list(a = matrix(1:4, 2, 2), b = matrix(1:6, 3, 2))
x


0,1
1,3
2,4

0,1
1,4
2,5
3,6


现在要提取这两个矩阵的第一列，没有现成的函数


In [3]:
lapply(x, function(elt) elt[, 1])
# 这个函数在lapply() 之外是不存在的，被调用完后函数就消失了


## sapply
sapply会使lapply 的输出结果尽可能简化

- 结果是每个长度都是1的列表，会返回一个向量
- 结果是每个元素长度相同(>1)的列表，会返回一个矩阵 · 如果没办法简化会返回一个list

In [11]:
x <- list(a = 1:5, b = rnorm(10), c = rnorm(20, 1), d = rnorm(100, 5))
c <- sapply(x, mean)
class(c)
c[1]


## apply


apply函数可以把一个函数应用在一个数组的各个维度上，通常这个函数是匿名函数

- 通常的应用对象是矩阵的行或列(矩阵作为一个二维数据，是最常见的数组类型)
- 可以应用在一般的数组中，例如对一个数组取平均值
- 相较于通过for写循环并没有更快，只是输入变得更少(程序员都有手癌，输入越少越好)

In [13]:
formals(apply)
args(apply)


$X


$MARGIN


$FUN


$...


$simplify
[1] TRUE


- X  是一个数组，FUN是应用的函数，.是传递给FUN的其他参数 
- MARGIN  是一个整数向量，指定哪个边界保留

In [14]:
x <- matrix(rnorm(200), 20, 10)
x


0,1,2,3,4,5,6,7,8,9
-0.75044377,-0.1481226,1.11865229,0.91890282,-1.774251,-0.49540156,1.505212,0.3486123,1.1700281,0.03670444
1.35901413,1.0550749,0.04693773,1.64258594,0.1721222,1.40639568,-0.1327186,-0.4356912,-1.05535475,-0.28529796
-0.359726806,-1.53050659,0.53091208,0.78411284,0.165305,-0.42871182,1.732523,-0.3874696,1.45849915,0.04673594
-0.552585661,-1.82646436,-0.57977089,0.16089673,1.6339168,-2.05519444,1.2472336,-1.0276728,0.22267111,-0.72884494
0.904068031,0.97327607,1.20272962,-0.3240011,0.1355424,0.06078151,0.7082462,-0.3102925,-0.77121092,1.00551127
-0.453128764,1.08725801,1.46843386,0.01027674,-0.6191087,0.28428694,-1.2081039,0.4616329,1.99969975,0.75992217
1.104885068,1.09684234,-0.31562162,2.0123364,-0.3189496,0.51398819,0.6738578,-1.4839102,0.51816118,1.19514711
0.328022825,0.49360563,0.25410648,0.4638314,1.2194517,1.23623749,-0.3531716,-0.3517108,-1.05804777,-0.27804879
0.082926342,-0.12633183,-0.87497909,1.8783296,0.8493416,-1.53912408,0.6646752,-0.1665879,0.54849384,-0.56912546
1.201390338,0.04875842,-0.87559754,2.29889152,1.5479891,-1.81299839,1.6961357,0.3103861,0.83058788,0.16490102


In [15]:
apply(x, 2, mean)


In [16]:
apply(x, 1, mean)


对于计算行列和或均值的简单操作，有经过优化的专用函数，可以快速实现这个功能，他 们比apply函数运行的更快，尤其矩阵较大时


- rowSums=apply(x,1,sum);
- rowMeans=apply(x,1,mean)
- colSums=apply(x,2,sum);
- colMeans=apply(x,2,mean)

In [19]:
rowSums <- apply(x, 1, sum)
rowSums


可以将apply应用在其他类型的函数上，如下求矩阵每行的分位点

In [20]:
x <- matrix(rnorm(200), 20, 10)

apply(x, 1, quantile, probs = c(0.25, 0.75))


0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20
25%,-0.4217534,-0.5782741,-0.6981699,-0.08665366,0.01468666,-0.7505648,-0.5035608,-0.6781861,-0.8681729,-0.6485682,0.1134815,-0.4744839,-1.264286,-1.2340914,-0.7510854,-0.5187255,-0.5936539,-0.5097892,-0.3362354,-0.9351328
75%,0.8272834,0.4293033,0.8801252,0.63079146,1.1394003,0.3061555,0.7990209,0.9944832,1.0052547,0.4446323,0.6515495,1.3611909,1.210864,-0.2767373,0.5108766,0.4964352,0.2089566,0.9916051,0.6679977,0.286074


这里创建了一个矩阵，每列就是对每行执行函数的结果

In [21]:
# 计算三维数列的均值矩阵

a <- array(rnorm(2 * 2 * 10), c(2, 2, 10))
apply(a, c(1, 2), mean)


0,1
-0.6913629,0.5888607
-0.1760432,0.5938643


In [22]:
rowMeans(a, dims = 2)


0,1
-0.6913629,0.5888607
-0.1760432,0.5938643


In [23]:
rowMeans(a, dims = 2)


0,1
-0.6913629,0.5888607
-0.1760432,0.5938643


## mapply


mapply 是lapply   和sapply 的多变量版本，即把一个函数并行的应用到一组不同的参数 上，可以把好几个列表作为参数

```R
str(mapply)
##function(FUN,...,MoreArgs =NULL,SIMPLIFY=TRUE,USE.NAMES =TRUE)
```
- FUN: 待应用的函数
- ..包含需要应用的所有参数，参数数量是可变的参数的数量，至少应该大于等于传递给 mapply 的列表的数量
- MoreArgs:   传递给函数的其他参数列表 
- SIMPLIFY: 指出结果是否需要简化

In [24]:
list(rep(1, 4), rep(2, 3), rep(3, 2), rep(4, 1))


In [25]:
mapply(rep, 1:4, 4:1)


将函数向量化，如下随机生成一些正态噪音

In [26]:
noise <- function(n, mean, sd) {
    rnorm(n, mean, sd)
}
noise(5, 1, 2)


In [27]:
list(noise(1, 1, 2), noise(2, 2, 2), noise(3, 3, 2))


In [30]:
mapply(noise, 1:5, 1:5, 2)


## tapply


tapply可以把一个函数应用在向量的子集上，即通过另一个变量或者对象对向量中各元素分组，对于每一组计算一个概要统计量
```R
str(tapply)
##function (X,INDEX,FUN=NULL,...,default =NA,simplify =TRUE)
```

- X  是一个数值类型或者其他类型的向量
- INDEX, 和第一个向量长度相同的因子或一列因子(会被强制转化为因子),指明第一个向量中的各元素属于哪一组 
- FUN 想要应用的函数
- ..传递进该函数的其他变量
- simplify   表明你是否想要简化结果

In [33]:
x <- c(rnorm(10), runif(10), rnorm(10, 1))
f <- gl(3, 10)
x
length(x)
f ## 使用gl  函数创建因子变量


In [34]:
tapply(x, f, mean)


In [35]:
tapply(x, f, range) # range 最大最小


##  split


tapply 根据分组应用函数，然后再整合输出，split不是循环函数，可以和sapply,lapply一起  使用
```
str(split)
##function(x,f,drop=FALSE,...)
```

- x  是一个向量或者数据框
- f   是一个因子变量(或者强制转换为因子变量)或者是一列分组变量，用来被指定分组的 水平
- drop 指明是否丢掉空的因子等级
split 总会返回一个列表，对列表操作可以用lapply() 或sapply()

In [37]:
x <- c(rnorm(10), runif(10), rnorm(10, 1))
f <- gl(3, 10)
split(x, f)


In [45]:
tt <- lapply(split(x, f), mean)
tt


In [46]:
library(datasets)
head(airquality, 3)


Unnamed: 0_level_0,Ozone,Solar.R,Wind,Temp,Month,Day
Unnamed: 0_level_1,<int>,<int>,<dbl>,<int>,<int>,<int>
1,41,190,7.4,67,5,1
2,36,118,8.0,72,5,2
3,12,149,12.6,74,5,3


In [69]:
s <- split(airquality, airquality$Month)
length(s)


In [72]:
msplitMean <- function(x) {
    print(class(x))
    colMeans(x[, c("Ozone", "Solar.R", "Wind")], na.rm = T)
}
lapply(
    s,
    msplitMean
)


[1] "data.frame"
[1] "data.frame"
[1] "data.frame"
[1] "data.frame"
[1] "data.frame"


split多个水平       
可能有多个因子，想要观察这些因子产生的不同水平的组合

In [75]:
x <- rnorm(10)
f1 <- gl(2, 5)
f2 <- gl(5, 2)
f1
f2


In [76]:
interaction(f1, f2)


interaction可能创建空水平，当使用split函数时，并不一定同时使用interaction函数，可 以直接传递一个包含两个因子的列表给split,会自动调用interction

In [78]:
list(f1, f2)


In [79]:
x


In [80]:
split(x, list(f1, f2))


In [81]:
str(split(x, list(f1, f2), drop = T))


List of 6
 $ 1.1: num [1:2] -0.382 -0.693
 $ 1.2: num [1:2] -0.2014 -0.0913
 $ 1.3: num 1.04
 $ 2.3: num 0.284
 $ 2.4: num [1:2] 1.812 -0.691
 $ 2.5: num [1:2] -0.595 1.417
