**本章内容**

    数学和统计函数
    字符处理函数
    循环和条件执行
    自编函数
    数据整合与重塑

# 5.1 一个数据处理难题

# 5.2 数值和字符处理函数

## 5.2.1 数学函数

![数学函数.jpg](./image/数学函数.jpg)
![数学函数2.jpg](./image/数学函数2.jpg)

## 5.2.2 统计函数

![统计函数.jpg](./image/统计函数.jpg)

In [4]:
#均值和标准差的计算
x <- c(1,2,3,4,5,6,7,8)

#简洁的方式
mean(x)
sd(x)

#冗长的方式
n <- length(x)
meanx <- sum(x/n)
css <- sum((x - meanx)^2 )
sdx <- sqrt(css / (n-1))
meanx
sdx

Your code contains a unicode char which cannot be displayed in your
current locale and R will silently convert it to an escaped form when the
R kernel executes this code. This can lead to subtle errors if you use
such chars to do comparisons. For more information, please see
https://github.com/IRkernel/repr/wiki/Problems-with-unicode-on-windows

![数据的标准化.jpg](./image/数据的标准化.jpg)

## 5.2.3 概率函数

概率函数用来生成特征已知的模拟数据，以及在用户编写的统计函数中计算概率值。

在R中，概率函数形如 ：
    
    [dpqr]distribution_abbreviation()
    
其中第一个字母表示其所指分布的某一方面
       
    d = 密度函数（density）
    p = 分布函数（distribution function）
    q = 分位数函数（quantile function）
    r = 生成随机数（随机偏差）
    
![概率分布](./image/概率分布.jpg)
![正态函数.png](./image/正态函数.png)

### 1. 设定随机数种子

在每次生成伪随机数的时候，函数都会使用一个不同的种子，因此也会产生不同的结果。你
可以通过函数set.seed()显式指定这个种子，让结果可以重现（reproducible）。

In [3]:
#生成服从正态分布的伪随机数

runif(5)  #函数runif()用来生成0到1区间上服从均匀分布的伪随机数
runif(5)
set.seed(1234)  #通过函数set.seed()显式指定这个种子，让结果可以重现（reproducible）
runif(5)
set.seed(1234)
runif(5)

### 2. 生成多元正态数据

在模拟研究和蒙特卡洛方法中，你经常需要获取来自给定均值向量和协方差阵的多元正态分布的数据。

MASS包中的mvrnorm()函数可以让这个问题变得很容易。其调用格式为：

mvrnorm(n, mean, sigma)

n是你想要的样本大小，mean为均值向量，而sigma是方差协方差矩阵（或相关矩阵）

In [1]:
#生成服从多元正态分布的数据

#设定随机数种子
library(MASS)
options(digits=3)
set.seed(1234)

#指定均值向量、协方差阵
mean <- c(230.7, 146.7, 3.6)  
sigma <- matrix(c(15360.8, 6721.2, -47.1,
                  6721.2, 4700.9, -16.5,
                  -47.1, -16.5, 0.3), nrow=3, ncol=3)

#生成数据
mydata <- mvrnorm(500, mean, sigma)
mydata <- as.data.frame(mydata)
names(mydata) <- c("y","x1","x2")

#查看结果
dim(mydata)
head(mydata, n=10)

Your code contains a unicode char which cannot be displayed in your
current locale and R will silently convert it to an escaped form when the
R kernel executes this code. This can lead to subtle errors if you use
such chars to do comparisons. For more information, please see
https://github.com/IRkernel/repr/wiki/Problems-with-unicode-on-windows

y,x1,x2
98.8,41.3,3.43
244.5,205.2,3.8
375.7,186.7,2.51
-59.2,11.2,4.71
313.0,111.0,3.45
288.8,185.1,2.72
134.8,165.0,4.39
171.7,97.4,3.64
167.2,101.0,3.5
121.1,94.5,4.1


## 5.2.4 字符处理函数

数学和统计函数是用来处理数值型数据的，而字符处理函数可以从文本型数据中抽取信息，或者为打印输出和生成报告重设文本的格式。

![字符处理函数.png](./image/字符处理函数.png)

请注意，函数grep()、sub()和strsplit()能够搜索某个文本字符串（fixed=TRUE）或某个正则表达式（fixed=FALSE，默认值为FALSE）。正则表达式为文本模式的匹配提供了一套清晰而简练的语法。例如，正则表达式：

^[hc]?at

可匹配任意以0个或1个h或c开头、后接at的字符串。因此，此表达式可以匹配hat、cat和at，但不会匹配bat

## 5.2.5 其他实用函数

![其他实用函数.jpg](./image/其他实用函数.jpg)

## 5.2.6 将函数应用于矩阵和数据框

In [2]:
a <- 5
sqrt(a)

In [3]:
b <- c(1.243, 5.654, 2.99)
round(b)

In [4]:
c <- matrix(runif(12),nrow=3)
c

0,1,2,3
0.24018,0.86121,0.4297635,0.6598139
0.2199789,0.9544906,0.3065218,0.8959072
0.3555674,0.5063445,0.4496468,0.2061033


In [5]:
log(c)

0,1,2,3
-1.426367,-0.14941688,-0.8445203,-0.4157974
-1.514224,-0.04657748,-1.1824664,-0.1099184
-1.03404,-0.68053797,-0.7992929,-1.5793776


In [6]:
mean(c)  #这里求得是矩阵中全部12个元素的均值

R中提供了一个apply()函数，可将一个任意函数“应用”到矩阵、数组、数据框的任何维
度上。apply()函数的使用格式为：

apply(x, MARGIN, FUN, ...)

x为数据对象，MARGIN是维度的下标，FUN是由你指定的函数，而...则包括了任何想传递给FUN的参数。在矩阵或数据框中，MARGIN=1表示行，MARGIN=2表示列

In [7]:
#将一个函数应用到矩阵的所有行（列）
mydata <- matrix(rnorm(30), nrow=6)
mydata

0,1,2,3,4
-1.1929325,2.06834012,0.5828052,0.046283,1.396451602
-0.8901659,0.2652278,0.971725,1.298976,0.246375797
-1.147774,0.74370995,0.5889367,1.7164145,0.816634541
0.5858595,0.1537394,0.4904735,0.4711747,2.685357458
-0.4405302,0.02303565,1.5235336,-0.6414648,0.003724815
-0.884915,-0.0311679,-0.7894051,-1.2186322,-0.164809811


In [8]:
apply(mydata,1,mean) #计算每行的均值

In [9]:
apply(mydata,2,mean) #计算每列的均值

In [10]:
apply(mydata,2,mean, trim=0.2)  #计算每列的截尾均值，截尾均值基于中间60%的数据，最高和最低20%的值均被忽略

apply()是一种很强大的机制。apply()可把函数应用到数组的某个维度上，

lapply()和sapply()则可将函数应用到列表（list）上。


# 5.3 数据处理难题的一套解决方案

In [11]:
#将学生的各科考试成绩组合为单一的成绩衡量指标，基于相对名次（前20%、下20%、等等）给出从A到F的评分，根据学生姓氏和名字的首字母对花名册进行排序。

options(digits=2)  #原始的学生花名册已经给出了。options(digits=2)限定了输出小数点后数字的位数，并且让输出更容易阅读
Student <- c("John Davis", "Angela Williams", "Bullwinkle Moose","David Jones", 
             "Janice Markhammer", "Cheryl Cushing",
             "Reuven Ytzrhak", "Greg Knox", "Joel England","Mary Rayburn")
Math <- c(502, 600, 412, 358, 495, 512, 410, 625, 573, 522)
Science <- c(95, 99, 80, 82, 75, 85, 80, 95, 89, 86)
English <- c(25, 22, 18, 15, 20, 28, 15, 30, 27, 18)
roster <- data.frame(Student, Math, Science, English,
                     stringsAsFactors=FALSE)

z <- scale(roster[,2:4])
#由于数学、科学和英语考试的分值不同（均值和标准差相去甚远），在组合之前需要先让它们变得可以比较。一种方法是将变量进行标准化，这样每科考试的成绩就都是用单位标准差来表示，而不是以原始的尺度来表示了。这个过程可以使用scale()函数来实现

#计算综合得分
score <- apply(z, 1, mean)
roster <- cbind(roster, score)

#函数quantile()给出了学生综合得分的百分位数
y <- quantile(score, c(.8,.6,.4,.2))

#通过使用逻辑运算符，你可以将学生的百分位数排名重编码为一个新的类别型成绩变量。
roster$grade[score >= y[1]] <- "A"
roster$grade[score < y[1] & score >= y[2]] <- "B"
roster$grade[score < y[2] & score >= y[3]] <- "C"
roster$grade[score < y[3] & score >= y[4]] <- "D"
roster$grade[score < y[4]] <- "F"

#使用函数strsplit()以空格为界把学生姓名拆分为姓氏和名字
name <- strsplit((roster$Student), " ")

#使用函数sapply()提取列表中每个成分的第一个元素，放入一个储存名字的向量Firstname，并提取每个成分的第二个元素，放入一个储存姓氏的向量Lastname。
Lastname <- sapply(name, "[", 2)
Firstname <- sapply(name, "[", 1)
roster <- cbind(Firstname,Lastname, roster[,-1])

#可以使用函数order()依姓氏和名字对数据集进行排序
roster <- roster[order(Lastname,Firstname),]
roster

Unnamed: 0,Firstname,Lastname,Math,Science,English,score,grade
6,Cheryl,Cushing,512,85,28,0.35,C
1,John,Davis,502,95,25,0.56,B
9,Joel,England,573,89,27,0.7,B
4,David,Jones,358,82,15,-1.16,F
8,Greg,Knox,625,95,30,1.34,A
5,Janice,Markhammer,495,75,20,-0.63,D
3,Bullwinkle,Moose,412,80,18,-0.86,D
10,Mary,Rayburn,522,86,18,-0.18,C
2,Angela,Williams,600,99,22,0.92,A
7,Reuven,Ytzrhak,410,80,15,-1.05,F


# 5.4 控制流

## 5.4.1 重复和循环

### 1. for结构

In [12]:
for (i in 1:10) print("Hello")

[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"


### 2. while结构

#while循环重复地执行一个语句，直到条件不为真为止。语法为：

while (cond) statement

In [14]:
i <- 10
while (i > 0) {
    print("Hello"); 
    i <- i - 1}

[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"
[1] "Hello"


## 5.4.2 条件执行

### 1. if-else结构

控制结构if-else在某个给定条件为真时执行语句。也可以同时在条件为假时执行另外的语句。语法为：
    
if (cond) statement

if (cond) statement1 else statement2

### 2. ifelse结构

ifelse结构是if-else结构比较紧凑的向量化版本，其语法为：
    
ifelse(cond, statement1, statement2)

若cond为TRUE，则执行第一个语句；若cond为FALSE，则执行第二个语句。

### 3. switch结构

switch根据一个表达式的值选择语句执行。语法为：

switch(expr, ...)

其中的...表示与expr的各种可能输出值绑定的语句.

In [16]:
#一个switch示例

feelings <- c("sad", "afraid")
for (i in feelings)
    print(
        switch(i,
               happy = "I am glad you are happy",
               afraid = "There is nothing to fear",
               sad = "Cheer up",
               angry = "Calm down now"
              )
    )

[1] "Cheer up"
[1] "There is nothing to fear"


## 5.5 用户自编函数

一个函数的结构看起来大致如此：

In [17]:
#mystats()：一个由用户编写的描述性统计量计算函数

mystats <- function(x, parametric=TRUE, print=FALSE) {
    if (parametric) {
        center <- mean(x); spread <- sd(x)
    } else {
        center <- median(x); spread <- mad(x)
    }
    if (print & parametric) {
        cat("Mean=", center, "\n", "SD=", spread, "\n")
    } else if (
        print & !parametric) {
        cat("Median=", center, "\n", "MAD=", spread, "\n")
    }
    result <- list(center=center, spread=spread)
    return(result)
}


In [18]:
set.seed(1234)
x <- rnorm(500)
y <- mystats(x)
y