# R数据框

R里的数据框可以看成由多个向量组成，一列变量，就是一个向量，因为向量只能是一个属性，所以同理，数据框里一列变量也是只能是一个属性，即字符型或者数值型等等，这个跟SAS是一样的。

## 创建数据框

这里用kids和ages2个向量来组成了一个数据框，注意向量长度必须一致。

生成数据框用data.frame函数去生成，记得生成数据框的时候随手携手stringsAsFactors=FALSE，如果不对这个参数设定，生成数据框的字符型向量，将会转化为因子，在后续会影响数据框的排序，什么是因子后续再说，反正记得要对这个参数设定为FALSE。

In [None]:
kids <- c("Jack","Simon","Alice")
ages <- c(10,13,3)

data <- data.frame(kids,ages,stringsAsFactors=FALSE)
data

## 访问数据框

访问数据框某一列变量可以有四种形式，我们用R自带的iris数据框来举例子，我可以先用colnames函数来获得这个数据框的所有变量名


In [None]:
colnames(iris)

第一种是直接访问变量的位置

In [None]:
iris[[1]]

第二种是访问变量名字

In [None]:
iris[["Sepal.Length"]]

第三种是用$符号访问变量名字

In [None]:
iris$Sepal.Length

第四种是用切片的方式来访问

In [None]:
iris[,1]

我最多用的是$符号来访问数据框的变量，因为方便而且更安全，因为直接指向了变量名。

这里需要注意[方括号的个数，第一种和第二种有2个方括号，第四种只有1个。

这里还要注意，我们用这4种方式访问的变量都是以向量的形式返回给我们的,我们可以用is.vector来鉴证下是不是向量

In [None]:
is.vector(iris[[1]])
is.vector(iris[["Sepal.Length"]])
is.vector(iris$Sepal.Length)
is.vector(iris[,1])

<font color=#DC143C>特别注意</font>用一个[ ]和2个[ ]来访问数据框的区别,一个返回的是数据框，一个返回的是向量

In [None]:
is.data.frame(iris[1])
is.vector(iris[[1]])
print("一个方括号返回的是数据框")
head(iris[1],4)
print("两个方括号返回的是向量")
head(iris[[1]],4)

同理用变量名访问是同一个原则，一个方括号是数据框，2个方括号是向量

In [None]:
is.data.frame(iris["Sepal.Length"])
is.vector(iris[["Sepal.Length"]])
print("一个方括号返回的是数据框")
head(iris["Sepal.Length"],4)
print("两个方括号返回的是向量")
head(iris[["Sepal.Length"]],4)

## dplyr包

接下来我会结合dplyr这个包来展示在R中数据框的各种处理

加载dplyr包会出现一些warning，这是没有关系的，他是提示你他这包里面有些函数名和其他包的函数重名了，如果你正好同时加载了这2个包，调用了2个包重名的函数，R不知道你是用哪个包的函数，这时候就要用::来明确指向是哪个包的函数

In [None]:
library(dplyr)
dplyr::filter(iris,Sepal.Length>=7.5)

### 通道符

首先要讲的是dplyr有个特殊的符号 %>% 该符号将左边的对象作为第一个参数传递给右边的函数中，这样让代码更易读也更节省内存。

下面的例子就是把iris这个数据框传递给filter这个函数的第一个参数,然后又把筛选完的结果继续传递给下一个filter的函数作为第一个参数执行。

In [None]:
test <- iris %>% filter(Sepal.Length>=7.5) %>% filter(Sepal.Length<=7.8)
test

### tbl_df格式

如果数据框过于长过于大，可以将数据框转换为tbl_df类型，在dplyr1.0.0版本可以直接用tbl_df()来转换，之后的版本用tibble::as_tibble()。
如果打开了Variable Inspector可以看到a数据框的type是tbl_df，而其他的数据框是data.frame。

tbl_df可以说是data.frame的一个新类型，处理速度会更快一些，其他都一样，而且可以互相转化没有差别。

In [None]:
a <- tibble::as_tibble(head(iris,5))
class(a)
a

### 获取前n行/后n行数据

获取前n行数据用head()函数，后n行数据用tail()函数，head函数之前代码里大家也看到了，很好记，头和尾巴。但这2个函数并不是dplyr包里的，而是属于base包里的。

这2个函数还可以对列表和向量使用，效果也是相同的，取前n个/后n个向量元素。

In [None]:
head(iris,3)
tail(iris,3)

### 获指定取前n/后n行数据 top_n()

top_n()是dplyr包里的函数，他与head、tail不同的是，他不是纯粹获取数据框前n行和后n行数据，他是获取数据框中某个变量前n个最大值数据或者前n个最小值的数据。

我们先取一下iris数据框中，Sepal.Length变量中值最大的4行数据，可以看到运行后的结果，不像SAS会帮我们把数据集按从大到小排序好再取前4行，他返回的结果还是以原来的数据框顺序展现的。

In [None]:
top_n(iris,n=4,wt=Sepal.Length)

我们再获取一下iris数据框中，Sepal.Length变量中值最小的4行数据

In [None]:
top_n(iris,n=-4,wt=Sepal.Length)

### 筛选数据框 filter()

filter的功能就是筛选，筛选出符合条件的数据。这个函数就是SAS里的where作用，在之前的代码里也出现过了，然后base里也有相似的函数subset，这里我推荐以后都使用filter，记住一个就行了。


如筛选出iris中变量Sepal.Length等于7.9的数据

In [None]:
filter(iris,Sepal.Length==7.9)

筛选iris中变量Sepal.Length大于7.6且Sepal.Width小于3的数据，有2种写法都可以

In [None]:
#第一种
filter(iris,Sepal.Length>7.6 & Sepal.Width<3)
#第二种
filter(iris,Sepal.Length>7.6 , Sepal.Width<3)

筛选iris中变量Sepal.Length值等于7.7或7.9的数据

In [None]:
filter(iris,Sepal.Length %in% c(7.7,7.9))

filter也可以用来取数据框前n行/后n行的作用，类似head和tail，但是功能更多一点

In [None]:
#取第一行数据
filter(iris,row_number()==1)

In [None]:
#取最后一行数据
filter(iris,row_number()==n())

In [None]:
#取第2行到第4行数据
filter(iris,between(row_number(),2,4))

In [None]:
#取第145行到最后一行
filter(iris,between(row_number(),145,n()))

### 筛选符合条件的列 select()

刚刚filter是筛选行，而select就是筛选列，类似sas里的keep

In [None]:
#直接选取Petal.Length和Petal.Width变量
select(iris,Petal.Length,Petal.Width)

#直接选取除Petal.Length和Petal.Width之外的所有列
select(iris,-Petal.Length,-Petal.Width)

这里需要注意select选取多个变量并不是用向量来做参数，而是一个变量一个逗号的形式，如果要用向量来作为参数来选取需要用one_of

In [None]:
vars <- c("Petal.Length","Petal.Width")
select(iris,one_of(vars))

In [None]:
#选变量名前缀包含Petal的列
select(iris,starts_with("Petal"))

#选变量名前缀不包含Petal的列
select(iris,-starts_with("Petal"))

In [None]:
#选变量名后缀包含Width的列
select(iris,ends_with("Width"))

#不包含同理

In [None]:
#选变量名中包含etal的列
select(iris,contains("etal"))

select还可以用来调整变量顺序，比如我把iris里Species变量放到第一个

In [None]:
select(iris,Species,everything())

### 访问数据框的列 pull

之前我们已经说了3种方式来访问数据框的列，dplyr包里也有类似的函数pull

In [None]:
#根据变量位置访问
pull(iris,1)

In [None]:
#根据变量名访问
pull(iris,Sepal.Length)

### 重命名 rename()

这个就没啥难度，就是对变量名进行重命名，但是rename这个函数有比较多的包重名，所以用的时候最好加上dplyr::来指定。使用方式是新变量名=旧变量名

In [None]:
dplyr::rename(iris,Slengh=Sepal.Length,Plength=Petal.Length)

### 排序 arrange()

对指定列名对数据框进行排序，类似SAS里的proc sort，默认是升序排序，加desc()可以实现倒叙。

In [None]:
#对iris进行排序，先排Sepal.Length，再排Petal.Length
arrange(iris,Sepal.Length,Petal.Length)

#对iris进行排序，先降序排Sepal.Length，再降序排Petal.Length
arrange(iris,desc(Sepal.Length),desc(Petal.Length))

### 添加新变量 mutate()

这个函数十分重要，大家要好好看，函数的作用就是根据对已有列进行数据运算并添加为新的一列，结果会把所以列返回，同时还可以在一个语句里对刚新添加的列进行调用

In [None]:
#添加新列x，并同时调用新添加的x再做个y变量
mutate(iris,x=Sepal.Length/10,y=x+1)

In [None]:
#如果变量Sepal.Length大于6，则x=2，否则x=3
mutate(iris,x=ifelse(Sepal.Length>6,2,3))

### 去重 distinct()

去重函数用于对数据框根据给与的变量进行去重，返回不重复的行，类似SAS的proc sort nodupkey，类似R里的unique函数

In [None]:
#以Sepal.Length变量进行去重，但是返回只有Sepal.Length变量，返回的是数据框
distinct(iris,Sepal.Length)

In [None]:
#以Sepal.Length和Petal.Length联合去重，返回只有Petal.Length和Sepal.Length2个变量的数据框
distinct(iris,Sepal.Length,Petal.Length)

In [None]:
#以Sepal.Length变量进行去重，返回所有变量名, 注意option名是.keep_all，有个点别漏了
distinct(iris,Sepal.Length,.keep_all=TRUE)

### 分组 group_by()

函数用于对数据集根据给定的变量进行分组，但是返回的数据框是看不出来区别的，但是你后续执行一些运算，就会以你分组的方式去运算

In [None]:
#对Species进行分组，并分组取Sepal.Length里的最大值
iris %>% group_by(Species) %>% filter(Sepal.Length==max(Sepal.Length))

In [None]:
#对Species进行分组，并分组取Sepal.Length里的最大值
iris %>% group_by(Species) %>% summarise(max(Sepal.Length))

In [None]:
#对Species进行分组，并分组对Sepal.Length求和
iris %>% group_by(Species) %>% summarise(sum(Sepal.Length))

这里summarise会报一个note，这个note意思是告诉你通过我这步出去的数据框是进行过分组的，让你注意，你如果后续操作不需要分组的话加上.groups='drop'这个option就行了，但如果你加上这个option那前面的分组效果就没有了

In [None]:
iris %>% group_by(Species) %>% summarise(sum(Sepal.Length),.groups='drop') 

In [None]:
#分组求条数
group_by(iris,Species) %>% summarise(n(),.groups='drop')

In [None]:
#分组求条数,这里利用count来求，就不用group_by来先分组再求了
count(iris,Species)

除了在summarise里用.groups='drop'来祛除分组，也可以主动用ungroup来去除。

我们可以用groups函数来查看分组信息

In [None]:
a <- group_by(iris,Species)
groups(a)

#因为不分组用groups返回的是NULL所以放进向量来检验
b <- ungroup(a)
length(c(groups(b),1))

还有group_size和n_groups来返回分组的记录条数和分组数

In [None]:
group_size(a)

n_groups(a)

### 数据合并 bind_rows()

比base里上下合并的函数rbind的优势是，2个数据框不必拥有相同的变量名，没有的变量用NA填充。

In [None]:
bind_rows(data.frame(x=1:3),data.frame(y=1:4))

### 条件表达式 case_when()

case_when语句类似于if/else语句，表达式用~链接，~左边是条件语句，右边是满足条件的值。

In [None]:
mutate(iris,x=case_when(
    Sepal.Length <= 5 ~ 'small',
    Sepal.Length > 5 & Sepal.Length <= 7 ~ 'median',
    Sepal.Length > 6 ~ 'large'
)
      )

## 纵向合并 merge

纵向合并merge不是dplyr里的函数，而是base里自带的函数，dplyr里也有类似的函数，但是左连接右链接和全连接是不同的函数，不方便记忆，所以还是用merge比较好

R里的merge和SAS不一样，首先可以不需要先排序，还有可以by的变量名字也可以不相同。

merge的参数是 merge(数据集A，数据集B，by.x='数据集A里想by的变量'，by.y='数据集B里想by的变量)

In [None]:
#创建2个数据框
w1=data.frame(
    name=c("A","B","A","A","C"),
    school=c(1,2,1,1,1),
    class=c("10","5","4","11","1"),
    ENGLISH=c(85,50,90,90,12),
    stringsAsFactors=FALSE
)
w2=data.frame(
    name=c("A","B","D"),
    school=c(3,2,1),
    class=c("5","5","1"),
    MATHS=c(80,89,55), 
    ENGLISH=c(88,81,32),
    stringsAsFactors=FALSE
)
w1
w2

In [None]:
#左连接
merge(w1, w2, by.x='name',by.y='name',all.x=TRUE)

In [None]:
#内连接
merge(w1, w2, by.x='name',by.y='name')

In [None]:
#全连接
merge(w1, w2, by.x='name',by.y='name',all=TRUE)

当加上all.x=TRUE,那就是左连接,什么都不加那就是内连接，加all=TRUE那就是全连接。
然后我们可以发现R里merge，如果2个数据框有相同的变量名，R不会直接覆盖，而是产生2个相应的变量XXX.x和XXX.y，有时候是好事，有时候我又会嫌他产生变量太多= =这没办法

# 总结

总结一下，这章数据框里函数比较多，比较杂，但是都是非常有用的函数，这里整理一下比较重要的函数

<font color=#DC143C>merge</font> 这不用说，必须掌握

<font color=#DC143C>mutate</font> 这个函数是在数据框里生成新变量，需要熟练掌握

<font color=#DC143C>filter</font> 筛选函数，也需要熟练掌握

<font color=#DC143C>arrange</font> 排序函数，也需要熟练掌握

当然 访问数据框的4种方式也要牢记于心，还有rename、group_by分组也都是一些常用的

# 练习



首先大家在自己的notebook或者Rstudio Server上运行以下代码来获取数据

<font color=#DC143C>load(file='/home/mstrd/R/test.Rdata') </font>

练习1: 对sponsor数据框进行处理，生成sponsor_name变量，sponsor_name内容为如果cn_name为空则用en_name，否则用cn_name，最后只保留is_del为0的数据，最后数据框只保留2个变量id和sponsor_name

练习2:对user数据框进行处理, 如果department变量里是R&D则改成ST，然后筛选department里是ST和DM的数据和is_active为1的数据，最后只保留变量 id,cn_name,en_name,department,report_to

练习3：用练习2的usesr数据框生成名为team数据框，同时生成2变量cn_team和en_team，cn_team和en_team算法为 set to report_to等于ID的人的cn_name和en_name。

练习4：用hour数据框和练习3的数据框team进行左连接，hour为左，hour保留变量week，mon,tue,wed,thu,fri,sat,sun.project_id,task_id,user_id。以user_id和team的id进行连接生成timehour数据框，然后再与task数据框进行左连接，task只保留task和id变量，以timehour为左，以task_id和task的id连接。然后再与project数据框连接，project只保留sn,id,sponsor_id,以project_id和project的id进行左连接，最后以同样方式与sponsor进行连接，保留sponsor的sponsor_name，id，以sponsor_id和sponsor的id进行左连接。

练习5：用练习4生成的数据框新建个变量name，变量逻辑为，如果sn包含MST_RD，则为R&D，如果包含MST_PMO，则为PMO，如果sn为Overhead，则为Overhead，如果sn为Overhead，则为Overhead,如果sn为Leave，则为Leave,如果sponsor_name为空，则为Ohter，其余填入变量sponsor_name。