# 基本数据管理
+ 操纵日期和缺失值

+ 熟悉数据类型的转换

+ 变量的创建和重编码

+ 数据集的排序、合并和取子集

+ 选入和丢弃变量



## 创建新变量

In [3]:
manager <- c(1,2,3)
date <- c("10/1","10/2","10/4")
country <- c('US','CHINA','JAPAN')
gender <- c('M','F','F')
age <- c(30,45,60)
q1<-c(5,2,3)
q2 <- c(4,2,3)
q3 <- c(4,7,8)
leadership <- data.frame(manager,date,country,gender,age,q1,q2,q3,stringsAsFactors =FALSE)

leadership

manager,date,country,gender,age,q1,q2,q3
1,10/1,US,M,30,5,4,4
2,10/2,CHINA,F,45,2,2,7
3,10/4,JAPAN,F,60,3,3,8


In [1]:
mydata <- data.frame(x1=c(2,3,4,5),
                    x2=c(6,7,9,2))
mydata
mydata <- transform(mydata,
                   sumx = x1+x2,
                   meanx= (x1+x2)/2)
mydata

x1,x2
2,6
3,7
4,9
5,2


x1,x2,sumx,meanx
2,6,8,4.0
3,7,10,5.0
4,9,13,6.5
5,2,7,3.5


## 变量的重编码
从一个变量的现有值创建新的值的过程
**注意** R 中比较浮点数值要慎用 ==

In [4]:
leadership <- within(leadership,{
    agecat <-NA
    agecat [age > 75] <- "Elder"
    agecat [age >= 55 & age <= 75] <- "Middle"
    agecat[age < 55] <- "Young"
})

leadership

manager,date,country,gender,age,q1,q2,q3,agecat
1,10/1,US,M,30,5,4,4,Young
2,10/2,CHINA,F,45,2,2,7,Young
3,10/4,JAPAN,F,60,3,3,8,Middle


In [6]:
names(leadership)[2] <- "testDate"

leadership

manager,testDate,country,gender,age,q1,q2,q3,agecat
1,10/1,US,M,30,5,4,4,Young
2,10/2,CHINA,F,45,2,2,7,Young
3,10/4,JAPAN,F,60,3,3,8,Middle


plyr 包中有 rename() 函数可以方便的修改变量名 这个包中也有一系列强大的数据集操作函数

## 缺失值处理

is.na() 进行检测
需要注意：

1. 缺失值不可以进行比较

2. R 不把无限的值或者不是数字的值用缺失值表示
如 Inf 和 NaN 分别表示 无穷和不是数 分别要用 is.infinite()和is.nan()识别

In [16]:
y <- c(1,2,NA)
is.na(y)
is.na(leadership)

z <- sin(Inf)
is.nan(z)

Unnamed: 0,manager,testDate,country,gender,age,q1,q2,q3,agecat
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False,False,False


"产生了NaNs"

一些数值函数会有在分析中处理缺失值的功能



In [17]:
x <- c(1,2,NA,4)
y <- sum(x,na.rm= TRUE)
y

另外可以通过 na.omit() 移除所有含有缺失值的观测

In [20]:
leadership$country[1] = NA
leadership
newdata <- na.omit(leadership)
newdata

manager,testDate,country,gender,age,q1,q2,q3,agecat
1,10/1,,M,30,5,4,4,Young
2,10/2,CHINA,F,45,2,2,7,Young
3,10/4,JAPAN,F,60,3,3,8,Middle


Unnamed: 0,manager,testDate,country,gender,age,q1,q2,q3,agecat
2,2,10/2,CHINA,F,45,2,2,7,Young
3,3,10/4,JAPAN,F,60,3,3,8,Middle


同时也可以对日期值的输入进行处理
并可以采取下列的函数进行类型转换
+ is.numeric() 判断 as.numeric() 转换
...


## 数据排序

order()函数 默认的排序顺序是升序

In [21]:
newdata <- leadership[order (leadership$age),]
newdata

attach(leadership)
newdata <- leadership[order(gender,-age),]
detach(leadership)
newdata

manager,testDate,country,gender,age,q1,q2,q3,agecat
1,10/1,,M,30,5,4,4,Young
2,10/2,CHINA,F,45,2,2,7,Young
3,10/4,JAPAN,F,60,3,3,8,Middle


The following objects are masked _by_ .GlobalEnv:

    age, country, gender, manager, q1, q2, q3



Unnamed: 0,manager,testDate,country,gender,age,q1,q2,q3,agecat
3,3,10/4,JAPAN,F,60,3,3,8,Middle
2,2,10/2,CHINA,F,45,2,2,7,Young
1,1,10/1,,M,30,5,4,4,Young


## 数据集的合并
### 向数据框中添加列
横向合并数据框可以使用 merge() 函数

一般情况下 两个数据框是通过变量链接的如

total <- merge(data1,data2,by="ID")

如果没有公共索引直接合并，可以使用 cbind() 但是此时注意每个对象必须有相同的行数
### 向数据框中添加行
纵向合并需要使用 rbind()函数


## 数据集取子集

### 选入变量


In [23]:
newdata <- leadership[,c(3:5)]
newdata

myvars <- c("q1","agecat")
newdata <- leadership[myvars]
newdata

country,gender,age
,M,30
CHINA,F,45
JAPAN,F,60


q1,agecat
5,Young
2,Young
3,Middle


### 删除变量


In [25]:
myvars <- names(leadership) %in% c("q2","q3")
newdata <- leadership[!myvars]
newdata

newdata <- leadership[c(-7,-8)]
newdata

manager,testDate,country,gender,age,q1,agecat
1,10/1,,M,30,5,Young
2,10/2,CHINA,F,45,2,Young
3,10/4,JAPAN,F,60,3,Middle


manager,testDate,country,gender,age,q1,agecat
1,10/1,,M,30,5,Young
2,10/2,CHINA,F,45,2,Young
3,10/4,JAPAN,F,60,3,Middle


### 选入观测

In [27]:
newdata <- leadership[1:3,]
newdata

newdata <- leadership[leadership$gender == "F" &
                     leadership$age > 30,]
newdata

manager,testDate,country,gender,age,q1,q2,q3,agecat
1,10/1,,M,30,5,4,4,Young
2,10/2,CHINA,F,45,2,2,7,Young
3,10/4,JAPAN,F,60,3,3,8,Middle


Unnamed: 0,manager,testDate,country,gender,age,q1,q2,q3,agecat
2,2,10/2,CHINA,F,45,2,2,7,Young
3,3,10/4,JAPAN,F,60,3,3,8,Middle


### subset() 函数
选择和观测最简单的方法

In [28]:
newdata <- subset(leadership,age >= 35 & age < 24,
                 select = c(q1,q2))
newdata

newdata <- subset(leadership,gender == "F" & age > 25,
                 select = gender:q3)
newdata

q1,q2


Unnamed: 0,gender,age,q1,q2,q3
2,F,45,2,2,7
3,F,60,3,3,8


### 使用 SQL 语言操作数据框
推荐 sqldf 包