Skip to content
This repository has been archived by the owner on Jan 12, 2019. It is now read-only.

R 基础知识——数据类型 #2

Open
JackieMium opened this issue Mar 8, 2018 · 0 comments
Open

R 基础知识——数据类型 #2

JackieMium opened this issue Mar 8, 2018 · 0 comments
Labels
R R related 基础 很基础的东西
Milestone

Comments

@JackieMium
Copy link
Owner

内容来自于看《R 语言实战》时做的笔记
2017-04-24

向量

向量是一个一维数组,用于存储数值型、字符型或逻辑型数据。执行组合功能的函数c()可用来创建向量;

> a<-c(1, 2, 5, 3, 6, 2, 4)
> b<-c("one", "two", "three")
> c<-c(TRUE,TRUE,TRUE,FALSE,TURE,FALSE)

a 是数值型向量,b 是字符型向量,c 是逻辑向量。

  • 单个向量中的数据必须拥有相同的类型或模式(数值型、字符型或逻辑型)。同一向量中无法混杂不同模式的数据。
  • 通常在方括号中给定元素所处位置的数值,我们可以访问向量中的元素。
> a <- c(1, 2, 3, 4, 5, 6)
> a[3]
[1] 3
> a[c(1, 3, 5)]
[1] 1 3 5
> a[2:6]
[1] 2 3 4 5 6

矩阵

  • 矩阵是一个二维数组,只是每个元素都拥有相同的模式(数值型、字符型或逻辑型)
  • 通过matrix创建矩阵,一般使用格式为mymatrix <- matrix(vector,nrow=number_of_rows,ncol=number_of_columns, byrow=logical_value, dimnames=list(char_vector_rownames, char_vector_colnames)) 其中vector包含了矩阵的元素,nrowncol用以指定行和列的维数,dimnames包含了可选的、以字符型向量表示的行名和列名。选项byrow则表明矩阵应当按行填充(byrow=TRUE)还是按列填充(byrow=FALSE),默认情况下按列填充
  • 使用下标和方括号来选择矩阵中的行、列或元素。x[i,]指矩阵X中的第i行,x[,j]指矩阵X中的第j列,x[i,j]指第i行第j个元素。选择多行或多列时,下标i和j可为数值型向量
> cells <- c(1, 2, 3, 4)
> rnames <- c("R1","R2")
> cnames <- c("C1","C2")
> mymatrix <- (cells,nrow=2,ncol=2,byrow=TRUE,dimnames=list(rnames,cnames)
> mymatrix
    C1 C2
R1   1  2
R2   3  4
> ymatrix <- matrix(120,nrow=4,ncol=5)
> y
       [,1]  [,2]  [,3]  [,4]  [,5]
[1,]      1     5     9    13    17
[2,]      2     6    10    14    18
[3,]      3     7    11    15    19
[4,]      4     8    12    16    20
> y[,1]
[1] 1 2 3 4
> y[2,2]
[1] 6
> y[1,c(4,5)
[1] 13 17

数组

  • 数组(array)与矩阵类似,但是维度可以大于2。数组可通过array函数创建: myarray <- array(vector, dimensions, dimnames)。 其中vector包含了数组中的数据,dimensions是一个数值型向量,给出了各个维度下标的最大值,而dimnames是可选的、各维度名称标签的列表。
  • z<-array(1:24,c(2,3,4), dimnames=list(dim1,dim2,dim3)), c(2,3,4)表示二行三列四组
    数组与矩阵一样,只能拥有一种模式。

数据框

  • 数据框(data frame)是R中用于储存数据的一种结构:列表示变量,行表示观测。在同一个数据框中可以储存不同类型的(如数值型、字符型)变量。数据框是用来存储数据集的主要数据结构。
  • 由于不同的列可以包含不同模式(数值型,字符型)的数据,数据框的概念更为符合现实情况,数据框是R中最常处理的数据结构。
  • 数据框可通过函数data.frame()创建,mydata <- data.frame(col1, col2, col3,...)其中的列向量col1,col2,col3...可为任何类型(如字符型、数值型或逻辑型), 每一列的名称可由函数 names 指定。每一列数据的模式必须唯一,不过可以将多个模式的不同列放到一起组成数据框。
> patientID <- c(1,2,3,4)
> age <- c(23,24,25,26)
> diabetes <- c("Type1","Type2","Type1","Type2")
> status <- c("Poor","Improved","Excellent","Poor")
> patientdata <- data.frame(patientID, age, diabetes,status)
> patientdata
    patientID age diabetes    status
1           1  23    Type1      Poor
2           2  24    Type2  Improved
3           3  25    Type1 Excellent
4           4  26    Type2      Poor
  • 选数据框中的元素的方式有若干种,可以使用前述的下标记号,或者直接指定列名;可以用$选取一个给定数据框中的某个特定变量;还可以生成糖尿病类型变量diabetes和病情变量status的列联表:
> patientdata[1,2]
    patientID age
1           1  23
2           2  24
3           3  25
4           4  26
> patientdata[,3:4]
    diabetes    status
1      Type1      Poor
2      Type2  Improved
3      Type1 Excellent
4      Type2      Poor
> patientdata[c("diabetes","status")
    diabetes    status
1      Type1      Poor
2      Type2  Improved
3      Type1 Excellent
4      Type2      Poor
> patientdata$age
[1] 23 24 25 26
> patienttable <- table(patientdata$diabetes,patientdata$status)
> patienttable
          Excellent Improved Poor
    Type1         1        0    1
    Type2         0        1    1
  • 在病例数据中,病人编号(patientID)用于区分数据集中不同的个体。在R中,实例标识符(case identifier)可通过数据框操作函数中的row.names选项指定。
> patientdata <- data.frame(patientID, age, diabetes, status, row.names = patientID)
> patientdata
    patientID age diabetes    status
1           1  23    Type1      Poor
2           2  24    Type2  Improved
3           3  25    Type1 Excellent
4           4  26    Type2      Poor
> patientdata <- data.frame(patientID, age, diabetes, status, row.names = age)
> patientdata
     patientID age diabetes    status
    23         1  23    Type1      Poor
    24         2  24    Type2  Improved
    25         3  25    Type1 Excellent
    26         4  26    Type2      Poor

因子

  • 变量可归结为名义型、有序型或连续型变量。名义型变量是没有顺序之分的类别变量。糖尿病类型Diabetes(Types1,Type2)是名义型变量的一例;
  • 有序型变量表示一种顺序关系,而非数量关系,病情Status(poor,improved,excellent)是顺序型变量的一个佳例,病情为poor的病人状态不如improved的病人,但并不知道相差多少;
  • 连续型变量可以呈现为某个范围内的任意值,并同时表示了顺序和数量。年龄Age就是一个连续型变量。
  • 类别(名义型)变量和有序类别(有序型)变量在R中称为因子(factor)。因子在R中非常重要,因为它决定了数据的分析方式以及如何进行视觉呈现。
  • 函数factor()以一个整数向量的形式存储类别值,整数的取值范围1....k(其中k是名义型变量中唯一值的个数),同时一个由字符串(原始值)组成的内部向量将映射到这些整数上。
  • 举例:假设有向量:diabetes <- c("Type1", "Type2", "Type1", "Type1")语句diabetes <- factor(diabetes)将此向量储存为(1,2,1,1),并在内部将其关联为1=Type12=Type2(具体赋值根据字母顺序而定)。针对向量diabetes进行的任何分析都会将其作为名义型变量,并自动选择合适的统计方法;
  • 表示有序型变量,需要为函数factor()指定参数ordered=TRUE。给定向量 status <- c("Poor", "Improved", "Excellent", "Poor"),语句status <- factor(status, ordered=TRUE)会将向量编码为(3,2,1,3),并在内部将这些值关联为1=Excellent2=Improved,以及3=Poor。另外,针对此向量进行的任何分析都会将其作为有序型变量对待,并自动选择合适的统计方法;对于字符型变量,因子的水平默认依字母的顺序创建,但按默认的字母顺序排序的因子很少能够让人满意。可以通过指定levels选项来覆盖默认排序,status <- factor(status, order=TRUE, leves=c("Poor","Improved","Excellent"))各水平的赋值将为1=Poor2=Improved3=Excellent。请保证指定的水平与数据中真实值相匹配,因为任何在数据中出现而未在参数中列举的数据都将被设为缺失值。
> diabetes <- factor(diabetes)
> diabetes
    [1] Type1 Type2 Type1 Type2
    Levels: Type1 Type2
    > str(patientdata)
    'data.frame':    4 obs. of  4 variables:
    $ patientID: num  1 2 3 4
    $ age      : num  23 24 25 26
    $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 2
    $ status   : Factor w/ 3 levels "Excellent","Improved",..: 3 2 1 3
> status <- factor(status,ordered = TRUE)
> status
    [1] Poor Improved  Excellent Poor
    Levels: Excellent < Improved < Poor
    > str(patientdata)
    'data.frame':    4 obs. of  4 variables:
    $ patientID: num  1 2 3 4
    $ age      : num  23 24 25 26
    $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 2
    $ status   : Factor w/ 3 levels "Excellent","Improved",..: 3 2 1 3
> status <- factor(status,ordered = TRUE,levels = c("Poor","Improved","Excellent"))
> status
    [1] Poor  Improved  Excellent Poor
    Levels: Poor < Improved < Excellent
> str(patientdata)
    'data.frame':    4 obs. of  4 variables:
    $ patientID: num  1 2 3 4
    $ age      : num  23 24 25 26
    $ diabetes : Factor w/ 2 levels "Type1","Type2": 1 2 1 2
    $ status   : Factor w/ 3 levels "Excellent","Improved",..: 3 2 1 3
> summary(patientdata)
     patientID         age         diabetes       status
    Min.   :1.00   Min.   :23.00   Type1:2   Excellent:1
    1st Qu.:1.75   1st Qu.:23.75   Type2:2   Improved :1
    Median :2.50   Median :24.50             Poor     :2
    Mean   :2.50   Mean   :24.50
    3rd Qu.:3.25   3rd Qu.:25.25
    Max.   :4.00   Max.   :26.00

列表

  • 列表(list)是 R 的数据类型中最为复杂的一种。一般来说,列表就是一些对象(或成分, component)的有序集合。列表允许整合若干(可能无关的)对象到单个对象名下。例如,列表中可能是若干向量,矩阵,数据框,甚至是其他列表的组合。可以使用函数list()创建列表。mylist <- list(object1,object2,...);其中的对象可以是目前为止讲到的任何结构,还可以为列表中的对象命名:mylist <-list(name1=object1, name2=object2, ...)
  • 可以通过在双重括号中指明代表某个成分的数字或名称来访问列表中的元素。此例中的mylist[[2]]mylist[["name2"]]均指第二个元素。
  • 由于两个原因,列表成为 R 中的重要数据结构。首先,列表允许以一种简单的方式组织和重新调用不相干的信息;其次,许多 R 函数的运行结果都是以列表的形式返回的。需要取出其中哪些成分由分析人员决定。
@JackieMium JackieMium added R R related 基础 很基础的东西 labels Mar 8, 2018
@JackieMium JackieMium added this to the Migration milestone Mar 9, 2018
Sign up for free to subscribe to this conversation on GitHub. Already have an account? Sign in.
Labels
R R related 基础 很基础的东西
Projects
None yet
Development

No branches or pull requests

1 participant