# `R` 简介

`R`是一种软件，是一套完整的数据处理、计算和制图软件系统。其功能包括：数据存储和处理系统，数组运算工具，完整连贯的统计分析工具，优秀的统计制图功能。简便而强大的编程语言。

# `R`下载和安装

- `R`是全免费的，[下载网站](https://www.r-project.org/);
- [macOS 版本](https://mirrors.tuna.tsinghua.edu.cn/CRAN/bin/macosx/);
- 安装了多个`R`版本后[切换](https://rud.is/rswitch/);

# `R`基础介绍与简单运算
## 数字、字符与向量
### 向量

#### 向量的赋值
建立一个名为`x`的向量，其中各分量为`10.4, 5.6, 3.1, 6.4, 21.7`;

In [5]:
x <- c(10.4, 5.6, 3.1, 6.4, 21.7); print(x)

[1] 10.4  5.6  3.1  6.4 21.7


其中:
- `x`是变量名
- `<-`、`->`为赋值符
- `c()`为向量建立函数
上述命令就是将函数`c()`中的数据赋给变量`x`

进一步可以：

In [10]:
y <- c(x, 99, 10 * x); print(y)

 [1]  10.4   5.6   3.1   6.4  21.7  99.0 104.0  56.0  31.0  64.0 217.0


定义变量`y`有$11$个分量，其中两边是变量`x`，中间为$0$
### 向量的运算
对于向量可做`+、-、*、/、^`运算。

其含义是对向量的`每一个`元素进行运算，其中`加、减和数乘运算`与我们通常的向量运算基本相同。如：

In [17]:
x <- c(-1, 0, 1); y <- c(3, 8, 2)
message("2 * x + y + 1");
v <- 2 * x + y + 1; print(v)

2 * x + y + 1



[1] 2 9 5


对于向量的`乘法、除法、乘方运算`，其意义是：对应向量的`每个`分量作运算。如：

In [19]:
message("x = (-1, 0, 1), y = (3, 8, 2)")
print(x * y); print(x / y); print(x ^ y)

x = (-1, 0, 1), y = (3, 8, 2)



[1] -3  0  2
[1] -0.3333333  0.0000000  0.5000000
[1] -1  0  1


- `%/%`：整数除法；
- `%%` ：求余数；

In [21]:
print(10 %/% 3); print(10 %% 3)

[1] 3
[1] 1


还可以作函数运算，如基本初等函数：`log、exp、cos、tan、sqrt`等，当自变量为向量时，函数的返回值也是向量，即每个分量取相应的函数值。

另外一些与向量运算有关的函数：
- `min(), which.min()`：向量的最小值、及其索引；
- `max(), which.max()`：向量的最大值、及其索引；
- `range()`：向量数值的范围；
- `sum()`：向量求和；
- `prod()`：向量各分量乘积；
- `length()`：求向量长度；
---
- `median()`：中位数；
- `mean()`：均值；
    - `var()`：方差；
    - `sd()`：标准差；
- `sort()`：顺序统计量；
> `sort()`表示求与原向量大小相同，按递增顺序排列的向量，即顺序统计量。相应的下标由`order()`或`sort.list()`列出。如：

In [29]:
x <- c(10, 6 ,4 ,7 ,8)  ; print(x)
y <- sort(x)            ; print(y)
idx <- sort.list(x)     ; print(idx)
idx <- order(x)         ; print(idx)

[1] 10  6  4  7  8
[1]  4  6  7  8 10
[1] 3 2 4 5 1
[1] 3 2 4 5 1


### 产生有规律的序列
#### 等差数列
`A：B`表示从`A`开始，逐项$+1$或$-1$，直到`B`为止。如:
1. `x <- 1 : 30`：表示向量`x = (1, 2, … , 30)`，
2. `x <- 30 : 1`：表示向量`x = c(30, 29, … , 1)`
- 当`A`为实数，`B`为整数时，向量`A : B`是实数，其间间隔$1$
- 而当`A`为整数，`B`为实数时，`A : B`是间隔差$1$的整数向量。如：

In [31]:
print(2.1 : 10)
print(2 : 10.1)

[1] 2.1 3.1 4.1 5.1 6.1 7.1 8.1 9.1
[1]  2  3  4  5  6  7  8  9 10


**注意**：`x <- 2 * 1 : 15`不是表示`2`到`15`，而是表示向量`(2, 4, … , 30)`，即`x <- 2 * (1 : 15)`，即**等差运算 优于 乘法运算**。

同理，`1 : n - 1`不是表示`1`到`n - 1`，而是表示向量`(1 : n)`减去`1`，若要表示`1`到`n - 1`，则需要对`n - 1`加括号。如：`1 : (n - 1)`;

#### 等间隔函数`seq()`
基本形式为`seq(from = value1, to = value2, by = value3)`，`by`缺省为`1`，如：

In [34]:
s_1 <- seq(-5, 5, 2); print(s_1)

[1] -5 -3 -1  1  3  5


另一种形式：`seq(length = value2, from = value1, by = value3)`：
- `length`：长度；
- `from`：起始值；

In [36]:
s_2 <- seq(length=6, from=-5, by=2); print(s_2)

[1] -5 -3 -1  1  3  5


#### 重复函数`rep()`
```
retVal <- rep(x, times = value)
```

In [39]:
x <- seq(0, 10, 2); print(x)
x_3 <- rep(x, 3); print(x_3)

[1]  0  2  4  6  8 10
 [1]  0  2  4  6  8 10  0  2  4  6  8 10  0  2  4  6  8 10


### 逻辑向量
`R`允许逻辑操作，当逻辑运算为真时，返回`TRUE`，逻辑运算为假时，返回`FALSE`。如：
- 逻辑运算符有：`<，<=，>，>=，==，!=`；
如果`c1`和`c2`是两个逻辑表达式，则:
- `c1 & c2`表示**c1 与 c2**;
- `c1 | c2`表示**c1 或 c2**;
- `!c1`表示**非c1**;

In [41]:
x <- c(1:10); print(x)
bool <- x < 6; print(bool)

 [1]  1  2  3  4  5  6  7  8  9 10
 [1]  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE FALSE FALSE FALSE


判断向量其中是否有真值得函数是`any()`

In [43]:
any(x < 7)

### 缺失数据
用`NA`表示某处的数据缺失，函数`is.na()`是检测缺失数据的函数，如果返回值为`TRUE`，则说明此数据为缺失数据，反之不是缺失数据。

In [44]:
z <- c(1:4, NA); print(z)
ind <- is.na(z); print(ind)

[1]  1  2  3  4 NA
[1] FALSE FALSE FALSE FALSE  TRUE


如果希望将缺失值改为：0，则用如下命令：

In [45]:
z[is.na(z)] <- 0; print(z)

[1] 1 2 3 4 0


### 字符型向量

向量元素可以取字符串值，例如：

In [56]:
str <- c("Hello", "World"); print(str)

[1] "Hello" "World"


可以用`paste()`函数把它的自变量连成一个字符串，中间用空格分开，例如:

In [57]:
str <- paste(str, "BJFU !"); print(str)

[1] "Hello BJFU !" "World BJFU !"


如上所示，输出为：`[1] "Hello BJFU !" "World BJFU !"`，是把对应的字符串向量分别连接了后续的字符串。如果想将多个字符串相连，应该给他们包裹在同一个向量中，并使用`collapse = ""`参数：
```R
paste( c(str, "BJFU !"), collapse = " ")
```

In [68]:
str <- c("Hello", "World");
str <- paste( c(str, "BJFU !"), collapse = " "); print(str)

[1] "Hello World BJFU !"


连接的自变量可以是`向量`，这时各**对应元素**连接起来，长度不相同时较短的向量被重复使用:

In [59]:
str_1 <- c("a", "b", "c")
str_2 <- c("1", "2")
print(paste(str_1, str_2))

[1] "a 1" "b 2" "c 1"


自变量可以是`数值向量`，连接时自动**转换**成适当的字符串表示，例如：

In [61]:
labs <- paste("X", 1 : 6, sep = "_"); print(labs)

[1] "X_1" "X_2" "X_3" "X_4" "X_5" "X_6"


## 多维数组与矩阵
### 创建一个向量（随机变量、一维数组）
函数`c()`创建一个行向量，也可认为是一个`1行 12列`的矩阵
- 函数`length()`可返回向量长度;
- `mode()`可返回向量的数据类型;

In [69]:
x1 <- c(171, 175, 159, 155, 152, 158, 154, 164, 168, 166, 159, 164)
x2 <- c(57, 64, 41, 38, 35, 44, 41, 51, 57, 49, 47, 46)
print(length(x1))
print(mode(x2))

[1] 12
[1] "numeric"


### 创建一个矩阵

#### 合并命令
用`rbind()、cbind()`将两个或两个以上的向量或矩阵合并起来，`rbind()`表示按行合并，而`cbind()`表示按列合并；

In [78]:
x1 <- c(1, 1, 1, 1, 1, 1, 1, 1, 1, 1)
x2 <- c(2, 2, 2, 2, 2)
print(rbind(x1, x2))

   [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10]
x1    1    1    1    1    1    1    1    1    1     1
x2    2    2    2    2    2    2    2    2    2     2
[1] 3


In [79]:
print(cbind(x1, x2))

      x1 x2
 [1,]  1  2
 [2,]  1  2
 [3,]  1  2
 [4,]  1  2
 [5,]  1  2
 [6,]  1  2
 [7,]  1  2
 [8,]  1  2
 [9,]  1  2
[10,]  1  2


#### 生成矩阵
函数`matrix()`可创建一个矩阵
```R
matrix(data = NA, nrow = 1, ncol = 1, byrow = FALSE, dimnames = NULL)
```

In [114]:
x1 <- seq(length = 12, from = 1, by = 1); print(x1)
A <- matrix(
    data = x1,   # data 为必要的矩阵元素；
    nrow = 3,    # nrow 为行数；
    ncol = 4,    # ncol 为列数，他们的乘积是矩阵元素个数;
    # byrow = T  # byrow 项控制排列元素 是否 按行进行，默认按列顺序放入元素
    # dimnames   # dimnames 给定行和列的名称.
); A

 [1]  1  2  3  4  5  6  7  8  9 10 11 12


0,1,2,3
1,4,7,10
2,5,8,11
3,6,9,12


#### 矩阵转置 && 矩阵求逆

In [115]:
t(A)
A <- diag(1:4); solve(A)

0,1,2
1,2,3
4,5,6
7,8,9
10,11,12


0,1,2,3
1,0.0,0.0,0.0
0,0.5,0.0,0.0
0,0.0,0.3333333,0.0
0,0.0,0.0,0.25


矩阵基本运算：
- 同行同列矩阵相加相减：`+, -`;
- 可乘矩阵乘法：`%*%`;
- `diag()`:
    - 若传入参数为一个`矩阵`，则返回这个矩阵的`对角线元素`；
    - 若传入参数为一个`向量`，则产生一个`对角矩阵`。
- `solve()`：
    - 用`solve(A, b)`运算，结果是可解线性方程组`Ax = b`的解`x`。
    - 若`b`为单位矩阵，则结果就是`A`的`逆矩阵`。
> `solve()`中，若`b`缺省，系统**默认为单位矩阵**

### 矩阵的特征值和特征向量
矩阵`A`的谱分析为`A = UDU’`，其中`D`为由`A`的**特征值**组成的**对角矩阵**，`U`的列为`A`的特征值对应的**特征向量**，在`R`中可用函数`eigen()`得到`U`和`D`;
```R
eigen(x, symmetric, only.value = FALSE)
```
- `x`为矩阵
- `symmetric`项指定矩阵`x`是否为对称矩阵，若不指定，系统将自动检测`x`是否为对称矩阵
- `only.value`项如果是`TRUE`，只有**特征值**计算并返回，否则返回的特征值和特征向量。

In [116]:
A <- diag(4) + 1; A.e <- eigen(A);
message("特征值向量");       print(A.e$values)    # 提取出特征值向量
message("特征向量矩阵"); print(A.e$vectors)   # 提取出特征向量组成的矩阵

特征值向量



[1] 5 1 1 1


特征向量矩阵



     [,1]       [,2]       [,3]       [,4]
[1,] -0.5  0.8660254  0.0000000  0.0000000
[2,] -0.5 -0.2886751 -0.5773503 -0.5773503
[3,] -0.5 -0.2886751 -0.2113249  0.7886751
[4,] -0.5 -0.2886751  0.7886751 -0.2113249


- `dim()`返回一个矩阵的维数
- `nrow()`返回行数
    - `rowSums()`行和
    - `rowMeans()`行平均
- `ncol()`返回列数
    - `colSums()`列和
    - `colMeans()`列平均
    
另外还可用函数`apply()`实现
```R
apply(X,MARGIN,FUN,……)
```
- `X`为矩阵
- `MARGIN`
    - `MARGIN = 1`表示对行运算
    - `MARGIN = 2`表示对列运算
- `FUN`用来指定运算函数
    - `……` 用来给定`FUN`中需要的其他参数。

In [121]:
A; print(apply(A, 1, sum))

0,1,2,3
2,1,1,1
1,2,1,1
1,1,2,1
1,1,1,2


[1] 5 5 5 5


此外函数`apply()`功能强大，还可用它对矩阵的行或列进行其他运算，例如每一列的方差:

In [122]:
print(apply(A, 1, var))

[1] 0.25 0.25 0.25 0.25


In [126]:
A
print(
    apply(A, 1, function(x, a) x * a, a = 2)
)

0,1,2,3
2,1,1,1
1,2,1,1
1,1,2,1
1,1,1,2


     [,1] [,2] [,3] [,4]
[1,]    4    2    2    2
[2,]    2    4    2    2
[3,]    2    2    4    2
[4,]    2    2    2    4


## 数据框
数据框（data frame）是一种矩阵形式的数据，数据框中各列可以是不同类型的数据。

数据框是R语言特有的数据类型。
R语言中生成数据框用函数
```R
data.frame(data1, data2, …)
```

In [132]:
x1 <- c(171, 175, 159, 155, 152, 158, 154, 164, 168, 166, 159, 164)
x2 <- c(57, 64, 41, 38, 35, 44, 41, 51, 57, 49, 47, 46)
df = data.frame(
    '身高' = x1,
    '体重' = x2
); print(df)

   身高 体重
1   171   57
2   175   64
3   159   41
4   155   38
5   152   35
6   158   44
7   154   41
8   164   51
9   168   57
10  166   49
11  159   47
12  164   46


## 多元数据的`R`调用
`R`的内置数据包`dataset`提供了大量的数据，使用`R`的内置数据集很方便，通常只要给出数据集名即可。
外部数据是`电子表格、数据库、文本文件`等形式。
### 从剪切板读取
`Excel`与`R`语言之间的数据交换过程：
1. 选择需要进行计算的数据块（如本例`A1：F15`），拷贝之;
2. 在`R`中使用`data <- read.table("clipboard", header = T)`
- `data`为读入的`R`中数据集
- `clipboard`为剪切板
- `header = T`意味着读入变量名。`F`表示不读变量名，即不读表头。

### 从文件文本读取
读入文本数据的命令是`read.table`，但它对外部文件有特定的格式要求：
- 第一行可以有该数据框的各`变量名`;
- 随后的行中条目是各个变量的`值`;
将读取的`txt`文件放在`工作目录`下，查询工作目录使用函数`getwd()`。
如果文件不在工作目录下，写绝对路径，或者更改工作目录到文件所在位置。

###  从Excel文件读取
一个`Excel`工作簿里有多个`数据表(sheet)`，`R`语言可以直接读取`Excel`数据。

将`Excel`数据另存为`csv`格式，命令为：
```R
X = read.table("data.csv")
```
这种方法一次只能读工作簿里的一个`Sheet`