# 《R 語言忍者秘笈》筆記

written by 谢益辉 肖楠 坑主三 坑主四

R语言 (R Core Team 2017) 是由统计学家发明的一门程序语言，这个特殊的背景让这门语言在计算机专业人士眼中看起来也许很奇怪：语法松散、数据结构不严谨、充斥着黑魔法，等等。如果能结合数据分析的背景去看待它，就会发现它还是有很多精妙之处的。

学一门语言不可能通过两天时间把语法看完了事就行，必须得实战练习：一来巩固语法，二来增加经验值。本书根据<a href="http://cos.name/cn/"> 统计之都论坛 </a> 六年中近六千帖子和三万回帖整理并加入作者的个人经验而写成。我们找的有这样几种帖子：

版主们被问得怒火丛生，因为同样的问题被问了八百遍了，但论坛规定版主得修炼内力，所以老实版主回帖提供老链接，其它版主默默；
大家讨论得热火朝天，提出各种解决方案，但某网友一行代码扔出来，让所有人都默默；
一个帖子当时只有寥寥几个回复，好像没什么人搭理，默默过了两年，楼主突然冒出来说，哇，这一招真管用；
一个帖子楼主默默写了很久很久，但根本没有人回复，可能当时大家的查克拉都没到那个量级；
总之，我们追求的是高效率的R应用，就像一名忍者，了解大局形势，也善于利用细节，飞檐走壁上天入地，准确而迅速地完成任务。

---

## 安裝與配置

### for Windows users
https://bookdown.org/yihui/r-ninja/setup.html

### for macOS users
類似於 Windows 的安裝方法，直接在 https://www.r-project.org 找到安裝包下載即可。
<br>

PS：**可以使用 Jupyter notebook**，只要<a href="https://irkernel.github.io/installation/#linux-panel">按照這個方法</a>去安裝即可。(This note powered by Jupyter notebook)

## 基本運算

R 語言跟別的語言一樣，有兩種模式，一個是 **Console**，跟它的名字一樣，在界面上（command line interface）敲入代碼，立刻執行。（也稱為交互式解釋器）
[![Screen Shot 2018-07-26 at 21.23.34.png](https://i.loli.net/2018/07/26/5b59cb69e6b8f.png)](https://i.loli.net/2018/07/26/5b59cb69e6b8f.png)

``` R 
> 6 + 9 # This line called “prompt”
[1] 15 # This line called "assignment"
> 
> x <- 15 
> x - 1
[1] 14
``` 

上面的例子中 `x <- 15` 的意思就是給 x 這個變量賦值；左邊的變量被分配到右邊的值（很機翻的感覺），且，左邊只能是單一一個變量，不能是下面這種情況：<br>
``` R
> x + 4 <- 15

# the console will jump out the error code: 
# Error in x + 4 <- 15 : could not find function "+<-"
```
當然 ` -> ` 也是可以用來 assign 一個變量的，如下：
<br>
``` R 
> x = 5 
> 5*x -> x
> x

[1] 25
``` 
在 R 語言中，`=` 和 `<-` 都是表達賦值的意思，但更多人會推薦使用 `<-` 是因為它比較~~牛批~~（因為別的語言不會用這個運算符）

In [1]:
# line one
6 + 9 

# line two 
x <- 15 
 
x - 1

#line three
x = 5 
5 * x -> x 
x 

### 向量

在 R 語言中，很多時候我們會將用它的一個特性：矢量化（vectorized），這也就意味著可以在矢量上進行許多操作；函數 `c()` 用來創建向量：

``` R 
> x <- c(1, -1, 3.5, 2)
> x

[1]  1.0 -1.0  3.5  2.0
```
然後，如果我們給這個向量加 2，就相當於給向量的每一項都加了 2；乘方，同理 ：
``` R 
> x + 2
> x

[1]  3.0 1.0  5.5  4.0

> x^2

[1] 1.00 1.00 12.25 4.00
```
這個操作在統計裡很有用：
``` R
> sum((x - mean(x))^2)

[1] 10.69
```

#### Exercise 2.1.  

The weights of five people before and after a diet programme are given in the table. 
<br>
Before | After
---- | ---
78 | 67
72 |  65
78 | 79
79 | 70
105 | 93

Read the ‘before’ and ‘after’ values into two different vectors called before and after. Use R to evaluate the amount of weight lost for each participant. What is the average amount of weight lost?
<br>
> Answer: 

```R
> before <- c(78, 72, 78, 79, 105)

> after <- c(67, 65, 79, 70, 93)

> lost <- before - after 
> lost 

[1] 11  7 -1  9 12
> lost / 5

[1]  2.2  1.4 -0.2  1.8  2.4
```
當然，為了方便自己，也為了方便使用者（R 的開發者就是統計學家），R 語言中預設了許多快捷方法來創建一些常見的向量。**使用冒號（colon），可以用來生成整數序列**:

```R 
> 1:10

[1]  1  2  3  4  5  6  7  8  9 10

> -3:4

[1] -3 -2 -1  0  1  2  3  4

> 9:5

[1] 9 8 7 6 5
```

如果只有整數序列，這個世界會缺少很多樂趣，這個時候我們就需要 `seq()` 這個函數了，我們來看看他怎麼用：
``` R 
> seq(from=2, to=6, by=0.4)

 [1] 2.0 2.4 2.8 3.2 3.6 4.0 4.4 4.8 5.2 5.6 6.0

> seq(from=-1, to=1, length=6)

[1] -1.0 -0.6 -0.2  0.2  0.6  1.0
```

In [2]:
?seq()

# This command can check the R Documentation 

#seq(...)

## Default S3 method:
#seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)),
 #   length.out = NULL, along.with = NULL, ...)

#seq.int(from, to, by, length.out, along.with, ...)

#seq_along(along.with)
#seq_len(length.out)

In [3]:
seq(from = 2, to = 6, by = 0.4) # this ‘by' is the common difference 
seq(from=-1, to=1, length=6) # this 'length' is the length of the sequence

這個函數看起來很牛批，但是如果我們想要在一數列全都是 5 的呢：$[5,5,5,5,5 \dots$，這是就需要一個 `rep()` 了。（同樣，我們可以用 `?rep()` 去查它的用法）

```R 
> rep(5,3)

[1] 5 5 5

> rep(2:5,each=3)

[1] 2 2 2 3 3 3 4 4 4 5 5 5

> rep(-1:3, length.out=10)

[1] -1  0  1  2  3 -1  0  1  2  3
```

In [4]:
rep(5,3)
rep(2:5,each=3)
rep(-1:3, length.out=10)

我們也可以利用 R 語言的矢量化這個特點來創造一些更好玩的序列：
```R
> 2^(0:10)

[1] 1 2 4 8 16 32 64 128 256 512 1024

> 1:3 + rep(seq(from=0,by=10,to=30), each=3)

[1] 1 2 3 11 12 13 21 22 23 31 32 33
```

In [5]:
 2^(0:10) 
1:3 + rep(seq(from=0,to=30, by=10), each=3)

最后一个例子展示了回收，这也是矢量化的一个重要部分。 如果我们对两个不同长度的矢量执行二进制运算（例如+），则反复使用较短的运算，直到操作已应用于较长的一个条目。 如果较长的长度不是较短长度的倍数，则给出警告。
```R
> 1:10 * c(-1,1)

[1]-1 2-3 4-5 6-7 8-910

> 1:7 * 1:2

Warning:  longer object length is not a multiple of shorter object
length

[1] 1 4 3 8 5 12 7
```
 

In [6]:
1:10 * c(-1,1)
1:7 * 1:2

"longer object length is not a multiple of shorter object length"

#### Exercise 2.3. 
Create the following vectors in R using seq() and rep().<br>
(i) 1,1.5,2,2.5,...,12<br>
(ii) 1,8,27,64,...,1000.<br>
(iii) $1,−\frac{1}{2}, \frac{1}{3},−\frac{1}{4},...,−\frac{1}{100}$<br>
(iv) $1,3,6,10,15,...,\sum^n_{i=1}i,...,210$ [look up ?cumsum].
<br>
**Answer**
```R
#(i)
seq(from = 1,to = 12, by = 0.5)
#(ii)
1:10 * seq(from = 1,to = 10, by = 1)^2
#(iii)
1/(1:100) * (-1)^(1:100)
#(iv)

cumsum(1:210)
```

In [7]:
#(i)
seq(from = 1,to = 12, by = 0.5)
#(ii)
1:10 * seq(from = 1,to = 10, by = 1)^2
#(iii)
1/(1:100) * (-1)^(1:100)
#(iv)
cumsum(1:210)


### 子集

我們经常需要提取向量中的一些元素。 在R中，您可以使用**方括号**来选择单个元素或元素组：<br>
```R
> x <- c(5,9,2,14,-4)

> x[3]

[1] 2

> # note indexing starts from 1
> x[c(2,3,5)] [1] 9 2-4 > x[1:3]

[1] 5 9 2

> x[3:length(x)]

[1]  2 14 -4
```
獲取子向量還有兩種方法，第一种是**比較向量的大小，然後給出布爾值**（即包含TRUE和FALSE）：
```R
> x>4 # to judge if x > 4 

[1] TRUE TRUE FALSE TRUE FALSE > x[x > 4]

[1] 5 9 14
```
或者使用**負數索引**來指定不應該選擇的元素：
```R
> x[-1]
[1] 9 214-4

> x[-c(1,4)] 

[1] 9 2-4
``` 
*這種**負數索引**等於把剔除掉代表的 `x[i]` ；另，這與其他語言中（例如 C 和 python ）的負面索引解釋有這很大的不同）*
<br>
#### Exercise 2.4.
The built-in vector LETTERS contains the uppercase letters of the alphabet. Produce a vector of <br>
(i) the first 12 letters; <br>
(ii) the odd ‘numbered’ letters; <br>
(iii) the (English) consonants.
<br>
**Answer**
```R
#(i)
> LETTERS[(1:12)]
 [1] "A" "B" "C" "D" "E" "F" "G" "H" "I" "J" "K" "L"
#(ii)
> LETTERS[seq(from = 1, to = 26, by = 2)]
 [1] "A" "C" "E" "G" "I" "K" "M" "O" "Q" "S" "U" "W" "Y"
#(iii)
> LETTERS[c(-1, -5, -9, -15, -21)]
 [1] "B" "C" "D" "F" "G" "H" "J" "K" "L" "M" "N" "P" "Q" "R" "S" "T" "V" "W"
[19] "X" "Y" "Z"
```

In [8]:
LETTERS[(1:12)]
LETTERS[seq(from = 1, to = 26, by = 2)]
LETTERS[c(-1, -5, -9, -15, -21)]

### 邏輯運算符

如我們上面選擇特定的向量一樣，我們使用 `>`，`<` 這一類比較運算符來反悔一個邏輯向量（布爾值），這裡我們來演示一下： <br>
```R
> x <= 2 # less than or equal to 
[1] FALSE FALSE TRUE FALSE TRUE 

> x == 2 # equal to
[1] FALSE FALSE TRUE FALSE FALSE 

> x != 2 # not equal to
[1]  TRUE  TRUE FALSE  TRUE  TRUE
```
注意到了我們使用的雙等號`==`，這個和單等號不同，這是表達了等號兩邊做比較（和其他語言類似）意為“是否等於”；`!=` 則是“是否不等於”。
```R
> (x > 0) & (x < 10) # 'and' 
[1] TRUE TRUE TRUE FALSE FALSE
```
`&` 預算符相當於兩邊做交集 "and"，和 C 語言中的 `&&` 一樣；同樣的，如果是一條豎線`|`則代表了做併集；`!` 則這是否定運算。
```R
> (x == 5) | (x > 10)
[1]  TRUE FALSE FALSE  TRUE FALSE

> !(x > 5)
[1]  TRUE FALSE  TRUE FALSE  TRUE
```

In [9]:
x <= 2 # less than or equal to 
x == 2 # equal to
(x > 0) & (x < 10) # 'and' 
(x == 5) | (x > 10)
(x == 5) | (x > 10)
!(x > 5) 

#### Exercise 2.6. 
The function `rnorm()` generates normal random variables. For instance, `rnorm(10)` gives a vector of `10` i.i.d. standard normals. Gen- erate 20 standard normals, and store them as x. Then obtain subvectors of<br>
(i) the entries in x which are less than 1; <br>
(ii) the entries between $\frac{1}{2}$ and 1;<br>
(iii) the entries whose absolute value is larger than 1.5.<br>
**Answer:**
```R
> x = rnorm(20)

# question one
> x_1 = c(x < 1)
> x_1
 [1]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE FALSE FALSE
[13]  TRUE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE

#question two 
> x_2 = c(1/2 < x)
> x_2
 [1]  TRUE  TRUE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE FALSE  TRUE  TRUE
[13] FALSE  TRUE  TRUE FALSE FALSE  TRUE FALSE FALSE

#question three 
> x_3 = c(abs(x) > 1.5)
> x_3
 [1] FALSE FALSE FALSE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE  TRUE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE FALSE
``` 

### 字符型向量

向量不一定要包含数字，我们也可以创造一个字符型向量，其中每个条目都是一个文本自负串。在 R 语言，我们使用双引号去确定字符串：
```R
> x <-c("Hello", "how do you do", "lovely to meet your", 42)
> x 

[1] "Hello", "how do you do", "lovely to meet your"
[4] 42
```
注意，不能将字符串和数字混合，如果要将数字和字符串混合的话，需要先把数字转化成字符串，然后才放进同一个向量；否则，字符串会变成数字对应物（ASCII）
```R 
> x[2:3]
[1] "how do you do" "lovely to meet your"

> x[-4]
[1] "Hello"    "how do you do"  "lovely to meet your"

> c(x[1:2],"goodbye")
[1] "Hello"  "how do you do" "goodbye"
```

In [12]:
x <-c("Hello", "how do you do", "lovely to meet your", 42)
x
x[2:3]
x[-4]
c(x[1:2],"goodbye")

### 矩阵

在統計學中我們經常會用到矩陣，因此，我們需要學習如何在 R 語言中使用矩陣。要創建矩陣就要了解矩陣函數：`matrix()`，首先可以去了解一下這個函數：`?matrix()`：
```R
> matrix(1:12, nrow = 3, ncol = 4)
     [,1] [,2] [,3] [,4]
[1,]    1    4    7   10
[2,]    2    5    8   11
[3,]    3    6    9   12
```
這個被稱為“column-major order”，也就是列優先，這時我們也可以只給出一個維度：
```R 
> matrix(1:12, nrow = 3)
```
除非，我們想要回收矢量（這句話我沒看懂）：
```R
>matrix(1:3, nrow = 3, ncol = 4)
     [,1] [,2] [,3] [,4]
[1,]    1    1    1    1
[2,]    2    2    2    2
[3,]    3    3    3    3
```
我們還可以通過命令讓它按列排序或者按行排序：
```R
> matrix(1:12, nrow=3, byrow=TRUE) # order in row 
> matrix(1:12, nrow=3, byrow=FALSE)# order in column
``` 
R 語言中為了方便計算還有很多不同的特定的函數，例如：`diag()`, `%o%`:
```R

> diag(3)
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    0    1    0
[3,]    0    0    1

> diag(1:3)
     [,1] [,2] [,3]
[1,]    1    0    0
[2,]    0    2    0
[3,]    0    0    3

> 1:5 %o% 1:5 # %o% stand for the Outer product of Arrays
     [,1] [,2] [,3] [,4] [,5]
[1,]    1    2    3    4    5
[2,]    2    4    6    8   10
[3,]    3    6    9   12   15
[4,]    4    8   12   16   20
[5,]    5   10   15   20   25

> 1:5 %*% 1:5 # %*% stand for the Matrix Multiplication 
     [,1]
[1,]   55
```
最後一個運算符執行外積，因此他創建了一個 $(i，j)\ \  x_iy_j$ 的矩陣。 概括一下，`outer()`就是為兩個參數以上的任意函數$f$，創建一個$f(x_i，y_j)$的矩阵。 （稍后将详细介绍功能。）


 ## 數據結構

了解一門語言，當然要從它的數據結構開始，否則無法操縱程序中的對象。
<font color="gray"> 對象很重要 </font> 

這裡出現了一個 `a == y[4]`is false $\ \Rightarrow 0.6 \neq 0.6 $；簡單的說，這就是浮點數在計算機中表達有限制，不能以任意精度去存儲，所以尤其是微小的數字或者巨大的數字在運算式會有意外發生。下面在舉一個例子：
判斷數值的相對大小從來不用大於小於或者等於號，也從來不目測，因為在福點數運算中，大小比較從來都不靠譜:http://cos.name/cn/topic/106794 <br>

In [10]:
x = seq(0, 1, by = 0.2)
y = seq(0, 1, by = 0.2)
y[4]
x[3]
a = 1- x[3]
a
a == y[4]

In [11]:
seq(0, 1, 0.1)
seq(0, 1, 0.1) == c(0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1)
3 - 0.7 + 0.4 == 0
sqrt(2)^2 == 2