# 《R 語言忍者秘笈》筆記

written by 谢益辉 肖楠 坑主三 坑主四

R语言 (R Core Team 2017) 是由统计学家发明的一门程序语言，这个特殊的背景让这门语言在计算机专业人士眼中看起来也许很奇怪：语法松散、数据结构不严谨、充斥着黑魔法，等等。如果能结合数据分析的背景去看待它，就会发现它还是有很多精妙之处的。

学一门语言不可能通过两天时间把语法看完了事就行，必须得实战练习：一来巩固语法，二来增加经验值。本书根据<a href="http://cos.name/cn/"> 统计之都论坛 </a> 六年中近六千帖子和三万回帖整理并加入作者的个人经验而写成。我们找的有这样几种帖子：

版主们被问得怒火丛生，因为同样的问题被问了八百遍了，但论坛规定版主得修炼内力，所以老实版主回帖提供老链接，其它版主默默；
大家讨论得热火朝天，提出各种解决方案，但某网友一行代码扔出来，让所有人都默默；
一个帖子当时只有寥寥几个回复，好像没什么人搭理，默默过了两年，楼主突然冒出来说，哇，这一招真管用；
一个帖子楼主默默写了很久很久，但根本没有人回复，可能当时大家的查克拉都没到那个量级；
总之，我们追求的是高效率的R应用，就像一名忍者，了解大局形势，也善于利用细节，飞檐走壁上天入地，准确而迅速地完成任务。

---

## 安裝與配置

### for Windows users
https://bookdown.org/yihui/r-ninja/setup.html

### for macOS users
類似於 Windows 的安裝方法，直接在 https://www.r-project.org 找到安裝包下載即可。
<br>

PS：**可以使用 Jupyter notebook**，只要<a href="https://irkernel.github.io/installation/#linux-panel">按照這個方法</a>去安裝即可。(This note powered by Jupyter notebook)

## 基本運算

R 語言跟別的語言一樣，有兩種模式，一個是 **Console**，跟它的名字一樣，在界面上（command line interface）敲入代碼，立刻執行。（也稱為交互式解釋器）
[![Screen Shot 2018-07-26 at 21.23.34.png](https://i.loli.net/2018/07/26/5b59cb69e6b8f.png)](https://i.loli.net/2018/07/26/5b59cb69e6b8f.png)

``` R 
> 6 + 9 # This line called “prompt”
[1] 15 # This line called "assignment"
> 
> x <- 15 
> x - 1
[1] 14
``` 

上面的例子中 `x <- 15` 的意思就是給 x 這個變量賦值；左邊的變量被分配到右邊的值（很機翻的感覺），且，左邊只能是單一一個變量，不能是下面這種情況：<br>
``` R
> x + 4 <- 15

# the console will jump out the error code: 
# Error in x + 4 <- 15 : could not find function "+<-"
```
當然 ` -> ` 也是可以用來 assign 一個變量的，如下：
<br>
``` R 
> x = 5 
> 5*x -> x
> x

[1] 25
``` 
在 R 語言中，`=` 和 `<-` 都是表達賦值的意思，但更多人會推薦使用 `<-` 是因為它比較~~牛批~~（因為別的語言不會用這個運算符）

In [9]:
# line one
6 + 9 

# line two 
x <- 15 
 
x - 1

#line three
x = 5 
5 * x -> x 
x 

### 向量

在 R 語言中，很多時候我們會將用它的一個特性：矢量化（vectorized），這也就意味著可以在矢量上進行許多操作；函數 `c()` 用來創建向量：

``` R 
> x <- c(1, -1, 3.5, 2)
> x

[1]  1.0 -1.0  3.5  2.0
```
然後，如果我們給這個向量加 2，就相當於給向量的每一項都加了 2；乘方，同理 ：
``` R 
> x + 2
> x

[1]  3.0 1.0  5.5  4.0

> x^2

[1] 1.00 1.00 12.25 4.00
```
這個操作在統計裡很有用：
``` R
> sum((x - mean(x))^2)

[1] 10.69
```

#### Exercise 2.1.  

The weights of five people before and after a diet programme are given in the table. 
<br>
Before | After
---- | ---
78 | 67
72 |  65
78 | 79
79 | 70
105 | 93

Read the ‘before’ and ‘after’ values into two different vectors called before and after. Use R to evaluate the amount of weight lost for each participant. What is the average amount of weight lost?
<br>
> Answer: 

```R
> before <- c(78, 72, 78, 79, 105)

> after <- c(67, 65, 79, 70, 93)

> lost <- before - after 
> lost 

[1] 11  7 -1  9 12
> lost / 5

[1]  2.2  1.4 -0.2  1.8  2.4
```
當然，為了方便自己，也為了方便使用者（R 的開發者就是統計學家），R 語言中預設了許多快捷方法來創建一些常見的向量。**使用冒號（colon），可以用來生成整數序列**:

```R 
> 1:10

[1]  1  2  3  4  5  6  7  8  9 10

> -3:4

[1] -3 -2 -1  0  1  2  3  4

> 9:5

[1] 9 8 7 6 5
```

如果只有整數序列，這個世界會缺少很多樂趣，這個時候我們就需要 `seq()` 這個函數了，我們來看看他怎麼用：
``` R 
> seq(from=2, to=6, by=0.4)

 [1] 2.0 2.4 2.8 3.2 3.6 4.0 4.4 4.8 5.2 5.6 6.0

> seq(from=-1, to=1, length=6)

[1] -1.0 -0.6 -0.2  0.2  0.6  1.0
```

In [8]:
?seq()

# This command can check the R Documentation 

#seq(...)

## Default S3 method:
#seq(from = 1, to = 1, by = ((to - from)/(length.out - 1)),
 #   length.out = NULL, along.with = NULL, ...)

#seq.int(from, to, by, length.out, along.with, ...)

#seq_along(along.with)
#seq_len(length.out)

In [9]:
seq(from = 2, to = 6, by = 0.4) # this ‘by' is the common difference 
seq(from=-1, to=1, length=6) # this 'length' is the length of the sequence

這個函數看起來很牛批，但是如果我們想要在一數列全都是 5 的呢：$[5,5,5,5,5 \dots$，這是就需要一個 `rep()` 了。（同樣，我們可以用 `?rep()` 去查它的用法）

```R 
> rep(5,3)

[1] 5 5 5

> rep(2:5,each=3)

[1] 2 2 2 3 3 3 4 4 4 5 5 5

> rep(-1:3, length.out=10)

[1] -1  0  1  2  3 -1  0  1  2  3
```

In [11]:
rep(5,3)
rep(2:5,each=3)
rep(-1:3, length.out=10)

我們也可以利用 R 語言的矢量化這個特點來創造一些更好玩的序列：
```R
> 2^(0:10)

[1] 1 2 4 8 16 32 64 128 256 512 1024

> 1:3 + rep(seq(from=0,by=10,to=30), each=3)

[1] 1 2 3 11 12 13 21 22 23 31 32 33

In [None]:
 2^(0:10)

 ## 數據結構

了解一門語言，當然要從它的數據結構開始，否則無法操縱程序中的對象。
<font color="gray"> 對象很重要 </font> 

這裡出現了一個 `a == y[4]`is false $\ \Rightarrow 0.6 \neq 0.6 $；簡單的說，這就是浮點數在計算機中表達有限制，不能以任意精度去存儲，所以尤其是微小的數字或者巨大的數字在運算式會有意外發生。下面在舉一個例子：
判斷數值的相對大小從來不用大於小於或者等於號，也從來不目測，因為在福點數運算中，大小比較從來都不靠譜:http://cos.name/cn/topic/106794 <br>

In [5]:
x = seq(0, 1, by = 0.2)
y = seq(0, 1, by = 0.2)
y[4]
x[3]
a = 1- x[3]
a
a == y[4]

In [6]:
seq(0, 1, 0.1)
seq(0, 1, 0.1) == c(0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1)
3 - 0.7 + 0.4 == 0
sqrt(2)^2 == 2