R 裡面的 objects 儲存在真正的記憶體裡。

getwd(): 取得目前的目錄的位置  
ls():   
dir(): 列出目前目錄的檔案

用 <font color='blue'> source(檔案名稱) </font> 將你編輯的 r code 轉換成 R 檔案。 

In [1]:
myfunction <- function(){
	x <- rnorm(100)
	mean(x)
}

In [3]:
myfunction()

<font color='blue'>":" operator </font>可以用來做 integer sequences。

In [4]:
x <- 1:20

In [5]:
x

R 裡的五個基本 classes (atomic classes): 
- character
- number
- integer
- complex 
- logical(True, False)

vector 是最簡單的一種 object:
- vector 裡的 objects 只能是同一個 class。
- 例外: List 裡面的 objects 可以是不同 classes。
- 用 <font color='blue'> vector(<font color='red'> vector 存放的資料型態, vector 的長度</font>) </font> 創建一個空的 vector。

### Number:
- Integer
- Infinity
- NaN

Number 在 R 裡是一種 numeric objects(double precision real numbers)。  
因此，數字 10 會被認為是 number，而如果你要 integer 的 10，可以用 <font color='red'> L suffix(後綴) </font>:

In [9]:
ex = 1
ex2 = 1L

typeof(ex)
typeof(ex2)

<font color='blue'> Inf </font> 是另一種 number，表示 infinity。

In [10]:
print(1/0)

[1] Inf


In [11]:
print(1/Inf)

[1] 0


最後一種是 <font color='red'> NaN </font>。
可能運用在:  
- 0/0。  
- 資料有缺的情況。 

In [12]:
0/0

### [補充] Attributes:  

R 的 objects 有許多 attributes，比如:  
- names, dimnames
- dimensions(比如 matrices，arrays)
- class
- length 
- other user-defined attributes/metadata
可以用 <font color='blue'> attributes(<font color='red'>某一個 class</font>) 來查看:

In [15]:
attributes(Complex)

$generic
[1] "Complex"
attr(,"package")
[1] "base"

$package
[1] "base"

$group
list()

$valueClass
character(0)

$signature
[1] "z"

$default
`\001NULL\001`

$skeleton
(function (z) 
stop("invalid call in method dispatch to 'Complex' (no default method)", 
    domain = NA))(z)

$groupMembers
$groupMembers[[1]]
[1] "Arg"

$groupMembers[[2]]
[1] "Conj"

$groupMembers[[3]]
[1] "Im"

$groupMembers[[4]]
[1] "Mod"

$groupMembers[[5]]
[1] "Re"


$class
[1] "groupGenericFunction"
attr(,"package")
[1] "methods"


以下筆記介紹三種 <font color='red'> data types </font>: Vector，Missing Value，Data Frame，以及 Names Attribute。

# <font color='green'>Vector (及其特例) </font>:
1. Vector
2. List
3. Matrices
4. Factors
    1. Ordered
    2. Unordered

## 1. Vector:

除了上面提到的 vector()，也可以用 <font color='blue'> c() </font> 來做 vector。(c 可以想成 concatenate)

In [18]:
x <- c(TRUE, FALSE) # same as c(T, F)
y <- c(1:5)
z <- c(3+4i, 65-3i)

print(x)
print(y)
print(z)

[1]  TRUE FALSE
[1] 1 2 3 4 5
[1]  3+4i 65-3i


In [21]:
print(vector("numeric", length = 5)) # numeric 預設是 0。

[1] 0 0 0 0 0


## [補充]Coercion

當你在 vector 裡的資料是不同 types，R 會 coercion(強迫) 其中一個 types 轉變。  
依據: <font color='red'>logical >(服從於) integer <(服從於) numeric <(服從於) character。  </font>  
因此:

In [25]:
y <- c(1.7, "a")
print(y)

y <- c(TRUE, 2) # logical(TRUE) 服從於 numeric(2)，因此 TRUE 變成 1。
print(y)

y <- c("a", FALSE) # logical(FALSE) 服從於 character("a")，因此 FALSE 變成 "FALSE"。
print(y)

[1] "1.7" "a"  
[1] 1 2
[1] "a"     "FALSE"


那你也可以主動 coercion 原本的資料改 types，用的是 <font color='blue'> as.* </font>。

In [27]:
x <- 0:6
class(x)

In [31]:
as.logical(x)
class(x)

但荒謬的 coercion 則會報錯:

In [36]:
z <- c("a", "b", "c")
as.logical(z)
as.complex(z)

"強制變更過程中產生了 NA"


## 2. List: Vector 的一種 special data type。

用 <font color='blue'> list() </font> 製作 list:

In [38]:
x <- list(1, FALSE, "a", 5+6i)
print(x) 

[[1]]
[1] 1

[[2]]
[1] FALSE

[[3]]
[1] "a"

[[4]]
[1] 5+6i



注意到印出來時的標號與 vector 不同。

## 3. Matrices: Vector 的一種 special data type。

1. 用 <font color='blue'> matrix(資料, nrow, ncol) </font> 來製作 matrices。
2. 跟 list 的差別在於，matrices 多了一個 <font color='red'> dim (dimension) attribute </font>。
3. matrices 是 column-wise。也就是說，資料在填入時，會先填滿第一個 column，接著填滿第二個 column。
4. <font color='red'> 每個 element 裡的 class 必須是 same type。</font>
5. 創建 matrices 的兩種方法:
    1. 從 vector 給定 dim attribute。
    2. cbind()，rbind()。

In [42]:
x <- matrix(nrow=2, ncol=3)
print(x)

     [,1] [,2] [,3]
[1,]   NA   NA   NA
[2,]   NA   NA   NA


##### Attributes of matrices:

In [43]:
dim(x)

In [44]:
attributes(x)

##### column-wise:

In [54]:
x <- matrix(1:6, nrow=2, ncol=3)
print(x)
print(class(x))

     [,1] [,2] [,3]
[1,]    1    3    5
[2,]    2    4    6
[1] "matrix" "array" 


##### <font color='red'> 從 vector 創造 metrix </font>:

In [47]:
x <- 1:10
print(x)
print(class(x))

 [1]  1  2  3  4  5  6  7  8  9 10
[1] "integer"


In [53]:
dim(x) <- c(2, 5) # 將 x 的 "dim" attribute 指定為 2 * 5。
print(x)
print(class(x))

     [,1] [,2] [,3] [,4] [,5]
[1,]    1    3    5    7    9
[2,]    2    4    6    8   10
[1] "matrix" "array" 


##### 用 <font color='blue'> cbind()，rblind() </font> 創造 metrix:

In [56]:
x <- 1:3
y <- 10:12

cbind(x, y) # 將 x，y 以 column 方向(縱向) 合併。

x,y
1,10
2,11
3,12


In [57]:
rbind(x, y) # 將 x，y 以 row 方向(橫向) 合併。

0,1,2,3
x,1,2,3
y,10,11,12


## 4. Factors: Vector 的一種 special data type。

- Factor 用來存放 <font color='red'> categorical data </font>。
- 這些 categorical data 可以是 ordered 或是 unordered。
- 想成是一個 integer vector，且每個 integer 都有一個 <font color='red'> label </font>。
----
- Factor 在 <font color='red'> modeling functions </font> 像是 <font color='blue'> lm()，glm()</font> 被特別對待。
---
- 使用 <font color='blue'> factor() </font> 來創建 factors。
- <font color='blue'> table() </font> 列出統計資料。
- <font color='blue'> unclass(某 factor) </font> 將 factor 的 labels 轉為 integer。
- <font color='blue'> attr(, "levels") </font> 列出 labels。
- <font color='blue'> factor() 的 <font color='red'> levels </font> attribute 可以指定 levels 的順序。

In [59]:
x <- factor(c("yes", "no", "no", "yes", "yes"))
print(x)

[1] yes no  no  yes yes
Levels: no yes


In [60]:
table(x)

x
 no yes 
  2   3 

In [62]:
unclass(x) # R 把 yes 標記為 2。把 no 標記為 1。

In [61]:
attr(, "levels")

ERROR: Error in attr(, "levels"): 引數 1 是空的


In [64]:
x <- factor(c("yes", "no", "no", "yes", "yes"), levels = c("yes", "no"))
# 預設的 level 是依照字母順序。
print(x) # 原本第 60 行的 level order 是 no 接著 yes。

[1] yes no  no  yes yes
Levels: yes no


# <font color='green'>Missing Values </font>:
1. NA
2. NaN

NaN 代表 <font color='red'> undefined mathematical operations </font>。  
NA 則代表其他丟失的資料。 
- <font color='blue'> is.na() </font> 用來確認資料是否為 NA。
- <font color='blue'> is.nan() </font> 用來確認資料是否為 NAN。
- NA valus 也有 class 之分，比如 integer NA，character NA。
- NaN 是一種 NA，但 NA 不一定是 NaN。

# <font color='green'> Data Frames </font>:

Data Frames 是一種特別的 list:
- 這個 list 裡的 <font color='red'> elements </font> 就是 <font color='red'> 各個不同的 columns </font>。
- 各個 element 的 <font color='red'> length(長度) </font> 就是 rows 的數量 <font color='red'>(有幾個 rows) </font>。
- 跟 matrices 不同的是，data frames 裡每個 element(也就是 column) 可以存不同 class 的資料。
- 有一個 <font color='blue'> row.names </font> 的 attribute。
- 通常我們用 <font color='blue'> data.frame()，read.table()，read.csv() </font> 來創造 data frames。
- 可以用 <font color='blue'> data.matrix() </font> 將 data frame 轉為 matrix。[但不一定是好事，因為 matrix 規則比較嚴格]。

In [67]:
x <- data.frame(foo = 1:4, bar = c(T, T, F, F)) # foo，bar 是 column 的名字。
print(x)

  foo   bar
1   1  TRUE
2   2  TRUE
3   3 FALSE
4   4 FALSE


In [68]:
nrow(x)

In [69]:
ncol(x)

# <font color='green'> Names Attribute </font>:

這個 attribute <font color='red'> 適用於所有 R 裡面的 objects </font>。

##### Vector 的 names:

In [76]:
x <- 1:3
names(x)

NULL

In [72]:
names(x) <- c("foo", "bar", "norf")
print(x)

 foo  bar norf 
   1    2    3 


In [73]:
names(x)

##### List 的 names:

In [74]:
l <- c(a = 1, b = 2, c = 3) # 1 的名字是 a，2 的名字是 b....
print(l)

a b c 
1 2 3 


##### Matrix 的  names:

In [80]:
m <- matrix(1:4, nrow=2, ncol=2)
print(m)

     [,1] [,2]
[1,]    1    3
[2,]    2    4


In [81]:
dimnames(m) <- list( c("a", "b"), c("c", "d") )
print(m)

  c d
a 1 3
b 2 4
