[筆記來源](https://www.coursera.org/learn/r-programming/lecture/JDoLX/subsetting-basics)

有三個 operators 可以將 R object extract 出 subsets:
- <font color='blue'> [ </font>:
    - 回傳的 object 跟你當初的 object <font color='red'> 有一樣的 class </font>。
    - 可以選擇 <font color='red'> 多個 elements </font>。 [有一個例外]
- <font color='blue'> [[ </font>:
    - 特別被用來 extract <font color='red'> list 或 data frame </font>。
    - 只能選擇 <font color='red'> 一個 element </font>。
    - Return 的 object 不一定跟原來的一樣 class。(因為 list 可以儲存不同 types 的 element)
- <font color='blue'> $ </font>:
    - 特別被用來 extract <font color='red'> list 或 data frame <font color='green'> by name </font> </font>。
    - 只能選擇 <font color='red'> 一個 element </font>。
    - 語意很像 <font color='red'> hat of [[ </font> (?)
    

本篇文將介紹如何 extract:
- vector  
- list
- matrices
- 移除 Missing values
- vectorized operations

## Subset <font color='green'> vector </font>:

In [1]:
x <- c("a", "b", "c", "c", "d", "a")
x[1] 
# output 是 character vector。

In [2]:
x[1:4]
# output 是 character vector。

In [3]:
x[x > "a"]
# output 是 character vector。

In [4]:
u <- x > "a"
u

In [5]:
x[u] # 注意到跟上面那行的配合。
# output 是 character vector。

## Subset <font color='green'> list </font>

In [6]:
x <- list(foo = 1:4, bar = 0.6)
print(x)

$foo
[1] 1 2 3 4

$bar
[1] 0.6



In [7]:
x[1]
print(typeof(x[1])) # 用 single bracket，extract 完的 type 跟原先資料一樣(在此例是 list)。
# A list that contains the integer sequence 1~4


x[[1]]
print(typeof(x[[1]])) # 用 double bracket，extract 完的 type 是一個 integer sequence 1~4。

[1] "list"


[1] "integer"


In [10]:
print(x$bar)

print(x[['bar']])

[1] 0.6
[1] 0.6


In [8]:
x$bar
print(typeof(x$bar))
print('-----')

x[["bar"]]
print(typeof(x[["bar"]]))
print('-----')

x["bar"] # 是一個 list。
print(typeof(x["bar"]))

[1] "double"
[1] "-----"


[1] "double"
[1] "-----"


[1] "list"


筆記: 由上面的各種 typeof，好像 R 在判斷 typeof 時，會先看大的，再看裡面的 elements。  
比如，在 ```print(typeof(x$bar)``` 時，因為回傳的是一個 sequence，所以 typeof 就是那個 sequence 裡的 elements 的 type(也就是 0.6，一個 double)。  
那像是 ```print(typeof(x["bar"])```時，因為只用一個 bracket，所以回傳的是 list，所以 typeof 就是 list。

### 取得多個 elements (<font color='red'> 不能用 $ 或 [[]] </font>):

In [11]:
x <- list(foo = 1:4, bar = 0.6, baz = "Hello")
x[c(1, 3)] 

### $ vs [[]]:

直接看例子就懂了:

In [16]:
x <- list(foo = 1:4, bar = 0.6, baz = "Hello")
name <- "foo"

print(x[[name]])

print(x$name)
print(x$foo) # $ 就只能用真實的 element 名字。

[1] 1 2 3 4
NULL
[1] 1 2 3 4


### 用 [[]] 取得巢狀 element:

In [17]:
x <- list(a = list(12, 13, 15), b = c(3.14, 5555))
x[[c(1, 3)]] # 取出第 1 層 element(list a) 的第 3 個 element(數字 15)

In [18]:
# same as:
x[[1]][[3]]

## subset <font color='green'> matrices </font>:

In [20]:
x <- matrix(1:6, 2, 3) 
# x 是一個 2*3 的 matrix，其元素是數字 1-6。
# 別忘記 matrix 在 R 是 column-wise。
x

0,1,2
1,3,5
2,4,6


In [21]:
x[1, 2] # 第 1 row 的第 2 個 column。

In [23]:
x[2,] # 也可以取出整個 row 或 column。

### 特例: 

若是你用 ```[]``` 取得了 matrix 的某一個 element，R 會預設他的 type 是 ```vector ```。  
這是用```[]``` 但卻沒回傳 same type 的一個特例。  
你可以用 ```drop = FALSE ``` 讓 R 不要降低維度(也就是保持 1*1 的 matrix)。

In [26]:
x <- matrix(1:6, 2, 3) 
print(x[1, 2]) # 長度是 1 的 vector。

[1] 3


In [29]:
print(x[1, 2, drop=FALSE]) # 1*1 的 martrix。

     [,1]
[1,]    3


同樣道理適用於 extract 整個 row 或 column 時:

In [30]:
print(x[1, ])

[1] 1 3 5


In [31]:
print(x[1, , drop=FALSE])

     [,1] [,2] [,3]
[1,]    1    3    5


[補充] partial matching:  
在用 ```[[]]``` 或 ```$``` 時，有時把你要的 element 的 row 跟 column 名字全部打出來很麻煩:  
在 ```$```，可以直接打第一個字，R 會區搜尋匹配的。

In [34]:
x <- list(aardvark = 1:5)
x$a

In [35]:
x <- list(aardvark = 1:5, apple=3:9) # 但如果很多 'a' 開頭，R 就分不出來了。
x$a

NULL

至於 ```[[]]```，則要特別將參數 ```exact```設為 ```FALSE```。

In [38]:
x <- list(aardvark = 1:5)

x[["a"]]
x[["a", exact=FALSE]]

NULL

## [補充] 移除 ```NA``` (Missing) value:
1. 用 ```is.na()``` 創造一個 <font color='red'> logical vector </font>。
2. 擷取好的部分。

In [39]:
x <- c(1, 2, NA, 4, NA, 5)
bad <- is.na(x)

x[!bad]


那當你有多個 objects 時呢?  
用 ```complete.cases()``` [作用: 過濾出都沒有 ```NA``` 的 row 或 column]: 

In [40]:
x <- c(1,    2,  NA,  4,  NA,  5)
y <- c("a", "b", NA, "d", NA, "e")

good <- complete.cases(x, y)

print(x[good])
print(y[good])

[1] 1 2 4 5
[1] "a" "b" "d" "e"


## 補充: Vectorized Operations:

用途: <font color='red'> 讓 code 更簡潔 </font> (不確定這是否是 ```python``` 的 operator overloading?)

### 運用在 ```vector```:

In [41]:
x <- 1:4 # 1, 2, 3, 4
y <- 6:9 # 6, 7, 8, 9
 
x + y # 直接相加

In [42]:
x > 2

In [43]:
x * y

In [44]:
y == 8

### 運用在 ```matrix```:

In [52]:
x <- matrix(1:4, 2, 2)
y <- matrix(rep(10, 4), 2, 2) # 重複 10 4 次。

print(x)
print(y)

     [,1] [,2]
[1,]    1    3
[2,]    2    4
     [,1] [,2]
[1,]   10   10
[2,]   10   10


In [53]:
print(x * y) # 直接相乘(element-wise mutiplication)。

     [,1] [,2]
[1,]   10   30
[2,]   20   40


如果要真的矩陣乘法: 

In [55]:
print(x %*% y) # true matrix mutiplication

     [,1] [,2]
[1,]   40   40
[2,]   60   60


In [56]:
print(x / y) # 直接相除。

     [,1] [,2]
[1,]  0.1  0.3
[2,]  0.2  0.4
