# R 語言的五十道練習

> 資料結構：向量

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## R 語言中的資料結構

- **向量（vector）**
- 清單（list）
- 資料框（data.frame）
- 因素向量（factor）
- 矩陣（matrix）
- 陣列（array）

## 什麼是向量

## 什麼是向量

向量是 R 語言基本的資料結構，包含相同類型的元素，所有 R 語言的進階應用都建構在向量之上，例如其他資料結構以及函數等。

## 如何創造向量

## 創造長度為 1 的向量

直接使用 `<-` 符號。

In [1]:
skywalker <- "Luke Skywalker"
num <- 5566
logical_true <- TRUE
logical_false <- FALSE

## 創造長度大於 1 的向量

- 使用 `c` 函數。
- 使用 `seq` 函數。
- 使用 `rep` 函數。

## 使用 `c` 函數

Combine 合併的縮寫。

```r
c(...)
```

In [2]:
skywalkers <- c("Anakin Skywalker", "Luke Skywalker")
nums <- c(5566, 55, 66, 56)
logicals <- c(TRUE, FALSE)

## 以 `length` 函數量測向量的長度（元素個數）

In [3]:
print(length(skywalkers))
print(length(nums))
print(length(logicals))

[1] 2
[1] 4
[1] 2


## 使用 `seq` 函數

創造一個起始值為 `from`、終止值為 `to`、間隔為 `by`、長度為 `length.out` 的向量。

```r
seq(from = , to = , by = , length.out = )
```

In [4]:
nums <- seq(from = 1, to = 10)
odds <- seq(from = 1, to = 9, by = 2)
evens <- seq(from = 2, to = 10, length.out = 5)
print(nums)
print(odds)
print(evens)

 [1]  1  2  3  4  5  6  7  8  9 10
[1] 1 3 5 7 9
[1]  2  4  6  8 10


## 在採用 `by = 1` 預設值的時候，可以使用 `:` 運算符創造

In [5]:
nums <- 1:10 # seq(from = 1, to = 10)
print(nums)

 [1]  1  2  3  4  5  6  7  8  9 10


## 使用 `rep` 函數

複製輸入的向量 `times` 次。

```r
rep(..., times = )
```

In [6]:
nums <- rep(5566, times = 5)
logicals <- rep(c(TRUE, FALSE), times = 5)
print(nums)
print(logicals)

[1] 5566 5566 5566 5566 5566
 [1]  TRUE FALSE  TRUE FALSE  TRUE FALSE  TRUE FALSE  TRUE FALSE


## 函數的分類

## 函數依照功能可以分為兩大類：

1. 通用函數（Universal functions）。
2. 聚合函數（Aggregate functions）。

## 通用函數與聚合函數的不同在於輸入與輸出的長度是否相同

- 輸出與輸入的長度相同稱為「通用函數」。
- 輸出與輸入的長度不同（輸出小於輸入）稱為聚合函數。

## 通用函數：以內建通用函數 `sqrt` 為例

將輸入的數值取平方根。

```r
sqrt(x)
```

In [7]:
input_numeric <- c(9, 16, 25)
output_numeric <- sqrt(input_numeric)
print(output_numeric)

[1] 3 4 5


## 通用函數：以內建通用函數 `toupper` 為例

將輸入的文字轉換為大寫。

```r
toupper(x)
```

In [8]:
input_characters <- c("Luke Skywalker", "Anakin Skywalker", "Darth Vadar")
output_characters <- toupper(input_characters)
print(output_characters)

[1] "LUKE SKYWALKER"   "ANAKIN SKYWALKER" "DARTH VADAR"     


## 聚合函數：以內建聚合函數 `sum` 為例

加總輸入的數值。

```r
sum(x)
```

In [9]:
input_numeric <- c(9, 16, 25)
output_numeric <- sum(input_numeric)
print(output_numeric)

[1] 50


## 聚合函數：以內建聚合函數 `mean` 為例

平均輸入的數值。

```r
mean(x)
```

In [10]:
input_numeric <- c(9, 16, 25)
output_numeric <- mean(input_numeric)
print(output_numeric)

[1] 16.66667


## 如何讀取向量

## 使用 `[index]` 讀取為長度 1 的向量

- `index` 稱為索引值，由左邊自 1 起始算起。
- 最右邊的索引值常以向量長度表示。

In [11]:
nums <- 11:20
length_nums <- length(nums)
print(nums[1])
print(nums[2])
print(nums[length_nums])

[1] 11
[1] 12
[1] 20


## 使用 `[start_index:stop_index]` 讀取為部分長度的向量

- `start_index:stop_index` 稱為切割。
- `start_index` 與 `stop_index` 均會包含。

In [12]:
nums <- 11:20
length_nums <- length(nums)
print(nums[1:3])
print(nums[(length_nums - 2):length_nums])

[1] 11 12 13
[1] 18 19 20


## 使用 `[c(index_1, index_2, ...)]` 讀取為部分長度的向量

In [13]:
nums <- 11:20
length_nums <- length(nums)
print(nums[c(1:3, (length_nums - 2):length_nums)])

[1] 11 12 13 18 19 20


## 使用邏輯讀取為部分長度的向量

與邏輯向量 `TRUE` 相同索引值位置的會被保留。

In [14]:
nums <- 11:20
logicals <- nums > 15
print(logicals)
print(nums[logicals])

 [1] FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE
[1] 16 17 18 19 20


## 如何更新向量

## 使用 `[index]` 更新向量中的資料值

In [15]:
nums <- 11:20
length_nums <- length(nums)
nums[1] <- 100
nums[length_nums] <- 200
print(nums)

 [1] 100  12  13  14  15  16  17  18  19 200


## 使用 `<-` 取代向量命名

In [16]:
nums <- 11:20
print(nums)
nums <- 21:40
print(nums)

 [1] 11 12 13 14 15 16 17 18 19 20
 [1] 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40


## 如何刪除向量

## 使用 `[-index]` 刪除向量中的資料值

In [17]:
nums <- 11:20
length_nums <- length(nums)
print(nums[-1])
print(nums[c(-1, -length_nums)])

[1] 12 13 14 15 16 17 18 19 20
[1] 12 13 14 15 16 17 18 19


## 使用邏輯刪除向量中的資料值

In [18]:
nums <- 11:20
logicals <- nums < 20 & nums > 11
print(nums[logicals])

[1] 12 13 14 15 16 17 18 19


## 使用 `rm` 函數刪除向量命名

In [19]:
nums <- 11:20
environment_objects <- ls()
print("nums" %in% environment_objects)
rm(nums)
environment_objects <- ls()
print("nums" %in% environment_objects)

[1] TRUE
[1] FALSE


## 認識進階向量類型

## 進階向量類型

- 日期 `Date`。
- 日期時間 `POSIXct`。
- 無限大 `Inf`。
- 非數值 `NaN`。
- 遺漏值 `NA`。
- 空值 `NULL`。

## 日期 `Date`

- 外觀看起來跟文字沒有什麼差別。
- 運用 `class` 函數檢驗，就會發現並不是文字。

In [20]:
sys_date <- Sys.Date()
print(sys_date)
print(class(sys_date))

[1] "2021-06-09"
[1] "Date"


## 日期與數值可以互相轉換

- 以 1970-01-01 作為原點 0，在這天以後的每天都 +1 來記錄，而這天以前的每天都 -1 來記錄。
- 日期可以進行數值運算。

In [21]:
date_of_origin <- as.Date("1970-01-01")
print(date_of_origin - 1)
print(date_of_origin + 1)

[1] "1969-12-31"
[1] "1970-01-02"


## 日期時間 `POSIXct`

- 外觀看起來跟文字沒有什麼差別。
- 運用 `class` 函數檢驗，就會發現並不是文字。

In [22]:
sys_time <- Sys.time()
print(sys_time)
print(class(sys_time))

[1] "2021-06-09 12:55:51 CST"
[1] "POSIXct" "POSIXt" 


## 日期時間與數值可以互相轉換

- 以 1970-01-01 00:00:00作為原點 0，在這個時間點以後的每秒都 +1 來記錄，而這個時間點以前的每秒都 -1 來記錄。
- 日期時間可以進行數值運算。

In [23]:
datetime_of_origin <- as.POSIXct("1970-01-01 00:00:00", tz = "GMT")
print(datetime_of_origin - 1)
print(datetime_of_origin + 1)

[1] "1969-12-31 23:59:59 GMT"
[1] "1970-01-01 00:00:01 GMT"


## 無限大 `Inf`

- 特殊的數值向量。
- 除法運算中若遭遇到分母為零的情況就會出現。

In [24]:
inf <- Inf
zero_division <- 5566/0
print(inf)
print(zero_division)
print(class(inf))
print(class(zero_division))

[1] Inf
[1] Inf
[1] "numeric"
[1] "numeric"


## 非數值 `NaN`

- `NaN` 意指 Not a Number。
- 某些數值運算的結果無法使用數值或者 `Inf` 表示，就可能採用 `NaN`。

In [25]:
nan <- NaN
inf_divides_inf <- Inf / Inf
print(nan)
print(inf_divides_inf)
print(class(nan))
print(class(inf_divides_inf))

[1] NaN
[1] NaN
[1] "numeric"
[1] "numeric"


## 遺漏值 `NA`

- `NA` 意指 Not Available。
- 用來表示任何向量類型中的遺漏資料。

In [26]:
characters_with_na <- c("Luke Skywalker", "Anakin Skywalker", NA)
logicals_with_na <- c(TRUE, FALSE, NA)
print(class(characters_with_na))
print(class(logicals_with_na))

[1] "character"
[1] "logical"


## 空值 `NULL`

- `NA` 佔有一個長度。
- `NULL` 不佔有長度。

In [27]:
characters_with_na <- c("Luke Skywalker", "Anakin Skywalker", NA)
logicals_with_na <- c(TRUE, FALSE, NA)
print(length(characters_with_na))
print(length(logicals_with_na))

[1] 3
[1] 3


In [28]:
characters_with_null <- c("Luke Skywalker", "Anakin Skywalker", NULL)
logicals_with_null <- c(TRUE, FALSE, NULL)
print(length(characters_with_null))
print(length(logicals_with_null))

[1] 2
[1] 2


## 重點統整

- 向量是 R 語言基本的資料結構。
- 如何創造長度大於 1 的向量：
    - 使用 `c` 函數。
    - 使用 `seq` 函數。
    - 使用 `rep` 函數。

## 重點統整（續）

- 函數依照功能可以分為兩大類：
    - 通用函數（Universal functions）。
    - 聚合函數（Aggregate functions）。
- 通用函數與聚合函數的不同在於輸入與輸出的長度是否相同
    - 輸出與輸入的長度相同稱為「通用函數」。
    - 輸出與輸入的長度不同（輸出小於輸入）稱為聚合函數。

## 重點統整（續）

- 如何讀取向量：
    - 使用 `[index]` 讀取為長度 1 的向量。
    - 使用 `[start_index:stop_index]` 讀取為部分長度的向量。
    - 使用 `[c(index_1, index_2, ...)]` 讀取為部分長度的向量。
    - 使用邏輯讀取為部分長度的向量。

## 重點統整（續）

- 認識進階向量類型：
    - 日期 `Date`。
    - 日期時間 `POSIXct`。
    - 無限大 `Inf`。
    - 非數值 `NaN`。
    - 遺漏值 `NA`。
    - 空值 `NULL`。