# R 程式設計

> 資料結構

[數據交點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

> R’s base data structures can be organized by their dimensionality and whether they’re homogeneous or heterogeneous.
>
> Hadley Wickham

||同質|異質|
|:--:|:--|:--|
|一維|`vector`|`list`|
|二維|`matrix`|`data.frame`|
|n維|`array`||

# `list`

## `list` 在 R 中的定位

- 未命名的 `list`（unnamed list）用來儲存不同類型的向量
- 命名的 `list`（named list）用來儲存 `KEY-VALUE` 組合的資料
- 支援 `$` 作為索引

## 使用 `list()` 函數創建 `list`

In [1]:
endgame <- list(
  "Avengers: Endgame",
  2019,
  8.4,
  c("Action", "Adventure", "Sci-Fi")
)
class(endgame)

## 檢視外觀

In [2]:
endgame

## 使用 `[[INDEX]]` 索引 `list`

In [3]:
endgame[[1]]
endgame[[2]]
endgame[[3]]
endgame[[4]]

## 命名的 `list`（named list）

In [4]:
endgame <- list(
  movieTitle = "Avengers: Endgame",
  releaseYear = 2019,
  rating = 8.4,
  genre = c("Action", "Adventure", "Sci-Fi")
)
class(endgame)
endgame

## 使用 [["KEY"]] 來索引 `list`

In [5]:
endgame[["movieTitle"]]
endgame[["releaseYear"]]
endgame[["rating"]]
endgame[["genre"]]

## 亦可以使用 `$KEY` 來索引 `list`

In [6]:
endgame$movieTitle
endgame$releaseYear
endgame$rating
endgame$genre

## 獲取 `list` 中的 `KEYS`

In [7]:
names(endgame)

## `list` 中的每個向量都維持本來的 class

In [8]:
class(endgame$movieTitle)
class(endgame$releaseYear)
class(endgame$rating)
class(endgame$genre)

## 加入 `list` 中 `KEY-VALUE`

In [9]:
endgame[["movieTime"]] <- 181
endgame

## 更新 `list` 中 `VALUE`

In [10]:
endgame[["movieTime"]] <- "3h 1min"
endgame

## 刪除 `list` 中 `KEY-VALUE`

In [11]:
endgame[["movieTime"]] <- NULL
endgame

# `factor`

## `factor` 在 R 中的定位

- 特殊的文字向量
- 獨一的文字值會以 **Levels** 紀錄
- 每個獨一的文字值會以一個整數編碼，支援有序文字
- 預設的文字變數類型

## 使用 `factor()` 函數創建

In [12]:
avengers <- c("The Avengers", "Avengers: Age of Ultron", "Avengers: Infinity War", "Avengers: Endgame")
class(avengers)
avengers <- factor(avengers)
class(avengers)

## 獨一的文字值以 Levels 編碼

In [13]:
rgbs <- factor(c("red", "green", "blue", "blue", "green", "green"))
rgbs

## `factor` 支援有序文字

In [14]:
temperatures <- factor(c("freezing", "cold", "cool", "warm", "hot"), ordered = TRUE)
temperatures
temperatures[1] > temperatures[3]

## 調整 `factor` 的順序

In [15]:
temperatures <- factor(c("freezing", "cold", "cool", "warm", "hot"),
                       ordered = TRUE,
                       levels = c("freezing", "cold", "cool", "warm", "hot"))
temperatures

## 每個獨一的文字值會以一個整數編碼

In [16]:
temperatures <- c("freezing", "cold", "cool", "warm", "hot")
as.numeric(temperatures) # Warning
temperatures <- factor(c("freezing", "cold", "cool", "warm", "hot"))
as.numeric(temperatures)

“NAs introduced by coercion”


## `factor` 有時難以掌控

In [17]:
avengers <- factor(c("The Avengers", "Avengers: Age of Ultron", "Avengers: Infinity War"))
avengers <- c(avengers, "Avengers: Endgame")
avengers

## R 使用者為何會需要使用 `factor` 儲存文字

- `factor` 具有整數的編碼
- 讓資料成為 `modeling-ready` 的狀態

# `data.frame`

## `data.frame` 在 R 中的定位

- 處理表格資料的首選
- 多數資料科學家處理的資料是表格形式
- 具有兩個維度，`m x n`（列 x 欄）
- 列常被稱為觀測值、欄常被稱為變數
- 每個欄都是一個向量，具有個別的 class
- 支援 `$` 作為取出單一欄的索引方式

## 使用 `data.frame()` 函數創建資料框

In [18]:
avengers <- c("The Avengers", "Avengers: Age of Ultron", "Avengers: Infinity War", "Avengers: Endgame")
ratings <- c(8.0, 7.3, 8.4, 8.4)
release_year <- c(2012, 2015, 2018, 2019)
is_good <- ratings >= 8
avengers_df <- data.frame(title = avengers, rating = ratings, release_year, is_good)

In [19]:
avengers_df

title,rating,release_year,is_good
<chr>,<dbl>,<dbl>,<lgl>
The Avengers,8.0,2012,True
Avengers: Age of Ultron,7.3,2015,False
Avengers: Infinity War,8.4,2018,True
Avengers: Endgame,8.4,2019,True


## 在 R 4.0 之前的版本，文字向量預設以 `factor` 型態儲存

In [20]:
#?str
str(avengers_df)

'data.frame':	4 obs. of  4 variables:
 $ title       : chr  "The Avengers" "Avengers: Age of Ultron" "Avengers: Infinity War" "Avengers: Endgame"
 $ rating      : num  8 7.3 8.4 8.4
 $ release_year: num  2012 2015 2018 2019
 $ is_good     : logi  TRUE FALSE TRUE TRUE


## 加入參數 `stringsAsFactors = FALSE` 可以調整為文字向量

In [21]:
avengers_df <- data.frame(title = avengers, rating = ratings, release_year, is_good, stringsAsFactors = FALSE)
str(avengers_df)

'data.frame':	4 obs. of  4 variables:
 $ title       : chr  "The Avengers" "Avengers: Age of Ultron" "Avengers: Infinity War" "Avengers: Endgame"
 $ rating      : num  8 7.3 8.4 8.4
 $ release_year: num  2012 2015 2018 2019
 $ is_good     : logi  TRUE FALSE TRUE TRUE


## 常見用來觀察 `data.frame` 的函數

- `View()`：顯示漂亮的資料框外觀
- `head(n)`：顯示前 n 列
- `tail(n)`：顯示後 n 列
- `summary()`：顯示描述性統計
- `str()`：顯示結構
- `dim()`：顯示維度
- `nrow()`：顯示列數
- `ncol()`：顯示欄數

## 從資料框中選出欄位成為一個向量

In [22]:
avengers_df[["title"]]
avengers_df[, "title"]
avengers_df[, 1]

## 或者使用 `$`

In [23]:
avengers_df$title

## 篩選觀測值：指定列數

In [24]:
avengers_df[c(1, 3, 4), ]

Unnamed: 0_level_0,title,rating,release_year,is_good
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<lgl>
1,The Avengers,8.0,2012,True
3,Avengers: Infinity War,8.4,2018,True
4,Avengers: Endgame,8.4,2019,True


## 篩選觀測值：使用邏輯值向量

In [25]:
avengers_df[c(FALSE, FALSE, TRUE, TRUE), ]

Unnamed: 0_level_0,title,rating,release_year,is_good
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<lgl>
3,Avengers: Infinity War,8.4,2018,True
4,Avengers: Endgame,8.4,2019,True


## 利用邏輯運算符產生邏輯值向量

In [26]:
avengers_df$release_year >= 2018
avengers_df[avengers_df$release_year >= 2018, ] # putting logical vector as row index

Unnamed: 0_level_0,title,rating,release_year,is_good
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<lgl>
3,Avengers: Infinity War,8.4,2018,True
4,Avengers: Endgame,8.4,2019,True
