# R 語言的五十道練習

> 資料結構：資料框 

[數據交點](https://www.datainpoint.com) | 郭耀仁 <yaojenkuo@datainpoint.com>

## R 語言中的資料結構

- 向量（vector）
- 清單（list）
- **資料框（data.frame）**
- 因素向量（factor）
- 矩陣（matrix）
- 陣列（array）

## 什麼是資料框

## 關於資料框

資料框是 R 語言中用來處理「表格式」的首選資料結構，具有列（Rows）與欄（Columns）兩個維度儲存資料，列常被稱為觀測值、欄常被稱為變數，一個 `m` 列 `n` 欄的資料框外型可以被描述為 `m x n` 或者 `(m, n)`。

## 資料框的索引

- 資料框的每一欄都儲存不同類型資料，並且能夠取出成為向量。
- 資料框除了列與欄，亦有列索引以及欄標籤用來標記資料方便選取。

## 如何創造資料框

## 使用 `data.frame` 函數

```r
data.frame(...)
```

In [1]:
titles <- c("The Fellowship of the Ring", "The Two Towers", "The Return of the King")
release_years <- c(2001, 2002, 2003)
box_offices <- c(897690072, 947495095, 1146030912)
director <- "Peter Jackson"
df <- data.frame(titles, release_years, box_offices, director)
print(class(df))

[1] "data.frame"


In [2]:
df

titles,release_years,box_offices,director
<chr>,<dbl>,<dbl>,<chr>
The Fellowship of the Ring,2001,897690072,Peter Jackson
The Two Towers,2002,947495095,Peter Jackson
The Return of the King,2003,1146030912,Peter Jackson


## 在創造資料框時可以命名變數名稱

In [3]:
df <- data.frame(
    title = titles,
    release_year = release_years,
    box_office = box_offices,
    director = director
)

In [4]:
df

title,release_year,box_office,director
<chr>,<dbl>,<dbl>,<chr>
The Fellowship of the Ring,2001,897690072,Peter Jackson
The Two Towers,2002,947495095,Peter Jackson
The Return of the King,2003,1146030912,Peter Jackson


## 如何讀取資料框

## 讀取資料框的變數

- 使用兩組中括號 `[["column_name"]]`。
- 使用錢號 `$column_name`。
- 使用欄位順序 `[, column_index]`。

In [5]:
df <- data.frame(
    title = titles,
    release_year = release_years,
    box_office = box_offices,
    director = director
)
print(df[["title"]])
print(df$release_year)
print(df[, 3])

[1] "The Fellowship of the Ring" "The Two Towers"            
[3] "The Return of the King"    
[1] 2001 2002 2003
[1]  897690072  947495095 1146030912


## 讀取資料框的多個變數

In [6]:
df[, c("title", "director")]
df[, c(1, 4)]

title,director
<chr>,<chr>
The Fellowship of the Ring,Peter Jackson
The Two Towers,Peter Jackson
The Return of the King,Peter Jackson


title,director
<chr>,<chr>
The Fellowship of the Ring,Peter Jackson
The Two Towers,Peter Jackson
The Return of the King,Peter Jackson


## 讀取資料框的觀測值

- 使用列數 `[row_index,]` 讀取對應的觀測值。
- 使用邏輯值向量 `[logicals,]` 讀取判斷結果為 `TRUE` 的觀測值。

## 使用列數讀取對應的觀測值

In [7]:
df[c(1, 3),]

Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
1,The Fellowship of the Ring,2001,897690072,Peter Jackson
3,The Return of the King,2003,1146030912,Peter Jackson


## 使用邏輯值向量讀取判斷結果為 `TRUE` 的觀測值

In [8]:
exclude_tt <- df$title != "The Two Towers"
print(exclude_tt)
df[exclude_tt,]

[1]  TRUE FALSE  TRUE


Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
1,The Fellowship of the Ring,2001,897690072,Peter Jackson
3,The Return of the King,2003,1146030912,Peter Jackson


In [9]:
exclude_tt <- df$release_year != 2002
print(exclude_tt)
df[exclude_tt,]

[1]  TRUE FALSE  TRUE


Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
1,The Fellowship of the Ring,2001,897690072,Peter Jackson
3,The Return of the King,2003,1146030912,Peter Jackson


## 常用來觀察資料框的函數

- `View`：顯示漂亮的資料框外觀。
- `head`：顯示前 n 列。
- `tail`：顯示後 n 列。
- `colnames`：欄標籤。
- `row.names`：列索引。

In [10]:
# View(df) # This function call works in RStudio
head(df, n=1)
tail(df, n=1)
print(colnames(df))
print(row.names(df))

Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
1,The Fellowship of the Ring,2001,897690072,Peter Jackson


Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
3,The Return of the King,2003,1146030912,Peter Jackson


[1] "title"        "release_year" "box_office"   "director"    
[1] "1" "2" "3"


## 常用來觀察資料框的函數（Cont'd）

- `summary`：顯示描述性統計。
- `str`：顯示結構。
- `dim`：顯示維度。
- `nrow`：顯示列數。
- `ncol`：顯示欄數。

In [11]:
summary(df)
str(df)
print(dim(df))
print(nrow(df))
print(ncol(df))

    title            release_year    box_office          director        
 Length:3           Min.   :2001   Min.   :8.977e+08   Length:3          
 Class :character   1st Qu.:2002   1st Qu.:9.226e+08   Class :character  
 Mode  :character   Median :2002   Median :9.475e+08   Mode  :character  
                    Mean   :2002   Mean   :9.971e+08                     
                    3rd Qu.:2002   3rd Qu.:1.047e+09                     
                    Max.   :2003   Max.   :1.146e+09                     

'data.frame':	3 obs. of  4 variables:
 $ title       : chr  "The Fellowship of the Ring" "The Two Towers" "The Return of the King"
 $ release_year: num  2001 2002 2003
 $ box_office  : num  8.98e+08 9.47e+08 1.15e+09
 $ director    : chr  "Peter Jackson" "Peter Jackson" "Peter Jackson"
[1] 3 4
[1] 3
[1] 4


## 如何更新資料框

## 更新資料框變數命名

使用 `colnames` 函數。

```r
colnames(x)
```

In [12]:
df <- data.frame(titles, release_years, box_offices, director)
colnames(df) <- c("title", "release_year", "box_office", "director")
df

title,release_year,box_office,director
<chr>,<dbl>,<dbl>,<chr>
The Fellowship of the Ring,2001,897690072,Peter Jackson
The Two Towers,2002,947495095,Peter Jackson
The Return of the King,2003,1146030912,Peter Jackson


## 除了變數命名可以更新，列索引也可以自訂

使用 `row.names` 函數。

```r
row.names(x)
```

In [13]:
row.names(df) <- c("first", "second", "third")
df

Unnamed: 0_level_0,title,release_year,box_office,director
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>
first,The Fellowship of the Ring,2001,897690072,Peter Jackson
second,The Two Towers,2002,947495095,Peter Jackson
third,The Return of the King,2003,1146030912,Peter Jackson


## 新增變數：宣告名稱與資料值

In [14]:
df[["length"]] <- c(178, 179, 201)
df

Unnamed: 0_level_0,title,release_year,box_office,director,length
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>,<dbl>
first,The Fellowship of the Ring,2001,897690072,Peter Jackson,178
second,The Two Towers,2002,947495095,Peter Jackson,179
third,The Return of the King,2003,1146030912,Peter Jackson,201


## 新增變數：使用 `cbind` 函數

In [15]:
movie_length <- c(178, 179, 201)
df <- cbind(df, movie_length)
df

Unnamed: 0_level_0,title,release_year,box_office,director,length,movie_length
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>
first,The Fellowship of the Ring,2001,897690072,Peter Jackson,178,178
second,The Two Towers,2002,947495095,Peter Jackson,179,179
third,The Return of the King,2003,1146030912,Peter Jackson,201,201


## 新增觀測值：使用 `rbind` 函數

In [16]:
hobbit_df <- list(
    title = "The Hobbit: An Unexpected Journey",
    release_year = 2012,
    box_office = 1017003568,
    director = "Peter Jackson"
)
rbind(df, hobbit_df)

ERROR: Error in rbind(deparse.level, ...): numbers of columns of arguments do not match


## 如何刪除資料框

## 刪除資料框的變數

- 使用 `[, -index]`。
- 以空值 `NULL` 更新。

## 使用 `[, -index]`

In [None]:
df <- data.frame(
    title = titles,
    release_year = release_years,
    box_office = box_offices,
    director = director
)
df[, -4]

In [None]:
df[, -c(3, 4)]

## 以空值 `NULL` 更新

In [None]:
df["director"] <- NULL
df["box_office"] <- NULL
df

## 刪除資料框的觀測值

- 使用 `[-index,]`。
- 使用邏輯值 `[CONDITION,]`。

## 使用 `[-index,]`

In [None]:
df <- data.frame(
    title = titles,
    release_year = release_years,
    box_office = box_offices,
    director = director
)
df[-2,]

In [None]:
df[-c(1, 3),]

## 使用邏輯值 `[CONDITION,]`

In [None]:
exclude_tt <- df$title != "The Two Towers"
df[exclude_tt,]

## 使用 `rm` 函數刪除資料框命名

In [None]:
df <- data.frame(
    title = titles,
    release_year = release_years,
    box_office = box_offices,
    director = director
)
environment_objects <- ls()
print("df" %in% environment_objects)
rm(df)
environment_objects <- ls()
print("df" %in% environment_objects)

## 重點統整

- 資料框是 R 語言中用來處理「表格式」的資料結構
- 資料框具有列（Rows）與欄（Columns）兩個維度儲存資料，列常被稱為觀測值、欄常被稱為變數，
- 一個 `m` 列 `n` 欄的資料框外型可以被描述為 `m x n` 或者 `(m, n)`。

## 重點統整（續）

- 使用 `data.frame` 函數創造資料框。
- 如何讀取資料框的變數：
    - 使用兩組中括號 `[["column_name"]]`。
    - 使用錢號 `$column_name`。
    - 使用欄位順序 `[, column_index]`。

## 重點統整（續）

- 如何讀取資料框的觀測值：
    - 使用列數 `[row_index,]` 讀取對應的觀測值。
    - 使用邏輯值向量 `[logicals,]` 讀取判斷結果為 TRUE 的觀測值。
- 如何讀取資料框的列索引與欄標籤：
    - 使用 `row.names` 函數讀取列索引。
    - 使用 `colnames` 函數讀取欄標籤。