# R 程式設計

>  載入資料

[數據交點](https://www.datainpoint.com/) | 郭耀仁 <yaojenkuo@datainpoint.com>

> Working with data provided by R packages is a great way to learn the tools of data science, but at some point you want to stop learning and start working with your own data.
>
> Hadley Wickham

## 內建資料

## 豐富的內建資料

以 `data()` 函數觀察

In [1]:
data()

## 資料也有說明文件可以讀

In [2]:
help(iris) # ?iris will do
help(cars) # ?cars will do

## 輸入表格式資料

## 常見的表格式（tabular）資料有哪些？

- 以不同符號分隔變數的文字檔（`.txt`、`.csv`）
- Excel 試算表（`.xlsx`）
- Array of JSONs（`.json`）
- 資料庫表格（`.db`）

## 以逗號分隔變數的文字檔：`.csv`

`imdb_top_rated.csv`

## 載入 `the_avengers.csv`

使用 `read.csv()` 函數

In [3]:
imdb_top_rated_csv <- read.csv("imdb_top_rated.csv", sep = ",", header=TRUE)
head(imdb_top_rated_csv)

Unnamed: 0_level_0,title,release_year,imdb_rating
Unnamed: 0_level_1,<chr>,<int>,<dbl>
1,The Shawshank Redemption,1994,9.2
2,The Godfather,1972,9.1
3,The Godfather: Part II,1974,9.0
4,The Dark Knight,2008,9.0
5,12 Angry Men,1957,8.9
6,Schindler's List,1993,8.9


## Excel 試算表

`imdb_top_rated.xlsx`

## 使用 `readxl` 套件中的 `read_excel()` 函數

- 安裝 `readxl` 套件
- 載入 `readxl` 套件
- 使用 `readxl::read_excel()` 函數

## 安裝 `readxl` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("readxl")
```

## 載入 `readxl` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("readxl")
```

## 載入 `imdb_top_rated.xlsx`

In [4]:
library(readxl)

imdb_top_rated_xlsx <- read_excel("imdb_top_rated.xlsx")
head(imdb_top_rated_xlsx)

title,release_year,imdb_rating
<chr>,<dbl>,<dbl>
The Shawshank Redemption,1994,9.2
The Godfather,1972,9.1
The Godfather: Part II,1974,9.0
The Dark Knight,2008,9.0
12 Angry Men,1957,8.9
Schindler's List,1993,8.9


## Array of JSONs

`imdb_top_rated.json`

## 什麼是 JSON

- JavaScript Object Notation
- 彈性很大且常見於網站資料傳輸的檔案格式
- 它的特性是可以容納不同長度、型別並且巢狀式地（nested）包容資料

## 使用 `jsonlite` 套件中的 `fromJSON()` 函數

- 安裝 `jsonlite` 套件
- 載入 `jsonlite` 套件
- 使用 `jsonlite::fromJSON()` 函數

## 安裝 `jsonlite` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("jsonlite")
```

## 載入 `jsonlite` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("jsonlite")
```

## 載入 `imdb_top_rated.json`

In [5]:
library(jsonlite)

imdb_top_rated_json <- fromJSON("imdb_top_rated.json")
head(imdb_top_rated_json)

Unnamed: 0_level_0,title,release_year,imdb_rating
Unnamed: 0_level_1,<chr>,<int>,<dbl>
1,The Shawshank Redemption,1994,9.2
2,The Godfather,1972,9.1
3,The Godfather: Part II,1974,9.0
4,The Dark Knight,2008,9.0
5,12 Angry Men,1957,8.9
6,Schindler's List,1993,8.9


## 資料庫表格

儲存於 `imdb.db` 的資料庫表格 `top_rated`。

## 使用 `RSQLite` 套件

- 安裝 `RSQLite` 套件
- 載入 `DBI` 套件
- 使用 `DBI::dbReadTable()` 函數載入表格
- 使用 `DBI::dbSendQuery()` 搭配 `DBI::dbFetch()` 函數查詢表格
- 使用 `DBI::dbClearResult()` 函數清除查詢結果
- 使用 `DBI::dbDisconnect()` 函數關閉資料庫連線

## 安裝 `RSQLite` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `install.packages()` 函數

```r
install.packages("RSQLite")
```

## 載入 `DBI` 套件

- 透過 RStudio 的 `Packages` 功能頁籤
- 透過 `library()` 函數

```r
library("DBI")
```

## 使用 `DBI::dbConnect()` 函數建立連線

In [6]:
library(DBI)

con <- dbConnect(RSQLite::SQLite(), "imdb.db")
dbListTables(con)

## 使用 `DBI::dbReadTable()` 函數載入表格

In [7]:
imdb_top_rated_db <- dbReadTable(con, "top_rated")
head(imdb_top_rated_db)

Unnamed: 0_level_0,title,release_year,imdb_rating
Unnamed: 0_level_1,<chr>,<int>,<dbl>
1,The Shawshank Redemption,1994,9.2
2,The Godfather,1972,9.1
3,The Godfather: Part II,1974,9.0
4,The Dark Knight,2008,9.0
5,12 Angry Men,1957,8.9
6,Schindler's List,1993,8.9


## 使用 `DBI::dbSendQuery()` 搭配 `DBI::dbFetch()` 函數查詢表格

In [8]:
sql_query <- "SELECT * FROM top_rated WHERE release_year = 1994;"
res <- dbSendQuery(con, sql_query)
dbFetch(res)

title,release_year,imdb_rating
<chr>,<int>,<dbl>
The Shawshank Redemption,1994,9.2
Pulp Fiction,1994,8.8
Forrest Gump,1994,8.8
Léon: The Professional,1994,8.5
The Lion King,1994,8.5


## 完成查詢之後

- 使用 `DBI::dbClearResult()` 函數清除查詢結果
- 使用 `DBI::dbDisconnect()` 函數關閉資料庫連線

In [9]:
dbClearResult(res)
dbDisconnect(con)

## 輸出表格式資料

## 常用作表格式資料輸出的檔案格式

- 表格式文字檔 `.txt` 或 `.csv`
- Array of JSONs `.json`

## 表格式文字檔 `.txt` 或 `.csv`

使用 `write.table()` 函數。

In [10]:
write.table(iris, file = "iris.txt", row.names = FALSE) # 不輸出資料框的列索引
write.table(iris, file = "iris.csv", sep = ",", row.names = FALSE) # 指定分隔符號為 ,

## Array of JSONs `.json`

使用 `jsonlite::toJSON()` 搭配 `writeLines()` 函數。

In [11]:
library(jsonlite)

json_char <- toJSON(iris)
writeLines(json_char, "iris.json")