<a href="https://colab.research.google.com/github/jayarnim/study-RBasicSyntax/blob/main/4_Loading_Data_Set.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 0. Working Directory

- 구글은 R 에 대해서는 Drive Mount 를 지원하지 않음
- 때문에 매 런타임마다 세션에 자료를 불러와서 작업해야 함

In [1]:
# working directory 조회
getwd()

In [2]:
# working directory 설정
# setwd("path")

In [3]:
# working directory 하위 파일 조회
list.files()

# 1. 원시적인 방법으로 자료 입력하기

In [4]:
# 데이터 1, 2, 3, 4, 5를 변수 ID에 할당
ID <- c(1, 2, 3, 4, 5)

# 데이터 F, M, F, M, F를 변수 SEX에 할당
SEX <- c("F", "M", "F", "M", "F")

# ID와 SEX로 데이터 프레임 생성
DATA <- data.frame(ID = ID, SEX = SEX)

# DATA 조회
View(DATA)

ID,SEX
<dbl>,<chr>
1,F
2,M
3,F
4,M
5,F


# 2. Working Directory 에서 불러오기

## TXT

```
read.table(
    file,   # 불러올 파일 경로
    header = FALSE, # 1행을 컬럼명으로 설정할 것인지 여부
    col.names,  # 컬럼명으로 설정할 벡터
    skip,   # 몇 행까지 불러오기를 skip 할 것인가
    nrows,  # 몇 행까지만 불러올 것인가
    stringsAsFactor,    # 범주형 변수 벡터에 대하여 그 unique value 만을 원소로 하는 factor 로 변환할 것인가
    sep,    # 구분자
    fileEncoding,   # 파일 인코딩 방식
    encoding    # R 인코딩 방식
    )
```

In [6]:
ex <- read.table(file = "data/data_ex.txt")
ex

V1,V2,V3,V4
<chr>,<chr>,<chr>,<chr>
ID,SEX,AGE,AREA
1,F,50,서울
2,M,40,경기
3,F,28,제주
4,M,50,서울
5,M,27,서울
6,F,23,서울
7,F,56,경기
8,F,47,서울
9,M,20,인천


- `header` : 1행을 칼럼명으로 지정할 것인지 여부

In [7]:
ex <- read.table(
    file = "data/data_ex.txt",
    header = TRUE
    )

# 1행 [ID, SEX, AGE, AREA] 을 칼럼명으로 설정함
ex

ID,SEX,AGE,AREA
<int>,<chr>,<int>,<chr>
1,F,50,서울
2,M,40,경기
3,F,28,제주
4,M,50,서울
5,M,27,서울
6,F,23,서울
7,F,56,경기
8,F,47,서울
9,M,20,인천
10,F,38,경기


- `col.names` : 컬럼명으로 설정할 새로운 행 벡터

In [8]:
col_names <- c("아이디", "성별", "나이", "지역")

ex <- read.table(
    file = "data/data_ex.txt",
    header = TRUE,
    col.names = col_names
    )

# 새로운 행 벡터 ["아이디", "성별", "나이", "지역"] 을 컬럼명으로 설정함
ex

아이디,성별,나이,지역
<int>,<chr>,<int>,<chr>
1,F,50,서울
2,M,40,경기
3,F,28,제주
4,M,50,서울
5,M,27,서울
6,F,23,서울
7,F,56,경기
8,F,47,서울
9,M,20,인천
10,F,38,경기


- `skip` : 몇 행까지 불러오지 않을 것인가

In [9]:
ex <- read.table(
    file = "data/data_ex.txt",
    skip = 3
    )

# 1행(칼럼명), 2행(ID == 1), 3행(ID == 2)까지 skip
ex

V1,V2,V3,V4
<int>,<chr>,<int>,<chr>
3,F,28,제주
4,M,50,서울
5,M,27,서울
6,F,23,서울
7,F,56,경기
8,F,47,서울
9,M,20,인천
10,F,38,경기


- `nrows` : 몇 행까지만 불러올 것인가

In [10]:
ex <- read.table(
    file = "data/data_ex.txt",
    nrows = 3
    )

# 1행(칼럼명), 2행(ID == 1), 3행(ID == 2)까지만 불러옴
ex

V1,V2,V3,V4
<chr>,<chr>,<chr>,<chr>
ID,SEX,AGE,AREA
1,F,50,서울
2,M,40,경기


- `stringAsFactor` : 자료형이 `character` 인 변수 `vector` 에 대하여 그 `unique` 값들을 범주로 가지는 `factor` 로 변환할 것인가

In [11]:
ex <- read.table(
    file = "data/data_ex.txt",
    header = TRUE,
    stringsAsFactor = TRUE
    )

# 범주형 변수 벡터 SEX, AREA 의 경우
# SEX : M, F
# AREA : 서울, 경기, 제주, 인천
# 이상의 unique value 만을 할당할 수 있는 factor type 임
# SEX 에 UNKNOWN 을, AREA 에 세종 을 할당하면 결측치로 판단함
ex[11,] <- c(11, "UNKNOWN", 20, "세종")

ex

“invalid factor level, NA generated”
“invalid factor level, NA generated”


Unnamed: 0_level_0,ID,SEX,AGE,AREA
Unnamed: 0_level_1,<chr>,<fct>,<chr>,<fct>
1,1,F,50,서울
2,2,M,40,경기
3,3,F,28,제주
4,4,M,50,서울
5,5,M,27,서울
6,6,F,23,서울
7,7,F,56,경기
8,8,F,47,서울
9,9,M,20,인천
10,10,F,38,경기


- `sep` : 구분자

In [12]:
ex_tab <- read.table(
    file = "data/data_ex.txt",
    sep = "\t"
    )

ex_tab

V1,V2,V3,V4
<chr>,<chr>,<chr>,<chr>
ID,SEX,AGE,AREA
1,F,50,서울
2,M,40,경기
3,F,28,제주
4,M,50,서울
5,M,27,서울
6,F,23,서울
7,F,56,경기
8,F,47,서울
9,M,20,인천


In [13]:
ex_comma <- read.table(
    file = "data/data_ex.txt",
    sep = ","
    )

# tab으로 구분되어 작성된 문서이므로 comma를 구분자로 설정하면 컬럼들이 제대로 구분되어 출력되지 않음
ex_comma

V1
<chr>
ID	SEX	AGE	AREA
1	F	50	서울
2	M	40	경기
3	F	28	제주
4	M	50	서울
5	M	27	서울
6	F	23	서울
7	F	56	경기
8	F	47	서울
9	M	20	인천


## CSV

```
read.csv(
    file,   # 불러올 파일 경로
    header = TRUE,  # 1행을 컬럼명으로 설정할지 여부
    sep = ","   # 구분자
    )
```

In [14]:
ex <- read.csv(file = "data/data_ex.csv")

# read.csv 는 read.table 의 일부 파라미터에 대하여 csv 파일을 읽기에 적절한 아규먼트로 설정한 함수임
ex

X,ID,SEX
<int>,<int>,<chr>
1,1,F
2,2,M
3,3,F
4,4,M
5,5,F


## EXCEL

```
readxl::read_excel(
    path,   # 불러올 파일 경로
    sheet = 1,  # 불러올 시트 번호 혹은 이름
    col_names,  # 컬럼명으로 설정할 벡터
    range   # 불러올 행 범위
    )
```

In [15]:
# 엑셀 파일을 읽어들이는 패키지 설치 및 불러오기
install.packages("data/readxl")
library(readxl)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

“package ‘data/readxl’ is not available for this version of R

A version of this package for your version of R might be available elsewhere,
see the ideas at
https://cran.r-project.org/doc/manuals/r-patched/R-admin.html#Installing-packages”


In [16]:
ex <- read_excel(path = "data/data_ex.xlsx")
ex

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<chr>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


- `sheet` : 문서에 시트가 여러 장일 경우 불러오고 싶은 시트 번호 혹은 이름

In [17]:
ex_sheet1 <- read_excel(
    path = "data/data_ex.xlsx",
    sheet = 1
    )

ex_sheet1

Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
<dbl>,<dbl>,<dbl>,<dbl>,<chr>
5.1,3.5,1.4,0.2,setosa
4.9,3.0,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.6,3.4,1.4,0.3,setosa
5.0,3.4,1.5,0.2,setosa
4.4,2.9,1.4,0.2,setosa
4.9,3.1,1.5,0.1,setosa


In [18]:
ex_sheet2 <- read_excel(
    path = "data/data_ex.xlsx",
    sheet = 2
    )

ex_sheet2

mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [19]:
# 참고 : 시트명을 반환하는 함수 readxl::excel_sheets(path)
excel_sheets(path = "data/data_ex.xlsx")

- `col_names` : 컬럼명 설정

In [20]:
col_names <- c("꽃밭침:길이", "꽃받침:너비", "꽃잎:길이", "꽃잎:너비", "품종")

ex <- read_excel(
    path = "data/data_ex.xlsx",
    sheet = 1,
    col_names = col_names
    )

ex

꽃밭침:길이,꽃받침:너비,꽃잎:길이,꽃잎:너비,품종
<chr>,<chr>,<chr>,<chr>,<chr>
Sepal.Length,Sepal.Width,Petal.Length,Petal.Width,Species
5.0999999999999996,3.5,1.4,0.2,setosa
4.9000000000000004,3,1.4,0.2,setosa
4.7,3.2,1.3,0.2,setosa
4.5999999999999996,3.1,1.5,0.2,setosa
5,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa
4.5999999999999996,3.4,1.4,0.3,setosa
5,3.4,1.5,0.2,setosa
4.4000000000000004,2.9,1.4,0.2,setosa


- `range` : 특정 행만 불러오고 싶을 경우

In [21]:
col_names <- c("꽃밭침:길이", "꽃받침:너비", "꽃잎:길이", "꽃잎:너비", "품종")

ex <- read_excel(
    path = "data/data_ex.xlsx",
    sheet = 1,
    col_names = col_names,
    range = cell_rows(4:7)
    )

ex

꽃밭침:길이,꽃받침:너비,꽃잎:길이,꽃잎:너비,품종
<dbl>,<dbl>,<dbl>,<dbl>,<chr>
4.7,3.2,1.3,0.2,setosa
4.6,3.1,1.5,0.2,setosa
5.0,3.6,1.4,0.2,setosa
5.4,3.9,1.7,0.4,setosa


# 3. 자료 저장하기

## TXT

```
write.table(
    data,  # 저장할 자료
    file,  # 저장할 파일 경로 및 파일명
    append = FALSE, # 동일 파일명이 존재할 경우 기존 파일에 이어 붙일 것인지(TRUE), 기존 파일을 덮어쓰기할 것인지(FALSE)
    quote = TRUE,   # 컬럼명 및 문자형에 따옴표를 포함할 것인지 여부
    sep = " ",  # 구분자
    row.names = TRUE,   # 행 이름(번호) 포함 여부
    col.names = TRUE,   # 열 이름(번호) 포함 여부
    fileEncoding   # 파일 인코딩 방식 설정
    )
```

## CSV

```
write.csv(
    data,  # 저장할 자료
    file,  # 저장할 파일 경로 및 파일명
    append = FALSE, # 동일 파일명이 존재할 경우 기존 파일에 이어 붙일 것인지(TRUE), 기존 파일을 덮어쓰기할 것인지(FALSE)
    quote = TRUE,   # 컬럼명 및 문자형에 따옴표를 포함할 것인지 여부
    sep = ",",  # 구분자
    row.names = TRUE,   # 행 이름(번호) 포함 여부
    col.names = TRUE,   # 열 이름(번호) 포함 여부
    fileEncoding   # 파일 인코딩 방식 설정
    )
```

## EXCEL

```
writexl::write_xlsx(
    data,   # 저장할 자료
    path,   # 저장할 파일 경로 및 파일명
    col_names,   # 컬럼명 저장 여부
    format_headers  # 컬럼명을 가운데 정렬 및 굵게 표시할지 여부
    )
```

In [22]:
# 엑셀 파일을 읽어들이는 패키지 설치 및 불러오기
install.packages("writexl")
library(writexl)

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)

