R에서 데이터를 읽어들이는 유용한 함수들이 있다.

- `read.table`, `read.csv` : 표 형식의 데이터를 읽음
- `readLines` : 텍스트 파일을 줄 단위로 읽음
- `source` : R 코드 파일을 읽음 (`dump`의 반대)
- `dget` : R 코드 파일을 읽음 (`dput`의 반대)
- `load` : 저장된 작업공간을 불러들임
- `unserialize` : 단일 R 오브젝트를 이진 형태로 읽음

R에서 파일로 데이터를 내보내는 함수들은 다음과 같다.

- `write.table`
- `writeLines`
- `dump`
- `dput`
- `save`
- `serialize`


여기서 가장 중요한 `read.table` 함수를 살펴보자.

### 1. read.table

read.table은 다음 argument 들을 가지고 있다.

- `file` : 파일의 이름
- `header` : 불러들일 파일의 헤더가 있는지를 표시
- `sep` : 열이 어떻게 구분되어있는지 나타내는 문자열
- `colClasses` : 각 열의 클래스를 나타내는 문자열 벡터
- `nrows` : 읽어들일 행의 수
- `comment.char` : 주석 문자열을 나타내는 문자열 (없으면 = "")
- `skip` : 처음에 생략할 줄의 수
- `stringsAsFactors` : 문자열 변수를 팩터로 변환할 것인지를 표 (default True)

In [3]:
data <- readLines("./Materials/UNDHR.txt")
data

### 2. read.table로 훨씬 큰 데이터셋 불러오기

사실 `colClasses` 파라미터를 활용하는 것이 매우 중요하다. 이 옵션을 사용하면 `read.table` 함수를 훨씬 빠르게 (거의 두 배 가까이) 만들 수 있다.

만약 모든 열이 "numeric"이면, colClass = "numeric"으로 둔다.


In [4]:
# 각 열의 클래스를 찾는 빠른 방법 ( Quick & Dirty way )
initial <- read.table("datatable.txt", nrows = 100)
classes <- sapply(initial, class)
tabAll <- read.table("datatable.txt", colClasses = classes)

“파일 'datatable.txt'를 여는데 실패했습니다: 그런 파일이나 디렉터리가 없습니다”

ERROR: Error in file(file, "rt"): 커넥션을 열 수 없습니다


또한, 시스템에 관해 잘 알고 있는 것이 중요하다.

- 가용한 메모리가 어느 정도인가?
- 다른 프로그램을 사용하고 있는가?
- 같은 시스템에 접속한 다른 사용자가 있는가?
- 운영체제가 어떤 것인가?
- OS가 32비트? 64비트?


다음과 같이 러프하게 메모리 필요량을 계산할 수 있다.

만약 1,500,000개의 행과, 120개의 열로 구성된 데이터프레임이 있고, 모든 데이터가 수치형 데이터라면, 대략 메모리가 얼마나 필요할까?

1,500,000 \* 120 \* 8bytes/numeric
<br>= 14400000000 bytes
<br>= 14400000000 / 2^20 bytes/MB
<br>= 1,373.29 MB
<br>= 1.34GB

하지만 이보다는 더 필요할 것이다. (대략 2배라고 생각하면 2.6GB 정도)


### Textual Formats

`dumping` 과 `dput`의 결과물은 편집 가능하고, 복구 할 수 있기 때문에 유용하다.

table이나 csv파일과 달리, `dump`와 `dput`은 메타데이터를 보존한다.

텍스트 포맷은 버전 컨트롤이 가능한 프로그램에서 훨씬 더 효율적이다. 

In [5]:
y <- data.frame(a = 1, b = "a")
dput(y)

structure(list(a = 1, b = structure(1L, .Label = "a", class = "factor")), .Names = c("a", 
"b"), row.names = c(NA, -1L), class = "data.frame")


In [15]:
# dput은 모든 메타데이터를 보존한다 (단일 오브젝트의)
dput(y, file= "./Materials/y.R")
new.y <- dget("./Materials/y.R")
new.y

a,b
1,a


In [16]:
# dput과 달리 dump는 여러 오브젝트의 메타데이터를 보존한다
x <- "foo"
y <- data.frame(a = 1, b = "a")
dump(c("x", "y"), file = "./Materials/data.R")
rm(x, y)  # x, y 제거
source("./Materials/data.R")  # dump의 반대 명령어. 데이터를 불러온다.
y
x

a,b
1,a


### 외부 파일과의 연결

- `file` : 특정 파일에 연결한다
- `gzfile` : gzip으로 압축된 파일에 연결한다
- `bzfile` : bzip2로 압축된 파일에 연결한다
- `url` : 특정 웹페이지에 연결한다

In [17]:
str(file)

function (description = "", open = "", blocking = TRUE, encoding = getOption("encoding"), 
    raw = FALSE, method = getOption("url.method", "default"))  


In [18]:
# Using File & read.csv
con <- file("./Materials/UNDHR.txt", "r")
data <- read.csv(con)
close(con)

# is the same as
data <- read.csv("./Materials/UNDHR.txt")

In [19]:
# Reading Lines of a Text File
# 10줄을 읽어온다
con <- gzfile("words.gz")
x <- readLines(con, 10)
x

“압축된 파일 'words.gz'를 열 수 없습니다.  그 이유는 아마도 '그런 파일이나 디렉터리가 없습니다'입니다”

ERROR: Error in readLines(con, 10): 커넥션을 열 수 없습니다


In [12]:
# Reading from URL

con <- url("http://www.google.com", "r")
x <- readLines(con, 10)
head(x)

“'http://www.google.com'에서 불완전한 마지막 행이 발견되었습니다”