## 리스트
### 가장 포괄적인 형태의 데이터 구조
+ 리스트 생성 : list()

In [5]:
x <- list(a=c("one","two","three"), b=1:3, c=list(-1,-5),
         d=data.frame(x1=c("s1","s2"),x2=1:2))
x

x1,x2
<fct>,<int>
s1,1
s2,2


### 리스트의 인덱싱
+ list[[a]] 또는 list[a]의 형태
+ list[a] : 결과는 리스트
+ list[[a]] : 또는 list$a : 해당되는 구성요소의 객체 구조

In [6]:
x[1]
x[[1]]
str(x[1])
str(x[[1]])

List of 1
 $ a: chr [1:3] "one" "two" "three"
 chr [1:3] "one" "two" "three"


+ 리스트 x의 4번째 요소를 데이터 프레임 형태로 선택

In [7]:
x[[4]]
x$d

x1,x2
<fct>,<int>
s1,1
s2,2


x1,x2
<fct>,<int>
s1,1
s2,2


+ 리스트 x의 4번째 요소의 두 번째 열을 벡터 형태로 선택

In [13]:
x[[4]][[2]]
x$d$x2

+ 리스트 x의 4번째 요소의 두 번째 열을 데이터 프레임 형태로 선택

In [14]:
x[[4]][2]
x$d[2]

x2
<int>
1
2


x2
<int>
1
2


### R에서 리스트의 활용
+ 산만하게 흩어져 있는 정보를 간편하게 묶을 수 있음
+ 많은 R 함수들의 수행 결과가 리스트의 형태로 출력
+ 그 중 원하는 결과를 리스트의 인덱싱 기법으로 선택하여 사용

# 3장. 데이터 입력
+ 텍스트 파일 불러오기 1 : base R 함수 활용
+ 텍스트 파일 불러오기 2 : 패키지 readr 함수 활용
+ Excel 파일 불러오기
+ 웹에서 데이터 풀러오기

### 텍스트 파일 불러오기 1 : base R 함수 활용
+ 함수 scan()으로 한 변수의 관찰값 불러오기

In [15]:
x <- scan("D://알기초프로그래밍/ch3_data/data1.txt")
x

+ 함수 read.table()로 2차원 형태의 데이터 파일 불러오기
+ stringsAsFactors=FALSE로 문자열 요인으로의 자동 변환 방지

In [25]:
df1 <- read.table("D://알기초프로그래밍/ch3_data/data2_1.txt")
class(df1$V2)
df1

V1,V2,V3
<int>,<fct>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


+ 데이터 파일의 첫 줄에 변수 이름이 있는 경우

In [24]:
df2 <- read.table("D://알기초프로그래밍/ch3_data/data2_2.txt", header=TRUE,
                 stringsAsFactors=FALSE)
df2

age,gender,income
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


+ 데이터 파일에 # 기호로 시작되는 코멘트가 있는 경우

In [26]:
df3 <- read.table("D://알기초프로그래밍/ch3_data/data2_3.txt", header=TRUE)
df3

x1,x2,x3
<int>,<int>,<int>
24,1,2000
35,0,3100
28,0,3800
21,0,2800


In [1]:
df4 <- read.table("D://알기초프로그래밍/ch3_data/data2_4.txt", header=TRUE,
                 na.strings=".", stringsAsFactors=FALSE)
df4

age,gender,income
<int>,<chr>,<int>
24.0,M,2000
,F,3100
28.0,,3800
21.0,F,2800


In [4]:
df5 <- read.table("D://알기초프로그래밍/ch3_data/data3.txt", header=TRUE,
                  sep=",",stringsAsFactors=FALSE)
df5

age,gender,income
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


+ read.csv()는 read.table()과 본질적으로 동일한 함수
+ 차이점은 옵션 header=TRUE 와 sep=","가 디폴트

In [6]:
df6 <- read.csv("D://알기초프로그래밍/ch3_data/data3.txt",
                  stringsAsFactors=FALSE)
df6

age,gender,income
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


### 함수 read.fwf()로 고정된 포멧 구조를 갖는 2차원 형태의 데이터 파일 불러오기
+ 관찰값들이 빈 칸이나 콤마 등으로 구분되어 있어야 하는 함수 read.table()로는 불러올 수 없는 구조

In [7]:
df7 <- read.fwf("D://알기초프로그래밍/ch3_data/data4_1.txt", widths=c(2,1,4),
               stringsAsFactors=FALSE)
df7

V1,V2,V3
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


In [9]:
df8 <- read.fwf("D://알기초프로그래밍/ch3_data/data4_2.txt", widths=c(2,1,4),
               header=TRUE,stringsAsFactors=FALSE)
df8

age,gender,income
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


### 외부 데이터 파일이 저장되어 있는 폴더의 정확한 경로를 잊은 경우
+ 옵션 file.choose()를 데이터 파일의 경로 대신 사용

In [10]:
read.table(file.choose())

ERROR: Error in file.choose(): 파일선택이 취소되었습니다


### 함수 wirte.table()를 사용하여 R 데이터 객체를 외부 텍스트 파일로 저장

In [12]:
write.table(women, "D://알기초프로그래밍/ch3_data/out3_1.txt")
write.table(women, "D://알기초프로그래밍/ch3_data/out3_2.txt", quote=FALSE)
write.table(women, "D://알기초프로그래밍/ch3_data/out3_3.txt", quote=FALSE,
            row.names=FALSE)
write.table(women, "D://알기초프로그래밍/ch3_data/out3_4.txt", quote=FALSE,
            row.names=FALSE, sep=",")
write.csv(women, "D://알기초프로그래밍/ch3_data/out3_4.txt", quote=FALSE,
          row.names=FALSE)

## 텍스트 파일 불러오기 : 패키지 readr 함수의 활용
+ Base R 함수 read.table(): 크기가 큰 파일을 불러오는 경우에는 시간이 많이 걸리는 문제가 있음
+ 대안 : tidyverse에 속한 readr의 함수
+ read_table() : 자료가 빈 칸으로 구분된 경우
+ read_csv() : 자료가 콤마로 구분된 경우
+ read_tsv() : 자료가 tab으로 구분된 경우
+ read_delim() : 자료가 다른 형태의 구분자로 구분된 경우
+ read_fwf() : 고정 포맷 구조를 갖는 자료

### read.csv()로 외부 테스트 파일 불러오기: 자료가 콤마로 구분된 경우
+ 파일의 첫 줄에 변수 이름이 있는 경우
+ 자료의 유형을 스스로 파악
+ 문자형 자료를 요인으로 자동변환하지 않음
+ 중간에 빈 칸이 있는 변수 이름 사용 가능
+ 결과는 tibble

In [14]:
library(readr)
read_csv("D://알기초프로그래밍/ch3_data/data5_1.txt")

Parsed with column specification:
cols(
  `var 1` = [32mcol_double()[39m,
  `var 2` = [31mcol_character()[39m,
  `var 3` = [32mcol_double()[39m
)



var 1,var 2,var 3
<dbl>,<chr>,<dbl>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


### 자료의 유형을 직접 선언하는 경우 : 옵션 col_types

In [15]:
read_csv("D://알기초프로그래밍/ch3_data/data5_1.txt",col_types="ici")

var 1,var 2,var 3
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


### 파일의 첫 줄에 변수이름이 없는 경우

In [16]:
read_csv("D://알기초프로그래밍/ch3_data/data5_2.txt",
         col_types="ici",col_names=FALSE)

X1,X2,X3
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


In [17]:
read_csv("D://알기초프로그래밍/ch3_data/data5_2.txt",
         col_types="ici",col_names=c("age","gender","income"))

age,gender,income
<int>,<chr>,<int>
24,M,2000
35,F,3100
28,F,3800
21,F,2800


### 자료 파일에 주석이 있는 경우 : 옵션 comment
+ 결측값 입력 : NA
+ 콤마로 구분된 경우 : 빈 칸도 결측값으로 인식

In [23]:
read_csv("D://알기초프로그래밍/ch3_data/data5_3.txt",
         col_types="ici",comment = "#")

age,gender,income
<int>,<chr>,<int>
24.0,,2000
35.0,F,3100
,F,3800
21.0,F,2800
