# Data.frame()

+ 입력된 문자열 벡터를 요인으로 자동 변환
+ 문자열 벡터가 요인으로 변환되는 것을 막기 위해서는 옵션 stringsAsFactors=FALSE 입력

In [4]:
df1 <- data.frame(x=c(2,4,6), y=c("a","b","c"))
str(df1)

'data.frame':	3 obs. of  2 variables:
 $ x: num  2 4 6
 $ y: Factor w/ 3 levels "a","b","c": 1 2 3


In [6]:
df2 <- data.frame(x=c(2,4,6),y=c("a","b","c"),
                 stringsAsFactors=FALSE)
str(df2)

'data.frame':	3 obs. of  2 variables:
 $ x: num  2 4 6
 $ y: chr  "a" "b" "c"


### 데이터 프레임의 행과 열 이름, 변수 개수 확인
+ 열(변수) 이름 : colnames(),names()
+ 행 이름 : rownames()
+ 변수 개수 : length()

In [8]:
df2
colnames(df2)
names(df2)
rownames(df2)
length(df2)

x,y
<dbl>,<chr>
2,a
4,b
6,c


### 데이터 프레임의 인덱싱 1 : 리스트에 적용되는 방식
+ 열(변수) 선택
+ df[[a]] 또는 df[a]의 형식 : 벡터 a는 숫자형 혹은 문자형
+ df[[a]] : 한 변수의 선택. 결과는 벡터
+ df[a] : 하나 또는 그 이상의 변수 선택. 결과는 데이터 프레임

In [9]:
df2
df2[1]
df2[[1]]
df2["x"]
df2[["x"]]

x,y
<dbl>,<chr>
2,a
4,b
6,c


x
<dbl>
2
4
6


x
<dbl>
2
4
6


### 데이터 프레임의 변수 선택
+ 벡터 형태로 선택하는 것이 일반적
+ df[[a]]의 형태가 더 많이 사용됨
+ 조금 더 편한 방법 : $ 기호 사용

In [10]:
df2[["x"]]
df2$x

### 데이터 프레임의 인덱싱 2 : 행렬에 적용되는 방법
+ df[i,j]의 형태
+ 선택된 변수가 하나이면 결과는 벡터 , 하나 이상이면 결과는 데이터 프레임

In [12]:
df2[c(1,2),1]
df2[c(1,2),]

Unnamed: 0_level_0,x,y
Unnamed: 0_level_1,<dbl>,<chr>
1,2,a
2,4,b


## 데이터 프레임을 조금 더 편하게 사용하기 위한 함수
### 데이터 프레임을 대상으로 하는 통계 분석
+ 데이터 프레임의 개별 변수를 벡터 형태로 선택하여 분석 진행
+ 인덱싱 기법에 의한 변수 선택 : 매우 번거로운 방법


### 편하게 데이터 프레임에 접근하는 방법

+ 함수 attach()
+ 함수 with()

### 함수 with()의 사용법
+ 일반적인 사용 형태 : with(데이터 프레임, R 명령문)
+ with()안에서는 지정된 데이터 프레임의 변수를 인덱싱 없이 사용 가능

In [13]:
str(airquality)

'data.frame':	153 obs. of  6 variables:
 $ Ozone  : int  41 36 12 18 NA 28 23 19 8 NA ...
 $ Solar.R: int  190 118 149 313 NA NA 299 99 19 194 ...
 $ Wind   : num  7.4 8 12.6 11.5 14.3 14.9 8.6 13.8 20.1 8.6 ...
 $ Temp   : int  67 72 74 62 56 66 65 59 61 69 ...
 $ Month  : int  5 5 5 5 5 5 5 5 5 5 ...
 $ Day    : int  1 2 3 4 5 6 7 8 9 10 ...


+ 예제 : 데이터 프레임 airquality
+ 미국 뉴욕시의 공기 질과 관련된 데이터

In [16]:
z.Temp <- (Temp-mean(Temp))/sd(Temp)
z.Temp <- (airquality$Temp-mean(airquality$Temp))/sd(airquality$Temp)
z.Temp <- with(airquality, (Temp-mean(Temp))/sd(Temp))

ERROR: Error in eval(expr, envir, enclos): 객체 'Temp'를 찾을 수 없습니다


### 함수 attach()의 사용
+ 여러 줄의 명령문에서 특정 데이터 프레임을 계속 이용해야 하는 경우

In [19]:
attach(airquality)
mean(Temp); mean(Wind)
sd(Temp); sd(Wind)
detach(airquality)
mean(Temp)

The following objects are masked from airquality (pos = 3):

    Day, Month, Ozone, Solar.R, Temp, Wind




### attach() 사용시 주의할 점
+ 데이터 프레임의 변수 중 현재 작업 공간에 있는 다른 객체와 이름이 같은 변수가 있는 경우

In [20]:
attach(airquality)
cor(Temp,Wind)
Temp <- c(77,65,89,80)
cor(Temp,Wind)
length(Wind)
Temp
detach(airquality)

The following objects are masked from airquality (pos = 3):

    Day, Month, Ozone, Solar.R, Temp, Wind




ERROR: Error in cor(Temp, Wind): 호환되지 않는 차원들입니다


+ 함수 attach()로 불러오는 데이터 프레임의 변수가 현재 작업공간에 있는 다른 객체와 이름이 같으면 경고 문구

In [22]:
Temp <- c(77,65,89,80)
attach(airquality)
Temp; mean(Temp)
mean(airquality$Temp)
rm(Temp)
mean(Temp)

The following object is masked _by_ .GlobalEnv:

    Temp


The following objects are masked from airquality (pos = 3):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 4):

    Day, Month, Ozone, Solar.R, Temp, Wind




+ attach() 개수만큼 detach()를 해줘야 처음처럼 돌아온다

In [23]:
attach(airquality)
mean(Temp)
attach(airquality)
mean(Temp)
detach(airquality)
mean(Temp)
detach(airquality)
mean(Temp)

The following objects are masked from airquality (pos = 3):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 4):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 5):

    Day, Month, Ozone, Solar.R, Temp, Wind




The following objects are masked from airquality (pos = 3):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 4):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 5):

    Day, Month, Ozone, Solar.R, Temp, Wind


The following objects are masked from airquality (pos = 6):

    Day, Month, Ozone, Solar.R, Temp, Wind




## tibble : 개선된 형태의 데이터 프레임
+ tibble : tidyverse에 속한 패키지들이 공통적으로 사용하는 데이터 프레임
+ 전통적인 데이터 프레임에 몇 가지 기능을 추가하여 사용하기 더 편리한 형태를 취하고 있음
+ 패키지 tibble : core tidyverse에 속한 패키지

In [24]:
library(tidyverse)

"package 'tidyverse' was built under R version 3.5.3"
-- [1mAttaching packages[22m --------------------------------------- tidyverse 1.3.0 --

[32m√[39m [34mggplot2[39m 3.2.1     [32m√[39m [34mpurrr  [39m 0.3.3
[32m√[39m [34mtibble [39m 2.1.3     [32m√[39m [34mdplyr  [39m 0.8.4
[32m√[39m [34mtidyr  [39m 1.0.2     [32m√[39m [34mstringr[39m 1.4.0
[32m√[39m [34mreadr  [39m 1.3.1     [32m√[39m [34mforcats[39m 0.4.0

"package 'ggplot2' was built under R version 3.5.3"
"package 'tibble' was built under R version 3.5.3"
"package 'tidyr' was built under R version 3.5.3"
"package 'readr' was built under R version 3.5.3"
"package 'purrr' was built under R version 3.5.3"
"package 'dplyr' was built under R version 3.5.3"
"package 'stringr' was built under R version 3.5.3"
"package 'forcats' was built under R version 3.5.3"
-- [1mConflicts[22m ------------------------------------------ tidyverse_conflicts() --
[31mx[39m [34mdplyr[39m::[32mfilter()[39m masks