### 새로운 변수의 추가 mutate()

In [3]:
library(tidyverse)
mtcars_t <- as.tibble(mtcars)
mtcars_t <- mutate(mtcars_t,
                   kml=mpg*0.43,
                   gp_kml=if_else(kml>=10,"good","bad"))
mtcars_t
select(mtcars_t, kml, gp_kml, everything())

mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,kml,gp_kml
<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,9.03,bad
21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,9.03,bad
22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,9.804,bad
21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,9.202,bad
18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,8.041,bad
18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,7.783,bad
14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,6.149,bad
24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2,10.492,good
22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2,9.804,bad
19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4,8.256,bad


kml,gp_kml,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
<dbl>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
9.03,bad,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
9.03,bad,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
9.804,bad,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
9.202,bad,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
8.041,bad,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
7.783,bad,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6.149,bad,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
10.492,good,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
9.804,bad,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
8.256,bad,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


### 변수만 유지하고 나머지 변수 모두 삭제

In [4]:
transmute(mtcars_t,
         kml=mpg*0.43,
         gp_kml=if_else(kml>=10,"good","bad"))

kml,gp_kml
<dbl>,<chr>
9.03,bad
9.03,bad
9.804,bad
9.202,bad
8.041,bad
7.783,bad
6.149,bad
10.492,good
9.804,bad
8.256,bad


### 그룹 생성 및 그룹별 자료 요약 : group by, summarise()
+ 함수 summarise : 변수의 요약 통계량 계산
+ 기본적인 사용법 : summarise(df, name=fun)

### 데이터 프레임 mpg의 변수 hwy의 평균 계산

In [6]:
summarise(mpg, hwy_mmpg=mean(hwy))

hwy_mmpg
<dbl>
23.44017


### summarise()에 사용되는 함수
+ 결과가 숫자 하나로 출력되는 함수만 사용 가능 : mean,sd,min,max 등
+ 결과가 벡터인 함수는 사용 불가 : range 등
+ 유용한 함수 : n() = 케이스의 개수, n_distinct() = 서로 다른 숫자의 개수

In [7]:
summarise(mpg, n=n() , n_hwy=n_distinct(hwy),
          avg_hwy=mean(hwy), sd_hwy=sd(hwy))

n,n_hwy,avg_hwy,sd_hwy
<int>,<int>,<dbl>,<dbl>
234,27,23.44017,5.954643


### group_by()
+ 한 개 이상의 변수로 데이터 프레임을 그룹으로 구분
+ 기본적인 사용법 : group_by(df,var)
+ 실행 결과 : group_df 라는 class 속성이 추가된 tibble. 출력된 상태로는 실행 전과 차이가 없음.

### mpg를 cyl에 따라 그룹으로 구분하고, 각 그룹에 속한 케이스의 개수 및 각 그룹별 변수 hwy의 평균값 계산

In [8]:
by_cyl <- group_by(mpg,cyl)
summarise(by_cyl, n=n(),avg_mpg=mean(hwy))

cyl,n,avg_mpg
<int>,<int>,<dbl>
4,81,28.80247
5,4,28.75
6,79,22.82278
8,70,17.62857


### pipe() : 한 명령문의 결과물을 바로 다음 명령문의 입력 요소로 직접 사용할 수 있도록 명령문을 서로 연결하는 기능

+ pipe 연산자 : %>%
+ f %>% f -> f(x)
+ f %>% f(y) -> f(x,y) : 첫번째 요소
+ f %>% f(y,.) -> f(y,x) : 첫번째가 아닌 경우에는 해당 위치에 점

In [9]:
mpg %>% group_by(cyl) %>%
  summarise(n=n(), avg_mpg=mean(hwy))

cyl,n,avg_mpg
<int>,<int>,<dbl>
4,81,28.80247
5,4,28.75
6,79,22.82278
8,70,17.62857


In [10]:
# 예제
airs_Month <- airquality %>% group_by(Month)
# 1)
airs_Month %>% summarise(avg_Oz=mean(Ozone,na.rm=TRUE))
# 2)
airs_Month %>% summarise(n_total=n(), n_miss=sum(is.na(Ozone),
                                                 n_obs=sum(!is.na(Ozone))))

Month,avg_Oz
<int>,<dbl>
5,23.61538
6,29.44444
7,59.11538
8,59.96154
9,31.44828


Month,n_total,n_miss
<int>,<int>,<int>
5,31,31
6,30,30
7,31,31
8,31,31
9,30,30
