# 10 dplyr

## dplyr
* 해들리 위컴이 만든 패키지
* 데이터프레임을 대상으로 데이터랭글링 작업에 빠른 속도와 많은 유용한 기능을 제공
* 데이터 전처리작업의 사실상 표준(de facto) 패키지로 인정받음
* 데이터 전처리 작업은 동사로 정의된 각 함수를 통해서 이루어 짐
    - select    : 열 선택
    - filter    : 조건 검색
    - group_by  : 데이터 그룹화
    - mutate    : 행/열 추가
    - summrise  : 데이터 집계
    - arrange   : 데이터 정렬
* 이러한 함수들은 magrittr 패키지에 의해 구현된 파이프(>)<br> 
패러다임을 이용해서 체인형식으로 연산을 수행 할 수 있음
* 즉, 먼저 수행한 함수의 결과를  다음 실행할 함수의 입력으로 보낼 수 있음
    - sum(titanic, na.rm=T)   # 기존방식
    - titanic %>% sum(na.rm=T) # 파이프 방식
* 파이프 기호(%>%)를 입력할 때는 단축키 ctrl + shift + M 를 사용함

In [1]:
# dplyr 패키지 설치 (터미널에서 입력!)
# install.packages('dplyr')

In [21]:
library(dplyr)

In [22]:
load('csv/sungjuk.rdata')

## select (열선택)

In [23]:
# 영어성적 출력
sungjuk %>% select(eng)   # select(컬럼명)

eng
<dbl>
90
95
69
78


In [24]:
# 영어, 수학, 과학 성적 출력
sungjuk %>% select(eng, mat, sci)

eng,mat,sci
<dbl>,<dbl>,<dbl>
90,85,90
95,96,80
69,49,70
78,95,60


In [25]:
# 영어, 수학, 과학 성적을 제외하고 출력
sungjuk %>% select(-eng, -mat, -sci)

name
<fct>
John
Tom
Mark
Jane


## filter (조건검색)

In [26]:
sungjuk$class <-c(1,2,1,3)   # 클래스 컬럼 추가

In [27]:
# class가 1인 학생 조회
sungjuk %>% filter(class == 1)

name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,1
Mark,69,49,70,1


In [28]:
# class가 1이 아닌 학생 조회
sungjuk %>% filter(class != 1)
sungjuk %>% filter(!class == 1)

name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
Tom,95,96,80,2
Jane,78,95,60,3


name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
Tom,95,96,80,2
Jane,78,95,60,3


In [29]:
# 영어성적이 70이상인 학생 조회
sungjuk %>% filter(eng >= 70)

name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,1
Tom,95,96,80,2
Jane,78,95,60,3


In [30]:
# 영어성적이 80이상, 수학성적이 85인 학생 조회
sungjuk %>% filter(eng >= 80 & mat >=85)
sungjuk %>% filter(eng >= 80,  mat >=85)

name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,1
Tom,95,96,80,2


name,eng,mat,sci,class
<fct>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,1
Tom,95,96,80,2


In [31]:
# 영어성적이 80이상, 수학성적이 85인 학생들의 이름, class 조회
sungjuk %>% filter(eng >=80 & mat >=85) %>% select(name, class)

name,class
<fct>,<dbl>
John,1
Tom,2


In [32]:
# 먼저 터미널에서 ggplot2 설치하기
# ggplot2 패키지에 있는 mpg 데이터셋을 이용해서 다음 문제들을 풀어보세요

library(ggplot2)

head(mpg)

manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<chr>,<int>,<int>,<chr>,<chr>
audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact


In [33]:
# 차종class과 도시연비cty를 조회하세요

mpg %>% select(class, cty) %>% print(n=50)

[90m# A tibble: 234 × 2[39m
   class     cty
   [3m[90m<chr>[39m[23m   [3m[90m<int>[39m[23m
[90m 1[39m compact    18
[90m 2[39m compact    21
[90m 3[39m compact    20
[90m 4[39m compact    21
[90m 5[39m compact    16
[90m 6[39m compact    18
[90m 7[39m compact    18
[90m 8[39m compact    18
[90m 9[39m compact    16
[90m10[39m compact    20
[90m11[39m compact    19
[90m12[39m compact    15
[90m13[39m compact    17
[90m14[39m compact    17
[90m15[39m compact    15
[90m16[39m midsize    15
[90m17[39m midsize    17
[90m18[39m midsize    16
[90m19[39m suv        14
[90m20[39m suv        11
[90m21[39m suv        14
[90m22[39m suv        13
[90m23[39m suv        12
[90m24[39m 2seater    16
[90m25[39m 2seater    15
[90m26[39m 2seater    16
[90m27[39m 2seater    15
[90m28[39m 2seater    15
[90m29[39m suv        14
[90m30[39m suv        11
[90m31[39m suv        11
[90m32[39m suv        14
[90m33[39m midsize    19
[90m34

In [34]:
# 차종이 suv, compact인 차량중 어느 차량이 도시연비가 높은가?

suv <- mpg %>% select(class, cty) %>%
               filter(class == 'suv')

mean(suv$cty)   # 13.5

cpt <- mpg %>% select(class, cty) %>%
                   filter(class == 'compact')  

round(mean(cpt$cty), 1)    # 20.1

In [35]:
# 배기량displ에 따라(4,5) 어느 차량이 고속도로연비hwy가 높은가?

disp4 <- mpg %>% select(displ, hwy) %>%
                 filter(displ == 4)

mean(disp4$hwy)    # 19.6

disp5 <- mpg %>% select(displ, hwy) %>%
                 filter(displ == 5)

mean(disp5$hwy)    # 17

In [36]:
# 제조사manufactor에 따라(audi, toyota) 어느 차량이 도시연비가 높은가?

audi <- mpg %>% select(manufacturer, cty) %>%
                filter(manufacturer == 'audi')

round(mean(audi$cty), 1)     # 17.6

toyota <- mpg %>% select(manufacturer, cty) %>%
                  filter(manufacturer == 'toyota')

round(mean(toyota$cty), 1)     # 18.5

In [37]:
# chervolet, ford, honda 차량의 평균 고속도로연비를 조회하시오

car3 <- mpg %>% select(manufacturer, hwy) %>%
          filter(manufacturer == 'chervolet' |
                 manufacturer == 'ford' |
                 manufacturer == 'honda')

round(mean(car3$hwy), 1)     # 22.9

car3 <- mpg %>% select(manufacturer, hwy) %>%
      filter(manufacturer  %in%
      c('chervolet','ford', 'honda'))

round(mean(car3$hwy), 1)     # 22.9

## mutate(행, 열 추가)

In [39]:
load('csv/sungjuk.rdata')
sungjuk

name,eng,mat,sci
<fct>,<dbl>,<dbl>,<dbl>
John,90,85,90
Tom,95,96,80
Mark,69,49,70
Jane,78,95,60


In [40]:
# 영어/수학/과학점수에 대한 총점/평균을 계산하고, tot/avg 컬럼에 저장하세요
sungjuk <- sungjuk %>% mutate(tot = eng + mat + sci)
sungjuk <- sungjuk %>% mutate(avg = tot / 3)
sungjuk

name,eng,mat,sci,tot,avg
<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,265,88.33333
Tom,95,96,80,271,90.33333
Mark,69,49,70,188,62.66667
Jane,78,95,60,233,77.66667


In [41]:
# 간략하게 작성하기
sungjuk <- sungjuk %>% mutate(tot = eng + mat + sci,
                              avg = round(tot / 3, 1))
sungjuk

name,eng,mat,sci,tot,avg
<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,265,88.3
Tom,95,96,80,271,90.3
Mark,69,49,70,188,62.7
Jane,78,95,60,233,77.7


In [42]:
# 고속도로연비와 도시연비를 합산해서 allmpg라는 컬럼을 만들고,
# allmpg를 2로 나눠 avgmpg라는 컬럼을 생성해서
# 모델명, 제조사, allmpg, avgmpg 순으로 조회하세요

mpg <- mpg %>% mutate(allmpg = hwy + cty, 
                      avgmpg = allmpg / 2)  %>% 
               select(model, manufacturer, allmpg, avgmpg) %>% 
               head()
mpg

model,manufacturer,allmpg,avgmpg
<chr>,<chr>,<int>,<dbl>
a4,audi,47,23.5
a4,audi,50,25.0
a4,audi,51,25.5
a4,audi,51,25.5
a4,audi,42,21.0
a4,audi,44,22.0
