| dplyr 함수 | 기능 |
| :-- | :-- |
| filter()| 행추출|
| select()| 열 추출|
| arrange() | 정렬|
| summarise()| 통계치 산출|
| group_by()| 집단별로 나누기|
| left_join()| 데이터 합치기(열)|
| bind_rows()| 데이터 합치기(행)|


In [5]:
library(dplyr)

In [6]:
exam <- read.csv("../data/csv_exam.csv")
head(exam)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98


In [3]:
# class 가 1인 경우만 추출
#filter()	행추출
exam %>% filter(class ==1 )

# %>% : 파이프 연산자 (pipe operator)
#함수들을 연결하는 기능

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58


In [5]:
## class 가 1 이 아닌 경우만 추출

exam %>% filter(class !=1 )

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [6]:
# math가 50을 초과한 경우만 추출
exam%>% filter(math > 50)

id,class,math,english,science
2,1,60,97,60
7,2,80,90,45
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
16,4,58,98,65
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87
20,5,78,83,58


## 여러 조건을 충족하는 행 추출

In [8]:
## class 가 1이면서 math가 50 이상인 경우
exam%>% filter(class ==1 & math >=50)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60


## 여러 조건 중 하나 이상 충족하는 행 추출

In [9]:
# math가 90 이상이거나 english가 90 이상인 경우
exam %>% filter(math >90 | english >= 90)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
4,1,30,98,58
7,2,80,90,45
9,3,20,98,15
10,3,50,98,45
13,4,46,98,65
16,4,58,98,65


## 목록에 해당되는 행 추출

In [10]:
# class 가 1,3,5에 해당하면 추출
exam %>% filter(class ==1 | class ==3 | class == 5)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


In [11]:
# %in% 이용하기
exam %>% filter(class %in% c(1,3,5))
#exam %>% filter(class ==1 | class ==3 | class == 5) 와같은것이다.
#뒤에 나오는 백터에 일치하는 값만 추출한것

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


## 추출한 행으로 데이터 만들기

In [12]:
# class 가 1인 행 추출, class1 에 할당
class1 <- exam %>% filter(class ==1)
class1

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58


In [13]:
# class가 1인 행의 math 평균 구하기
mean(class1$math)

## mpg 데이터 분석 연습

*분석계획* : <br>
1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 함. displ(배기량)이 4이하인 자동차와 5이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 분석.<br>
2. 자동차 제조사 별로 도시 연비가 다른지 알아보려고 함. audi와 toyota 중 어느 manufacturer(자동차 제조사)의 cty(도시 연비)가 평균적으로 더 높은지 분석.<br>
3. chevrolet, ford, honda 자동차의 고속도로 연비 평균을 알아보려고 함. 이 회사들의 데이터를 추출한 후 hwy 전체 평균을 분석.

In [15]:
mpg <- as.data.frame(ggplot2::mpg)

In [14]:
a1 <- mpg %>% filter(displ <= 4)




In [21]:
mean(a1$hwy)

In [53]:
a2 <- mpg %>% filter(displ >= 5)

In [24]:
mean(a2$hwy)

In [25]:
audi <- mpg %>% filter(manufacturer == "audi")

In [27]:
toyota <-mpg %>% filter(manufacturer == "toyota")

In [28]:
mean(audi$cty)

In [32]:
mean(toyota$cty)

In [33]:
chevrolet<-mpg %>% filter(manufacturer == "chevrolet")

In [34]:
ford<-mpg %>% filter(manufacturer == "ford")

In [35]:
honda<-mpg %>% filter(manufacturer == "honda")

In [45]:
h1 <- mean(chevrolet$hwy)
h1

In [47]:
h2 <- mean(ford$hwy)
h2

In [49]:
h3 <- mean(honda$hwy)
h3

In [52]:
h1+h2+h3 /3

## 필요한 변수만 추출하기


In [7]:
# exam 데이터에서 math 추출
exam %>% select(math)

#select 함수를 사용하면 해당 열 이름만 추출할 수 있다.

math
50
60
45
30
25
50
80
90
20
50


## 여러 변수 추출

In [8]:
# class, math, english 변수 추출
exam %>% select(class, math, english)

class,math,english
1,50,98
1,60,97
1,45,86
1,30,98
2,25,80
2,50,89
2,80,90
2,90,78
3,20,98
3,50,98


## 변수 제외하기

In [9]:
# 필요없는 변수만 제외
#math, english 제외
exam %>% select(-math, -english)

id,class,science
1,1,50
2,1,60
3,1,78
4,1,58
5,2,65
6,2,98
7,2,45
8,2,25
9,3,15
10,3,45


## dplyr 함수 조합
 - 파이프연산자를 사용하는 이유는 함수끼리 연결을 시킬때 엄청 유용하기 때문이다.

In [11]:
# class 가 1인 행에서 english 추출
exam %>% 
    filter(class ==1) %>% 
    select(english)

english
98
97
86
98


In [12]:
# 일부만 출력
exam %>% 
    select(id,math) %>%
    head()

id,math
1,50
2,60
3,45
4,30
5,25
6,50


## mpg 데이터 분석 연습
*분석계획* : <br>
1. mpg데이터에서 class(자동차 종류), cty(도시 연비) 변수만 추출해 새로운 데이터 생성. <br>
2. 자동차 종류에 따라 도시 연비가 다른지 알아보려고 함. class(자동차 종류)가 "suv"인 자동차와 "compact"인 자동차 중 어떤 자동차의 cty(도시 연비) 평균이 더 높은지 분석.

In [16]:
mpg %>%
    select(class, cty)

class,cty
compact,18
compact,21
compact,20
compact,21
compact,16
compact,18
compact,18
compact,18
compact,16
compact,20


In [23]:
#자동차 종류에 따라 도시 연비가 다른지 알아보려고 함. 
#class(자동차 종류)가 "suv"인 자동차와 "compact"인 자동차 중 
#어떤 자동차의 cty(도시 연비) 평균이 더 높은지 분석.
suv <- mpg %>% filter(class == "suv")
ct1<-mean(suv$cty)
ct1

In [22]:
compact <- mpg %>% filter(class == "compact")
ct2<- mean(compact$cty)
ct2

## 정렬

In [24]:
# exam 데이터 math 오름차순 정렬
exam %>% arrange(math)

id,class,math,english,science
9,3,20,98,15
5,2,25,80,65
4,1,30,98,58
3,1,45,86,78
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12
1,1,50,98,50
6,2,50,89,98
10,3,50,98,45


In [25]:
# math 내림차순 정렬
exam %>% arrange(desc(math))

id,class,math,english,science
8,2,90,78,25
19,5,89,68,87
7,2,80,90,45
18,5,80,78,90
20,5,78,83,58
15,4,75,56,78
11,3,65,65,65
17,5,65,68,98
2,1,60,97,60
16,4,58,98,65


In [26]:
# 정렬 기준 변수 여러개 지정
# class 및 math 오름차순 정렬
exam %>% arrange(class, math)

#class 가 먼저 정렬이 되고 math의 순서가 정렬이 된다.
#그래서 위와같은 문법을 사용할때는 순서가 굉장히 중요하다

id,class,math,english,science
4,1,30,98,58
3,1,45,86,78
1,1,50,98,50
2,1,60,97,60
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
12,3,45,85,32


## 파생변수 추가

In [28]:
# mutate() : 기존데이터에 파생변수 추가
# mutate(변수명 = 계산식)

#총합 변수 추가
exam %>%
    mutate(total =math + english + science) %>%
    head

id,class,math,english,science,total
1,1,50,98,50,198
2,1,60,97,60,217
3,1,45,86,78,209
4,1,30,98,58,186
5,2,25,80,65,170
6,2,50,89,98,237


In [30]:
# 여러 파생변수 한 번에 추가하기
exam %>%
    mutate(total = math+ english + science,
            mean = (math + english + science)/3) %>%
    head

id,class,math,english,science,total,mean
1,1,50,98,50,198,66.0
2,1,60,97,60,217,72.33333
3,1,45,86,78,209,69.66667
4,1,30,98,58,186,62.0
5,2,25,80,65,170,56.66667
6,2,50,89,98,237,79.0


In [31]:
# muteat()에 ifelst()적용하기
exam %>%
    mutate(test = ifelse(science >= 60, "pass","fail"))%>%
    head

id,class,math,english,science,test
1,1,50,98,50,fail
2,1,60,97,60,pass
3,1,45,86,78,pass
4,1,30,98,58,fail
5,2,25,80,65,pass
6,2,50,89,98,pass


In [32]:
# 추가한 변수를 dplyr 코드에 바로 활용하기
exam %>%
    mutate(total = math + english + science) %>%
    arrange(total) %>%
    head

id,class,math,english,science,total
9,3,20,98,15,133
14,4,48,87,12,147
12,3,45,85,32,162
5,2,25,80,65,170
4,1,30,98,58,186
8,2,90,78,25,193


1. mpg 데이터에서 cty와 hwy를 합"한산연비" 변수 추가
2. "합산연비"를 2로 나눠 "평균 연비" 변수를 추가
3. "평균 연비" 가 가장 높은 자동차 3종의 데이터를 출력

In [33]:
mpg %>%
    mutate(합산연비 =  cty+ hwy) %>%
    mutate(평균연비 = 합산연비/2) %>%
    arrange(평균연비)%>%
    head

manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class,합산연비,평균연비
dodge,dakota pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,21,10.5
dodge,durango 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,21,10.5
dodge,ram 1500 pickup 4wd,4.7,2008,8,auto(l5),4,9,12,e,pickup,21,10.5
dodge,ram 1500 pickup 4wd,4.7,2008,8,manual(m6),4,9,12,e,pickup,21,10.5
jeep,grand cherokee 4wd,4.7,2008,8,auto(l5),4,9,12,e,suv,21,10.5
chevrolet,k1500 tahoe 4wd,5.3,2008,8,auto(l4),4,11,14,e,suv,25,12.5


## 집단별로 요약하기

In [36]:
# exam 데이터에서 math 평균 산출
exam %>%
    summarise(mean_math = mean(math))

mean_math
57.45


In [37]:
mean(exam$math)

In [38]:
#집단별로 요약하기
exam %>%
    group_by(class) %>% #class별로 분리
    summarise(mean_math = mean(math))

class,mean_math
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


In [39]:
#  여러 요약 통계량 한번에 산출하기
exam %>%
    group_by(class) %>%
    summarise(mean_math = mean(math),
              sum_math = sum(math),
                median_math = median(math),
                 n = n())

class,mean_math,sum_math,median_math,n
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


- mena() : 평균
- sd() : 표준편차
- sum() : 합계
- median() : 중앙값
- min() : 최솟값
- max() : 최댓값
- n() : 빈도

In [41]:
# 각 집단별로 다시 집단 나누기
mpg %>%
    group_by(manufacturer, drv) %>% #제조사별로 나누고 나눈데이터 안에서 drv로 나누기
    summarise(mean_cty = mean(cty)) %>%
    head

manufacturer,drv,mean_cty
audi,4,16.81818
audi,f,18.85714
chevrolet,4,12.5
chevrolet,f,18.8
chevrolet,r,14.1
dodge,4,12.0


In [45]:
#회사별로 "suv" 자동차의 도시 및 고속도로 통합 연비
#평균을 구해 내림차순으로 정렬하고, 상위 5개 출력하기
mpg %>%
    group_by(manufacturer) %>%
    filter(class == "suv") %>%
    mutate(tot = (cty + hwy)/2) %>%
    summarise(mean_tot = mean(tot)) %>%
    arrange(desc(mean_tot)) %>%
    head(5)
    

manufacturer,mean_tot
subaru,21.91667
toyota,16.3125
nissan,15.875
mercury,15.625
jeep,15.5625


1. 어떤 차종의 도시 연비가 높은지 비교하려고 함. class별 cty 평균 구한 뒤 내림차순으로 정렬. <br>
2. 어떤 회사 자동차의 hwy가 가장 높은지 알아보려고 함. hwy 평균이 가장 높은 회사 세 곳을 출력. <br>
3. 어떤 회사에서 "compact" 차종을 가장 많이 생산하는지 알아보려고 함. 각 회사별 "compact" 차종 수를 내림차순으로 정렬.

In [47]:
mpg %>%
    group_by(class) %>%
    summarise(mean_cty = mean(cty)) %>%
    arrange(desc(mean_cty))

class,mean_cty
subcompact,20.37143
compact,20.12766
midsize,18.7561
minivan,15.81818
2seater,15.4
suv,13.5
pickup,13.0


In [53]:
mpg %>%
    group_by(manufacturer) %>%
    summarise(mean_hwy = mean(hwy)) %>%
    arrange(desc(mean_hwy)) %>%
    head(3)

manufacturer,mean_hwy
honda,32.55556
volkswagen,29.22222
hyundai,26.85714


In [54]:
mpg %>%
    filter(class == "compact") %>%
    group_by(manufacturer) %>%
    summarise(count = n()) %>%
    arrange(desc(count))

manufacturer,count
audi,15
volkswagen,14
toyota,12
subaru,4
nissan,2


## 데이터 합치기

In [57]:
# 데이터 생성
test1 <- data.frame(id = c(1,2,3,4,5),
                    midterm = c(60,50,70,89,90))
test2<- data.frame(id = c(1,2,3,4,5),
                    final =c(80,70,46,70,90))

In [58]:
test1

id,midterm
1,60
2,50
3,70
4,89
5,90


In [59]:
test2

id,final
1,80
2,70
3,46
4,70
5,90


In [61]:
# id 기준으로 합쳐서 df_total에 할당
df_total <- left_join(test1, test2, by = "id")
df_total

id,midterm,final
1,60,80
2,50,70
3,70,46
4,89,70
5,90,90


In [62]:
df_name <-data.frame(class = c(1,2,3,4,5),
    teacher = c("kim",'lee',"park","choi","jung"))

In [63]:
df_name

class,teacher
1,kim
2,lee
3,park
4,choi
5,jung


In [65]:
#class 기준으로 합치기
exam_new <- left_join(exam, df_name, by="class")
exam_new

id,class,math,english,science,teacher
1,1,50,98,50,kim
2,1,60,97,60,kim
3,1,45,86,78,kim
4,1,30,98,58,kim
5,2,25,80,65,lee
6,2,50,89,98,lee
7,2,80,90,45,lee
8,2,90,78,25,lee
9,3,20,98,15,park
10,3,50,98,45,park


In [66]:
#세로로 합치기
group_a <- data.frame(id= c(1,2,3,4,5),
                     test= c(56,34,76,68,78))
#세로로 합치기
group_b <- data.frame(id= c(6,7,8,9,10),
                     test= c(56,34,96,38,88))

In [67]:
group_a

id,test
1,56
2,34
3,76
4,68
5,78


In [68]:
group_b

id,test
6,56
7,34
8,96
9,38
10,88


In [69]:
# 데이터를 세로로 합쳐서 group_all 에 할당
group_all <- bind_rows(group_a,group_b)
group_all

id,test
1,56
2,34
3,76
4,68
5,78
6,56
7,34
8,96
9,38
10,88


## mpg데이터 분석연습

In [78]:
#fuel 데이터
fuel <- data.frame(fl = c("c","d","e","p","r"),
                      price_fl = c(2.34,2.45,2.55,2.12,2.55),
                    stringsAsFactors =F)

In [76]:
fuel

fl,price_fl,stringAsFactors
c,2.34,False
d,2.45,False
e,2.55,False
p,2.12,False
r,2.55,False


In [79]:
left_join(mpg,fuel,by="fl")

manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class,price_fl
audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact,2.12
audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact,2.12
audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact,2.12
audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact,2.12
audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact,2.12
audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact,2.12
audi,a4,3.1,2008,6,auto(av),f,18,27,p,compact,2.12
audi,a4 quattro,1.8,1999,4,manual(m5),4,18,26,p,compact,2.12
audi,a4 quattro,1.8,1999,4,auto(l5),4,16,25,p,compact,2.12
audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact,2.12


## midwest 데이터 분석 연습
*분석계획* : <br>
1. popadults(해당 지역 성인 인구), poptotal(전체 인구)를 이용하여 "전체 인구 대비 미성년 인구 비율" 변수를 추가. <br>
2. 미성년 인구 비율이 가장 높은 상위 5개 county의 미성년 인구 비율을 출력. <br>
3. 아래 기준에 따라 미성년 비율 등급 변수를 추가하고, 각 등급에 몇 개의 지역이 있는지 파악. <br>

- large : 40% 이상
- middle : 30 ~ 40%
- small : 30% 미만 

4. popasian(해당 지역의 아시아인 인구)를 활용하여 "전체 인구 대비 아시아인 인구 비율" 변수를 추가하고 하위 10개 지역의 state, county, 아시아인 인구 비율을 출력.

In [None]:
#3번은 n활용