- dplyr 함수
    - filter : 행 추출
    - select : 열 추출
    - arrange : 정렬
    - mutate : 변수 추가
    - summarise : 통계치 산출
    - group_by : 집단별로 나누기
    - left_join : 데이터 합치기(열)
    - bind_rows : 데이터 합치기(행)

# 조건에 맞는 데이터 추출

In [1]:
library(dplyr)


Attaching package: ‘dplyr’


The following objects are masked from ‘package:stats’:

    filter, lag


The following objects are masked from ‘package:base’:

    intersect, setdiff, setequal, union




In [2]:
exam <- read.csv("/content/csv_exam.csv")
head(exam)

Unnamed: 0_level_0,id,class,math,english,science
Unnamed: 0_level_1,<int>,<int>,<int>,<int>,<int>
1,1,1,50,98,50
2,2,1,60,97,60
3,3,1,45,86,78
4,4,1,30,98,58
5,5,2,25,80,65
6,6,2,50,89,98


In [4]:
# class가 1인 경우만 추출
exam %>% filter(class == 1)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58


In [5]:
# %>% : 파이프 연산자(pipe operator). 함수들을 연결하는 기능

# class가 1이 아닌 경우만 추출
exam %>% filter(class != 1)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [6]:
# math가 50을 초과한 경우만 추출
exam %>% filter(math > 50)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
2,1,60,97,60
7,2,80,90,45
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
16,4,58,98,65
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87
20,5,78,83,58


In [7]:
# math가 50미만인 경우만 추출
exam %>% filter(math < 50)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
9,3,20,98,15
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [8]:
# english가 80 이하인 경우만 추출
exam %>% filter(english <= 80)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
5,2,25,80,65
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87


In [9]:
# english가 80 이상인 경우만 추출
exam %>% filter(english >= 80)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
9,3,20,98,15
10,3,50,98,45
12,3,45,85,32


## 여러 조건을 충족하는 행 추출

In [10]:
# class가 1이면서 math가 50이상인 경우
exam %>% filter(class == 1 & math >= 50)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60


## 여러 조건 중 하나 이상 충족하는 행 추출

In [11]:
# math가 90이상이거나 english가 90이상인 경우
exam %>% filter(math >= 90 | english >= 90)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60
4,1,30,98,58
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
13,4,46,98,65
16,4,58,98,65


## 목록에 해당되는 행 추출

In [13]:
# class가 1, 3, 5에 해당하면 추출
exam %>% filter(class == 1 | class == 3 | class == 5)

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


In [15]:
# %in% 이용하기
# %in% : 매치 연산자(Matching Operator). 변수의 값이 지정한 조건 목록에 해당되는지 확인하는 기능
exam %>% filter(class %in% c(1, 3, 5))

id,class,math,english,science
<int>,<int>,<int>,<int>,<int>
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


## 추출한 행으로 데이터 만들기

In [17]:
# class가 1인 행 추출, class1에 할당
class1 <- exam %>% filter(class == 1)
print(class1)

  id class math english science
1  1     1   50      98      50
2  2     1   60      97      60
3  3     1   45      86      78
4  4     1   30      98      58


In [18]:
# class가 1인 행의 math 평균 구하기
mean(class1$math)

## mpg 데이터 분석 연습

*분석계획* : <br>
1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 함. displ(배기량)이 4이하인 자동차와 5이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)까 평균적으로 더 높은지 분석<br>
2. 자동차 제조사 별로 도시 연비가 다른지 알아보려고 함. audi와 toyota 중 어느 manufacturer(제조사)의 cty(도시 연비)가 평균적으로 더 높은지 분석 <br>
3. chevrolet, ford, honda 자동차의 고속도로 연비 평균을 알아보려고 함. 이 회사들의 데이터를 추출한 후 hwy 전체 평균을 분석 

In [22]:
# mpg 데이터 불러오기
mpg <- as.data.frame(ggplot2::mpg)

In [23]:
head(mpg)

Unnamed: 0_level_0,manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
Unnamed: 0_level_1,<chr>,<chr>,<dbl>,<int>,<int>,<chr>,<chr>,<int>,<int>,<chr>,<chr>
1,audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
2,audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
3,audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
4,audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
5,audi,a4,2.8,1999,6,auto(l5),f,16,26,p,compact
6,audi,a4,2.8,1999,6,manual(m5),f,18,26,p,compact


In [25]:
# 1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 함. displ(배기량)이 4이하인 자동차와 5이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)까 평균적으로 더 높은지 분석
mpg1 <- mpg %>% filter(displ <= 4)
mpg2 <- mpg %>% filter(displ >= 5)

In [26]:
# displ 4이하인 hwy 평균
mean(mpg1$hwy)

# displ 5이상 hwy 평균
mean(mpg2$hwy)

In [27]:
# 2. 자동차 제조사 별로 도시 연비가 다른지 알아보려고 함. audi와 toyota 중 어느 manufacturer(제조사)의 cty(도시 연비)가 평균적으로 더 높은지 분석
mpg_audi <- mpg %>% filter(manufacturer == "audi")
mpg_toyota <- mpg %>% filter(manufacturer == "toyota")

# audi의 평균 cty
mean(mpg_audi$cty)

# toyota의 평균 cty
mean(mpg_toyota$cty)

In [28]:
# 3. chevrolet, ford, honda 자동차의 고속도로 연비 평균을 알아보려고 함. 이 회사들의 데이터를 추출한 후 hwy 전체 평균을 분석
mpg_cfh <- mpg %>% filter(manufacturer %in% c("chevrolet", "ford", "honda"))

mean(mpg_cfh$hwy)