# 6. 자유자재로 데이터 가공하기
![ex_screenshot1](./img/11.PNG)

## 06-1. 데이터 전처리 - 원하는 형태로 데이터 가공하기
### 데이터 전처리(Preprocessing) - dplyr 패키지

함수 | 기능
-------- | --------
filter() |  행 추출
select() | 열(변수) 추출
arrange() | 정렬
mutate() | 변수 추가
summarise() | 통계치 산출
group_by() | 집단별로 나누기
left_join() | 데이터 합치기(열)
bind_rows() | 데이터 합치기(행)

## 06-2. 조건에 맞는 데이터만 추출하기
![ex_screenshot1](./img/12.PNG)

### dplyr 패키지 로드 & 데이터 준비

In [133]:
library(dplyr)
exam <- read.csv("data/csv_exam.csv")
exam

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45


In [134]:
# exam 에서 class 가 1 인 경우만 추출하여 출력
exam %>% filter(class == 1)  # chain operator 

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58


##### [참고] 단축키 [Ctrl+Shit+M]으로 %>% 기호 입력

In [135]:
# 2 반인 경우만 추출
exam %>% filter(class == 2)

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25


In [136]:
# 1 반이 아닌 경우
exam %>% filter(class != 1)

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [137]:
# 3 반이 아닌 경우
exam %>% filter(class != 3)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
13,4,46,98,65
14,4,48,87,12


### 초과, 미만, 이상, 이하 조건 걸기


In [138]:
# 수학 점수가 50 점을 초과한 경우
exam %>% filter(math > 50)

id,class,math,english,science
2,1,60,97,60
7,2,80,90,45
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
16,4,58,98,65
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87
20,5,78,83,58


In [139]:
# 수학 점수가 50 점 미만인 경우
exam %>% filter(math < 50)

id,class,math,english,science
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
9,3,20,98,15
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [140]:
# 영어점수가 80 점 이상인 경우
exam %>% filter(english >= 80)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
9,3,20,98,15
10,3,50,98,45
12,3,45,85,32


In [141]:
# 영어점수가 80 점 이하인 경우
exam %>% filter(english <= 80)

id,class,math,english,science
5,2,25,80,65
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87


### 여러 조건을 충족하는 행 추출하기


In [142]:
# 1 반 이면서 수학 점수가 50 점 이상인 경우
exam %>% filter(class == 1 & math >= 50)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60


In [143]:
# 2 반 이면서 영어점수가 80 점 이상인 경우
exam %>% filter(class == 2 & english >= 80)

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45


### 여러 조건 중 하나 이상 충족하는 행 추출하기

In [144]:
# 수학 점수가 90 점 이상이거나 영어점수가 90 점 이상인 경우
exam %>% filter(math >= 90 | english >= 90)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
4,1,30,98,58
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
13,4,46,98,65
16,4,58,98,65


In [145]:
# 영어점수가 90 점 미만이거나 과학점수가 50 점 미만인 경우
exam %>% filter(english < 90 | science < 50)

id,class,math,english,science
3,1,45,86,78
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
14,4,48,87,12


### 목록에 해당되는 행 추출하기

In [146]:
exam %>% filter(class == 1 | class == 3 | class == 5) # 1, 3, 5 반에 해당되면 추출

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


### %in% 기호 이용하기

In [147]:
exam %>% filter(class %in% c(1,3,5)) # 1, 3, 5 반에 해당하면 추출   #find %IN% table

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


In [148]:
exam %>% filter(class %in% 1)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58


### 추출한 행으로 데이터 만들기


In [149]:
class1 <- exam %>% filter(class == 1) # class 가 1 인 행 추출, class1 에 할당
class2 <- exam %>% filter(class == 2) # class 가 2 인 행 추출, class2 에 할당

In [150]:
mean(class1$math) # 1 반 수학 점수 평균 구하기

In [151]:
mean(class2$math) # 2 반 수학 점수 평균 구하기

### R에서 사용하는 기호들
논리 연산자 | 기능
-------- | --------
< | 작다
<= | 작거나 같다
> | 크다
>= | 크거나 같다
== | 같다
!= | 같지 않다
│ | 또는
& | 그리고
%in% | 매칭 확인


산술 연산자  | 기능
-------- | -------
&#43; | 더하기
&#45; | 빼기
&#42; | 곱하기
/ | 나누기
^ , ** | 제곱
%/% | 나눗셈의 몫
%% | 나눗셈의 나머지

### 혼자서 해보기

mpg 데이터를 이용해 분석 문제를 해결해 보세요.

Q1. 자동차 배기량에 따라 고속도로 연비가 다른지 알아보려고 합니다. displ(배기량)이 4 이하인 자동차와
5 이상인 자동차 중 어떤 자동차의 hwy(고속도로 연비)가 평균적으로 더 높은지 알아보세요.

In [152]:
mpg <- as.data.frame(ggplot2::mpg)

mpg_4 <- mpg %>% filter(displ <= 4)
mpg_5 <- mpg %>% filter(displ >= 5) 

In [153]:
mean(mpg_4$hwy)

In [154]:
mean(mpg_5$hwy) 

Q2. 자동차 제조 회사에 따라 도시 연비가 다른지 알아보려고 합니다. "audi"와 "toyota" 중 어느
manufacturer(자동차 제조 회사)의 cty(도시 연비)가 평균적으로 더 높은지 알아보세요.

In [155]:
mpg_audi <- mpg %>% filter(manufacturer == "audi") 
mpg_toyota <- mpg %>% filter(manufacturer == "toyota") 

In [156]:
mean(mpg_audi$cty) 

In [157]:
mean(mpg_toyota$cty) 

Q3. "chevrolet", "ford", "honda" 자동차의 고속도로 연비 평균을 알아보려고 합니다. 이 회사들의
자동차를 추출한 뒤 hwy 전체 평균을 구해보세요.

In [158]:
mpg_1 <- mpg %>% filter(manufacturer %in% c("chevrolet", "ford", "honda"))
mean(mpg_1$hwy)

## 06-3. 필요한 변수만 추출하기
![ex_screenshot1](./img/13.PNG)

In [159]:
exam %>% select(math) # math 추출

math
50
60
45
30
25
50
80
90
20
50


In [160]:
exam %>% select(english) # english 추출

english
98
97
86
98
80
89
90
78
98
98


### 여러 변수 추출하기

In [161]:
exam %>% select(class, math, english) # class, math, english 변수 추출

class,math,english
1,50,98
1,60,97
1,45,86
1,30,98
2,25,80
2,50,89
2,80,90
2,90,78
3,20,98
3,50,98


### 변수 제외하기


In [162]:
exam %>% select(-math) # math 제외

id,class,english,science
1,1,98,50
2,1,97,60
3,1,86,78
4,1,98,58
5,2,80,65
6,2,89,98
7,2,90,45
8,2,78,25
9,3,98,15
10,3,98,45


In [163]:
exam %>% select(-math, -english) # math, english 제외

id,class,science
1,1,50
2,1,60
3,1,78
4,1,58
5,2,65
6,2,98
7,2,45
8,2,25
9,3,15
10,3,45


### dplyr 함수 조합하기

In [164]:
# class 가 1 인 행만 추출한 다음 english 추출
exam %>% filter(class == 1) %>% select(english)

english
98
97
86
98


### 가독성 있게 줄 바꾸기


In [165]:
exam %>%
 filter(class == 1) %>% # class 가 1 인 행 추출
 select(english) # english 추출

english
98
97
86
98


### 일부만 출력하기


In [166]:
exam %>%
 select(id, math) %>% # id, math 추출
 head # 앞부분 6 행까지 추출

id,math
1,50
2,60
3,45
4,30
5,25
6,50


In [167]:
exam %>%
 select(id, math) %>% # id, math 추출
 head(10) # 앞부분 10 행까지 추출

id,math
1,50
2,60
3,45
4,30
5,25
6,50
7,80
8,90
9,20
10,50


### 혼자서 해보기
mpg 데이터를 이용해서 분석 문제를 해결해보세요.

Q1. mpg 데이터는 11 개 변수로 구성되어 있습니다. 이 중 일부만 추출해서 분석에 활용하려고 합니다. mpg
데이터에서 class(자동차 종류), cty(도시 연비) 변수를 추출해 새로운 데이터를 만드세요. 새로 만든
데이터의 일부를 출력해서 두 변수로만 구성되어 있는지 확인하세요.

In [169]:
mpg <- as.data.frame(ggplot2::mpg)

In [170]:
df <- mpg %>% select(class, cty)
head(df) 

class,cty
compact,18
compact,21
compact,20
compact,21
compact,16
compact,18


Q2. 자동차 종류에 따라 도시 연비가 다른지 알아보려고 합니다. 앞에서 추출한 데이터를 이용해서
class(자동차 종류)가 "suv"인 자동차와 "compact"인 자동차 중 어떤 자동차의 cty(도시 연비)가 더 높은지
알아보세요.


In [171]:
df_suv <- df %>% filter(class == "suv")
df_compact <- df %>% filter(class == "compact")

In [172]:
mean(df_suv$cty) 

In [173]:
mean(df_compact$cty) 

## 06-4. 순서대로 정렬하기

![ex_screenshot1](./img/13.PNG)

### 오름차순으로 정렬하기

In [175]:
exam %>% arrange(math) # math 오름차순 정렬

id,class,math,english,science
9,3,20,98,15
5,2,25,80,65
4,1,30,98,58
3,1,45,86,78
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12
1,1,50,98,50
6,2,50,89,98
10,3,50,98,45


### 내림차순으로 정렬하기

In [177]:
exam %>% arrange(desc(math)) # math 내림차순 정렬

id,class,math,english,science
8,2,90,78,25
19,5,89,68,87
7,2,80,90,45
18,5,80,78,90
20,5,78,83,58
15,4,75,56,78
11,3,65,65,65
17,5,65,68,98
2,1,60,97,60
16,4,58,98,65


#### 정렬 기준 변수 여러개 지정

In [182]:
exam %>% arrange(class, math) # class 및 math 오름차순 정렬

id,class,math,english,science
4,1,30,98,58
3,1,45,86,78
1,1,50,98,50
2,1,60,97,60
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
12,3,45,85,32


### 혼자서 해보기
mpg 데이터를 이용해서 분석 문제를 해결해보세요.


In [184]:
mpg <- as.data.frame(ggplot2::mpg) 

In [185]:
mpg %>% filter(manufacturer == "audi") %>% 
 arrange(desc(hwy)) %>% 
 head(5) 

manufacturer,model,displ,year,cyl,trans,drv,cty,hwy,fl,class
audi,a4,2.0,2008,4,manual(m6),f,20,31,p,compact
audi,a4,2.0,2008,4,auto(av),f,21,30,p,compact
audi,a4,1.8,1999,4,auto(l5),f,18,29,p,compact
audi,a4,1.8,1999,4,manual(m5),f,21,29,p,compact
audi,a4 quattro,2.0,2008,4,manual(m6),4,20,28,p,compact
