## 06-1 데이터 전처리 - 원하는 형태로 데이터 가공하기

분석에 적합하게 데이터를 가공하는 작업을 '데이터 전처리(Data Preprocessing)'라고 합니다.

일부를 추출하거나, 종류별로 나누거나, 여러 데이터를 합치는 등 데이터를 자유롭게 가공할 수 있어야 목적에 맞게 분석할 수 있다.

dplyr은 데이터 전처리 작업에 가장 많이 사용되는 패키지 입니다. dplyr 함수를 이용해 데이터를 가공하는 방법을 알아본다.

- filter() : 행 추출
- select() : 열(변수) 추출
- arrange() : 정렬
- mutate() : 변수 추가
- summarise() : 통계치 산출
- group_by() : 집단별로 나누기
- left_join() : 데이터 합치기(열)
- bind_rows() : 데이터 합치기(행)

## 06-2 조건에 맞는 데이터만 추출하기

데이터를 분석할 때 전체 데이터를 분석하기도 하지만 일부를 추출해 분석하기도 한다.

dplyr 패키지의 filter()를 이용하면 원하는 데이터를 추출할 수 있다.

### 조건에 맞는 데이터만 추출하기

#### 1. dplyr 패키지를 로드한 후 실습에 사용할 csv_exam.csv 파일을 데이터 프레임으로 만들어 출력한다.

In [3]:
library(dplyr)
exam <- read.csv("csv_exam.csv")
exam

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45


출력 결과의 class 변수 열을 보면 데이터가 5개 반의 학생들로 구성되어 있다.

#### 2. dplyr 패키지의 filter()를 이용해 1반 학생들의 데이터만 추출한다.

#### dplyr 패키지는 %>% 기호를 이용해 함수들을 나열하는 방식으로 코드를 작성한다.

위 코드는 exam을 출력하되, class가 1인 행만 추출하라는 조건이 지정되어 있다.

filter() 안에 class == 1은 'class 변수의 값이 1인 행'을 의미한다.

filter()에 조건을 입력하면 조건에 해당하는 행만 추출한다.

filter()에 조건을 입력할 때 '같다'를 의미하는 등호 =를 두 번 반복해 쓰는 것을 꼭 기억한다.

함수의 파라미터를 지정할 때는 등호를 한 번 쓰고(ex. header = T), '같다'를 의미할 때는 등호를 두 번 쓴다.(ex.class == 1)

※ %>% 기호는 '파이프 연산자(pipe operator)'라고 읽는다. %>%는 물길을 연결하는 수도관(파이프)처럼 함수들을 연결하는 기능을 한다.

Ctrl + Shift + M을 누르면 %>%가 삽입된다.

#### 3. 같은 방식으로 2반 학생만 추출해 출력해본다.

In [4]:
exam %>% filter(class == 2) 

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25


#### 4. 변수가 특정 값이 '아닌 경우'에 해당하는 데이터만 추출해본다.

등호 앞에 느낌표를 붙여 !=이라고 쓰면 '같지 않다'를 의미하는 기호가 된다.

In [5]:
exam  %>%  filter(class != 1)  # 1반이 아닌 경우

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [6]:
exam  %>%  filter(class != 3)  # 3반이 아닌 경우

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
13,4,46,98,65
14,4,48,87,12


### 초과, 미만, 이상, 이하 조건 걸기

부등호를 이용하면 특정 값 초과나 미만인 경우, 혹인 특정 값 이상이나 이하인 경우에 해당하는 데이터만 추출할 수 있다.

In [7]:
exam  %>%  filter(math > 50)  # 수학 점수가 50점을 초과한 경우

id,class,math,english,science
2,1,60,97,60
7,2,80,90,45
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
16,4,58,98,65
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87
20,5,78,83,58


In [8]:
exam  %>%  filter(math < 50)  # 수학 점수가 50점 미만인 경우

id,class,math,english,science
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
9,3,20,98,15
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12


In [9]:
exam  %>%  filter(english >= 80)  # 영어 점수가 80점 이상인 경우

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
9,3,20,98,15
10,3,50,98,45
12,3,45,85,32


In [10]:
exam  %>%  filter(english <= 80)  # 영어 점수가 80점 이하인 경우

id,class,math,english,science
5,2,25,80,65
8,2,90,78,25
11,3,65,65,65
15,4,75,56,78
17,5,65,68,98
18,5,80,78,90
19,5,89,68,87


### 여러 조건을 충족하는 행 추출하기

'그리고(and)'를 의미하는 기호 $를 사용해 조건을 나열하면 여러 조건을 동시에 충족하는 행을 추출할 수 있다.

In [12]:
# 1반이면서 수학 점수가 50점 이상인 경우
exam  %>%  filter(class == 1 & math >= 50)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60


In [13]:
# 2반이면서 영어 점수가 80점 이상인 경우
exam  %>%  filter(class == 2 & english >= 80)

id,class,math,english,science
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45


### 여러 조건 중 하나 이상 충족하는 행 추출하기

'또는(or)'을 의마하는 | 기호를 이용하면 여러 조건 중 하나라도 충족하는 데이터를 추출할 수 있다.

In [15]:
# 수학 점수가 90점 이상이거나 영어 점수가 90점 이상인 경우
exam  %>%  filter(math >= 90 | english >= 90)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
4,1,30,98,58
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
10,3,50,98,45
13,4,46,98,65
16,4,58,98,65


### 목록에 해당하는 행 추출하기

#### 1. 변수의 값이 지정한 목록에 해당될 경우만 추출해야 할 경우가 있다.

예를 들어 1, 3, 5반에 속한 학생의 데이터만 추출하는 상황을 생각할 수 있다.

이럴 경우 앞에서 다룬 | 기호를 이용해 여러 조건을 나열하면 된다.

In [16]:
# 1, 3, 5반에 해당하면 추출
exam %>% filter(class == 1 | class == 3 | class == 5)

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


#### 2. %in% 기호를 사용하면 코드를 좀 더 간편하게 작성할 수 있다.

%in% 기호와 c() 함수를 이용해 조건 목록을 입력하면 된다.

%in% 기호는 변수의 값이 지정한 조건 목록에 해당하는지 확인하는 기능을 한다.

In [17]:
exam  %>%  filter(class %in% c(1, 3, 5))  # 1, 3, 5반에 해당하면 추출

id,class,math,english,science
1,1,50,98,50
2,1,60,97,60
3,1,45,86,78
4,1,30,98,58
9,3,20,98,15
10,3,50,98,45
11,3,65,65,65
12,3,45,85,32
17,5,65,68,98
18,5,80,78,90


### 추출한 행으로 데이터 만들기

새 변수를 만들 때처럼 <- 기호를 이용하면 추출한 행으로 새로운 데이터를 만들 수 있다.

데이터를 조건별로 나눠 활용하고자 할 때 이런 형태로 코드를 작성한다.

1반과 2반을 추출해 각각 새 데이터로 만든 후 각 반의 수학 점수 평균을 구해 본다.

In [19]:
class1 <- exam  %>%  filter(class == 1)  # class가 1인 행 추출, class1에 할당
class2 <- exam  %>%  filter(class == 2)  # class가 2인 행 추출, class2에 할당

In [20]:
mean(class1$math)

In [21]:
mean(class2$math)

### R에서 사용하는 기호들

조건에 맞는 데이터를 추출하는 실습을 하면서 여러 가지 기호들을 사용했다.

조건을 지정할 때 사용하는 기호를 '논리 연산자(Logical Opterator)'라고 하고, 계산할 때 사용하는 기호들을 '산술 연산자(Arithmetic Operatiors)'라고 한다.

#### 논리 연산자

- "<" : 작다
- "<=" : 작거나 같다
- ">" : 크다
- ">=" : 크거나 같다
- "==" : 같다
- "!=" : 같지 않다
- "|" : 또는
- "&" : 그리고
- "%in%" : 매칭 확인

#### 산술 연산자

- "+" : 더하기
- "-" : 빼기
- "*" : 곱하기
- "/" : 나누기
- "^", "**" : 제곱
- "%/%" : 나눗셈의 몫
- "%%" : 나눗셈의 나머지

## 06-3 필요한 변수만 추출하기

select()는 데이터에 들어 있는 수많은 변수 중 일부 변수만 추출해 활용하고자 할 때 사용한다.

select()를 이용해 변수를 추출하는 방법을 알아본다.

### 변수 추출하기

#### 1. 아래 코드는 exam에서 math 변수만 추출해 출력하는 기능을 한다.

filter()와 마찬가지 방식으로 데이터 프레임명을 입력한 후  %>% 로 select()를 연결한다.

괄호 안에는 추출할 변수 이름을 입력한다.

In [5]:
exam  %>%  select(math)  # math 추출

math
50
60
45
30
25
50
80
90
20
50


#### 2. 같은 방식으로 emglish 변수를 추출해 본다.

In [6]:
exam  %>% select(english)  # english 추출

english
98
97
86
98
80
89
90
78
98
98


#### 3. 여러 변수 추출하기

쉼표를 넣어 변수명을 나열하면 여러 변수를 동시에 추출할 수 있다.

In [8]:
exam %>% select(class, math, english)  # class, math, english 변수 추출

class,math,english
1,50,98
1,60,97
1,45,86
1,30,98
2,25,80
2,50,89
2,80,90
2,90,78
3,20,98
3,50,98


#### 4. 변수 제외하기

추출할 변수를 지정하는 방법도 있지만 특정 변수만 제외하고 나머지 모든 변수를 추출하는 방법도 있다.

제외할 변수명 앞에 빼기 기호 -를 입력하면 된다.

여러 변수를 제외하려면 쉼표를 이용해 제외할 변수를 나열하면 된다.

In [10]:
exam  %>%  select(-math)  # math 제외

id,class,english,science
1,1,98,50
2,1,97,60
3,1,86,78
4,1,98,58
5,2,80,65
6,2,89,98
7,2,90,45
8,2,78,25
9,3,98,15
10,3,98,45


In [12]:
exam  %>%  select(-math, -english)  # math, english 제외

id,class,science
1,1,50
2,1,60
3,1,78
4,1,58
5,2,65
6,2,98
7,2,45
8,2,25
9,3,15
10,3,45


### dplyr 함수 조합하기

dplyr 패키지의 함수들을 %>% 를 이용해 조합할 수 있다는 장점이 있다.

함수를 조합하면 코드의 길이가 줄어 이해하기 쉬워진다.

#### 1. filter()와 select() 조합하기

filter()와 select()를 조합해서 1반 학생의 영어 점수를 추출해 본다.

class가 1인 행을 추출하는 filter()와 english 변수를 추출하는 select()를  %>% 로 연결하면 된다.

In [16]:
exam  %>%  filter(class == 1)  %>%  select(english) 

english
98
97
86
98


#### 2. 가독성 있게 줄 바꾸기

 %>% 로 코드가 연결되는 부분에서 줄을 바꾸면 함수별로 구분되기 때문에 가독성 있는 코드를 만들 수 있다.
 
 %>% 뒤에서 Enter로 줄을 바꾸면 자동으로 일정 간격이 띄어져서 어디까지 dplyr 코드 단락인지 한눈에 파악할 수 있다.
 
 실행할 때는 dplyr 구문 전체를 함께 실행해야 한다. 드래그해서 일부만 실행하면 코드가 완료되지 않은 상태가 되어 결과가 출력되지 않는다.
 
 dplyr 구문 내 아무 곳에나 마우스 커서를 위치시킨 후 Ctrl + Enter로 실행하면 구문 전체가 함께 실행된다.
 
 다음은 앞의 코드를  %>% 뒤에서 줄바꿈한 것이다.

In [18]:
exam %>%
    filter(class == 1) %>%  # class가 1인 행 추출 
    select(english)         # english 추출

english
98
97
86
98


#### 3. 일부만 출력하기

데이터 일부를 출력할 때 사용하는 head()를 dplyr에 조합해 사용할 수 있다.

dplyr 구문의 마지막에 %>% 로 연결해 head를 입력하면 된다.

괄호 없이 head만 쓰면 6행까지 출력되고, 괄호 안에 숫자를 입력하면 입력한 숫자만큼의 행이 출력된다.

dplyr을 적용한 결과 중 일부만 확인하고자 할 때 사용하면 된다.

In [24]:
exam %>% 
    select(id, math) %>%  # id, math 추출
    head                  # 앞부분 6행까지 추출

id,math
1,50
2,60
3,45
4,30
5,25
6,50


In [31]:
exam %>% 
    select(id, math) %>%  # id, math 추출
    head            # 앞부분 10행까지 추출

id,math
1,50
2,60
3,45
4,30
5,25
6,50


## 06-4 순서대로 정렬하기

arrange()를 이용하면 데이터를 원하는 순서로 정렬할 수 있다.

arrange()에 정렬 기준으로 삼을 변수명을 입력하면 된다.

### 오름차순으로 정렬하기

exam 데이터는 학생의 번호를 나타내는 id 변수 순으로 정렬되어 있다.

아래와 같이 arrange()에 math를 입력하면 수학 점수가 낮은 사람에게 높은 순으로 오름차순 정렬해 출력된다.

In [34]:
exam %>% arrange(math)  # math 오름차순 정렬

id,class,math,english,science
9,3,20,98,15
5,2,25,80,65
4,1,30,98,58
3,1,45,86,78
12,3,45,85,32
13,4,46,98,65
14,4,48,87,12
1,1,50,98,50
6,2,50,89,98
10,3,50,98,45


### 내림차순으로 정렬하기

높은 값에서 낮은 값 순으로 내림차순 정렬하려면 기준 변수를 desc()에 적용하면 된다.

아래 코드를 실행하면 math가 높은 사람부터 낮은 사람 순으로 출력된다.

In [36]:
exam %>% arrange(desc(math))  # math 내림차순 정렬

id,class,math,english,science
8,2,90,78,25
19,5,89,68,87
7,2,80,90,45
18,5,80,78,90
20,5,78,83,58
15,4,75,56,78
11,3,65,65,65
17,5,65,68,98
2,1,60,97,60
16,4,58,98,65


정렬 기준으로 삼을 변수 여러 개 지정하려면 쉼표를 이용해 변수명을 나열하면 된다.

아래 코드를 실행하면 먼저 반을 기준으로 오름차순 정렬한 후 각 반에서 수학 점수를 기준으로 오름차순 정렬해 출력한다.

In [38]:
exam %>% arrange(class, math)  # class 및 math 오른차순 정렬

id,class,math,english,science
4,1,30,98,58
3,1,45,86,78
1,1,50,98,50
2,1,60,97,60
5,2,25,80,65
6,2,50,89,98
7,2,80,90,45
8,2,90,78,25
9,3,20,98,15
12,3,45,85,32


## 06-5 파생변수 추가하기

mutate()를 사용하면 기존 데이터에 파생변수를 만들어 추가할 수 있다.

mutate()에 새로 만들 변수명과 변수를 만들 때 사용할 공식을 입력한다.

### 파생변수 추가하기

#### 1. exam에 세 과목의 점수를 모두 합한 총합 변수를 만들어 추가한 후 일부를 출력해 본다.

여기서는 total이라는 변수명을 사용했는데, 변수명은 원하는 단어로 지정하면 된다.

In [40]:
exam %>% 
    mutate(total = math + english + science) %>%  # 총합 변수 추가
    head                                          # 일부 추출

id,class,math,english,science,total
1,1,50,98,50,198
2,1,60,97,60,217
3,1,45,86,78,209
4,1,30,98,58,186
5,2,25,80,65,170
6,2,50,89,98,237


#### 2. 여러 파생변수 한 번에 추가하기

여러 파생변수를 한 번에 추가할 수 있다. 

쉼표를 이용해 새 변수명과 변수를 만드는 공식을 나열하면 된다.

In [44]:
exam %>%  
    mutate(total = math + english + science,          # 총합 변수 추가
          mean = (math + english + science) / 3) %>%  # 총평균 변수 추가
    head                                              # 일부 추출

id,class,math,english,science,total,mean
1,1,50,98,50,198,66.0
2,1,60,97,60,217,72.33333
3,1,45,86,78,209,69.66667
4,1,30,98,58,186,62.0
5,2,25,80,65,170,56.66667
6,2,50,89,98,237,79.0


#### 3. mutate()에 ifelse() 적용하기

mutate()에 ifelse()를 적용하면 조건에 따라 다른 값을 부여한 변수를 추가할 수 있다.

In [46]:
exam %>% 
    mutate(test = ifelse(science >= 60, "pass", "fail")) %>% 
    head

id,class,math,english,science,test
1,1,50,98,50,fail
2,1,60,97,60,pass
3,1,45,86,78,pass
4,1,30,98,58,fail
5,2,25,80,65,pass
6,2,50,89,98,pass


#### 4. 추가한 변수를 dplyr 코드에 바로 활용하기

변수를 추가하고 나면 이어지는 dplyr 코드에 바로 활용할 수 있다.

아래 코드를 실행하면 mutate()로 추가한 변수를 arrange()에서 기준으로 삼아 정렬해 일부를 출력한다.

In [48]:
exam %>% 
    mutate(total = math + english + science) %>%  # 총합 변수 추가
    arrange(total) %>%                            # 총합 변수 기준 정렬
    head                                          # 일부 추출

id,class,math,english,science,total
9,3,20,98,15,133
14,4,48,87,12,147
12,3,45,85,32,162
5,2,25,80,65,170
4,1,30,98,58,186
8,2,90,78,25,193


#### dplyr 함수에는 데이터 프레임명을 반복 입력하지 않는다.

dplyr 패키지 함수들은 변수면 앞에 데이터 프레임명을 반복해 입력하지 않기 때문에 코드가 간결해진다는 장점이 있다.

dplyr 함수 대신 기본 문법을 이용하면 변수명 앞에 데이터 프레임명을 반복해 입력한다.

In [50]:
# 예) "df$var_sum <- df$var1 + df$var2"

데이터 프레임명이 길수록, 코드를 구성하는 함수가 많을수록 dplyr 패키지의 장점이 드러난다.

## 06-6 집단별로 요약하기

집단별 평균이나 집단별 빈도처럼 각 집단을 요약한 값을 구할 때는 group_by()와 summarise()를 사용한다.

이 함수들을 이용해 요약표를 만들면 집단 간에 어떤 차이가 있는지 쉽게 파악할 수 있다.

### 집단별로 요약하기

#### 1. 먼저 summarise()를 사용해 본다

아래 코드는 수학 점수 평균을 구한 후 mean_math라는 새 변수에 할당해 출력하는 기능을 한다.

변수명은 mutate()를 사용할 때와 마찬가지로 자유롭게 정하면 된다.

In [51]:
exam %>% summarise(mean_math = mean(math))  # math 평균 산출

mean_math
57.45


평균을 구한다면 간단히 mean()을 이용하면 된다.

summarise()는 전체를 요약한 값을 구하기보다는 아래처럼 group_by()와 조합해 집단별 요약표를 만들 때 사용한다.

#### 2. 집단별로 요약하기

group_by()에 변수를 지정하면 변수 항목별로 데이터를 분리한다.

여기에 summarise()를 조합하면 집단별 요약 통계량을 산출한다.

아래 코드는 반별 수학 점수 평균을 산출하는 기능을 한다.

In [53]:
exam %>% 
    group_by(class) %>% 
    summarise(mean_math = mean(math))

class,mean_math
1,46.25
2,61.25
3,45.0
4,56.75
5,78.0


※ 출력 결과의 첫 번째 행 'A tibble: 5 x 2'는 데이터가 5행 2열의 tibble 형태라는 것을 의미한다.

group_by()는 출력 결과를 데이터 프레임의 업그레이드 버전인 tibble 형태로 만들어 준다.

tibble은 데이터 프레임에 몇 가지 기능이 추가된 것으로, 데이터 프레임을 다룰 때와 동일한 방식으로 활용할 수 있다.

변수명 아래 <int>, <dbl>은 변수의 속성을 나타낸다.
    
int는 정수(integer), dbl은 소수점이 있는 숫자(double, 부동 소수점)를 의미한다.

#### 3. 여러 요약 통계량 한 번에 산출하기

mutate()로 여러 변수를 동시에 추가했던 것과 마찬가지로 summarise()로도 여러 요약 통계량을 한 번에 산출할 수 있다.

In [54]:
exam %>% 
    group_by(class) %>%                  # class별로 분리
    summarise(mean_math = mean(math),    # math 평균
             sum_math = sum(math),       # math 합계
             median_math = median(math), # math 중앙값
             n = n())                    # 학생 수

class,mean_math,sum_math,median_math,n
1,46.25,185,47.5,4
2,61.25,245,65.0,4
3,45.0,180,47.5,4
4,56.75,227,53.0,4
5,78.0,312,79.0,4


코드 맨 아랫줄에 있는 n()은 데이터가 몇 행으로 되어 있는지 '빈도'를 구하는 기능을 한다.

여기서는 group_by()를 이용해 반별로 집단을 나눴으니 각 반에 몇 명의 학생이 있는지 나타내게 된다.

출력 결과의 n 변수 열을 보면 각 반의 빈도가 4이므로, 반별로 네 명의 학생이 있다는 것을 알 수 있다.

n()은 특정 변수에 적용되는 게 아니라 행 개수를 세는 것이기 때문에 다른 함수와 달리 괄호 안에 변수명을 입력하지 않는다.

아래는 summarise()에 자주 사용하는 요약 통계량 함수이다.

- mean() : 평균
- sd() : 표준편차
- sum() : 합계
- median() : 중앙값
- min() : 최솟값
- max() : 최댓값
- n() : 빈도

#### 4. 각 집단별로 다시 집단 나누기

group_by()에 여러 변수를 지정하면 집단을 나눈 후 다시 하위 집단으로 나눌 수 있다.

예를 들어 성적 데이터를 반별로 나눈 후 다시 성별로 나눠 각 반의 성별 평균 점수를 구할 수 있다.

여기서는 mpg 데이터를 이용해 하위 집단별 평균을 구해 본다.

회사별 집단을 나눈 후 다시 구동 방식별로 나눠 도시 연비 평균을 구한다.

In [57]:
mpg %>% 
    group_by(manufacturer, drv) %>% 
    summarise(mean_cty = mean(cty)) %>% 
    head(10)

manufacturer,drv,mean_cty
audi,4,16.81818
audi,f,18.85714
chevrolet,4,12.5
chevrolet,f,18.8
chevrolet,r,14.1
dodge,4,12.0
dodge,f,15.81818
ford,4,13.30769
ford,r,14.75
honda,f,24.44444


출력 결과를 보면 각 회사별로 구동 방식에 따라 연비가 어떻게 다른지 알 수 있다.

drv 변수에서 4는 사륜구동, f는 전륜구동, r은 후륜구동을 의미한다.

어떤 회사의 drv가 두 종류밖에 없는 것은 해당 회사가 두 종류의 자동차만 생산하기 때문이다.

### dplyr 조합하기

dplyr 패키지는 함수를 조합할 때 진가를 발휘한다.

절차가 복잡해 보이는 분석도 dplyr 함수를 조합하면 코드 몇 줄로 간단히 해결할 수 있다.

지금까지 다룬 dplyr 함수들을 하나의 구문으로 조합해 아래 분석 문제를 해결해 본다.

- "회사별로 "suv" 자동차의 도시 및 고속도로 통합 연비 평균을 구해 내림차순으로 정렬하고, 1~5위까지 출력하기"

#### 1. 코드를 작성하기 전에 어떤 절차로 어떤 함수를 사용할지 생가하면서 정리한다.

1. 회사별로 분리 : group_by()
2. sub 추출 : filter()
3. 통합 연비 변수 생성 : mutate()
4. 통합 연비 평균 산출 : summarise()
5. 내림차순 정렬 : arrange()
6. 1~5위까지 출력 : head()

#### 2. 위의 절차에 따라 함수들을 %>% 로 연결해 하나의 dplyr 구문으로 만든다

In [60]:
mpg %>% 
    group_by(manufacturer) %>%           # 회사별로 분리
    filter(class == "suv") %>%           # suv 추출
    mutate(tot = (cty + hwy) / 2) %>%    # 통합 연비 변수 생성
    summarise(mean_tot = mean(tot)) %>%  # 통합 연비 평균 산출
    arrange(desc(mean_tot)) %>%          # 내림차순 정렬
    head(5)                              # 1~5위까지 출력

manufacturer,mean_tot
subaru,21.91667
toyota,16.3125
nissan,15.875
mercury,15.625
jeep,15.5625


## 06-7 데이터 합치기

하나의 데이터만 가지고 분석하기도 하지만 여러 데이터를 합쳐 하나의 데이터로 만든 후에 분석하기도 한다.

예를 들어, 중간고사 데이터와 기말고사 데이터를 합쳐 하나의 시험 점수 데이터를 만들어 분석할 수 있다.

#### 가로로 합치기

데이터를 합치는 데에는 크게 두 가지 방법이 있다.

첫번 째는 데이터를 가로로 합치는 방법이다.

기존 데이터에 변수(열)을 추가한다고 볼 수 있다.

앞에서 든 예처럼 중간고사 데이터에 기말고사 데이터를 합친다면 이는 가로로 합치는 작업이 된다.

#### 세로로 합치기

두 번째는 데이터를 세로로 합치는 방법이다.

기존 데이터에 행을 추가한다고 볼 수 있다.

예를 들어, 학생 세 명이 먼저 시험을 보고, 나중에 또 다른 학생 세 명이 따로 시험을 봤을 때, 두 시험 데이터를 합치는 작업이 된다.

### 가로로 합치기

#### 1. 먼저 데이터를 가로로 합치는 방법을 알아본다.

우선 학생 다섯 명이 중간고사와 기말고사를 봤다고 가정하고, 2개의 데이터 프레임을 만든다.

In [62]:
# 중간고사 데이터 생성
test1 <- data.frame(id = c(1, 2, 3, 4, 5),
                   midterm = c(60, 80, 70, 90, 85))

# 기말고사 데이터 생성
test2 <- data.frame(id = c(1, 2, 3, 4, 5),
                   midterm = c(70, 83, 65, 95, 80))

test1

test2

id,midterm
1,60
2,80
3,70
4,90
5,85


id,midterm
1,70
2,83
3,65
4,95
5,80
