## 데이터 가공
데이터를 보다 효과적으로 분석하기 위해 데이터를 변형하고 작업이 바로 **데이터 가공(data wrangling)** <br>
<br>
- gapminder 라이브러리 <br>
세계 각국의 기대 수명, 1인당 국내 총생산, 인구 데이터들을 집계해놓은 gapminder 데이터 셋의 일부를 담고 있음.

In [10]:
install.packages("gapminder")
library(gapminder)

package 'gapminder' successfully unpacked and MD5 sums checked

The downloaded binary packages are in
	C:\Users\uskaw\AppData\Local\Temp\RtmpY3lt9y\downloaded_packages


"package 'gapminder' was built under R version 3.6.3"

In [13]:
library(dplyr)

"package 'dplyr' was built under R version 3.6.3"
Attaching package: 'dplyr'

The following objects are masked from 'package:stats':

    filter, lag

The following objects are masked from 'package:base':

    intersect, setdiff, setequal, union



In [14]:
glimpse(gapminder)  # glimpse(): 데이터 구조를 확인하는 함수로 str() 함수와 비슷하다.

Rows: 1,704
Columns: 6
$ country   <fct> "Afghanistan", "Afghanistan", "Afghanistan", "Afghanistan", ~
$ continent <fct> Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, Asia, ~
$ year      <int> 1952, 1957, 1962, 1967, 1972, 1977, 1982, 1987, 1992, 1997, ~
$ lifeExp   <dbl> 28.801, 30.332, 31.997, 34.020, 36.088, 38.438, 39.854, 40.8~
$ pop       <int> 8425333, 9240934, 10267083, 11537966, 13079460, 14880372, 12~
$ gdpPercap <dbl> 779.4453, 820.8530, 853.1007, 836.1971, 739.9811, 786.1134, ~


#### 샘플과 속성의 추출
- 각 나라country 의 기대 수명 lifeExp

In [16]:
gapminder[, c("country", "lifeExp")]

country,lifeExp
Afghanistan,28.801
Afghanistan,30.332
Afghanistan,31.997
Afghanistan,34.020
Afghanistan,36.088
Afghanistan,38.438
Afghanistan,39.854
Afghanistan,40.822
Afghanistan,41.674
Afghanistan,41.763


#### 샘플과 속성의 추출
- 행에는 이름이 지정되지 않은 경우가 많아 다음과 같이 행 번호를 <br>
지정하거나 조건식을 이용하는 것이 일반적

In [17]:
gapminder[1:15, ]

country,continent,year,lifeExp,pop,gdpPercap
Afghanistan,Asia,1952,28.801,8425333,779.4453
Afghanistan,Asia,1957,30.332,9240934,820.853
Afghanistan,Asia,1962,31.997,10267083,853.1007
Afghanistan,Asia,1967,34.02,11537966,836.1971
Afghanistan,Asia,1972,36.088,13079460,739.9811
Afghanistan,Asia,1977,38.438,14880372,786.1134
Afghanistan,Asia,1982,39.854,12881816,978.0114
Afghanistan,Asia,1987,40.822,13867957,852.3959
Afghanistan,Asia,1992,41.674,16317921,649.3414
Afghanistan,Asia,1997,41.763,22227415,635.3414


In [21]:
gapminder[gapminder$country == "Croatia" , "pop"] 
# 국가 이름이 "Croatia"인 샘플을 조건식을 사용해 추출 + 인구pop 속성만 추출

pop
3882229
3991242
4076557
4174366
4225310
4318673
4413368
4484310
4494013
4444595


In [22]:
gapminder[gapminder$country == "Croatia" , c("lifeExp", "pop")] 

lifeExp,pop
61.21,3882229
64.77,3991242
67.13,4076557
68.5,4174366
69.61,4225310
70.64,4318673
70.46,4413368
71.52,4484310
72.527,4494013
73.68,4444595


In [25]:
gapminder[gapminder$country == "Croatia" & gapminder$year > 1990 , c("lifeExp", "pop")] 
# Croatia의 1990년도 이후의 개대수명과 인구 추출

lifeExp,pop
72.527,4494013
73.68,4444595
74.876,4481020
75.748,4493312


- R에서 제공하는 apply 함수를 이용해 데이터 프레임에 포함된 여러 항목을 한꺼번에 연산 처리

In [27]:
apply(gapminder[gapminder$country == "Croatia", c("lifeExp", "pop")], 2, mean)

base R을 이용한 데이터 가공
- 데이터 가공은 데이터 프레임을 중심으로 R이 제공하는 다양한 연산자와 함수를 이용해서 이루어지는 작업
- 보다 정교하게 추출할려면 조건식 여러개를 논리 연산자로 결합
- 데이터를 타색하는 과정에서, 샘플들의 요약 통계 혹은 행/열 단위의 빠른 연산이 필요한 때가 있음
- R에서 제공하는 apply 함수를 이용하면 데이터 프레임을 구성하는 여러 항목을 한꺼번에 연산 가능

- base R의 데이터 가공 기법이 **인덱스 기반의 데이터 접근**에 기초하고 있다면, dplyr 라이브러리는 <br>
filter 혹은 select 가은 **입출력 관계의 함수**로 구현함으로써 사용자들이 보다 직관적으로 활용 가능

- 따라서 데이터 가공에 특화된 라이브러리를 사용하는 것이 더 효율적
- 탐색적 데이터 분석exploratory data analysis 과정에서 시각화와 데이터 가공은 매우 긴밀하게 <br>
연결되어 시각화를 위한 효유적인 가공 기법도 필요

#### 샘플과 속성 추출
- select 함수 이용
- 열을 지정할 때 " " 없이 열 이름을 그대로 사용할 수 있어 편리

In [38]:
select(gapminder, country, year, lifeExp) # select():열을 추출한다. 복수의 열을 추출할 때는 콤마로 구분하며,
# 인접열을 추출 할 때는 : 을 이용함.

country,year,lifeExp
Afghanistan,1952,28.801
Afghanistan,1957,30.332
Afghanistan,1962,31.997
Afghanistan,1967,34.020
Afghanistan,1972,36.088
Afghanistan,1977,38.438
Afghanistan,1982,39.854
Afghanistan,1987,40.822
Afghanistan,1992,41.674
Afghanistan,1997,41.763


#### 샘플과 속성 추출
- 특정 샘플(행)을 추출할 때는 filter 함수 사용
- 조건식 구성은 base R과 유사하나 함수 내에서 인덱싱을 위해 데이터 프레임의<br>
이름을 매번 입력하지 않아도 되므로 명령어가 간결

In [39]:
filter(gapminder, country == "Croatia") # filter(): 조건에 따라 행을 추출한다.

country,continent,year,lifeExp,pop,gdpPercap
Croatia,Europe,1952,61.21,3882229,3119.237
Croatia,Europe,1957,64.77,3991242,4338.232
Croatia,Europe,1962,67.13,4076557,5477.89
Croatia,Europe,1967,68.5,4174366,6960.298
Croatia,Europe,1972,69.61,4225310,9164.09
Croatia,Europe,1977,70.64,4318673,11305.385
Croatia,Europe,1982,70.46,4413368,13221.822
Croatia,Europe,1987,71.52,4484310,13822.584
Croatia,Europe,1992,72.527,4494013,8447.795
Croatia,Europe,1997,73.68,4444595,9875.605


In [40]:
summarize(gapminder, pop_avg=mean(pop))

pop_avg
29601212


In [41]:
summarize(group_by(gapminder, continent), pop_avg=mean(pop))

continent,op_avg
Africa,9916003
Americas,24504795
Asia,77038722
Europe,17169765
Oceania,8874672


#### 행/열 단위의 연산
- groupby 함수를 이용하면 데이터 프레임에 포함된 factor 형 속성을 활용 <br>
전체 데이터를 그룹으로 분류 가능
- 보통 summarise 함수를 연이어 사용해 그룹별 통계 지표를 한번에 산출

In [50]:
summarise(gapminder, pop_avg = mean(pop))

pop_avg
29601212


In [51]:
summarise(group_by(gapminder ,continent), pop_avg = mean(pop)) # factor 요소 값 별로 통계를 내준다.

continent,pop_avg
Africa,9916003
Americas,24504795
Asia,77038722
Europe,17169765
Oceania,8874672


In [53]:
summarise(group_by(gapminder ,continent, country), pop_avg = mean(pop)) # factor 요소 값 별로 통계를 내준다.

`summarise()` has grouped output by 'continent'. You can override using the `.groups` argument.


continent,country,pop_avg
Africa,Algeria,19875406.2
Africa,Angola,7309390.1
Africa,Benin,4017496.7
Africa,Botswana,971186.2
Africa,Burkina Faso,7548677.2
Africa,Burundi,4651608.3
Africa,Cameroon,9816648.4
Africa,Central African Republic,2560963.0
Africa,Chad,5329256.3
Africa,Comoros,361683.9


#### %>% 연산자를 이용한 연속처리
 - %>% 연산자를 이용한 일련의 가공 작업을 연결
chain(pipe) operator(%>%) : 여러 단계 절차가 필요한 중간결과 저장후 그 객체를 후속 절차에서<br>
받아 사용해야 하는 경우 유용함

In [66]:
gapminder%>% group_by(continent, country) %>% summarize(pop_avg = mean(pop))

`summarise()` has grouped output by 'continent'. You can override using the `.groups` argument.


continent,country,pop_avg
Africa,Algeria,19875406.2
Africa,Angola,7309390.1
Africa,Benin,4017496.7
Africa,Botswana,971186.2
Africa,Burkina Faso,7548677.2
Africa,Burundi,4651608.3
Africa,Cameroon,9816648.4
Africa,Central African Republic,2560963.0
Africa,Chad,5329256.3
Africa,Comoros,361683.9


In [97]:
options(digits=5) # 소수점 5번째에서 반올림 출력

In [98]:
temp1 = filter(gapminder, country=="Croatia")
temp2 = select(temp1, country, year, lifeExp)
temp3 = apply(temp2[, c("lifeExp")], 2, mean)
print(temp3)

lifeExp 
 70.056 


In [99]:
gapminder %>% filter(country == "Croatia") %>% 
select(country ,year, lifeExp) %>% summarise(lifeExp_avg = mean(lifeExp)) # R 다운 코드!

lifeExp_avg
70.056
