# 09 wrangling

## 데이터 전처리
* 데이터를 조건에 따라 추출하고 원하는 형태로 데이터를 가공하는 것을 의미
* 원시 데이터를 분석 목적에 맞게 다른 형태로 가공하는 것
* 데이터 wrangling 또는 munging 이라고 함

## 데이터 프레임
* 서로 다른 자료형으로 구성된 데이터들로 만들어진 2차원 배열
* 겉으로 봤을 때는 행렬과 비슷해 보임

In [8]:
# 성적 데이터 불러오기
load('csv/sungjuk.rdata')

head(sungjuk)

Unnamed: 0_level_0,name,eng,mat,sci
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>
1,John,90,85,90
2,Tom,95,96,80
3,Mark,69,49,70
4,Jane,78,95,60


## 데이터프레임 각 요소 접근
+ 데이터프레임명$변수명
+ 데이터프레임명[인덱스, 인덱스]

In [9]:
sungjuk$name
sungjuk[, 1]
sungjuk[, 'name']

In [10]:
# Tom의 성적을 출력
sungjuk[2, ]
sungjuk['Tom', ]   # 데이터프레임에서는 사용불가
sungjuk[sungjuk$name == 'Tom', ]

Unnamed: 0_level_0,name,eng,mat,sci
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>
2,Tom,95,96,80


Unnamed: 0_level_0,name,eng,mat,sci
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>
,,,,


Unnamed: 0_level_0,name,eng,mat,sci
Unnamed: 0_level_1,<fct>,<dbl>,<dbl>,<dbl>
2,Tom,95,96,80


In [11]:
# Jane의 성적만 출력
sungjuk[4, c(2,3,4)]
sungjuk[4, c(2:4)]
sungjuk[4, c('eng','mat','sci')]
sungjuk[sungjuk$name == 'Jane', c(2:4)]

Unnamed: 0_level_0,eng,mat,sci
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
4,78,95,60


Unnamed: 0_level_0,eng,mat,sci
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
4,78,95,60


Unnamed: 0_level_0,eng,mat,sci
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
4,78,95,60


Unnamed: 0_level_0,eng,mat,sci
Unnamed: 0_level_1,<dbl>,<dbl>,<dbl>
4,78,95,60


## 성적 데이터프레임에서 총점/평균/학점 컬럼 추가하기
+ 데이터프레임명$변수명 <- 처리코드

In [12]:
sungjuk$tot <- sungjuk$eng + sungjuk$mat + sungjuk$sci
sungjuk$avg <- round(sungjuk$tot / 3, 1)

sungjuk

name,eng,mat,sci,tot,avg
<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,265,88.3
Tom,95,96,80,271,90.3
Mark,69,49,70,188,62.7
Jane,78,95,60,233,77.7


## 변수를 줄여서 사용하기
+ attach/detach, with, within 함수 이용

In [15]:
# attach(생략할 키워드)
# dettach(생략할 키워드)
# 기존 컬럼을 대상으로만 처리 가능
# 파생변수 생성에는 사용불가
load('csv/sungjuk.rdata')

attach(sungjuk)
    tot <- eng + mat + sci
    avg <- round(tot / 3, 1)
detach(sungjuk)

sungjuk

name,eng,mat,sci
<fct>,<dbl>,<dbl>,<dbl>
John,90,85,90
Tom,95,96,80
Mark,69,49,70
Jane,78,95,60


In [16]:
attach(sungjuk)
    eng + mat + sci
    round((eng + mat + sci) / 3, 1)
detach(sungjuk)

sungjuk

name,eng,mat,sci
<fct>,<dbl>,<dbl>,<dbl>
John,90,85,90
Tom,95,96,80
Mark,69,49,70
Jane,78,95,60


In [18]:
# with(생략할 키워드, {처리코드})
# attach/detach 보다는 사용 편리
# 차생변수 생성에는 사용불가
load('csv/sungjuk.rdata')
with(sungjuk, {
    tot <- eng + mat + sci
    avg <- round((eng + mat + sci) / 3, 1)
})

sungjuk

name,eng,mat,sci
<fct>,<dbl>,<dbl>,<dbl>
John,90,85,90
Tom,95,96,80
Mark,69,49,70
Jane,78,95,60


In [20]:
# within(생략할 키워드, {처리코드})
# 파생변수 생성에 사용가능
# 단, 파생변수 생성 후 다시 데이터프레임에 저장해야함!
load('csv/sungjuk.rdata')

# 파생변수 초기화
sungjuk$tot <- c(0,0,0,0)
sungjuk$avg <- c(0,0,0,0)

sungjuk <- within(sungjuk, {
                tot <- eng + mat + sci
                avg <- round(tot / 3, 1)
            })

sungjuk

name,eng,mat,sci,tot,avg
<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
John,90,85,90,265,88.3
Tom,95,96,80,271,90.3
Mark,69,49,70,188,62.7
Jane,78,95,60,233,77.7


## 매니저 평점 데이터
* 나이 컬럼의 값에 따라 다음의 기준으로 ages라는 컬럼을 생성함
    - 나이 20~30 : 청년
    - 나이 31~45 : 중년
    - 나이 46~65 : 장년
    - 나이 66~   : 노년

In [22]:
load('csv/leadership.rdata')
str(leadership)

'data.frame':	5 obs. of  10 variables:
 $ manager: int  1 2 3 4 5
 $ date   : Factor w/ 5 levels "05/01/14","10/01/14",..: 4 5 2 3 1
 $ country: Factor w/ 2 levels "UK","US": 2 2 1 1 1
 $ gender : Factor w/ 2 levels "F","M": 2 1 1 2 1
 $ age    : num  32 45 25 39 99
 $ q1     : num  5 3 3 3 2
 $ q2     : num  4 5 5 3 2
 $ q3     : num  5 2 5 4 1
 $ q4     : num  5 5 5 NA 2
 $ q5     : num  5 5 2 NA 1


In [23]:
# 파생변수 초기화
leadership$ages <- c(0,0,0,0,0)

leadership <- within(leadership, {
                ages[age >= 20 & age <= 30] <- '청년'
                ages[age >= 31 & age <= 45] <- '중년'
                ages[age >= 46 & age <= 65] <- '장년'
                ages[age >= 66] <- '노년'
              })

leadership

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages
<int>,<fct>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년
2,10/28/14,US,F,45,3,5,2,5.0,5.0,중년
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년
4,10/12/14,UK,M,39,3,3,4,,,중년
5,05/01/14,UK,F,99,2,2,1,2.0,1.0,노년


In [24]:
# 각 원소를 추출하는 방법은 boolean indexing을 이용하거나<br>
# 전처리 전문 패키지인 dplyr을 이용함