# 데이터 프레임
![.](./img/dataframe.png)
* R의 대표적인 자료구조
* 2차원 구조로 행/열로 구성
* 행렬과 달리 여러가지 자료형으로 구성된 데이터를 원소로 가질 수 있음
* 일반적으로 데이터분석시 데이터들은 데이터프레임으로 구성해야 함
* 데이터베이스의 테이블과 유사한 구조
* 컬럼단위로 서로 다른 유형의 데이터를 저장할수 있음

In [4]:
# 성적 데이터를 데이터 프레임으로 작성
# data.frame(벡터, 벡터, ...)
name <- c('혜교','지현','수지')
kor <- c(88,65,76)
eng <- c(99,77,88)
mat <- c(55,77,99)
grd <- c('수','미','양')

In [10]:
sj <- data.frame(name, kor, eng, mat, grd)
sj

name,kor,eng,mat,grd
<chr>,<dbl>,<dbl>,<dbl>,<chr>
혜교,88,99,55,수
지현,65,77,77,미
수지,76,88,99,양


In [11]:
str(sj)

'data.frame':	3 obs. of  5 variables:
 $ name: chr  "혜교" "지현" "수지"
 $ kor : num  88 65 76
 $ eng : num  99 77 88
 $ mat : num  55 77 99
 $ grd : chr  "수" "미" "양"


In [12]:
# R 에서는 명목형 자료를 다루기 위해 factor라는 자료형을 사용
# 데이터 프레임 생성시 문자형 데이터를 명목형으로 변환하려면
# stringsAsFactors 라는 속성을 사용해야 함!
sj <- data.frame(name, kor, eng, mat, grd, stringsAsFactors = T)

In [13]:
str(sj)

'data.frame':	3 obs. of  5 variables:
 $ name: Factor w/ 3 levels "수지","지현",..: 3 2 1
 $ kor : num  88 65 76
 $ eng : num  99 77 88
 $ mat : num  55 77 99
 $ grd : Factor w/ 3 levels "미","수","양": 2 1 3


In [14]:
summary(sj)

   name        kor             eng            mat     grd   
 수지:1   Min.   :65.00   Min.   :77.0   Min.   :55   미:1  
 지현:1   1st Qu.:70.50   1st Qu.:82.5   1st Qu.:66   수:1  
 혜교:1   Median :76.00   Median :88.0   Median :77   양:1  
          Mean   :76.33   Mean   :88.0   Mean   :77         
          3rd Qu.:82.00   3rd Qu.:93.5   3rd Qu.:88         
          Max.   :88.00   Max.   :99.0   Max.   :99         

In [38]:
# 특정컬럼을 명목형으로 변환 : as.factor 함수 사용
sj <- data.frame(name, kor, eng, mat, grd)

In [39]:
sj$grd <- as.factor(sj$grd)

In [40]:
str(sj)

'data.frame':	3 obs. of  5 variables:
 $ name: chr  "혜교" "지현" "수지"
 $ kor : num  88 65 76
 $ eng : num  99 77 88
 $ mat : num  55 77 99
 $ grd : Factor w/ 3 levels "미","수","양": 2 1 3


# 파생변수 만들기
* derived variable
* 기존의 변수를 토대로 새로운 변수를 만드는 것

In [19]:
sj

name,kor,eng,mat,grd
<chr>,<dbl>,<dbl>,<dbl>,<fct>
혜교,88,99,55,수
지현,65,77,77,미
수지,76,88,99,양


In [31]:
# 과목별 합계/평균 계산해서 새로운 컬럼으로 추가
sj[1, 6] <- sum(sj[1, c(2,3,4)])
sj[2, 6] <- sum(sj[2, c(2,3,4)])
sj[3, 6] <- sum(sj[3, c(2,3,4)])

In [32]:
sj

name,kor,eng,mat,grd,V6
<chr>,<dbl>,<dbl>,<dbl>,<fct>,<dbl>
혜교,88,99,55,수,242
지현,65,77,77,미,219
수지,76,88,99,양,263


In [41]:
# 과목별 합계/평균 계산해서 새로운 컬럼으로 추가
# df명$파생컬럼명 <- 수
sj$sum <- sj$kor + sj$eng + sj$mat

In [42]:
sj

name,kor,eng,mat,grd,sum
<chr>,<dbl>,<dbl>,<dbl>,<fct>,<dbl>
혜교,88,99,55,수,242
지현,65,77,77,미,219
수지,76,88,99,양,263


In [43]:
# 평균 컬럼 추가
sj$means <- sj$sum / 3

In [44]:
sj

name,kor,eng,mat,grd,sum,means
<chr>,<dbl>,<dbl>,<dbl>,<fct>,<dbl>,<dbl>
혜교,88,99,55,수,242,80.66667
지현,65,77,77,미,219,73.0
수지,76,88,99,양,263,87.66667


# 조건검색
* boolean indexing
* 다른말로는 필터링 연산식이라고도 불림
* 조건식을 사용해서 결과값이 True인 항목만을 필터링하게 해 줌
* df명[조건식, 컬럼명들]

In [45]:
# 국어점수가 50이상인 성적 추출
sj$kor >= 50

In [49]:
sj[sj$kor >= 50, ]

Unnamed: 0_level_0,name,kor,eng,mat,grd,sum,means
Unnamed: 0_level_1,<chr>,<dbl>,<dbl>,<dbl>,<fct>,<dbl>,<dbl>
1,혜교,88,99,55,수,242,80.66667
2,지현,65,77,77,미,219,73.0
3,수지,76,88,99,양,263,87.66667


In [51]:
# 모든 과목의 점수가 50이상인 성적 추출
sj$kor >= 50 & sj$eng >= 50 & sj$mat >= 50

In [53]:
find <- sj$kor >= 50 & sj$eng >= 50 & sj$mat >= 50
sj[find]

name,kor,eng,mat,grd,sum,means
<chr>,<dbl>,<dbl>,<dbl>,<fct>,<dbl>,<dbl>
혜교,88,99,55,수,242,80.66667
지현,65,77,77,미,219,73.0
수지,76,88,99,양,263,87.66667


In [57]:
# 학점이 '수'인 학생의 이름, 평균 추출
find <- sj$grd == '수'
sj[find, c('name', 'grd')]

Unnamed: 0_level_0,name,grd
Unnamed: 0_level_1,<chr>,<fct>
1,혜교,수


### 데이터프레임으로 만들기 예제
![.](./img/manager.png)

In [1]:
manager <- c(1:5)
date <- c('10/24/14','10/28/14','10/01/14','10/12/14','15/01/14')
country <- c('US','US','UK','UK','UK')
gender <- c('M','F','F','M','F')
age <- c(32,45,25,39,99)
q1 <- c(5,3,3,3,2)
q2 <- c(4,5,5,3,2)
q3 <- c(5,2,5,4,1)
q4 <- c(5,5,5,NA,2)
q5 <- c(5,5,2,NA,1)

In [2]:
mn <- data.frame(manager, date, country, gender, age, q1, q2, q3, q4, q5)
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5
<int>,<chr>,<chr>,<chr>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>
1,10/24/14,US,M,32,5,4,5,5.0,5.0
2,10/28/14,US,F,45,3,5,2,5.0,5.0
3,10/01/14,UK,F,25,3,5,5,5.0,2.0
4,10/12/14,UK,M,39,3,3,4,,
5,15/01/14,UK,F,99,2,2,1,2.0,1.0


In [3]:
mn$country <- as.factor(mn$country)
mn$gender <- as.factor(mn$gender)

In [4]:
summary(mn)

    manager      date           country gender      age           q1     
 Min.   :1   Length:5           UK:3    F:3    Min.   :25   Min.   :2.0  
 1st Qu.:2   Class :character   US:2    M:2    1st Qu.:32   1st Qu.:3.0  
 Median :3   Mode  :character                  Median :39   Median :3.0  
 Mean   :3                                     Mean   :48   Mean   :3.2  
 3rd Qu.:4                                     3rd Qu.:45   3rd Qu.:3.0  
 Max.   :5                                     Max.   :99   Max.   :5.0  
                                                                         
       q2            q3            q4             q5      
 Min.   :2.0   Min.   :1.0   Min.   :2.00   Min.   :1.00  
 1st Qu.:3.0   1st Qu.:2.0   1st Qu.:4.25   1st Qu.:1.75  
 Median :4.0   Median :4.0   Median :5.00   Median :3.50  
 Mean   :3.8   Mean   :3.4   Mean   :4.25   Mean   :3.25  
 3rd Qu.:5.0   3rd Qu.:5.0   3rd Qu.:5.00   3rd Qu.:5.00  
 Max.   :5.0   Max.   :5.0   Max.   :5.00   Max.   :5.

### 파생변수 만들기
* 나이 컬럼을 기준으로 ages라는 컬럼을 생성함
    * 나이 20~30 : 청년
    * 나이 31~45 : 중년
    * 나이 46~65 : 장년
    * 나이 66~   : 노년

In [5]:
find <- mn$age >= 20 & mn$age <= 30
mn$ages[find] <- '청년'

In [6]:
find <- mn$age >= 31 & mn$age <= 45
mn$ages[find] <- '중년'

In [7]:
find <- mn$age >= 46 & mn$age <= 65
mn$ages[find] <- '장년'

In [8]:
find <- mn$age >= 66
mn$ages[find] <- '노년'

In [9]:
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년
2,10/28/14,US,F,45,3,5,2,5.0,5.0,중년
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년
4,10/12/14,UK,M,39,3,3,4,,,중년
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년


### within 함수를 이용해서 코드를 간단히 작성하기
* within(df명, 표현식)

In [10]:
# within 함수 사용시 수정결과는 데이터프레임 변수에 다시 저장해야 함
mn <- within(mn, ages[age >= 66] <- '노년b')
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년
2,10/28/14,US,F,45,3,5,2,5.0,5.0,중년
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년
4,10/12/14,UK,M,39,3,3,4,,,중년
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년b


In [11]:
# within 함수로 좀 더 간략히 작성
mn <- within(mn, {
    ages[age <= 30] <- '청년w'
    ages[age >= 31] <- '중년w'
    ages[age >= 45] <- '장년w'
    ages[age >= 66] <- '노년w'
})
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년w
2,10/28/14,US,F,45,3,5,2,5.0,5.0,장년w
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년w
4,10/12/14,UK,M,39,3,3,4,,,중년w
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년w


In [12]:
# 설문문항(q1~q5) 컬럼의 총합과 평균을 구해서
# sumq, meanq라는 컬럼을 생성

In [13]:
# mn$sumq <- mn$q1 + mn$q2 + mn$q3 + mn$q4 + mn$q5
# mn
# 더 간단한 코드로 작성하기 위해 within으로 바꾸기
mn <- within(mn, sumq <- q1 + q2 + q3 + q4 + q5)
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages,sumq
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년w,24.0
2,10/28/14,US,F,45,3,5,2,5.0,5.0,장년w,20.0
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년w,20.0
4,10/12/14,UK,M,39,3,3,4,,,중년w,
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년w,8.0


In [14]:
# mn$meanq <- mn$sumq / 5
# within문
mn <- within(mn, meanq <- sumq / 5)
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages,sumq,meanq
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년w,24.0,4.8
2,10/28/14,US,F,45,3,5,2,5.0,5.0,장년w,20.0,4.0
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년w,20.0,4.0
4,10/12/14,UK,M,39,3,3,4,,,중년w,,
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년w,8.0,1.6


### 데이터프레임 저장하기
* save(객체명, 파일명)
* load(파일명)
* 단, 저장시 확장자는 rdata로 지정

In [15]:
save(mn, file='./data/managers.rdata')

In [16]:
mn <- ''
mn

In [17]:
load('./data/managers.rdata')
mn

manager,date,country,gender,age,q1,q2,q3,q4,q5,ages,sumq,meanq
<int>,<chr>,<fct>,<fct>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<dbl>,<chr>,<dbl>,<dbl>
1,10/24/14,US,M,32,5,4,5,5.0,5.0,중년w,24.0,4.8
2,10/28/14,US,F,45,3,5,2,5.0,5.0,장년w,20.0,4.0
3,10/01/14,UK,F,25,3,5,5,5.0,2.0,청년w,20.0,4.0
4,10/12/14,UK,M,39,3,3,4,,,중년w,,
5,15/01/14,UK,F,99,2,2,1,2.0,1.0,노년w,8.0,1.6
