## R08 ; 데이터 프레임
- R에서 가장 많이 다루게 될 자료구조다
- 외형상 열과 행이 존재하는 행렬과 비슷하다
- 동일한 길이의 벡터가 리스트형식(key값 존재)으로 존재하는 데이터 구조라고 생각하자

#### 데이터 프레임 생성하는 법

In [2]:
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)

df01 <- data.frame(id,name,salary)
df01

id,name,salary
100,이철수,100000.0
200,이순신,200000.0
300,홍길동,300000.0


In [4]:
#key값을 줄수도 있다
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)

df01 <- data.frame(아이디=id,이름=name,연봉=salary)
df01

아이디,이름,연봉
100,이철수,100000.0
200,이순신,200000.0
300,홍길동,300000.0


In [24]:
#matrix를 통해서도 만들수 있다
df01<-data.frame(matrix(1:9,3))
colnames(df01)<-c("a","b","c")
rownames(df01)<-c("일","이","삼")
df01

Unnamed: 0,a,b,c
일,1,4,7
이,2,5,8
삼,3,6,9


In [36]:
# as.dataframe도 가능
as.data.frame(matrix(1:9,3))
as.data.frame(list(a=c(1,2,3),b=c(4,5,6)))
# as.data.frame(list(a=c(1,2,3),b=c(4,5))) Error=> 데이터 프레임의 정의 : 각 컬럼 벡터가 동일한 길이

V1,V2,V3
1,4,7
2,5,8
3,6,9


a,b
1,4
2,5
3,6


#### 반대로 데이터 프레임을 리스트로 만들때 헷갈리는 경우 있다

In [40]:
lst01<-list(data.frame(matrix(1:9,3))) #하나의 데이터 프레임 전체가 리스트 1개의원소로 들어감
print(lst01)
lst02<-as.list(data.frame(matrix(1:9,3)))#각 컬럼이 리스트 원소로 들어감
print(lst02)

[[1]]
  X1 X2 X3
1  1  4  7
2  2  5  8
3  3  6  9

$X1
[1] 1 2 3

$X2
[1] 4 5 6

$X3
[1] 7 8 9



#### 헷갈리는 함수들
- 1. dimnames, rownames, colnames
- 2. length nrow ncol

#### 1. 데이터 프레임도 외형상 행렬 => dimnames 존재, 리스트에선 존재 안했었지

In [44]:
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)
df01 <- data.frame(id,name,salary)
print(dimnames(df01))
#rownames colnames 당여히 존재
print(names(df01)) # colnames와 동일하다

[[1]]
[1] "1" "2" "3"

[[2]]
[1] "id"     "name"   "salary"

[1] "id"     "name"   "salary"


#### 2. length = ncol

In [46]:
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)
df01 <- data.frame(id,name,salary)
str(df01)
ncol(df01)==length(df01)
nrow(df01)

'data.frame':	3 obs. of  3 variables:
 $ id    : num  100 200 300
 $ name  : Factor w/ 3 levels "이순신","이철수",..: 2 1 3
 $ salary: num  1e+05 2e+05 3e+05


#### index column도 정의해줄수 있다
- 인덱스는 자동으로 1 2 3 ... 생성된다
- row.names or rownames 통해 가능 

In [31]:
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)
df01 <- data.frame(name,salary,row.names =id )
df01
# id가 더이상 컬럼이 아니다
rownames(df01)
rownames(df01)<- c(1,2,3) # 중간에 rowname 변경
row.names(df01)

Unnamed: 0,name,salary
100,이철수,100000.0
200,이순신,200000.0
300,홍길동,300000.0


### 데이터 프레임 인덱싱
- 외형상 행렬 => 행렬 인덱싱 사용 가능 [,] 2차원 
- 내용상 리스트 => 리스트 인덱싱 사용 가능 [[]], \$\ , []
    - [[ ]] \$\ : 원소 자체 데이터 구조 반환
    - [ ] : 데이터 프레임 반환
- 열벡터 추출시 벡터로 인식 가능 => drop option

In [56]:
df02<- data.frame(x = c(1,2,3,4,5),
                      y = c(2,4,6,8,10))

df02[1,1]
df02[1,]
df02[,"x"]
df02[,1,drop=F] # 열벡터 => 데이터 프레임 유지
df02[1:3,c("x","y")]

x,y
1,2


x
1
2
3
4
5


x,y
1,2
2,4
3,6


In [60]:
df02<- data.frame(x = c(1,2,3,4,5),
                      y = c(2,4,6,8,10))
df02[[1]]
df02[["x"]]
df02$y
df02[1]

x
1
2
3
4
5


#### 데이터 프레임 행 또는 열 추가
- cbind rbind
- \$\ 이용

In [71]:
# rbind cbind 이용해서 data.frame + vector
sampleDF<- data.frame(x = c(1,2,3,4,5),
                      y = c(2,4,6,8,10))

sampleDF$z <- c(3,6,9,12,15)
w<-c(4,8,12,16,20)
sampleDF<-cbind(sampleDF,w)
sampleDF<-cbind(sampleDF,t=c(5,10,15,20,25))
sampleDF
sampleDF<-rbind(sampleDF,c(6,12,18,24,30,36))
sampleDF

x,y,z,w,t
1,2,3,4,5
2,4,6,8,10
3,6,9,12,15
4,8,12,16,20
5,10,15,20,25


x,y,z,w,t
1,2,3,4,5
2,4,6,8,10
3,6,9,12,15
4,8,12,16,20
5,10,15,20,25
6,12,18,24,30


In [74]:
# rbind cbind 이용해서 data.frame + data.frame 도 가능하다
sampleDF<- data.frame(x = c(1,2,3,4,5),
                      y = c(2,4,6,8,10))
new.col <- data.frame(z=c(3,6,9,12,15))
cbind(sampleDF,new.col)

#rbind는 colname 동일해야 한다
new.row <-data.frame(x=6,y=12)
rbind(sampleDF,new.row)

x,y,z
1,2,3
2,4,6
3,6,9
4,8,12
5,10,15


x,y
1,2
2,4
3,6
4,8
5,10
6,12


In [77]:
#여러개 동시에도 당연히 가능하다
sampleDF<- data.frame(x = c(1,2,3,4,5),
                      y = c(2,4,6,8,10))
new.cols <- data.frame(z=c(3,6,9,12,15),w=c(4,8,12,16,20))
cbind(sampleDF,new.cols)

new.rows <-data.frame(x=c(6,7),y=c(12,14))
rbind(sampleDF,new.rows)

x,y,z,w
1,2,3,4
2,4,6,8
3,6,9,12
4,8,12,16
5,10,15,20


x,y
1,2
2,4
3,6
4,8
5,10
6,12
7,14


#### merge 함수 (sql에서  join)
- cbind 가 의미없는 데이터 프레임을 생성하거나
- rbind 자체가 불가능한 경우가 분명히 존재한다
- default 값으로 by = by = intersect(names(x), names(y)) 컬럼 이름 같은거 찾는다
- 컬럼 이름이 같아도 내부적으로 데이터가 반드시 동일한건 아니다=> inner join 수행 (다른 데이터는 버린다)
- 컬럼 이름이 다를땐 by.x = "" by.y="" 직접 두 컬럼이 같은 컬럼이라고 연결시켜줄수 있다
- all.x =T : left join , all.y=F : right join , all=T full outer join 가능

In [3]:
tmp.df01<-data.frame(name = c("이순신","강감찬","이성계"),
                     math = c(100,60,100))
tmp.df02<-data.frame(name = c("이순신","강감찬","이성계"),
                     eng = c(95,80,100))
cbind(tmp.df01,tmp.df02)
rbind(tmp.df01,tmp.df02) # math eng 다르니깐 rbind 안되지

name,math,name.1,eng
이순신,100,이순신,95
강감찬,60,강감찬,80
이성계,100,이성계,100


ERROR: Error in match.names(clabs, names(xi)): names do not match previous names


In [4]:
tmp.df01<-data.frame(name = c("이순신","강감찬","이성계"),
                     math = c(100,60,100))
tmp.df02<-data.frame(name = c("이순신","강감찬","이성계"),
                     eng = c(95,80,100))
merge(tmp.df01,tmp.df02)

name,math,eng
강감찬,60,80
이성계,100,100
이순신,100,95


In [6]:
tmp.df01<-data.frame(name = c("이순신","강감찬","이성계","이승만"),
                     math = c(100,60,100,70))
tmp.df02<-data.frame(name = c("이순신","강감찬","이성계"),
                     eng = c(95,80,100))
merge(tmp.df01,tmp.df02) # inner join
merge(tmp.df01,tmp.df02,all.x=T) # left join

name,math,eng
강감찬,60,80
이성계,100,100
이순신,100,95


name,math,eng
강감찬,60,80.0
이성계,100,100.0
이순신,100,95.0
이승만,70,


In [7]:
tmp.df01<-data.frame(name1 = c("이순신","강감찬","이성계","이승만"),
                     math = c(100,60,100,70))
tmp.df02<-data.frame(name2 = c("이순신","강감찬","이성계"),
                     eng = c(95,80,100))
merge(tmp.df01,tmp.df02,by.x='name1',by.y='name2')

name1,math,eng
강감찬,60,80
이성계,100,100
이순신,100,95


In [19]:
#수학 100점 이면서 동시에 영어 100점
df01<-data.frame(name = c("이순신","강감찬","이성계"),
                     math = c(100,60,100),
                     eng = c(95,80,100))
df01.math100 <- df01[df01$math==100,]
df01.math100
df01.eng100 <- df01[df01$eng==100,]
df01.eng100

merge(df01.math100,df01.eng100)

Unnamed: 0,name,math,eng
1,이순신,100,95
3,이성계,100,100


Unnamed: 0,name,math,eng
3,이성계,100,100


name,math,eng
이성계,100,100


#### match
- match를 이용해서 merge 구현 해볼 수 있다
- 두 벡터의 원소가 일치하는 위치 인덱스 반환 

In [32]:
x<-c(1,2,3,4,4)
match(1,x)
match(4,x) # 처음꺼네

In [30]:
df01<-data.frame(name = c("이순신","강감찬","이성계"),
                     math = c(100,60,100),
                     eng = c(95,80,100))
df01.math100 <- df01[df01$math==100,]
df01.math100
df01.eng100 <- df01[df01$eng==100,]
df01.eng100

index<-match(row.names(df01.math100),row.names(df01.eng100))
index
df01.eng100[na.omit(index),]

Unnamed: 0,name,math,eng
1,이순신,100,95
3,이성계,100,100


Unnamed: 0,name,math,eng
3,이성계,100,100


Unnamed: 0,name,math,eng
3,이성계,100,100


#### 데이터 프레임에서 factor 
- R 버전 3. 에서는 character vecter 는 자동으로 factor 처리
- R 버전 4. 에서는 아니다

In [67]:
id <- c(100,200,300)
name<-c("이철수","이순신","홍길동")
salary<-c(100000,200000,300000)
df01 <- data.frame(id,name,salary)
str(df01)

df01 <- data.frame(id,name,salary,stringsAsFactors = F)
str(df01)

'data.frame':	3 obs. of  3 variables:
 $ id    : num  100 200 300
 $ name  : Factor w/ 3 levels "이순신","이철수",..: 2 1 3
 $ salary: num  1e+05 2e+05 3e+05
'data.frame':	3 obs. of  3 variables:
 $ id    : num  100 200 300
 $ name  : chr  "이철수" "이순신" "홍길동"
 $ salary: num  1e+05 2e+05 3e+05


In [70]:
# column 을 factor update 
df01 <- data.frame(id,name,salary,stringsAsFactors = F)
df01$name <- as.factor(df01$name)
str(df01)

'data.frame':	3 obs. of  3 variables:
 $ id    : num  100 200 300
 $ name  : Factor w/ 3 levels "이순신","이철수",..: 2 1 3
 $ salary: num  1e+05 2e+05 3e+05
