# 데이터 병합

### Concat 함수
- 데이터 프레임끼리 합치는 경우 두 개의 테이블이 행과 열 기준으로 붙여짐
- axis 지정 / ignore_index 병합 후 인덱스 새롭게 만들지 유무
*axis = 0 (열 기준), axis = 1 (행 기준)
- colnum이 동일한 경우 쉽게 붙일 수 있음
- but 시계열 데이터는 다를 수 있으니 유의

In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({'A':[1,2,3,4], 'B':[1,2,3,4]})
df2 = pd.DataFrame({'A':[4,5], 'B':[4,5]})
df3 = pd.DataFrame({'A':[5,6], 'C':[3,2]})

display(df1)
display(df2)
display(df3)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3
3,4,4


Unnamed: 0,A,B
0,4,4
1,5,5


Unnamed: 0,A,C
0,5,3
1,6,2


In [3]:
pd.concat([df1,df2,df3], ignore_index=True) # axis = 0 디폴트값

Unnamed: 0,A,B,C
0,1,1.0,
1,2,2.0,
2,3,3.0,
3,4,4.0,
4,4,4.0,
5,5,5.0,
6,5,,3.0
7,6,,2.0


In [4]:
pd.concat([df1,df3,df2],ignore_index = True) # 병합 순서 지정 가능

Unnamed: 0,A,B,C
0,1,1.0,
1,2,2.0,
2,3,3.0,
3,4,4.0,
4,5,,3.0
5,6,,2.0
6,4,4.0,
7,5,5.0,


In [6]:
pd.concat([df1,df2,df3], axis = 1)

Unnamed: 0,A,B,A.1,B.1,A.2,C
0,1,1,4.0,4.0,5.0,3.0
1,2,2,5.0,5.0,6.0,2.0
2,3,3,,,,
3,4,4,,,,


### merge 함수
- 두 개의 데이터프레임을 join 하는 함수
- 공통된 컬럼을 기준으로 데이터프레임을 병합하는 것이 가능
- 공통된 컬럼 : join key
*concat은 단순히 두 프레임을 합친다면, merge는 특정 컬럼 기준으로 새롭게 데이터프레임 만들 수 있음

---

### 함수 주요 인자
- left : 병합할 첫 번째 데이터 프레임
- right : 병합할 두 번째 데이터 프레임
- on : join key로 사용할 컬럼 목록 => 두 데이터프레임 모두 포함하고 있어야 함, 2개 이상 컬럼 on 지정 가능
- left_on : 왼쪽 데이터프레임에서 join key로 사용할 컬럼 목록
- right_on : 오른쪽 데이터프레임에서 join key로 사용할 컬럼 목록
- left_index : 왼쪽 데이터프레임에서 join key로 인덱스를 사용할 것인지
- right_index : 오른쪽 데이터프레임에서 join key로 인덱스를 사용할 것인지
- how : join의 방법을 결정, default => 'inner'

In [9]:
df1 = pd.DataFrame({'이름':['홍길동','김영희','김철수','임꺽정'],
                    '영어':[100,50,60,70]})
df2 = pd.DataFrame({'이름':['홍길동','김영희','김철수'],
                    '수학':[50,100,60]})
display(df1)
display(df2)

Unnamed: 0,이름,영어
0,홍길동,100
1,김영희,50
2,김철수,60
3,임꺽정,70


Unnamed: 0,이름,수학
0,홍길동,50
1,김영희,100
2,김철수,60


In [11]:
pd.merge(df1,df2) # default => 'inner'

Unnamed: 0,이름,영어,수학
0,홍길동,100,50
1,김영희,50,100
2,김철수,60,60


In [22]:
df1['생년월일'] = ['00','01','02','03']
df1.rename(columns={'영어': '수학'}, inplace=True)
df2['지각횟수'] = [0,1,2]
display(df1)
display(df2)

Unnamed: 0,이름,수학,생년월일
0,홍길동,100,0
1,김영희,50,1
2,김철수,60,2
3,임꺽정,70,3


Unnamed: 0,이름,수학,지각횟수
0,홍길동,50,0
1,김영희,100,1
2,김철수,60,2


In [33]:
df1['수학'] = [50,100,60,70]
df1

Unnamed: 0,이름,수학,생년월일
0,홍길동,50,0
1,김영희,100,1
2,김철수,60,2
3,임꺽정,70,3


In [34]:
pd.merge(df1, df2, on = ['이름'])

Unnamed: 0,이름,수학_x,생년월일,수학_y,지각횟수
0,홍길동,50,0,50,0
1,김영희,100,1,100,1
2,김철수,60,2,60,2


In [35]:
pd.merge(df1, df2, on = ['이름','수학'])

Unnamed: 0,이름,수학,생년월일,지각횟수
0,홍길동,50,0,0
1,김영희,100,1,1
2,김철수,60,2,2


### left_on, right_on 지정



In [36]:
df3 = pd.DataFrame({'이름':['홍길동','김영희','김철수','임꺽정'],
                    '수학':[50,100,60,70],
                    '생년월일':['00','01','02','03']})
df4 = pd.DataFrame({'name':['홍길동','김영희','김철수'],
                    '수학':[50,100,60],
                    '지각횟수' : [0,1,2]})
display(df3)
display(df4)

Unnamed: 0,이름,수학,생년월일
0,홍길동,50,0
1,김영희,100,1
2,김철수,60,2
3,임꺽정,70,3


Unnamed: 0,name,수학,지각횟수
0,홍길동,50,0
1,김영희,100,1
2,김철수,60,2


In [37]:
pd.merge(df3,df4, left_on = ['이름'], right_on = ['name'])

Unnamed: 0,이름,수학_x,생년월일,name,수학_y,지각횟수
0,홍길동,50,0,홍길동,50,0
1,김영희,100,1,김영희,100,1
2,김철수,60,2,김철수,60,2


In [38]:
pd.merge(df3, df4, left_on=['이름','수학'], right_on=['name','수학'])

Unnamed: 0,이름,수학,생년월일,name,지각횟수
0,홍길동,50,0,홍길동,0
1,김영희,100,1,김영희,1
2,김철수,60,2,김철수,2


### left_index, right_index 지정

In [40]:
df3_sp = df3.set_index('이름')
display(df3_sp)
df3_sp.index

Unnamed: 0_level_0,수학,생년월일
이름,Unnamed: 1_level_1,Unnamed: 2_level_1
홍길동,50,0
김영희,100,1
김철수,60,2
임꺽정,70,3


Index(['홍길동', '김영희', '김철수', '임꺽정'], dtype='object', name='이름')

In [41]:
pd.merge(df3_sp, df4, left_index = True, right_on = 'name') # 왼쪽 df에서 index를 join key로 사용, 오른쪽 df에서는 'name'을 join key로 사용하겠다

Unnamed: 0,수학_x,생년월일,name,수학_y,지각횟수
0,50,0,홍길동,50,0
1,100,1,김영희,100,1
2,60,2,김철수,60,2


### How (join 방법 지정)
- inner : 공통된 key 기준 병합
- outer : 두 데이터 소스 중 어느 하나라도 포함되는 모든 행 반환
- left : 왼쪽 데이터 소스의 모든 행을 포함하는 결과 반환
- right : 오른쪽 데이터 소스의 모든 행을 포함하는 결과 반환
*공통된 키가 없는 행은 NaN 값으로 채워짐

In [43]:
f1 = pd.DataFrame({'A':[1,2,3],'B':[1,2,3]})
f2 = pd.DataFrame({'A':[2,3,4], 'C':[7,8,9]})
display(f1)
display(f2)

Unnamed: 0,A,B
0,1,1
1,2,2
2,3,3


Unnamed: 0,A,C
0,2,7
1,3,8
2,4,9


In [45]:
pd.merge(f1,f2, on='A', how = 'inner') # f1, f2에서 공통된 A 부분만 merge

Unnamed: 0,A,B,C
0,2,2,7
1,3,3,8


In [47]:
pd.merge(f1,f2, on='A', how = 'outer')

Unnamed: 0,A,B,C
0,1,1.0,
1,2,2.0,7.0
2,3,3.0,8.0
3,4,,9.0


In [48]:
pd.merge(f1,f2, on='A', how = 'left') # f1기준으로 merge

Unnamed: 0,A,B,C
0,1,1,
1,2,2,7.0
2,3,3,8.0


In [50]:
pd.merge(f1,f2, on='A', how = 'right') # f2 기준으로 merge

Unnamed: 0,A,B,C
0,2,2.0,7
1,3,3.0,8
2,4,,9


# 실제 데이터 활용

In [51]:
site = pd.read_csv('/content/survey_site.csv')
vit = pd.read_csv('/content/survey_visited.csv')
survey = pd.read_csv('/content/survey_survey.csv')

In [52]:
display(site)
display(vit)
display(survey)

Unnamed: 0,name,lat,long
0,DR-1,-49.85,-128.57
1,DR-3,-47.15,-126.72
2,MSK-4,-48.87,-123.4


Unnamed: 0,ident,site,dated
0,619,DR-1,1927-02-08
1,622,DR-1,1927-02-10
2,734,DR-3,1939-01-07
3,735,DR-3,1930-01-12
4,751,DR-3,1930-02-26
5,752,DR-3,
6,837,MSK-4,1932-01-14
7,844,DR-1,1932-03-22


Unnamed: 0,taken,person,quant,reading
0,619,dyer,rad,9.82
1,619,dyer,sal,0.13
2,622,dyer,rad,7.8
3,622,dyer,sal,0.09
4,734,pb,rad,8.41
5,734,lake,sal,0.05
6,734,pb,temp,-21.5
7,735,pb,rad,7.22
8,735,,sal,0.06
9,735,,temp,-26.0


In [54]:
site_vit = pd.merge(site, vit, left_on = ['name'], right_on = ['site'], how = 'inner')
site_vit

Unnamed: 0,name,lat,long,ident,site,dated
0,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
2,DR-1,-49.85,-128.57,844,DR-1,1932-03-22
3,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
4,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
5,DR-3,-47.15,-126.72,751,DR-3,1930-02-26
6,DR-3,-47.15,-126.72,752,DR-3,
7,MSK-4,-48.87,-123.4,837,MSK-4,1932-01-14


In [58]:
survey_site_vit = pd.merge(survey, site_vit, left_on = ['taken'], right_on = ['ident'], how = 'inner')
survey_site_vit

Unnamed: 0,taken,person,quant,reading,name,lat,long,ident,site,dated
0,619,dyer,rad,9.82,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
1,619,dyer,sal,0.13,DR-1,-49.85,-128.57,619,DR-1,1927-02-08
2,622,dyer,rad,7.8,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
3,622,dyer,sal,0.09,DR-1,-49.85,-128.57,622,DR-1,1927-02-10
4,734,pb,rad,8.41,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
5,734,lake,sal,0.05,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
6,734,pb,temp,-21.5,DR-3,-47.15,-126.72,734,DR-3,1939-01-07
7,735,pb,rad,7.22,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
8,735,,sal,0.06,DR-3,-47.15,-126.72,735,DR-3,1930-01-12
9,735,,temp,-26.0,DR-3,-47.15,-126.72,735,DR-3,1930-01-12


In [59]:
# merge 이후 불필요한 colnum 삭제
del survey_site_vit['name']
del survey_site_vit['taken']
survey_site_vit 

Unnamed: 0,person,quant,reading,lat,long,ident,site,dated
0,dyer,rad,9.82,-49.85,-128.57,619,DR-1,1927-02-08
1,dyer,sal,0.13,-49.85,-128.57,619,DR-1,1927-02-08
2,dyer,rad,7.8,-49.85,-128.57,622,DR-1,1927-02-10
3,dyer,sal,0.09,-49.85,-128.57,622,DR-1,1927-02-10
4,pb,rad,8.41,-47.15,-126.72,734,DR-3,1939-01-07
5,lake,sal,0.05,-47.15,-126.72,734,DR-3,1939-01-07
6,pb,temp,-21.5,-47.15,-126.72,734,DR-3,1939-01-07
7,pb,rad,7.22,-47.15,-126.72,735,DR-3,1930-01-12
8,,sal,0.06,-47.15,-126.72,735,DR-3,1930-01-12
9,,temp,-26.0,-47.15,-126.72,735,DR-3,1930-01-12
