# 7.1 데이터 합치기

## 7.1.1 데이터베이스 스타일로 DataFrame 합치기

In [1]:
from pandas import Series, DataFrame
import pandas as pd
import numpy as np

In [2]:
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                'data1': range(7)})

In [3]:
df2 = DataFrame({'key': ['a', 'b', 'd'], 'data2': range(3)})

In [4]:
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [5]:
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [9]:
pd.merge(df1 ,df2) # 어떤 칼럼으로 병합할 것인지 명시하지 않아도 작동함, 허나 지정해 주는것을 습관들이자.

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [10]:
pd.merge(df1 ,df2, on = 'key') # 기준 칼럼을 on으로 지정

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [12]:
df3 = DataFrame({'lkey': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                'data1': range(7)})

In [13]:
df4 = DataFrame({'rkey': ['a', 'b', 'd'], 'data2': range(3)})

In [14]:
pd.merge(df3, df4, left_on='lkey', right_on='rkey') # 두 객체에 공통되는 칼럼이름이 없다면 따로 지정해줌

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


### merge 함수는 교집합인 결과를 반환해준다.

In [16]:
pd.merge(df1, df2, how='outer') # how인자로 outer(완전외부조인)하면 합집합의 결과를 가져올 수 있다.

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


In [18]:
df1 = DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'b'],
                'data1': range(6)})

In [19]:
df2 = DataFrame({'key': ['a', 'b', 'a', 'b', 'd'],
                'data1': range(5)})

In [24]:
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,b


In [25]:
df2

Unnamed: 0,data1,key
0,0,a
1,1,b
2,2,a
3,3,b
4,4,d


In [26]:
pd.merge(df1, df2, on='key', how='left')

Unnamed: 0,data1_x,key,data1_y
0,0,b,1.0
1,0,b,3.0
2,1,b,1.0
3,1,b,3.0
4,2,a,0.0
5,2,a,2.0
6,3,c,
7,4,a,0.0
8,4,a,2.0
9,5,b,1.0


In [28]:
pd.merge(df1, df2, on='key', how='inner')

Unnamed: 0,data1_x,key,data1_y
0,0,b,1
1,0,b,3
2,1,b,1
3,1,b,3
4,5,b,1
5,5,b,3
6,2,a,0
7,2,a,2
8,4,a,0
9,4,a,2


In [30]:
left = DataFrame({'key1': ['foo', 'foo', 'bar'],
                 'key2': ['one', 'two', 'one'],
                 'lval': [1, 2, 3]})

In [31]:
right = DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                  'key2': ['one', 'one', 'one', 'two'],
                  'rval': [4, 5, 6, 7]})

In [32]:
pd.merge(left, right, on=['key1', 'key2'], how = 'outer')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


In [33]:
pd.merge(left, right, on='key1') # 칼럼이름이 겹치는 경우

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [35]:
pd.merge(left, right, on='key1', suffixes=('_left', '_right')) # 칼럼이름이 겹치는 경우, 뒤에 붙일 문자열 지정가능

Unnamed: 0,key1,key2_left,lval,key2_right,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


* merge 함수 인자 목록

인자 | 설명
:---|:---
left | 머지하려는 DataFrame중 왼쪽에 위치한 DataFrame
right | 머지하려는 DataFrame중 오른쪽에 위치한 DataFrame
how | 조인 방법, 'inner', 'outer', 'left', 'right'. 기본 값은 inner
on | 조인하려는 로우 이름, 반드시 두 DataFrame 객체 모두에 있는 이름이어야 한다. 만약 명시되지 않고 다른 조인 키도 주어지지 않으면 left와 right에서 공통되는 칼럼을 조인 키로 사용한다.
left_on | 조인 키로 사용할 left DataFrame의 칼럼
right_on | 조인 키로 사용할 right DataFrame의 칼럼
left_index | 조인 키로 사용할 left DataFrame의 색인 로우 (다중 색인일 경우의 키)
right_index | 조인 키로 사용할 right DataFrame의 색인 로우 (다중 색인일 경우의 키)
sort | 조인 키에 따라 병한된 데이터를 사전 순으로 정렬. 기본 값은 True. 대용량 데이터의 경우 False라면 성능상의 이득을 얻을 수도 있다.
suffixes | 칼럼 이름이 겹칠 경우 각 컬럼 이름 뒤에 붙일 문자열의 튜플. 기본 값은 ('_x','_y'). 만약 'data'라는 칼럼 이름이 양쪽 DataFrame에 같이 존재하면 결과에서는 'data_x', 'data_y'로 나타난다.
copy | False일 경우 예외적인 경우에 결과로 데이터가 복사되지 않도록 한다. 기본 값은 항상 복사가 이루어진다.