# 7장 데이터 준비하기: 다듬기, 변형, 병합
## 데이터 합치기

- pandas.merge는 하나 이상의 키를 기준으로 로우를 병합 (i.e. *join* in SQL)
- pandas.concat은 하나의 축을 따라 객체를 이어붙임
- combine_first 메서드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체의 값으로 채움

In [2]:
import pandas as pd
import numpy as np
from pandas import Series, DataFrame

___
## 1. 데이터베이스 스타일로 DataFrame 합치기

In [3]:
df1 = DataFrame({'key': list('bbacaab'),
                'data1': range(7)})
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [6]:
df2 = DataFrame({'key': list('abd'),
               'data2': range(3)})
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [7]:
pd.merge(df1, df2)

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


- merge 함수는 겹치는 칼럽의 이름을 키로 사용

In [8]:
pd.merge(df1, df2, on = 'key')

Unnamed: 0,data1,key,data2
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


- 가능한 명시적으로 on = '' 지정하는 것이 바람직

In [9]:
df3 = DataFrame({'lkey': list('bbacaab'),
                'data1': range(7)})
df3

Unnamed: 0,data1,lkey
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [10]:
df4 = DataFrame({'rkey': list('abd'),
                'data2': range(3)})
df4

Unnamed: 0,data2,rkey
0,0,a
1,1,b
2,2,d


In [11]:
pd.merge(df3, df4, left_on= 'lkey', right_on = 'rkey')

Unnamed: 0,data1,lkey,data2,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


- 공통 칼럼이 없을 시 따로 지정해줄 필요가 있음
- key에 'c' 값이 없는 것은 기본적으로 merge 함수의 default 값이 inner join이기 때문

In [12]:
pd.merge(df1, df2, how = 'outer')

Unnamed: 0,data1,key,data2
0,0.0,b,1.0
1,1.0,b,1.0
2,6.0,b,1.0
3,2.0,a,0.0
4,4.0,a,0.0
5,5.0,a,0.0
6,3.0,c,
7,,d,2.0


- 이상 1대 다 병합 (병합하는 컬럼 중 unique 값을 가지고 있는 DataFrame이 있음)

___

In [13]:
df1 = DataFrame({'key': list('bbacab'),
                'data1': range(6)})
df1

Unnamed: 0,data1,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,b


In [14]:
df2 = DataFrame({'key': list('ababd'),
                'data2': range(5)})
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,a
3,3,b
4,4,d


In [17]:
pd.merge(df1, df2, on = 'key', how = 'left')

Unnamed: 0,data1,key,data2
0,0,b,1.0
1,0,b,3.0
2,1,b,1.0
3,1,b,3.0
4,2,a,0.0
5,2,a,2.0
6,3,c,
7,4,a,0.0
8,4,a,2.0
9,5,b,1.0


- 다대 다 조인은 두 로우의 데카르트 곱을 반환 (df1의 b 3개, df2의 b 2개의 곱으로 총 6개의 'b' 로우 반환)

In [24]:
left = DataFrame({'key1': ['foo', 'foo', 'bar'],
                 'key2': ['one', 'two', 'one'],
                 'lval': [1, 2, 3]})
right = DataFrame({'key1': ['foo', 'foo', 'bar', 'bar'],
                  'key2': ['one', 'one', 'one', 'two'],
                  'rval': [4, 5, 6, 7]})

In [25]:
pd.merge(left, right, on = ['key1', 'key2'], how= 'outer')

Unnamed: 0,key1,key2,lval,rval
0,foo,one,1.0,4.0
1,foo,one,1.0,5.0
2,foo,two,2.0,
3,bar,one,3.0,6.0
4,bar,two,,7.0


- 2개 이상의 key 값으로 merge 시, on = [칼럼1, 칼럼2] 로 merge 가능

In [28]:
pd.merge(left, right, on = 'key1')

Unnamed: 0,key1,key2_x,lval,key2_y,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


In [30]:
pd.merge(left, right, on= 'key1', suffixes=['_l', '_r'])

Unnamed: 0,key1,key2_l,lval,key2_r,rval
0,foo,one,1,one,4
1,foo,one,1,one,5
2,foo,two,2,one,4
3,foo,two,2,one,5
4,bar,one,3,one,6
5,bar,one,3,two,7


- 칼럼 명 중첩 시 '_x', '_y'가 따라 붙으며, suffixes =  옵션으로 지정 가능
___
## 2. 색인 머지하기

In [31]:
left1 = DataFrame({'key': list('abaabc'),
                  'value': range(6)})
left1

Unnamed: 0,key,value
0,a,0
1,b,1
2,a,2
3,a,3
4,b,4
5,c,5


In [32]:
right1 = DataFrame({'group_val': [3.5, 7]}, index = ['a', 'b'])
right1

Unnamed: 0,group_val
a,3.5
b,7.0


In [35]:
pd.merge(left1, right1, left_on = 'key', right_index= True)

Unnamed: 0,key,value,group_val
0,a,0,3.5
2,a,2,3.5
3,a,3,3.5
1,b,1,7.0
4,b,4,7.0


- index를 on 값으로 대체해서 merge 가능

In [37]:
lefth = DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
                  'key2': [2000, 2001, 2002, 2001, 2002],
                  'data': np.arange(5.)})
lefth

Unnamed: 0,data,key1,key2
0,0.0,Ohio,2000
1,1.0,Ohio,2001
2,2.0,Ohio,2002
3,3.0,Nevada,2001
4,4.0,Nevada,2002


In [40]:
righth = DataFrame(np.arange(12).reshape((6,2)),
                   index = [['Nevada', 'Nevada', 'Ohio', 'Ohio', 'Ohio', 'Ohio'],
                           [2001,2000, 2000, 2000, 2001, 2002]],
                   columns = ['event1', 'event2'])
righth

Unnamed: 0,Unnamed: 1,event1,event2
Nevada,2001,0,1
Nevada,2000,2,3
Ohio,2000,4,5
Ohio,2000,6,7
Ohio,2001,8,9
Ohio,2002,10,11


In [41]:
pd.merge(lefth, righth, left_on = ['key1', 'key2'], right_index=True)

Unnamed: 0,data,key1,key2,event1,event2
0,0.0,Ohio,2000,4,5
0,0.0,Ohio,2000,6,7
1,1.0,Ohio,2001,8,9
2,2.0,Ohio,2002,10,11
3,3.0,Nevada,2001,0,1


- 계층 색인된 데이터도 마찬가지로 merge 처리

In [42]:
left2 = DataFrame([[1,2,], [3,4], [5,6]],
                   index =  list('ace'),
                 columns = ['Ohio', 'Nevada'])
left2

Unnamed: 0,Ohio,Nevada
a,1,2
c,3,4
e,5,6


In [43]:
right2 = DataFrame([[7,8], [9,10], [11,12], [13,14]],
                  index = list('bcde'),
                  columns = ['Missouri', 'Alabama'])
right2

Unnamed: 0,Missouri,Alabama
b,7,8
c,9,10
d,11,12
e,13,14


In [44]:
pd.merge(left2, right2, how = 'outer', left_index = True, right_index = True)

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


- 양쪽 다 색인만 사용해서 merge 가능

In [45]:
left2.join(right2, how = 'outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama
a,1.0,2.0,,
b,,,7.0,8.0
c,3.0,4.0,9.0,10.0
d,,,11.0,12.0
e,5.0,6.0,13.0,14.0


- 색인만으로 merge할 경우 DataFrame의 merge 메서드 사용하면 훨씬 간편

In [46]:
left1.join(right1, on = 'key')

Unnamed: 0,key,value,group_val
0,a,0,3.5
1,b,1,7.0
2,a,2,3.5
3,a,3,3.5
4,b,4,7.0
5,c,5,


- Default는 left_join임

In [47]:
another = DataFrame([[7,8], [9,10], [11,12], [16,17]],
                   index = list('acef'),
                   columns = ['New York', 'Oregon'])
another

Unnamed: 0,New York,Oregon
a,7,8
c,9,10
e,11,12
f,16,17


In [48]:
left2.join([right2, another])

Unnamed: 0,Ohio,Nevada,Missouri,Alabama,New York,Oregon
a,1,2,,,7,8
c,3,4,9.0,10.0,9,10
e,5,6,13.0,14.0,11,12


In [49]:
left2.join([right2, another], how = 'outer')

Unnamed: 0,Ohio,Nevada,Missouri,Alabama,New York,Oregon
a,1.0,2.0,,,7.0,8.0
b,,,7.0,8.0,,
c,3.0,4.0,9.0,10.0,9.0,10.0
d,,,11.0,12.0,,
e,5.0,6.0,13.0,14.0,11.0,12.0
f,,,,,16.0,17.0


- 색인대 색인으로 두 DataFrame을 합치려면 DataFrame 리스트를 join 메서드에 넘기면 됨
- 하지만 이런 경우 일반적으로 아래의 concat 메서드를 사용
___
## 3. 축 따라 이어붙이기