## 7.1 데이터 합치기 

pandas 객체에 저장된 데이터는 여러 내장 함수를 이용해서 합칠 수 있다. 
- pandas.merge는 하나 이상의 키를 기준으로 DataFrame의 열을 합친다. SQL이나 다른 관계형 데이터베이스의 join연산과 유사하다. 
- pandas.concat은 하나의 축을 따라 객체를 이어 붙인다. 
- combine_first 인스턴스 메서드는 두 객체를 포개서 한 객체에서 누락된 데이터를 다른 객체에 있는 값으로 채울 수 있도록 한다. 

In [1]:
import pandas as pd
import numpy as np

In [2]:
df1 = pd.DataFrame({'key':['b','b','a','c','a','a','b'],
                    'data1':range(7)})
df2 = pd.DataFrame({'key':['a','b','c'], 'data2':range(3)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


df2

### 7.1.1 데이터베이스 스타일로 DataFrame 합치기 

merge나 join연산은 관계형 데이터베이스의 핵심적인 연산으로 하나이상의 키를 사용해 데이터 집합의 로우를 합친다. 

In [7]:
pd.merge(df1, df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0
6,c,3,2


어떤 칼럼을 병합할 것인지 명시하지 않아도 merge함수는 겹치는 칼럼의 이름을 키로 사용한다. 
명시적으로 on 인자를 지정해 주는 것이 좋다. 

In [9]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0
6,c,3,2


In [16]:
df3 = pd.DataFrame({'lkey':['b','b','a','c','a','a','b'],
                    'data1':range(7)})
df4 = pd.DataFrame({'rkey':['a','b','d'], 'data2':range(3)})
df3

Unnamed: 0,lkey,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [17]:
df4

Unnamed: 0,rkey,data2
0,a,0
1,b,1
2,d,2


In [15]:
pd.merge(df3, df4, left_on='lkey', right_on='rkey')

Unnamed: 0,lkey,data1,rkey,data2
0,b,0,b,1
1,b,1,b,1
2,b,6,b,1
3,a,2,a,0
4,a,4,a,0
5,a,5,a,0


In [35]:
df1 = pd.DataFrame({'Student':
                    ['KimTaemin','HaJaehwa','JungSayoung','Sonjimin','Leesoomin','KangJun'],
                    'Korean':[90, 85, 88, 35, 40, 44],
                    'English':[80, 90, 40, 44, 55, 90]})
df2 = pd.DataFrame({'Student':
                    ['Jiyoungmin','KimTaemin'],
                    'Math':[44,33]})

In [39]:
pd.merge(df1, df2, how='outer')

Unnamed: 0,Student,Korean,English,Math
0,KimTaemin,90.0,80.0,33.0
1,HaJaehwa,85.0,90.0,
2,JungSayoung,88.0,40.0,
3,Sonjimin,35.0,44.0,
4,Leesoomin,40.0,55.0,
5,KangJun,44.0,90.0,
6,Jiyoungmin,,,44.0


In [40]:
df1 = pd.DataFrame({'Student':
                    ['KimTaemin','HaJaehwa','JungSayoung','Sonjimin','Leesoomin','KangJun'],
                    'Korean':[90, 85, 88, 35, 40, 44],
                    'English':[80, 90, 40, 44, 55, 90]})
df2 = pd.DataFrame({'Student':
                    ['Jiyoungmin','LeeJae','KimJaehee'],
                    'Korean':[44,73,100]})

In [62]:
pd.concat([df1,df2], sort=False, ignore_index=True)

Unnamed: 0,Student,Korean,English
0,KimTaemin,90,80.0
1,HaJaehwa,85,90.0
2,JungSayoung,88,40.0
3,Sonjimin,35,44.0
4,Leesoomin,40,55.0
5,KangJun,44,90.0
0,Jiyoungmin,44,
1,LeeJae,73,
2,KimJaehee,100,


In [None]:
result = pd.concat([df1, df4], axis=1).reindex(df1.index)