# データフレームのマージ

通常のKeyを用いたデータのマージ方法の記載をする

In [1]:
import numpy as np
import pandas as pd
from pandas import DataFrame

In [13]:
dframe1 = DataFrame({'key':['x','z','y','z','x','y'], 'dataset_1':np.arange(6)})

In [14]:
dframe1

Unnamed: 0,key,dataset_1
0,x,0
1,z,1
2,y,2
3,z,3
4,x,4
5,y,5


In [17]:
dframe2 = DataFrame({'key' : ['q','y','z'], 'data_set_2':[1,2,5]})
dframe2

Unnamed: 0,key,data_set_2
0,q,1
1,y,2
2,z,5


In [18]:
# データのマージ 何も指定がない場合、同じIndexのkeyをもとにマージを行う
pd.merge(dframe1,dframe2)

Unnamed: 0,key,dataset_1,data_set_2
0,z,1,5
1,z,3,5
2,y,2,2
3,y,5,2


In [19]:
# マージするKeyの指定
pd.merge(dframe1,dframe2,on='key')

Unnamed: 0,key,dataset_1,data_set_2
0,z,1,5
1,z,3,5
2,y,2,2
3,y,5,2


In [21]:
# マージ方法の指定は「how」を使用 leftであれば左側のdframe1を基準とする dframe2で指定したければ'right'にすればよい
pd.merge(dframe1,dframe2,on='key', how='left') #dframe1基準

Unnamed: 0,key,dataset_1,data_set_2
0,x,0,
1,z,1,5.0
2,y,2,2.0
3,z,3,5.0
4,x,4,
5,y,5,2.0


In [23]:
pd.merge(dframe1,dframe2,on='key', how='right') #dframe2基準

Unnamed: 0,key,dataset_1,data_set_2
0,q,,1
1,y,2.0,2
2,y,5.0,2
3,z,1.0,5
4,z,3.0,5


In [24]:
# 今度は多対多
# 両方のDataFrameで、keyに関して複数の行がある。
dframe3 = DataFrame({'key': ['X', 'X', 'X', 'Y', 'Z', 'Z'],
                 'data_set_3': range(6)})
dframe4 = DataFrame({'key': ['Y', 'Y', 'X', 'X', 'Z'],
                 'data_set_4': range(5)})
#マージする。Xに対応するデータが片方は2個、片方は３個あるので、2*3=6個のデータが出力される
pd.merge(dframe3, dframe4)

Unnamed: 0,key,data_set_3,data_set_4
0,X,0,2
1,X,0,3
2,X,1,2
3,X,1,3
4,X,2,2
5,X,2,3
6,Y,3,0
7,Y,3,1
8,Z,4,4
9,Z,5,4


In [26]:
# キーでのマージ手法
df_left = DataFrame({'key1': ['SF', 'SF', 'LA'],
                  'key2': ['one', 'two', 'one'],
                  'left_data': [10,20,30]})
df_left

Unnamed: 0,key1,key2,left_data
0,SF,one,10
1,SF,two,20
2,LA,one,30


In [27]:
df_right = DataFrame({'key1': ['SF', 'SF', 'LA', 'LA'],
                   'key2': ['one', 'one', 'one', 'two'],
                   'right_data': [40,50,60,70]})
df_right

Unnamed: 0,key1,key2,right_data
0,SF,one,40
1,SF,one,50
2,LA,one,60
3,LA,two,70


In [30]:
# キーでのマージ onでKeyを指定することでキーでのマージが可能 
pd.merge(df_left, df_right, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,left_data,right_data
0,SF,one,10.0,40.0
1,SF,one,10.0,50.0
2,SF,two,20.0,
3,LA,one,30.0,60.0
4,LA,two,,70.0


In [31]:
# マージ時にキーが重複している場合、接頭辞がくっつく
# 追加する文字列を指定することが可能
pd.merge(df_left,df_right, on='key1',suffixes=('_lefty','_righty'))

Unnamed: 0,key1,key2_lefty,left_data,key2_righty,right_data
0,SF,one,10,one,40
1,SF,one,10,one,50
2,SF,two,20,one,40
3,SF,two,20,one,50
4,LA,one,30,one,60
5,LA,one,30,two,70


# Indexを使ったマージ

Indexを使ったマージ方法の記載

In [32]:
import pandas as pd 
import numpy as np 
from pandas import DataFrame

In [39]:
df_left = DataFrame({'key':['X','Y','Z','X','Y'],'data':range(5)})
df_left

Unnamed: 0,key,data
0,X,0
1,Y,1
2,Z,2
3,X,3
4,Y,4


In [40]:
df_right = DataFrame({'group_data':[10,20]},index=['X','Y'])
df_right

Unnamed: 0,group_data
X,10
Y,20


In [41]:
# 通常のIndexを使ったマージ
pd.merge(df_left,df_right,left_on='key',right_index=True)

Unnamed: 0,key,data,group_data
0,X,0,10
3,X,3,10
1,Y,1,20
4,Y,4,20


In [42]:
# 通常のIndexを使ったマージ outer使用
pd.merge(df_left,df_right,left_on='key',right_index=True, how="outer")

Unnamed: 0,key,data,group_data
0,X,0,10.0
3,X,3,10.0
1,Y,1,20.0
4,Y,4,20.0
2,Z,2,
