# データフレームのマージ

通常のKeyを用いたデータのマージ方法の記載をする

In [2]:
import numpy as np
import pandas as pd
from pandas import DataFrame , Series

In [9]:
dframe1 = DataFrame({'key':['x','z','y','z','x','y'], 'dataset_1':np.arange(6)})

In [10]:
dframe1

Unnamed: 0,key,dataset_1
0,x,0
1,z,1
2,y,2
3,z,3
4,x,4
5,y,5


In [11]:
dframe2 = DataFrame({'key' : ['q','y','z'], 'data_set_2':[1,2,5]})
dframe2

Unnamed: 0,key,data_set_2
0,q,1
1,y,2
2,z,5


In [12]:
# データのマージ 何も指定がない場合、同じIndexのkeyをもとにマージを行う
pd.merge(dframe1,dframe2)

Unnamed: 0,key,dataset_1,data_set_2
0,z,1,5
1,z,3,5
2,y,2,2
3,y,5,2


In [13]:
# マージするKeyの指定
pd.merge(dframe1,dframe2,on='key')

Unnamed: 0,key,dataset_1,data_set_2
0,z,1,5
1,z,3,5
2,y,2,2
3,y,5,2


In [14]:
# マージ方法の指定は「how」を使用 leftであれば左側のdframe1を基準とする dframe2で指定したければ'right'にすればよい
pd.merge(dframe1,dframe2,on='key', how='left') #dframe1基準

Unnamed: 0,key,dataset_1,data_set_2
0,x,0,
1,z,1,5.0
2,y,2,2.0
3,z,3,5.0
4,x,4,
5,y,5,2.0


In [15]:
pd.merge(dframe1,dframe2,on='key', how='right') #dframe2基準

Unnamed: 0,key,dataset_1,data_set_2
0,q,,1
1,y,2.0,2
2,y,5.0,2
3,z,1.0,5
4,z,3.0,5


In [16]:
# 今度は多対多
# 両方のDataFrameで、keyに関して複数の行がある。
dframe3 = DataFrame({'key': ['X', 'X', 'X', 'Y', 'Z', 'Z'],
                 'data_set_3': range(6)})
dframe4 = DataFrame({'key': ['Y', 'Y', 'X', 'X', 'Z'],
                 'data_set_4': range(5)})
#マージする。Xに対応するデータが片方は2個、片方は３個あるので、2*3=6個のデータが出力される
pd.merge(dframe3, dframe4)

Unnamed: 0,key,data_set_3,data_set_4
0,X,0,2
1,X,0,3
2,X,1,2
3,X,1,3
4,X,2,2
5,X,2,3
6,Y,3,0
7,Y,3,1
8,Z,4,4
9,Z,5,4


In [17]:
# キーでのマージ手法
df_left = DataFrame({'key1': ['SF', 'SF', 'LA'],
                  'key2': ['one', 'two', 'one'],
                  'left_data': [10,20,30]})
df_left

Unnamed: 0,key1,key2,left_data
0,SF,one,10
1,SF,two,20
2,LA,one,30


In [18]:
df_right = DataFrame({'key1': ['SF', 'SF', 'LA', 'LA'],
                   'key2': ['one', 'one', 'one', 'two'],
                   'right_data': [40,50,60,70]})
df_right

Unnamed: 0,key1,key2,right_data
0,SF,one,40
1,SF,one,50
2,LA,one,60
3,LA,two,70


In [19]:
# キーでのマージ onでKeyを指定することでキーでのマージが可能 
pd.merge(df_left, df_right, on=['key1', 'key2'], how='outer')

Unnamed: 0,key1,key2,left_data,right_data
0,SF,one,10.0,40.0
1,SF,one,10.0,50.0
2,SF,two,20.0,
3,LA,one,30.0,60.0
4,LA,two,,70.0


In [20]:
# マージ時にキーが重複している場合、接頭辞がくっつく
# 追加する文字列を指定することが可能
pd.merge(df_left,df_right, on='key1',suffixes=('_lefty','_righty'))

Unnamed: 0,key1,key2_lefty,left_data,key2_righty,right_data
0,SF,one,10,one,40
1,SF,one,10,one,50
2,SF,two,20,one,40
3,SF,two,20,one,50
4,LA,one,30,one,60
5,LA,one,30,two,70


# Indexを使ったマージ

Indexを使ったマージ方法の記載

In [21]:
import pandas as pd 
import numpy as np 
from pandas import DataFrame

In [22]:
df_left = DataFrame({'key':['X','Y','Z','X','Y'],'data':range(5)})
df_left

Unnamed: 0,key,data
0,X,0
1,Y,1
2,Z,2
3,X,3
4,Y,4


In [23]:
df_right = DataFrame({'group_data':[10,20]},index=['X','Y'])
df_right

Unnamed: 0,group_data
X,10
Y,20


In [24]:
# 通常のIndexを使ったマージ
pd.merge(df_left,df_right,left_on='key',right_index=True)

Unnamed: 0,key,data,group_data
0,X,0,10
3,X,3,10
1,Y,1,20
4,Y,4,20


In [25]:
# 通常のIndexを使ったマージ outer使用
pd.merge(df_left,df_right,left_on='key',right_index=True, how="outer")

Unnamed: 0,key,data,group_data
0,X,0,10.0
3,X,3,10.0
1,Y,1,20.0
4,Y,4,20.0
2,Z,2,


In [26]:
# 階層的なIndexのマージ
df_left_hr = DataFrame({'key1': ['SF','SF','SF','LA','LA'],
                   'key2': [10, 20, 30, 20, 30],
                   'data_set': np.arange(5.)})
df_right_hr = DataFrame(np.arange(10).reshape((5, 2)),
                   index=[['LA','LA','SF','SF','SF'],
                          [20, 10, 10, 10, 20]],
                   columns=['col_1', 'col_2'])

In [27]:
df_left_hr

Unnamed: 0,key1,key2,data_set
0,SF,10,0.0
1,SF,20,1.0
2,SF,30,2.0
3,LA,20,3.0
4,LA,30,4.0


In [28]:
df_right_hr

Unnamed: 0,Unnamed: 1,col_1,col_2
LA,20,0,1
LA,10,2,3
SF,10,4,5
SF,10,6,7
SF,20,8,9


In [29]:
# key1/key2でマージを行う
pd.merge(df_left_hr,df_right_hr,left_on=['key1','key2'],right_index=True)


Unnamed: 0,key1,key2,data_set,col_1,col_2
0,SF,10,0.0,4,5
0,SF,10,0.0,6,7
1,SF,20,1.0,8,9
3,LA,20,3.0,0,1


In [30]:
# joinメソッドでもマージ可能 join: 加える
df_left.join(df_right)


Unnamed: 0,key,data,group_data
0,X,0,
1,Y,1,
2,Z,2,
3,X,3,
4,Y,4,


# データの連結

numpyはnp.concatinateで可能。pandasはconcatで使用する

In [3]:
# 単純な連結
arr1 = np.arange(9).reshape((3,3))
np.concatenate([arr1,arr1],axis=1)

array([[0, 1, 2, 0, 1, 2],
       [3, 4, 5, 3, 4, 5],
       [6, 7, 8, 6, 7, 8]])

In [4]:
# 行方向（axis=0）
np.concatenate([arr1,arr1],axis=0)

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8],
       [0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [7]:
# pandaでの連結
ser1 =  Series([0,1,2],index=['T','U','V'])
ser2 = Series([3,4],index=['X','Y'])
# concatで、デフォルトは axis=0
pd.concat([ser1,ser2,ser1])

T    0
U    1
V    2
X    3
Y    4
T    0
U    1
V    2
dtype: int64

In [10]:
# DataFrame版 
dframe1 = DataFrame(np.random.randn(4,3), columns=['X', 'Y', 'Z'])
dframe2 = DataFrame(np.random.randn(3, 3), columns=['Y', 'Q', 'X'])
pd.concat([dframe1,dframe2]) #Indexが1-3が繰り返されるようなものが作成される

Unnamed: 0,X,Y,Z,Q
0,-0.350497,0.585344,-0.523935,
1,1.413601,0.943389,0.795632,
2,-0.607188,1.130589,-0.453168,
3,0.105427,0.248677,1.014015,
0,0.166073,0.042529,,-2.084227
1,-2.532674,-0.926835,,1.710323
2,0.987354,0.31771,,-1.535718


In [12]:
# Indexが繰り返ししないようにするパターン Index無視のオプションを有効かする
pd.concat([dframe1,dframe2],ignore_index=True)

Unnamed: 0,X,Y,Z,Q
0,-0.350497,0.585344,-0.523935,
1,1.413601,0.943389,0.795632,
2,-0.607188,1.130589,-0.453168,
3,0.105427,0.248677,1.014015,
4,0.166073,0.042529,,-2.084227
5,-2.532674,-0.926835,,1.710323
6,0.987354,0.31771,,-1.535718


# データ組み合わせ

別のテーブル同士でNan値を埋め合わせる方法を記載する

In [13]:
# 組み合わせ用のデータ定義
ser1 = Series([2,np.nan,4,np.nan,6,np.nan],
           index=['Q','R','S','T','U','V'])
ser2 = Series(np.arange(len(ser1), dtype=np.float64),
           index=['Q','R','S','T','U','V'])

In [15]:
ser1

Q    2.0
R    NaN
S    4.0
T    NaN
U    6.0
V    NaN
dtype: float64

In [16]:
ser2

Q    0.0
R    1.0
S    2.0
T    3.0
U    4.0
V    5.0
dtype: float64

In [18]:
# np.where(条件, True時のデータ, False時のデータ)でデータを抽出する
np.where(pd.isnull(ser1),ser2,ser1)

array([2., 1., 4., 3., 6., 5.])

In [19]:
# 上述で抽出したデータをpandasのSeriesに入れ込む indexはser1を参照する
Series(np.where(pd.isnull(ser1),ser2,ser1),index=ser1.index)

Q    2.0
R    1.0
S    4.0
T    3.0
U    6.0
V    5.0
dtype: float64

In [20]:
# NULL値を別テーブルの値に置き換える手法2
ser1.combine_first(ser2)

Q    2.0
R    1.0
S    4.0
T    3.0
U    6.0
V    5.0
dtype: float64

In [21]:
# DataFrame版
dframe_odds = DataFrame({'X': [1., np.nan, 3., np.nan],
                     'Y': [np.nan, 5., np.nan, 7.],
                     'Z': [np.nan, 9., np.nan, 11.]})
dframe_evens = DataFrame({'X': [2., 4., np.nan, 6., 8.],
                     'Y': [np.nan, 10., 12., 14., 16.]})

In [22]:
dframe_odds

Unnamed: 0,X,Y,Z
0,1.0,,
1,,5.0,9.0
2,3.0,,
3,,7.0,11.0


In [23]:
dframe_evens

Unnamed: 0,X,Y
0,2.0,
1,4.0,10.0
2,,12.0
3,6.0,14.0
4,8.0,16.0


In [24]:
# Nan値の場合はeven値として埋め込む どちらのテーブルにもない場合はそのままになる
dframe_odds.combine_first(dframe_evens)

Unnamed: 0,X,Y,Z
0,1.0,,
1,4.0,5.0,9.0
2,3.0,12.0,
3,6.0,7.0,11.0
4,8.0,16.0,


# Series/DataFrameの変換

stack()/unstack()メソッドで可能。デフォルトではNULL値は省かれる

In [25]:
# サンプル dframe
dframe1 = DataFrame(np.arange(8).reshape((2, 4)),
                 index=pd.Index(['LA', 'SF'], name='city'),
                 columns=pd.Index(['A', 'B', 'C','D'], name='letter'))
dframe1

letter,A,B,C,D
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LA,0,1,2,3
SF,4,5,6,7


In [28]:
# DataFrame -> Series
ser1 = dframe1.stack()
ser1

city  letter
LA    A         0
      B         1
      C         2
      D         3
SF    A         4
      B         5
      C         6
      D         7
dtype: int64

In [29]:
# Series -> DataFrame
ser1.unstack()

letter,A,B,C,D
city,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LA,0,1,2,3
SF,4,5,6,7


# ピボットテーブルの作成

ピボットテーブル : データの可視化+要約するための機能

In [31]:
import pandas._testing as tm #util.testingは古いので、_testingを使用する
tm.N = 3

# ピボットテーブル用のデータ作成用関数 frameで渡されたリストデータに対し、値や変数、時刻データを付与する
def unpivot(frame):
    N, K = frame.shape
    data = {'value' : frame.values.ravel('F'),
            'variable' : np.asarray(frame.columns).repeat(N),
            'date' : np.tile(np.asarray(frame.index), K)}
    return DataFrame(data, columns=['date', 'variable', 'value'])

# DataFrameを作ります。
dframe = unpivot(tm.makeTimeDataFrame()) #

In [32]:
dframe

Unnamed: 0,date,variable,value
0,2000-01-03,A,0.791211
1,2000-01-04,A,-0.203383
2,2000-01-05,A,-0.669321
3,2000-01-06,A,0.040123
4,2000-01-07,A,0.385969
...,...,...,...
115,2000-02-07,D,1.272859
116,2000-02-08,D,-0.143382
117,2000-02-09,D,0.416406
118,2000-02-10,D,-1.414004


In [33]:
# ピボットテーブルの作成 渡されたindexに対応する情報が表として出力される
dframe_piv = dframe.pivot('date','variable','value')
dframe_piv

variable,A,B,C,D
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2000-01-03,0.791211,0.111182,-1.725416,0.314261
2000-01-04,-0.203383,-0.532726,0.437289,0.39791
2000-01-05,-0.669321,-1.828719,0.357636,0.774603
2000-01-06,0.040123,0.647946,-0.464518,-1.211659
2000-01-07,0.385969,-0.833951,-0.506783,-0.096547
2000-01-10,-1.154719,-0.120834,0.319718,-0.452223
2000-01-11,-1.053106,-0.907667,1.810428,0.487757
2000-01-12,-1.207276,0.738397,-1.453489,-0.451119
2000-01-13,1.178105,-0.426193,-1.654088,0.522066
2000-01-14,0.371774,-0.261788,1.398888,0.603039


# 重複したデータの処理

重複したデータを調べたい場合はDataFrame.duplicated()を用いて重複しているデータの有無の真理表を作成、
添え字に指定してあげればよい

In [3]:
# 重複したデータの用意
dframe = DataFrame({'key1': ['A'] * 2 + ['B'] * 3,
                  'key2': [2, 2, 2, 3, 3]})
dframe

Unnamed: 0,key1,key2
0,A,2
1,A,2
2,B,2
3,B,3
4,B,3


In [4]:
dframe.duplicated()

0    False
1     True
2    False
3    False
4     True
dtype: bool

In [5]:
# 重複しているデータの削除 デフォルトは完全一致
dframe.drop_duplicates()

Unnamed: 0,key1,key2
0,A,2
2,B,2
3,B,3


In [7]:
# 重複しているデータの削除 Key指定のパターン
dframe.drop_duplicates(["key1"])

Unnamed: 0,key1,key2
0,A,2
2,B,2


In [9]:
# 重複しているデータの削除 Key指定のパターン
dframe.drop_duplicates(["key1"],keep="last") #take_lastはpandas1.70で消え、代わりにkeep="last"を使用する

Unnamed: 0,key1,key2
1,A,2
4,B,3


# データのマッピング

特定のKeyに対応したデータを複数追記したい場合に使用する方法

In [3]:
# 簡単なDataFrameを作ります。
dframe = DataFrame({'city':['Alma','Brian Head','Fox Park'],
                    'altitude':[3158,3000,2762]})
dframe

Unnamed: 0,city,altitude
0,Alma,3158
1,Brian Head,3000
2,Fox Park,2762


In [5]:
# マッピングを使う 既にあるIndexのデータに対し、新しいデータを追記する
state_map = {'Alma':'Colorado','Brian Head':'Utah','Fox Park':'Wyoming'} # 指定するKey : 追加するデータのマップを作製

In [6]:
# stateに対して、先ほど作成した列を追加する
dframe['state'] = dframe['city'].map(state_map)
dframe

Unnamed: 0,city,altitude,state
0,Alma,3158,Colorado
1,Brian Head,3000,Utah
2,Fox Park,2762,Wyoming


# データ置換

Serieas/DataFrame.replaceでよい 詳細はドキュメント参照
非破壊的なので、置換後のものを使用する場合は別変数へ入れておくこと

In [7]:
dframe.replace('Alma','RelaceAlma')

Unnamed: 0,city,altitude,state
0,RelaceAlma,3158,Colorado
1,Brian Head,3000,Utah
2,Fox Park,2762,Wyoming


In [8]:
# dframeには影響なし
dframe

Unnamed: 0,city,altitude,state
0,Alma,3158,Colorado
1,Brian Head,3000,Utah
2,Fox Park,2762,Wyoming


In [11]:
# リストとして複数指定も可能
dframe.replace([2762,3000],[0,30000])

Unnamed: 0,city,altitude,state
0,Alma,3158,Colorado
1,Brian Head,30000,Utah
2,Fox Park,0,Wyoming


In [12]:
# 辞書型も使用可能
dframe.replace({'Alma':'AlAl'})

Unnamed: 0,city,altitude,state
0,AlAl,3158,Colorado
1,Brian Head,3000,Utah
2,Fox Park,2762,Wyoming
