# データフレームの結合方法（merge）
PandasのDataFrameの結合merge関数編。<br>
merge関数では、2つのデータを横方向に結合することができる。

## ’氏名’を結合のキーとして下記2つのデータフレームを結合

In [4]:
import pandas as pd

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

In [5]:
pd.merge(df01, df02, on='氏名')

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語
0,高橋,a001,1,a001,5
1,伊藤,a001,2,a001,6
2,鈴木,a001,3,a001,7
3,佐藤,a001,4,a001,8


## ’氏名’を結合のキーとしてデータフレームを結合

・'クラス'のカラムについては、左のデータフレームのカラムには'_left'、右のデータフレームのカラムには'_right'を末尾に追加

In [3]:
import pandas as pd

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, on='氏名', suffixes=['_left', '_right']) # suffixesはカラムの接尾辞を指定

Unnamed: 0,氏名,クラス_left,数学,クラス_right,国語
0,高橋,a001,1,a001,5
1,伊藤,a001,2,a001,6
2,鈴木,a001,3,a001,7
3,佐藤,a001,4,a001,8


## 氏名’を結合のキーとして下記2つのデータフレームを結合

・重複する'クラス'列のカラムについては、左のデータフレームのカラムは元のままで、右のデータフレームのカラムには'_重複'を末尾に追加

In [9]:
import pandas as pd

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})


pd.merge(df01, df02, on='氏名', suffixes=['', '_重複']) # 左はそのまま、右は_重複が付与

Unnamed: 0,氏名,クラス,数学,クラス_重複,国語
0,高橋,a001,1,a001,5
1,伊藤,a001,2,a001,6
2,鈴木,a001,3,a001,7
3,佐藤,a001,4,a001,8


## 左のデータフレームは'氏名'を、右のデータフレームは'名前'を結合のキーに指定

In [14]:
import pandas as pd

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'名前':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, left_on='氏名', right_on='名前')

Unnamed: 0,氏名,クラス_x,数学,名前,クラス_y,国語
0,高橋,a001,1,高橋,a001,5
1,伊藤,a001,2,伊藤,a001,6
2,鈴木,a001,3,鈴木,a001,7
3,佐藤,a001,4,佐藤,a001,8


左のデータフレームは'氏名'を、右のデータフレームは'名前'を結合のキーに指定。<br>
・結合のキーの'氏名'と'名前'は同じ値を持つため、結合後のデータフレームから'名前'のカラムのみ削除

In [21]:
# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],'クラス':['a001', 'a001', 'a001', 'a001'],'数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'名前':['高橋', '伊藤', '鈴木', '佐藤'],'クラス':['a001', 'a001', 'a001', 'a001'],'国語':[5, 6, 7, 8]})

pd.merge(df01, df02, left_on='氏名', right_on='名前').drop(columns='名前')

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語
0,高橋,a001,1,a001,5
1,伊藤,a001,2,a001,6
2,鈴木,a001,3,a001,7
3,佐藤,a001,4,a001,8


左のデータフレームの'氏名'の値は一意だが、右のデータフレームの'名前'の値は一意ではない

- 左のデータフレームは'氏名'を、右のデータフレームは'名前'を結合のキーに指定
- 結合するときに、'氏名'が一意であるかどうかを明示的に確認

In [29]:
# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})

# 右のデータフレーム
df02 = pd.DataFrame( {'名前':['高橋', '高橋'],
                      'クラス':['a001','a002'],
                      '英語':[15, 16]})

pd.merge(df01, df02, left_on='氏名', right_on='名前', validate='one_to_many')

Unnamed: 0,氏名,クラス_x,数学,名前,クラス_y,英語
0,高橋,a001,1,高橋,a001,15
1,高橋,a001,1,高橋,a002,16


#### 補足
結合のキーのカラムの値が一意であるかを確認するには、引数validateを使用します。<br>
一意でない場合は、MergeError（エラー）が返されます。<br>
指定できるパラメータは次の通りで、この問題では'one_to_many'を指定し、左の結合のキーのカラムの値が一意であることを確認します。<br>
'one_to_one' ：結合のキーが左右のデータフレームで一意<br>
'many_to_one' ：結合のキーが右のデータフレームで一意<br>
'one_to_many' ：結合のキーが左のデータフレームで一意<br>
'many_to_many' ：結合のキーが左右のデータフレームで一意であるかを確認しない<br>
例えばこの問題では、右の結合のキーである'名前'には'高橋'が重複しています。<br>
したがって、'many_to_one'を渡すとエラーが返されます。<br>

In [32]:
# 下記2つのデータフレームを、完成イメージの通りに結合
# 左のデータフレームは'氏名'と'クラス'を、右のデータフレームは'名前'と'クラス'を結合のキーに指定する

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'名前':['高橋', '高橋'],
                      'クラス':['a001','a002'],
                      '英語':[15, 16]})

pd.merge(df01, df02, left_on=['氏名', 'クラス'], right_on=['名前', 'クラス'])

Unnamed: 0,氏名,クラス,数学,名前,英語
0,高橋,a001,1,高橋,15


In [37]:
# '氏名'を結合のキーとして、下記2つのデータフレームを結合。
# 左のデータフレームは全て残し、右のデータフレームは共通する部分だけ残すようにする。

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '渡辺', '加藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, on='氏名', how='left')

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語
0,高橋,a001,1,a001,5.0
1,伊藤,a001,2,a001,6.0
2,鈴木,a001,3,,
3,佐藤,a001,4,,


In [42]:
# '氏名'を結合のキーとして、下記2つのデータフレームを結合。
# 右のデータフレームは全て残し、左のデータフレームは共通する部分だけ残すようにする。

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '渡辺', '加藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, on='氏名', how='right')

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語
0,高橋,a001,1.0,a001,5
1,伊藤,a001,2.0,a001,6
2,渡辺,,,a001,7
3,加藤,,,a001,8


In [48]:
# 結合のキーを'氏名'にして、下記2つのデータフレームを結合。
# 左右のデータフレームが全て残るようにする。

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '渡辺', '加藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, on='氏名', how='outer')

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語
0,高橋,a001,1.0,a001,5.0
1,伊藤,a001,2.0,a001,6.0
2,鈴木,a001,3.0,,
3,佐藤,a001,4.0,,
4,渡辺,,,a001,7.0
5,加藤,,,a001,8.0


In [47]:
# 結合のキーを'氏名'にして、下記2つのデータフレームを結合。
"""
ポイント

・左右のデータフレームが全て残るようにする。
・各行のデータが、左右どちらのデータフレームに紐づいているのかを表す'_merge'列も表示。
"""

# 左のデータフレーム
df01 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '数学':[1, 2, 3, 4]})
# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '渡辺', '加藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})


pd.merge(df01, df02, on='氏名', how='outer', indicator=True)

Unnamed: 0,氏名,クラス_x,数学,クラス_y,国語,_merge
0,高橋,a001,1.0,a001,5.0,both
1,伊藤,a001,2.0,a001,6.0,both
2,鈴木,a001,3.0,,,left_only
3,佐藤,a001,4.0,,,left_only
4,渡辺,,,a001,7.0,right_only
5,加藤,,,a001,8.0,right_only


In [51]:
# 左のデータフレームのインデックスと右のデータフレームの'氏名'を結合のキーにして、下記2つのデータフレームを結合。

# 左のデータフレーム
df01 = pd.DataFrame({
    'クラス':['df01', 'df01', 'df01', 'df01'],
    '数学':[1, 2, 3, 4]}, 
    index=['高橋', '伊藤', '鈴木', '佐藤'])

# 右のデータフレーム
df02 = pd.DataFrame({
    '氏名':['高橋', '伊藤', '鈴木', '佐藤'],
    'クラス':['a001', 'a001', 'a001', 'a001'],
    '国語':[5, 6, 7, 8]})


pd.merge(df01, df02, left_index=True, right_on='氏名')

Unnamed: 0,クラス_x,数学,氏名,クラス_y,国語
0,df01,1,高橋,a001,5
1,df01,2,伊藤,a001,6
2,df01,3,鈴木,a001,7
3,df01,4,佐藤,a001,8


In [55]:
# 左のデータフレームのインデックスと右のデータフレームのインデックスを結合のキーにして、下記2つのデータフレームを結合

# 左のデータフレーム
df01 = pd.DataFrame( {'クラス':['df01', 'df01', 'df01', 'df01'],
                    '数学': [1, 2, 3, 4]},
                    index=['高橋', '伊藤', '鈴木', '佐藤'])

# 右のデータフレーム
df02 = pd.DataFrame( {'クラス':['a001', 'a001', 'a001', 'a001'],
                    '国語':[5, 6, 7, 8]},
                    index=['高橋', '伊藤', '鈴木', '佐藤'])

pd.merge(df01, df02, left_index=True, right_index=True)

Unnamed: 0,クラス_x,数学,クラス_y,国語
高橋,df01,1,a001,5
伊藤,df01,2,a001,6
鈴木,df01,3,a001,7
佐藤,df01,4,a001,8


#### 補足
データフレームを結合するには、merge関数を使用します。<br>
第一引数に左のデータフレームを指定します。<br>
第ニ引数に右のデータフレームを指定します。<br>
続いて、左のデータフレームのインデックスを結合のキーに指定するには、引数left_indexにTrueを渡します。<br>
同様に、右のデータフレームのインデックスを結合のキーに指定するには、引数right_indexにTrueを渡します。<br>
なお、結合のキーの指定を省略した場合、2つのデータフレームに共通するカラムをキーとして結合が行われます。<br>
この問題の場合、'クラス'が結合のキーとなります。<br>

結合のキーに指定したカラム以外に重複するカラムがある場合は、末尾に'_x'、'_y'が追加されます。<br>
この問題では、'クラス'がそれに該当します。<br>

In [58]:
"""
2つのデータフレームを、左のデータフレームのインデックスと右のデータフレームの'氏名'を結合のキーにして結合。
'氏名'の値が昇順になるようにデータを並び替える。
"""

df01 = pd.DataFrame({'クラス':['df01', 'df01', 'df01', 'df01'],
                     '数学': [1, 2, 3, 4]},
                    index=['高橋', '伊藤', '鈴木', '佐藤'])


df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, left_index=True, right_on='氏名', sort=True)

Unnamed: 0,クラス_x,数学,氏名,クラス_y,国語
1,df01,2,伊藤,a001,6
3,df01,4,佐藤,a001,8
2,df01,3,鈴木,a001,7
0,df01,1,高橋,a001,5


In [61]:
# 2つのデータフレームを、左のデータフレームのインデックスと右のデータフレームの'氏名'を結合のキーにして結合。
# '数学'の得点が降順になるようにデータを並び替える。

# 左のデータフレーム
df01 = pd.DataFrame( {'クラス':['df01', 'df01', 'df01', 'df01'],
                    '数学': [1, 2, 3, 4]},
                    index=['高橋', '伊藤', '鈴木', '佐藤'])

# 右のデータフレーム
df02 = pd.DataFrame( {'氏名':['高橋', '伊藤', '鈴木', '佐藤'],
                      'クラス':['a001', 'a001', 'a001', 'a001'],
                      '国語':[5, 6, 7, 8]})

pd.merge(df01, df02, left_index=True, right_on='氏名').sort_values(by='数学', ascending=False)

Unnamed: 0,クラス_x,数学,氏名,クラス_y,国語
3,df01,4,佐藤,a001,8
2,df01,3,鈴木,a001,7
1,df01,2,伊藤,a001,6
0,df01,1,高橋,a001,5
