# データフレームの結合方法（concat）
PandasのDataFrameの結合方法には、concat関数を使用する方法がある。この関数を使うと、複数のデータを横方向または縦方向に結合することができる。

In [4]:
import pandas as pd

In [77]:
import warnings
warnings.filterwarnings('ignore') # 一致しないカラムを結合しようとする警告が出るため、出ないようにする

In [13]:
# 下記2つのデータフレームを縦方向に結合

# 一つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'], 
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4],
                      '国語':[5, 6, 7, 8]})

# 二つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

pd.concat([df01, df02])

Unnamed: 0,氏名,クラス,数学,国語
0,佐藤,df01,1,5
1,鈴木,df01,2,6
2,高橋,df01,3,7
3,田中,df01,4,8
0,佐藤,df02,9,12
1,鈴木,df02,10,13
2,山本,df02,11,14


In [79]:
# インデックスを昇順に振り直す。
pd.concat([df01, df02], ignore_index=True)

Unnamed: 0,クラス,数学,国語
0,df01,1,5
1,df01,2,6
2,df01,3,7
3,df01,4,8
4,df02,9,12
5,df02,10,13
6,df02,11,14


In [19]:
# 下記2つのデータフレームを縦方向に結合（インデックスの値を昇順の行番号で振り直します）

# 一つ目のデータフレーム
df01 = pd.DataFrame({'No.1': [10, 15, 12, 48, 32],
                     'No.2': [29, 1, 43, 18, 25],
                     'No.3': [38, 28, 16, 22, 49]},
                    index=['A', 'B', 'C', 'D', 'E'])
# 二つ目のデータフレーム
df02 = pd.DataFrame({'No.1': [15, 7, 45, 51, 6],
                     'No.2': [30, 5, 67, 18, 34],
                     'No.3': [55, 50, 29, 22, 99]},
                    index=['F', 'G', 'H', 'I', 'J'])

pd.concat([df01, df02], ignore_index=True)

Unnamed: 0,No.1,No.2,No.3
0,10,29,38
1,15,1,28
2,12,43,16
3,48,18,22
4,32,25,49
5,15,30,55
6,7,5,50
7,45,67,29
8,51,18,22
9,6,34,99


In [21]:
# 3つのデータフレームを縦方向に結合

# 一つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 二つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

# 三つ目のデータフレーム
df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'], 
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

pd.concat([df01, df02, df03])

Unnamed: 0,氏名,クラス,数学,国語
0,佐藤,df01,1,5
1,鈴木,df01,2,6
2,高橋,df01,3,7
3,田中,df01,4,8
0,佐藤,df02,9,12
1,鈴木,df02,10,13
2,山本,df02,11,14
0,佐藤,df03,15,18
1,鈴木,df03,16,19
2,加藤,df03,17,20


In [22]:
# 3つのデータフレームを縦方向に結合
# それぞれのデータフレームに、マルチインデックスで'1番目','2番目','3番目'のラベルをを追加

# 一つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 二つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

# 三つ目のデータフレーム
df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'], 
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

pd.concat([df01, df02, df03], keys=['1番目','2番目','3番目'])

Unnamed: 0,Unnamed: 1,氏名,クラス,数学,国語
1番目,0,佐藤,df01,1,5
1番目,1,鈴木,df01,2,6
1番目,2,高橋,df01,3,7
1番目,3,田中,df01,4,8
2番目,0,佐藤,df02,9,12
2番目,1,鈴木,df02,10,13
2番目,2,山本,df02,11,14
3番目,0,佐藤,df03,15,18
3番目,1,鈴木,df03,16,19
3番目,2,加藤,df03,17,20


In [24]:
df = pd.concat([df01, df02, df03], keys=['1番目','2番目','3番目'])
df.index

MultiIndex([('1番目', 0),
            ('1番目', 1),
            ('1番目', 2),
            ('1番目', 3),
            ('2番目', 0),
            ('2番目', 1),
            ('2番目', 2),
            ('3番目', 0),
            ('3番目', 1),
            ('3番目', 2)],
           )

In [31]:
"""
下記の3つのデータフレームを縦方向に結合。
ポイント

・それぞれのデータフレームに、マルチインデックスで'1st'、'2nd'、'3rd'のラベルを追加。
・マルチインデックスの外側のインデックス名を'DataFrame'、内側のインデックス名を'index'に設定。
"""

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'], 
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'],
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

pd.concat([df01, df02, df03], keys=['1at','2nd','3rd'], names=['DataFrame', 'index'])

Unnamed: 0_level_0,Unnamed: 1_level_0,氏名,クラス,数学,国語
DataFrame,index,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1at,0,佐藤,df01,1,5
1at,1,鈴木,df01,2,6
1at,2,高橋,df01,3,7
1at,3,田中,df01,4,8
2nd,0,佐藤,df02,9,12
2nd,1,鈴木,df02,10,13
2nd,2,山本,df02,11,14
3rd,0,佐藤,df03,15,18
3rd,1,鈴木,df03,16,19
3rd,2,加藤,df03,17,20


In [40]:
"""
下記の2つのデータフレームには、それぞれ共通しないカラムがある
この2つのデータフレームを縦方向に結合
"""

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4],
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['吉田', '山田', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02], join='outer')

# pd.concat([df01, df02]) # デフォルトだとouter

Unnamed: 0,氏名,クラス,数学,国語,社会
0,佐藤,df01,1,5.0,
1,鈴木,df01,2,6.0,
2,高橋,df01,3,7.0,
3,田中,df01,4,8.0,
0,吉田,df02,21,,24.0
1,山田,df02,22,,25.0
2,佐々木,df02,23,,26.0


In [42]:
"""
下記の2つのデータフレームには、それぞれ共通しないカラムがある。
完成イメージの通りに、この2つのデータフレームを縦方向に結合する。

・共通しないカラムのデータの値（欠損値NaN）は、すべて'未受験'と表示。
"""

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02]).fillna('未受験')

Unnamed: 0,氏名,クラス,数学,国語,社会
0,佐藤,df01,1,5.0,未受験
1,鈴木,df01,2,6.0,未受験
2,高橋,df01,3,7.0,未受験
3,田中,df01,4,8.0,未受験
0,佐藤,df02,21,未受験,24.0
1,鈴木,df02,22,未受験,25.0
2,佐々木,df02,23,未受験,26.0


In [52]:
"""
下記の2つのデータフレームには、それぞれ共通しないカラムがある。
この2つのデータフレームを縦方向に結合し、共通しないカラムを削除する。

・共通しないカラムは、dropnaメソッドで削除
"""

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],'社会':[24, 25, 26]})

pd.concat([df01, df02]).dropna(how='any', axis=1) # 引数howに文字列'any'、引数axisに1を指定すると、1つでも欠損値を含むカラムが削除される
# 以下concat関数の引数joinに'inner'を渡しても、同じ結果
# pd.concat([df01, df02], join='inner')

Unnamed: 0,氏名,クラス,数学
0,佐藤,df01,1
1,鈴木,df01,2
2,高橋,df01,3
3,田中,df01,4
0,佐藤,df02,21
1,鈴木,df02,22
2,佐々木,df02,23


In [55]:
# それぞれ共通しないカラムがあり、引数joinを使用して、この2つのデータフレームを縦方向に結合。

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02], join='outer')

Unnamed: 0,氏名,クラス,数学,国語,社会
0,佐藤,df01,1,5.0,
1,鈴木,df01,2,6.0,
2,高橋,df01,3,7.0,
3,田中,df01,4,8.0,
0,佐藤,df02,21,,24.0
1,鈴木,df02,22,,25.0
2,佐々木,df02,23,,26.0


In [56]:
# それぞれ共通しないカラムがあり、引数joinを使用して、この2つのデータフレームを縦方向に結合。共通しないカラムは除外する
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02], join='inner')

Unnamed: 0,氏名,クラス,数学
0,佐藤,df01,1
1,鈴木,df01,2
2,高橋,df01,3
3,田中,df01,4
0,佐藤,df02,21
1,鈴木,df02,22
2,佐々木,df02,23


In [58]:
"""
下記の2つのデータフレームには、それぞれ共通しないカラムがある。
この2つのデータフレームを縦方向に結合。
"""

df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4],
                      '国語':[5, 6, 7, 8]})

df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02], axis=0)

Unnamed: 0,氏名,クラス,数学,国語,社会
0,佐藤,df01,1,5.0,
1,鈴木,df01,2,6.0,
2,高橋,df01,3,7.0,
3,田中,df01,4,8.0,
0,佐藤,df02,21,,24.0
1,鈴木,df02,22,,25.0
2,佐々木,df02,23,,26.0


In [60]:
"""
下記の2つのデータフレームには、それぞれ共通しないカラムがある。
この2つのデータフレームを横方向に結合。
"""

# 1つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'],
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 2つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02], axis=1)

Unnamed: 0,氏名,クラス,数学,国語,氏名.1,クラス.1,数学.1,社会
0,佐藤,df01,1,5,佐藤,df02,21.0,24.0
1,鈴木,df01,2,6,鈴木,df02,22.0,25.0
2,高橋,df01,3,7,佐々木,df02,23.0,26.0
3,田中,df01,4,8,,,,


In [62]:
# 4つのデータフレームを横方向に結合

# 1つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'], 
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 2つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

# 3つ目のデータフレーム
df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'], 
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

# 4つ目のデータフレーム
df04 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df04', 'df04', 'df04'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02, df03, df04], axis=1)

Unnamed: 0,氏名,クラス,数学,国語,氏名.1,クラス.1,数学.1,国語.1,氏名.2,クラス.2,数学.2,国語.2,氏名.3,クラス.3,数学.3,社会
0,佐藤,df01,1,5,佐藤,df02,9.0,12.0,佐藤,df03,15.0,18.0,佐藤,df04,21.0,24.0
1,鈴木,df01,2,6,鈴木,df02,10.0,13.0,鈴木,df03,16.0,19.0,鈴木,df04,22.0,25.0
2,高橋,df01,3,7,山本,df02,11.0,14.0,加藤,df03,17.0,20.0,佐々木,df04,23.0,26.0
3,田中,df01,4,8,,,,,,,,,,,,


In [63]:
# 4つのデータフレームを横方向に結合（4つのデータフレームに共通するインデックスのデータのみ残す）

# 1つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'], 
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 2つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

# 3つ目のデータフレーム
df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'], 
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

# 4つ目のデータフレーム
df04 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df04', 'df04', 'df04'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

pd.concat([df01, df02, df03, df04], join='inner', axis=1)

Unnamed: 0,氏名,クラス,数学,国語,氏名.1,クラス.1,数学.1,国語.1,氏名.2,クラス.2,数学.2,国語.2,氏名.3,クラス.3,数学.3,社会
0,佐藤,df01,1,5,佐藤,df02,9,12,佐藤,df03,15,18,佐藤,df04,21,24
1,鈴木,df01,2,6,鈴木,df02,10,13,鈴木,df03,16,19,鈴木,df04,22,25
2,高橋,df01,3,7,山本,df02,11,14,加藤,df03,17,20,佐々木,df04,23,26


In [80]:
"""
下記4つのデータフレームの'氏名'列を、それぞれのデータフレームのインデックスに設定し、横方向に結合。

・4つのデータフレームに共通するインデックスのデータのみ残す。
"""

# 1つ目のデータフレーム
df01 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '高橋', '田中'], 
                      'クラス':['df01', 'df01', 'df01', 'df01'],
                      '数学': [1, 2, 3, 4], 
                      '国語':[5, 6, 7, 8]})

# 2つ目のデータフレーム
df02 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '山本'],
                      'クラス':['df02', 'df02', 'df02'],
                      '数学': [9, 10, 11],
                      '国語':[12, 13, 14]})

# 3つ目のデータフレーム
df03 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '加藤'], 
                      'クラス':['df03', 'df03', 'df03'],
                      '数学': [15, 16, 17],
                      '国語':[18, 19, 20]})

# 4つ目のデータフレーム
df04 = pd.DataFrame( {'氏名':['佐藤', '鈴木', '佐々木'],
                      'クラス':['df04', 'df04', 'df04'],
                      '数学': [21, 22, 23],
                      '社会':[24, 25, 26]})

dfs = [df.set_index('氏名') for df in [df01, df02, df03, df04]]
df01, df02, df03, df04 = dfs[0], dfs[1], dfs[2], dfs[3]

pd.concat([df01, df02, df03, df04], axis='columns',join='inner')

Unnamed: 0_level_0,クラス,数学,国語,クラス,数学,国語,クラス,数学,国語,クラス,数学,社会
氏名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
佐藤,df01,1,5,df02,9,12,df03,15,18,df04,21,24
鈴木,df01,2,6,df02,10,13,df03,16,19,df04,22,25
