In [None]:
import numpy as np
import pandas as pd

In [None]:
# データ1の準備
data1 = {
    'id': ['100', '101', '102', '103', '104', '106', '108', '110', '111',' 113'],
    'city': ['Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo', 'Tokyo', 'Osaka', 'Kyoto', 'Hokkaido', 'Tokyo'],
    'birth_year': [1990, 1989, 1992, 1997, 1982, 1991, 1988, 1990, 1995, 1981],
    'name': ['Hiroshi', 'Akiko', 'Yuki', 'Satoru', 'Steeve', 'Mituru', 'Aoi', 'Tarou', 'Suguru','Mitsuo']
}
df1 = pd.DataFrame(data1)
df1

Unnamed: 0,id,city,birth_year,name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steeve
5,106,Tokyo,1991,Mituru
6,108,Osaka,1988,Aoi
7,110,Kyoto,1990,Tarou
8,111,Hokkaido,1995,Suguru
9,113,Tokyo,1981,Mitsuo


In [None]:
# データ2の準備
data2 = {
    'id': ['100', '101', '102', '105', '107'],
    'math': [50, 43, 33, 76, 98],
    'english': [90, 30, 20, 50, 30],
    'sex': ['M','F','F','M','M'], 
    'index_num': [0, 1, 2, 3, 4]
}
scoredf = pd.DataFrame(data2)
scoredf

Unnamed: 0,id,math,english,sex,index_num
0,100,50,90,M,0
1,101,43,30,F,1
2,102,33,20,F,2
3,105,76,50,M,3
4,107,98,30,M,4


**内部結合**

`id`の値が両方の`Dataframe`オブジェクトに存在するものみが表示される。

In [None]:
# データのマージ（内部結合。キーは自動的に認識されるが、onで明示的に指定可能）
# df1 と scoredf を結合。idが同じもの同士で結合したいので、on = 'id' とする
print('・結合テーブル')
pd.merge(df1, scoredf, on='id')

・結合テーブル


Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,50,90,M,0
1,101,Osaka,1989,Akiko,43,30,F,1
2,102,Kyoto,1992,Yuki,33,20,F,2


**全結合**

どちらのデータにも存在するデータで結合する。
全結合では`how`パラメータに`outer`を指定。結合する値がない場合は、`NaN`になる。

In [None]:
# データのマージ（全結合）
pd.merge(df1, scoredf, how = 'outer')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990.0,Hiroshi,50.0,90.0,M,0.0
1,101,Osaka,1989.0,Akiko,43.0,30.0,F,1.0
2,102,Kyoto,1992.0,Yuki,33.0,20.0,F,2.0
3,103,Hokkaido,1997.0,Satoru,,,,
4,104,Tokyo,1982.0,Steeve,,,,
5,106,Tokyo,1991.0,Mituru,,,,
6,108,Osaka,1988.0,Aoi,,,,
7,110,Kyoto,1990.0,Tarou,,,,
8,111,Hokkaido,1995.0,Suguru,,,,
9,113,Tokyo,1981.0,Mitsuo,,,,


**左外部結合**

左外部結合は`how`パラメータに`left`を指定します。次の例は、左側のテーブル（ひとつめの引数）に合わせて、`Dataframe`オブジェクトのデータを結合する。左側に対応するデータが右（ふたつめの引数）にない場合は、`NaN`になる。

In [None]:
# データのマージ（left）
pd.merge(df1, scoredf, how = 'left')

Unnamed: 0,id,city,birth_year,name,math,english,sex,index_num
0,100,Tokyo,1990,Hiroshi,50.0,90.0,M,0.0
1,101,Osaka,1989,Akiko,43.0,30.0,F,1.0
2,102,Kyoto,1992,Yuki,33.0,20.0,F,2.0
3,103,Hokkaido,1997,Satoru,,,,
4,104,Tokyo,1982,Steeve,,,,
5,106,Tokyo,1991,Mituru,,,,
6,108,Osaka,1988,Aoi,,,,
7,110,Kyoto,1990,Tarou,,,,
8,111,Hokkaido,1995,Suguru,,,,
9,113,Tokyo,1981,Mitsuo,,,,


**縦結合**

何らかのキーに紐付いてデータをマージする以外に、`concat`メソッドを使うと、データを縦方向に積み上げられます。→縦結合 P168


In [None]:
# データ3の準備
data3 = {
    'id': ['117', '118', '119', '120', '125'],
    'city': ['Chiba', 'Kanagawa', 'Tokyo', 'Fukuoka', 'Okinawa'],
    'birth_year': [1990, 1989, 1992, 1997, 1982],
    'name': ['Suguru', 'Kouichi', 'Satochi', 'Yukie', 'Akari']
}
df3 = pd.DataFrame(data3)
df3

Unnamed: 0,id,city,birth_year,name
0,117,Chiba,1990,Suguru
1,118,Kanagawa,1989,Kouichi
2,119,Tokyo,1992,Satochi
3,120,Fukuoka,1997,Yukie
4,125,Okinawa,1982,Akari


In [None]:
# concat 縦結合 ／concatでdf1とdf3を一つのデータにしている
concat_data = pd.concat([df1,df3])
concat_data

Unnamed: 0,id,city,birth_year,name
0,100,Tokyo,1990,Hiroshi
1,101,Osaka,1989,Akiko
2,102,Kyoto,1992,Yuki
3,103,Hokkaido,1997,Satoru
4,104,Tokyo,1982,Steeve
5,106,Tokyo,1991,Mituru
6,108,Osaka,1988,Aoi
7,110,Kyoto,1990,Tarou
8,111,Hokkaido,1995,Suguru
9,113,Tokyo,1981,Mitsuo
