In [1]:
import pandas as pd
import numpy as np

In [2]:
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data2' : np.random.randint(0,10,3)})

print(df_obj1)
print(df_obj2)

   data1 key
0      8   b
1      9   b
2      6   a
3      8   c
4      4   a
5      1   a
6      5   b
   data2 key
0      7   a
1      0   b
2      1   d


## 数据合并：merge 详解（可以使用merge将多个表进行合并）

In [5]:
# 1. 如果没有指定外键，那么默认使用相同的列名做为外键
print(pd.merge(df_obj1, df_obj2))

   data1 key  data2
0      8   b      0
1      9   b      0
2      5   b      0
3      6   a      7
4      4   a      7
5      1   a      7


In [6]:
# 2. 通过 on 参数指定一个外键
print(pd.merge(df_obj1, df_obj2, on="key"))

   data1 key  data2
0      8   b      0
1      9   b      0
2      5   b      0
3      6   a      7
4      4   a      7
5      1   a      7


In [8]:
# 3. left_on : 左边数据集的"外键",  right_on：右边数据集的 "外键"
df_obj1 = df_obj1.rename(columns={"key" : "key1"})
df_obj2 = df_obj2.rename(columns={"key" : "key2"})
print(df_obj1)
print(df_obj2)

   data1 key1
0      8    b
1      9    b
2      6    a
3      8    c
4      4    a
5      1    a
6      5    b
   data2 key2
0      7    a
1      0    b
2      1    d


In [9]:
# 当两个数据集没有相同名称的"外键"，可以使用left_on 和 right_on来指定两个数据集的外键
print(pd.merge(df_obj1, df_obj2, left_on = "key1", right_on = "key2"))

   data1 key1  data2 key2
0      8    b      0    b
1      9    b      0    b
2      5    b      0    b
3      6    a      7    a
4      4    a      7    a
5      1    a      7    a


In [11]:
# merge默认是内连接，结果是所有数据的交集
# 交集： 既属于集合A 也属于集合B的数据集合，称作 A和B 的交集 (A & B)
# 并集：所有属于A，或者属于B 的数据集合，称作 A 和 B 的并集 (A | B)
'''
In [1]: a = {2, 3, 4, 5}

In [2]: type(a)
Out[2]: set

In [3]: a = {2, 3, 4, 5}

In [4]: b = {5, 6, 7, 8}

In [5]: a & b
Out[5]: {5}

In [6]: a | b
Out[6]: {2, 3, 4, 5, 6, 7, 8}
'''

'\nIn [1]: a = {2, 3, 4, 5}\n\nIn [2]: type(a)\nOut[2]: set\n\nIn [3]: a = {2, 3, 4, 5}\n\nIn [4]: b = {5, 6, 7, 8}\n\nIn [5]: a & b\nOut[5]: {5}\n\nIn [6]: a | b\nOut[6]: {2, 3, 4, 5, 6, 7, 8}\n'

In [10]:
# 4. 通过 how 参数来指定连接方式
# 4.0 outer 外连接，结果是所有数据的并集
print(pd.merge(df_obj1, df_obj2, left_on = "key1", right_on = "key2", how = "outer"))

   data1 key1  data2 key2
0    8.0    b    0.0    b
1    9.0    b    0.0    b
2    5.0    b    0.0    b
3    6.0    a    7.0    a
4    4.0    a    7.0    a
5    1.0    a    7.0    a
6    8.0    c    NaN  NaN
7    NaN  NaN    1.0    d


In [13]:
# 4.1. left 左连接：表示无论右边数据是否得到匹配，都会把左边数据全部显示 
print(pd.merge(df_obj1, df_obj2, left_on = "key1", right_on = "key2", how = "left"))

   data1 key1  data2 key2
0      8    b    0.0    b
1      9    b    0.0    b
2      6    a    7.0    a
3      8    c    NaN  NaN
4      4    a    7.0    a
5      1    a    7.0    a
6      5    b    0.0    b


In [14]:
# 4.2. right 右连接：表示无论左边数据是否得到匹配，都会把右边数据全部显示 
print(pd.merge(df_obj1, df_obj2, left_on = "key1", right_on = "key2", how = "right"))

   data1 key1  data2 key2
0    8.0    b      0    b
1    9.0    b      0    b
2    5.0    b      0    b
3    6.0    a      7    a
4    4.0    a      7    a
5    1.0    a      7    a
6    NaN  NaN      1    d


In [15]:
5. # 处理重复列名
newdf_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data' : np.random.randint(0,10,7)})
newdf_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data' : np.random.randint(0,10,3)})
print(newdf_obj1)
print(newdf_obj2)

   data key
0     7   b
1     3   b
2     9   a
3     1   c
4     8   a
5     8   a
6     0   b
   data key
0     2   a
1     3   b
2     2   d


In [17]:
# 如果两个数据集的列名是相同的，那么指定一个外键，通过suffixes再将其他列名添加一个后缀
print(pd.merge(newdf_obj1, newdf_obj2, on = "key", suffixes = ("_left", "_right")))

   data_left key  data_right
0          7   b           3
1          3   b           3
2          0   b           3
3          9   a           2
4          8   a           2
5          8   a           2


In [18]:
# 7. 按索引链接： left_index, right_index
# left_index：使用左边的DataFrame对象的行索引做为连接健
# right_index：使用右边的DataFrame对象的行索引做为连接健
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data1' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'data2' : np.random.randint(0,10,3)}, index=['a', 'b', 'd'])
print(df_obj1)
print(df_obj2)

   data1 key
0      9   b
1      6   b
2      0   a
3      7   c
4      5   a
5      3   a
6      6   b
   data2
a      8
b      4
d      1


In [20]:
# 左侧的数据按key 列来做主键， 右侧的诗句按行索引来做主键（不指定how，默认是交集，outer指定为并集）
print(pd.merge(df_obj1, df_obj2, left_on = "key", right_index = True, how = "outer"))

   data1 key  data2
0    9.0   b    4.0
1    6.0   b    4.0
6    6.0   b    4.0
2    0.0   a    8.0
4    5.0   a    8.0
5    3.0   a    8.0
3    7.0   c    NaN
6    NaN   d    1.0
