# 10数据连接

In [1]:
import pandas as pd
import numpy as np

# 创建第一个 DataFrame，包含两列：'key' 和 'data1'
df_obj1 = pd.DataFrame({
    'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],  # 'key' 列：表示每行的键值
    'data1': np.random.randint(0, 10, 7)         # 'data1' 列：随机生成的 0 到 9 的整数，共 7 个
})

# 创建第二个 DataFrame，包含两列：'key' 和 'data2'
df_obj2 = pd.DataFrame({
    'key': ['a', 'b', 'd'],                      # 'key' 列：表示每行的键值，与 df_obj1 的键有部分重合
    'data2': np.random.randint(0, 10, 3)         # 'data2' 列：随机生成的 0 到 9 的整数，共 3 个
})

# 打印第一个 DataFrame 的内容
print(df_obj1)
print('-' * 50)  # 打印分割线

# 打印第二个 DataFrame 的内容
print(df_obj2)


  key  data1
0   b      9
1   b      8
2   a      1
3   c      6
4   a      1
5   a      3
6   b      2
--------------------------------------------------
  key  data2
0   a      9
1   b      6
2   d      5


In [2]:
#默认连接使用相同的列名，连接方式是内连接
pd.merge(df_obj1, df_obj2)

Unnamed: 0,key,data1,data2
0,b,9,6
1,b,8,6
2,a,1,9
3,a,1,9
4,a,3,9
5,b,2,6


In [3]:
#左df和右df都拿索引连接
pd.merge(df_obj1, df_obj2,left_index=True,right_index=True)

Unnamed: 0,key_x,data1,key_y,data2
0,b,9,a,9
1,b,8,b,6
2,a,1,d,5


In [4]:
#左表和右表都拿key列来连接
pd.merge(df_obj1, df_obj2, on='key')

Unnamed: 0,key,data1,data2
0,b,9,6
1,b,8,6
2,a,1,9
3,a,1,9
4,a,3,9
5,b,2,6


In [5]:
# 更改列名
df_obj1 = df_obj1.rename(columns={'key':'key1'})
df_obj2 = df_obj2.rename(columns={'key':'key2'})

In [6]:
df_obj1

Unnamed: 0,key1,data1
0,b,9
1,b,8
2,a,1
3,c,6
4,a,1
5,a,3
6,b,2


In [7]:
df_obj2

Unnamed: 0,key2,data2
0,a,9
1,b,6
2,d,5


In [8]:
#左表以key1来连接，右表以key2来连接
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2')

Unnamed: 0,key1,data1,key2,data2
0,b,9,b,6
1,b,8,b,6
2,a,1,a,9
3,a,1,a,9
4,a,3,a,9
5,b,2,b,6


In [9]:
#全外连接
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='outer')  #全外连接

Unnamed: 0,key1,data1,key2,data2
0,a,1.0,a,9.0
1,a,1.0,a,9.0
2,a,3.0,a,9.0
3,b,9.0,b,6.0
4,b,8.0,b,6.0
5,b,2.0,b,6.0
6,c,6.0,,
7,,,d,5.0


In [10]:
#left join 等价于 left  join
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='left')

Unnamed: 0,key1,data1,key2,data2
0,b,9,b,6.0
1,b,8,b,6.0
2,a,1,a,9.0
3,c,6,,
4,a,1,a,9.0
5,a,3,a,9.0
6,b,2,b,6.0


In [11]:
# right等价于数据库的right join
pd.merge(df_obj1, df_obj2, left_on='key1', right_on='key2', how='right')

Unnamed: 0,key1,data1,key2,data2
0,a,1.0,a,9
1,a,1.0,a,9
2,a,3.0,a,9
3,b,9.0,b,6
4,b,8.0,b,6
5,b,2.0,b,6
6,,,d,5


In [None]:
# 处理重复列名
df_obj1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                        'data' : np.random.randint(0,10,7)})
df_obj2 = pd.DataFrame({'key': ['a', 'b', 'd'],
                        'data' : np.random.randint(0,10,3)})
#给相同的数据列添加后缀
print(pd.merge(df_obj1, df_obj2, on='key', suffixes=('_left', '_right')))