In [3]:
print("""
@File         : joining_dataframes_with_pd.dataframe.join.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2025-01-02 22:16:02
@Email        : cuixuanstephen@gmail.com
@Description  : Joining DataFrames with pd.DataFrame.join
""")


@File         : joining_dataframes_with_pd.dataframe.join.ipynb
@Author(s)    : Stephen CUI
@LastEditor(s): Stephen CUI
@CreatedTime  : 2025-01-02 22:16:02
@Email        : cuixuanstephen@gmail.com
@Description  : Joining DataFrames with pd.DataFrame.join



In [4]:
import pandas as pd

虽然 `pd.merge` 是合并两个不同的 pd.DataFrame 对象的最常用方法，但较少使用但功能相似的 `pd.DataFrame.join` 方法是另一种可行的选择。从风格上讲，可以将 `pd.DataFrame.join` 视为一种快捷方式，用于在现有 pd.DataFrame 中添加更多列；相比之下，`pd.merge` 默认将两个 pd.DataFrame 都视为具有同等重要性的对象。

In [6]:
sales = pd.DataFrame(
    [[1000], [2000], [4000]],
    columns=["sales"],
    index=pd.Index([42, 555, 9000], name="salesperson_id")
)
sales = sales.convert_dtypes(dtype_backend="numpy_nullable")
sales

Unnamed: 0_level_0,sales
salesperson_id,Unnamed: 1_level_1
42,1000
555,2000
9000,4000


In [8]:
salesperson = pd.DataFrame([
    ["John", "Smith"],
    ["Jane", "Doe"],
    ], columns=["first_name", "last_name"], index=pd.Index(
    [555, 42], name="salesperson_id"
))
salesperson = salesperson.convert_dtypes(dtype_backend="numpy_nullable")
salesperson

Unnamed: 0_level_0,first_name,last_name
salesperson_id,Unnamed: 1_level_1,Unnamed: 2_level_1
555,John,Smith
42,Jane,Doe


In [9]:
pd.merge(sales, salesperson, left_index=True, right_index=True, how='left')

Unnamed: 0_level_0,sales,first_name,last_name
salesperson_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
42,1000,Jane,Doe
555,2000,John,Smith
9000,4000,,


对 `pd.merge` 的相当长的调用描述了 `pd.DataFrame.join` 的默认行为，因此可能会发现使用后者更容易：

In [11]:
sales.join(salesperson)

Unnamed: 0_level_0,sales,first_name,last_name
salesperson_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
42,1000,Jane,Doe
555,2000,John,Smith
9000,4000,,


虽然 `pd.DataFrame.join` 默认为左连接，但也可以通过 `how=` 参数选择不同的行为，这表明了 `join` 用于在现有 pd.DataFrame 中添加更多列：

In [12]:
sales.join(salesperson, how='inner')

Unnamed: 0_level_0,sales,first_name,last_name
salesperson_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
42,1000,Jane,Doe
555,2000,John,Smith


最终，没有必要使用 `pd.DataFrame.join` 而不是 `pd.merge`。前者只是一种快捷方式和一种风格指示，即调用 pd.DataFrame 在与另一个 pd.DataFrame 连接时不应删除任何记录。（**just left join default**）