In [24]:
import pandas as pd

In [35]:
df1 = pd.DataFrame({'valor': [1, 2, 3, 4]}, index=['2022-01-01', '2022-01-02', '2022-01-03', '2022-01-04'])
df2 = pd.DataFrame({'otro_valor': [5, 6, 7, 8]}, index=['2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05'])
df3 = pd.DataFrame({'valor': [5, 6, 7, 8]}, index=['2022-01-02', '2022-01-03', '2022-01-04', '2022-01-05'])

In [30]:
df1

Unnamed: 0,valor
2022-01-01,1
2022-01-02,2
2022-01-03,3
2022-01-04,4


In [27]:
df2

Unnamed: 0,otro_valor
2022-01-02,5
2022-01-03,6
2022-01-04,7
2022-01-05,8


En este caso, df1 tiene un índice de fechas y una columna llamada "valor", mientras que df2 también tiene un índice de fechas y una columna llamada "otro_valor".

Para unir los dos dataframes en base a sus índices, podemos usar `pd.join()`:

In [31]:
df1.join(df2)

Unnamed: 0,valor,otro_valor
2022-01-01,1,
2022-01-02,2,5.0
2022-01-03,3,6.0
2022-01-04,4,7.0


El resultado de este código es un nuevo dataframe que contiene las columnas "valor" y "otro_valor".

También podemos especificar el tipo de join que deseamos realizar mediante el parámetro "`how`". Por ejemplo, para hacer un outer join:

In [34]:
df1.join(df2, how='outer')

Unnamed: 0,valor,otro_valor
2022-01-01,1.0,
2022-01-02,2.0,5.0
2022-01-03,3.0,6.0
2022-01-04,4.0,7.0
2022-01-05,,8.0


Este código producirá un nuevo dataframe que contiene todas las filas de df1 y df2, y las columnas "valor" y "otro_valor".

Para evitar conflictos de nombres de columna, podemos agregar sufijos a las columnas de cada dataframe usando los parámetros "`lsuffix`" y "`rsuffix`". Por ejemplo:

In [37]:
df1.join(df3, lsuffix='_left', rsuffix='_right')

Unnamed: 0,valor_left,valor_right
2022-01-01,1,
2022-01-02,2,5.0
2022-01-03,3,6.0
2022-01-04,4,7.0


In [38]:
df1.join(df3, rsuffix='_nuevo')

Unnamed: 0,valor,valor_nuevo
2022-01-01,1,
2022-01-02,2,5.0
2022-01-03,3,6.0
2022-01-04,4,7.0


In [41]:
pd.concat([df1, df3], axis=1)

Unnamed: 0,valor,valor.1
2022-01-01,1.0,
2022-01-02,2.0,5.0
2022-01-03,3.0,6.0
2022-01-04,4.0,7.0
2022-01-05,,8.0


In [46]:
# esto no se hace, mala practica
pd.merge(
    df1.reset_index(),
    df2.reset_index(),
    on="index",
    how="left"
).set_index(keys="index")

Unnamed: 0_level_0,valor,otro_valor
index,Unnamed: 1_level_1,Unnamed: 2_level_1
2022-01-01,1,
2022-01-02,2,5.0
2022-01-03,3,6.0
2022-01-04,4,7.0


Este código producirá un nuevo dataframe que contiene las columnas "valor_left" y "otro_valor_right", y las filas correspondientes a los índices comunes de df1 y df2.

Espero que estos ejemplos te hayan ayudado a entender cómo funciona `pd.join()` en Pandas.

# Ejemplo

In [71]:
df_1 = pd.read_csv(
    "db/join/population_by_country_2020.csv",
    index_col="Country (or dependency)"
)[["Population (2020)"]]

In [74]:
df_2 = pd.read_csv(
    "db/join/world_population.csv",
    index_col="Country/Territory",
)[["2020 Population"]]

In [76]:
df_1.head(3)

Unnamed: 0_level_0,Population (2020)
Country (or dependency),Unnamed: 1_level_1
China,1440297825
India,1382345085
United States,331341050


In [78]:
df_2.head(3)

Unnamed: 0_level_0,2020 Population
Country/Territory,Unnamed: 1_level_1
Afghanistan,38972230
Albania,2866849
Algeria,43451666


In [82]:
df_join = df_1.join(df_2, how="inner")
df_join["Diferencia"] = abs(df_join["Population (2020)"] - df_join["2020 Population"])
df_join

Unnamed: 0,Population (2020),2020 Population,Diferencia
China,1440297825,1424929781,15368044
India,1382345085,1396387127,14042042
United States,331341050,335942003,4600953
Indonesia,274021604,271857970,2163634
Pakistan,221612785,227196741,5583956
...,...,...,...
Saint Barthelemy,9882,10681,799
Montserrat,4993,4500,493
Falkland Islands,3497,3747,250
Niue,1628,1942,314
