# Combinación de datos en pandas con merge(), .join() y concat() 🐼

Los objetos Series y DataFrame de Pandas son herramientas poderosas para explorar y analizar datos. Parte de su poder proviene de un enfoque multifacético para combinar conjuntos de datos separados. Con Pandas, puede fusionar, unir y concatenar sus conjuntos de datos, lo que le permite unificar y comprender mejor sus datos a medida que los analiza.

En este tutorial, aprenderá cómo y cuándo combinar sus datos en pandas con:
- merge() para combinar datos en columnas o índices comunes
- join() para combinar datos en una columna clave o un índice
- concat() para combinar DataFrames en filas o columnas

merge(): Combinación de datos en columnas o índices comunes 🔗
La primera técnica que aprenderá es merge(). Puede utilizarla merge() siempre que desee una funcionalidad similar a las operaciones de unión de una base de datos. Es la más flexible de las tres operaciones que aprenderá.

Cuando desea combinar objetos de datos en función de una o más claves, de forma similar a lo que haría en una base de datos relacional, esta merge() es la herramienta que necesita. Más específicamente, merge() es más útil cuando desea combinar filas que comparten datos.

Puede lograr uniones de varios a uno y de varios a varios con merge(). En una unión de varios a uno, uno de sus conjuntos de datos tendrá muchas filas en la columna de combinación que repiten los mismos valores. Por ejemplo, los valores podrían ser 1, 1, 3, 5 y 5. Al mismo tiempo, la columna de combinación en el otro conjunto de datos no tendrá valores repetidos. Tome 1, 3 y 5 como ejemplo.

En una combinación de varios a varios, ambas columnas fusionadas tendrán valores repetidos. Estas combinaciones son más complejas y dan como resultado el producto cartesiano de las filas unidas. Esto significa que, después de la fusión, tendrás todas las combinaciones de filas que comparten el mismo valor en la columna clave.

Lo que hace que sea merge() tan flexible es la gran cantidad de opciones para definir el comportamiento de la fusión. Si bien la lista puede parecer abrumadora, con la práctica podrá fusionar de manera experta conjuntos de datos de todo tipo.

join(): Combinación de datos en una columna clave o un índice 🔍
El método .join() se usa para combinar dos DataFrames en base a sus índices. Es una forma conveniente de hacer uniones tipo SQL utilizando los índices de los DataFrames.

concat(): Combinación de datos en filas o columnas ➕
La función concat() se usa para concatenar dos o más DataFrames a lo largo de un eje específico (filas o columnas).

In [5]:
import pandas as pd
climate_temp = pd.read_csv("https://raw.githubusercontent.com/gonzalezulises/detodounpoco/main/climate_temp.csv")
climate_precip = pd.read_csv("https://raw.githubusercontent.com/gonzalezulises/detodounpoco/main/climate_precip.csv")

In [49]:
climate_temp.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 127020 entries, 0 to 127019
Data columns (total 21 columns):
 #   Column           Non-Null Count   Dtype 
---  ------           --------------   ----- 
 0   STATION          127020 non-null  object
 1   STATION_NAME     127020 non-null  object
 2   ELEVATION        127020 non-null  object
 3   LATITUDE         127020 non-null  object
 4   LONGITUDE        127020 non-null  object
 5   DATE             127020 non-null  int64 
 6   DLY-CLDD-BASE45  127020 non-null  int64 
 7   DLY-CLDD-BASE50  127020 non-null  int64 
 8   DLY-CLDD-BASE55  127020 non-null  int64 
 9   DLY-CLDD-BASE57  127020 non-null  int64 
 10  DLY-CLDD-BASE60  127020 non-null  int64 
 11  DLY-CLDD-NORMAL  127020 non-null  int64 
 12  DLY-CLDD-BASE70  127020 non-null  int64 
 13  DLY-CLDD-BASE72  127020 non-null  int64 
 14  DLY-HTDD-BASE40  127020 non-null  int64 
 15  DLY-HTDD-BASE45  127020 non-null  int64 
 16  DLY-HTDD-BASE50  127020 non-null  int64 
 17  DLY-HTDD-B

In [6]:
climate_temp.head()

Unnamed: 0,STATION,STATION_NAME,ELEVATION,LATITUDE,LONGITUDE,DATE,DLY-CLDD-BASE45,DLY-CLDD-BASE50,DLY-CLDD-BASE55,DLY-CLDD-BASE57,...,DLY-CLDD-NORMAL,DLY-CLDD-BASE70,DLY-CLDD-BASE72,DLY-HTDD-BASE40,DLY-HTDD-BASE45,DLY-HTDD-BASE50,DLY-HTDD-BASE55,DLY-HTDD-BASE57,DLY-HTDD-BASE60,DLY-HTDD-NORMAL
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100101,6,2,-7777,-7777,...,0,0,0,-7777,1,2,6,7,10,15
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100102,6,2,1,-7777,...,0,0,0,-7777,1,2,6,7,10,15
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100103,6,2,1,-7777,...,0,0,0,-7777,1,2,5,7,10,15
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100104,6,2,1,-7777,...,0,0,0,-7777,1,2,5,7,10,15
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100105,6,2,1,-7777,...,0,0,0,-7777,-7777,2,5,7,10,15


In [47]:
climate_precip.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 151110 entries, 0 to 151109
Data columns (total 29 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   STATION                  151110 non-null  object 
 1   STATION_NAME             151110 non-null  object 
 2   DATE                     151110 non-null  int64  
 3   DLY-PRCP-25PCTL          151110 non-null  float64
 4   DLY-SNWD-25PCTL          151110 non-null  int64  
 5   DLY-SNOW-25PCTL          151110 non-null  float64
 6   DLY-PRCP-50PCTL          151110 non-null  float64
 7   DLY-SNWD-50PCTL          151110 non-null  int64  
 8   DLY-SNOW-50PCTL          151110 non-null  float64
 9   DLY-PRCP-75PCTL          151110 non-null  float64
 10  DLY-SNWD-75PCTL          151110 non-null  int64  
 11  DLY-SNOW-75PCTL          151110 non-null  float64
 12  MTD-PRCP-NORMAL          151110 non-null  float64
 13  MTD-SNOW-NORMAL          151110 non-null  float64
 14  YTD-

In [7]:
climate_precip.head()

Unnamed: 0,STATION,STATION_NAME,DATE,DLY-PRCP-25PCTL,DLY-SNWD-25PCTL,DLY-SNOW-25PCTL,DLY-PRCP-50PCTL,DLY-SNWD-50PCTL,DLY-SNOW-50PCTL,DLY-PRCP-75PCTL,...,DLY-PRCP-PCTALL-GE100HI,DLY-SNWD-PCTALL-GE001WI,DLY-SNWD-PCTALL-GE010WI,DLY-SNWD-PCTALL-GE003WI,DLY-SNWD-PCTALL-GE005WI,DLY-SNOW-PCTALL-GE001TI,DLY-SNOW-PCTALL-GE010TI,DLY-SNOW-PCTALL-GE100TI,DLY-SNOW-PCTALL-GE030TI,DLY-SNOW-PCTALL-GE050TI
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100101,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100102,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100103,-6.66,-666,-66.6,-6.66,-666,-66.6,-6.66,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100104,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,3,0,0,0,0,0,0,0,0,0
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,20100105,-6.66,-9999,-9999.0,-6.66,-9999,-9999.0,-6.66,...,3,0,0,0,0,0,0,0,0,0


In [8]:
climate_precip.shape

(151110, 29)

In [9]:
#aplica shape a ambos data frames

# Inner Join

Se refiere a la operación de unión de datos entre dos DataFrames basada en una o más columnas comunes.

In [15]:
inner_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"])

In [17]:
inner_merged.shape

(123005, 48)

In [34]:
inner_merged.head()

Unnamed: 0,STATION,STATION_NAME_x,ELEVATION,LATITUDE,LONGITUDE,DATE,DLY-CLDD-BASE45,DLY-CLDD-BASE50,DLY-CLDD-BASE55,DLY-CLDD-BASE57,...,DLY-PRCP-PCTALL-GE100HI,DLY-SNWD-PCTALL-GE001WI,DLY-SNWD-PCTALL-GE010WI,DLY-SNWD-PCTALL-GE003WI,DLY-SNWD-PCTALL-GE005WI,DLY-SNOW-PCTALL-GE001TI,DLY-SNOW-PCTALL-GE010TI,DLY-SNOW-PCTALL-GE100TI,DLY-SNOW-PCTALL-GE030TI,DLY-SNOW-PCTALL-GE050TI
0,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100101,6,2,-7777,-7777,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
1,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100102,6,2,1,-7777,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
2,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100103,6,2,1,-7777,...,3,-9999,0,-9999,-9999,-9999,-9999,0,-9999,-9999
3,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100104,6,2,1,-7777,...,3,0,0,0,0,0,0,0,0,0
4,GHCND:USC00049099,TWENTYNINE PALMS CA US,602,34.12806,-116.03694,20100105,6,2,1,-7777,...,3,0,0,0,0,0,0,0,0,0


# Outer Join

Si una fila no tiene coincidencia en el otro DataFrame basada en la columna clave, entonces no perderás la fila como sucede en un inner join. En su lugar, la fila estará en el DataFrame fusionado, con valores NaN llenados donde sea apropiado.

In [28]:
outer_merged = pd.merge(climate_temp, climate_precip, how = "outer", on=["STATION", "DATE"])
outer_merged.shape

(155125, 48)

# Left Join

En este ejemplo, especificarás un left join, también conocido como left outer join, con el parámetro how. Usar un left outer join dejará tu nuevo DataFrame fusionado con todas las filas del DataFrame izquierdo, mientras se descartan las filas del DataFrame derecho que no tienen una coincidencia en la columna clave del DataFrame izquierdo.


In [32]:
left_merged = pd.merge(climate_temp, climate_precip,how="left", on=["STATION", "DATE"])
left_merged.shape

(127020, 48)

# Right Join

El right join, o right outer join, es la versión espejo del left join. Con este join, se retendrán todas las filas del DataFrame derecho, mientras que las filas del DataFrame izquierdo sin coincidencia en la columna clave del DataFrame derecho serán descartadas.

In [37]:
right_merged = pd.merge(climate_temp, climate_precip,how="right", on=["STATION", "DATE"])
right_merged.shape

(151110, 48)

# pandas .join(): Combinando datos en una columna o índice

Mientras merge() es una función de módulo, .join() es un método de instancia que pertenece a tu DataFrame. Esto te permite especificar solo un DataFrame, que se unirá al DataFrame en el que llamas a .join().

Bajo la superficie, .join() utiliza merge(), pero proporciona una forma más eficiente de unir DataFrames que una llamada completamente especificada a merge(). Antes de explorar las opciones disponibles, echemos un vistazo a este breve ejemplo:

In [43]:
climate_precip.join(climate_temp, lsuffix="_left", rsuffix="_right").shape


(151110, 50)

# ¿Cómo Usar .join()?

Por defecto, .join() intentará hacer un left join en los índices. Si quieres unir en columnas como lo harías con merge(), entonces necesitarás establecer las columnas como índices.

Al igual que merge(), .join() tiene algunos parámetros que te dan más flexibilidad en tus joins. Sin embargo, con .join(), la lista de parámetros es relativamente corta:

- other es el único parámetro requerido. Define el otro DataFrame para unir. También puedes especificar una lista de DataFrames aquí, lo que te permite combinar varios conjuntos de datos en una sola llamada a .join().

- on especifica un nombre de columna o índice opcional para el DataFrame izquierdo (como climate_temp en el ejemplo anterior) para unir el índice del otro DataFrame. Si se establece en None, que es el valor por defecto, obtendrás un join de índice a índice.

- how tiene las mismas opciones que how en merge(). La diferencia es que está basado en índices a menos que también especifiques columnas con on.

- lsuffix y rsuffix son similares a suffixes en merge(). Especifican un sufijo para agregar a las columnas que se superponen, pero no tienen efecto al pasar una lista de otros DataFrames.

- sort puede habilitarse para ordenar el DataFrame resultante por la clave de join.

# Ejercicios

Ejercicio 1: Inner Join
- Realiza un inner join para combinar climate_temp y climate_precip en las columnas "STATION" y "DATE". Luego, verifica el tamaño del DataFrame resultante.

In [54]:
inner_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"], how="inner")
print(inner_merged.shape)


(123005, 48)


Ejercicio 2: Left Join
- Realiza un left join para conservar todas las filas de climate_temp y agregar información de climate_precip donde haya coincidencia en las columnas "STATION" y "DATE". Luego, verifica el tamaño del DataFrame resultante.

In [56]:
left_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"], how="left")
print(left_merged.shape)


(127020, 48)


Ejercicio 3: Right Join
- Realiza un right join para conservar todas las filas de climate_precip y agregar información de climate_temp donde haya coincidencia en las columnas "STATION" y "DATE". Luego, verifica el tamaño del DataFrame resultante.

In [None]:
right_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"], how="right")
print(right_merged.shape)


Ejercicio 4: Outer Join
- Realiza un outer join para combinar todas las filas de climate_temp y climate_precip, conservando todas las filas incluso cuando no haya coincidencias en las columnas "STATION" y "DATE". Luego, verifica el tamaño del DataFrame resultante.

In [None]:
outer_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"], how="outer")
print(outer_merged.shape)


Ejercicio 5: Join con Sufijos
- Realiza un join especificando sufijos para las columnas que se superponen en climate_temp y climate_precip. Utiliza lsuffix="_left" para climate_temp y rsuffix="_right" para climate_precip. Luego, verifica el tamaño del DataFrame resultante.

In [None]:
suffixed_merged = pd.merge(climate_temp, climate_precip, on=["STATION", "DATE"], suffixes=("_left", "_right"))
print(suffixed_merged.shape)
