Combinar DataFrames con merge()

Acabas de aprender a combinar DataFrames concatenándolos por filas o columnas usando concat().

La concatenación de DataFrames conserva la cantidad total de datos. Por ejemplo, combinar un DataFrame que tiene dos columnas y tres filas con otro DataFrame que tiene las mismas dos columnas y cinco filas da como resultado un DataFrame con dos columnas y ocho filas. El número total de celdas antes y después de la concatenación es dieciséis.

En esta lección, aprenderás a combinar DataFrames utilizando el método merge() de forma que afecte a la cantidad de datos con los que estás trabajando.

Considera el siguiente ejemplo: dos estudiantes de literatura acuerdan que uno escribirá la mitad de la lista de lectura de verano de la pizarra mientras el otro mira YouTube. Después el primero irá a la cafetería, mientras que el segundo copia el resto de la lista. Finalmente, los dos combinarán las listas. ¡Trabajo en equipo! Vamos a ver cómo les fue:

In [None]:
import pandas as pd

first_pupil_df = pd.DataFrame(
    {
        'author': ['Alcott', 'Fitzgerald', 'Steinbeck', 'Twain', 'Hemingway'],
        'title': ['Little Women',
                  'The Great Gatsby',
                  'Of Mice and Men',
                  'The Adventures of Tom Sawyer',
                  'The Old Man and the Sea'
                 ],
    }
)
second_pupil_df = pd.DataFrame(
    {
        'author': ['Steinbeck', 'Twain', 'Hemingway', 'Salinger', 'Hawthorne'],
        'title': ['East of Eden',
                  'The Adventures of Huckleberry Finn',
                  'For Whom the Bell Tolls',
                  'The Catcher in the Rye',
                  'The Scarlett Letter'
                 ],
    }
)

print(first_pupil_df)
print()
print(second_pupil_df)

"""       author                         title
0      Alcott                  Little Women
1  Fitzgerald              The Great Gatsby
2   Steinbeck               Of Mice and Men
3       Twain  The Adventures of Tom Sawyer
4   Hemingway       The Old Man and the Sea

      author                               title
0  Steinbeck                        East of Eden
1      Twain  The Adventures of Huckleberry Finn
2  Hemingway             For Whom the Bell Tolls
3   Salinger              The Catcher in the Rye
4  Hawthorne                 The Scarlett Letter"""



Unión interna

Usemos el método merge() para combinar entradas que tienen los mismos autores. El nombre de la columna en la que se realizará la fusión se pasa al parámetro on=, en este caso, 'author':


In [None]:
both_pupils = first_pupil_df.merge(second_pupil_df, on='author')
print(both_pupils) 


"""      author                       title_x                             title_y
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls
"""

El resultado contiene solo aquellos autores que están presentes en ambos DataFrames originales.

El DataFrame fusionado incluye todas las columnas de los DataFrames originales, pero solo se conservan las filas con autores compartidos. Ya que ambos DataFrames originales tienen una columna llamada 'title', pandas agregó los sufijos _x y _y para diferenciarlas en el DataFrame fusionado. Cabe destacar que el DataFrame fusionado solo tiene 9 celdas, frente a las 20 celdas de los DataFrame originales: ¡la cantidad de datos ha cambiado!

Este modo de fusionar se denomina unión interna (inner merge). Existen otros tipos de fusiones, que pueden especificarse con el parámetro how= de merge(). Pero 'inner' es el argumento por defecto para how=, así que no necesitamos incluirlo arriba.

Unión externa

Una unión externa (outer merge) se diferencia de una unión interna en que todos los valores en la columna especificada se conservan de ambos DataFrames originales, pero el DataFrame fusionado tiene valores ausentes donde no hay ninguna coincidencia. Lo mejor es ilustrar esto con un ejemplo:



In [None]:
both_pupils = first_pupil_df.merge(second_pupil_df, on='author', how='outer')
print(both_pupils)

"""      author                       title_x  \
0      Alcott                  Little Women   
1  Fitzgerald              The Great Gatsby   
2   Steinbeck               Of Mice and Men   
3       Twain  The Adventures of Tom Sawyer   
4   Hemingway       The Old Man and the Sea   
5    Salinger                           NaN   
6   Hawthorne                           NaN   

                              title_y  
0                                 NaN  
1                                 NaN  
2                        East of Eden  
3  The Adventures of Huckleberry Finn  
4             For Whom the Bell Tolls  
5              The Catcher in the Rye  
6                 The Scarlett Letter"""

Hay 7 autores únicos en ambos DataFrames originales, cada uno se representa con una fila en el DataFrame fusionado. Para los autores en el primer DataFrame que no están también en el segundo (es decir, 'Alcott' y 'Fitzgerald'), hay valores NaN en la columna que proviene del segundo DataFrame (es decir, 'title_y'), y viceversa. Además, observa que ahora tenemos 21 celdas de datos.

Unión izquierda

El último tipo de unión que nos gustaría discutir es la unión izquierda (left merge), que podemos realizar pasando how='left' a merge(). En una unión izquierda, todos los valores del DataFrame izquierdo (en el que llamamos merge()) están presentes en el DataFrame fusionado. Los valores del DataFrame derecho (el que pasamos como entrada a merge()) solo se conservan para los valores que coinciden con la columna especificada en el DataFrame izquierdo. Una vez más, se explica mejor con un ejemplo:

In [None]:
both_pupils = first_pupil_df.merge(second_pupil_df, on='author', how='left')
print(both_pupils)

"""      author                       title_x  \
0      Alcott                  Little Women   
1  Fitzgerald              The Great Gatsby   
2   Steinbeck               Of Mice and Men   
3       Twain  The Adventures of Tom Sawyer   
4   Hemingway       The Old Man and the Sea   

                              title_y  
0                                 NaN  
1                                 NaN  
2                        East of Eden  
3  The Adventures of Huckleberry Finn  
4             For Whom the Bell Tolls"""

Como puedes ver, todos los autores y títulos del primer estudiante están en el DataFrame fusionado, pero las filas con 'Salinger' y 'Hawthorne' del segundo estudiante no lo están porque esos autores no aparecen en el DataFrame del primer estudiante.

Esta unión izquierda contiene 15 celdas de datos, que difieren de la cantidad original y las cantidades de cada una de las otras uniones que hicimos.

Ten en cuenta que también existe una unión derecha (right merge, how='right'). Sin embargo, funciona de manera idéntica a una unión izquierda, excepto que el DataFrame combinado conserva todos los valores del DataFrame derecho en vez del izquierdo. Se puede lograr el mismo resultado realizando una unión izquierda y cambiando el orden de los DataFrames.

Aquí tienes un diagrama de Venn que ilustra todas las opciones de fusión que hemos comentado, para que sea aún más fácil de entender:



Tener en cuenta los nombres de las columnas

Hay dos aspectos de todas las uniones realizadas hasta ahora que debemos abordar:

- El DataFrame fusionado tiene los sufijos _x y _y agregados a los nombres de las columnas 'title'.
- La columna en la que realizamos la unión tiene el mismo nombre en ambos DataFrames, 'author'.

Cuando se fusionan DataFrames en pandas, es importante asegurarse de que no hay dos columnas con el mismo nombre. En caso contrario, pandas añadirá automáticamente los sufijos _x y _y. Sin embargo, estos sufijos no son muy descriptivos. Para establecer mejores sufijos, pasa una lista de cadenas de sufijos al parámetro suffixes= en merge():



In [None]:
both_pupils = first_pupil_df.merge(second_pupil_df,
                                   on='author',
                                   suffixes=['_1st_student', '_2nd_student']
                                  )
print(both_pupils)

"""      author             title_1st_student                   title_2nd_student
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls"""

Ahora, los nombres de las columnas indican explícitamente el origen de las mismas. Siempre es una buena práctica usar nombres de columnas descriptivos como estos. Ten en cuenta que la primera cadena en la lista de sufijos se agrega al nombre de la columna del DataFrame izquierdo y la segunda cadena se agrega al DataFrame derecho.

En cuanto al segundo punto, no siempre es el caso de que las columnas que quieres fusionar tengan el mismo nombre. Puedes cambiar sus nombres para que coincidan antes de fusionar, pero esto puede causar confusión.

En cambio, la función merge() tiene los parámetros left_on= y right_on= que puedes usar en lugar de on= si las columnas tienen nombres diferentes. Para ilustrar cómo funciona, vamos a recrear los DataFrames para que uno tenga una columna 'authors' y el otro tenga una columna 'author':

In [None]:
import pandas as pd

first_pupil_df = pd.DataFrame(
    {
        'authors': ['Alcott', 'Fitzgerald', 'Steinbeck', 'Twain', 'Hemingway'],
        'title': ['Little Women',
                  'The Great Gatsby',
                  'Of Mice and Men',
                  'The Adventures of Tom Sawyer',
                  'The Old Man and the Sea'
                 ],
    }
)
second_pupil_df = pd.DataFrame(
    {
        'author': ['Steinbeck', 'Twain', 'Hemingway', 'Salinger', 'Hawthorne'],
        'title': ['East of Eden',
                  'The Adventures of Huckleberry Finn',
                  'For Whom the Bell Tolls',
                  'The Catcher in the Rye',
                  'The Scarlett Letter'
                 ],
    }
)

both_pupils = first_pupil_df.merge(second_pupil_df,
                                   left_on='authors',
                                   right_on='author'
                                  )
print(both_pupils)

"""
     authors                       title_x     author  \
0  Steinbeck               Of Mice and Men  Steinbeck   
1      Twain  The Adventures of Tom Sawyer      Twain   
2  Hemingway       The Old Man and the Sea  Hemingway   

                              title_y  
0                        East of Eden  
1  The Adventures of Huckleberry Finn  
2             For Whom the Bell Tolls"""

Esta vez, Pandas mostrará tanto 'authors' como 'author', pero estarán alineados y bien posicionados, para que puedas entender los resultados y cómo se relacionan entre sí.

El método drop()

Ahora tenemos el resultado de la fusión interna, que contiene alguna información duplicada porque tanto 'author' como 'authors' se conservaron de los DataFrames originales, como vimos anteriormente.

Si queremos eliminar la información duplicada, podemos usar el método drop() con axis='columns' para señalar que queremos eliminar una columna en lugar de una fila:

In [None]:
both_pupils = first_pupil_df.merge(second_pupil_df,
                                   left_on='authors',
                                   right_on='author'
                                  )
print(both_pupils.drop('author', axis='columns'))

"""     authors                       title_x                             title_y
0  Steinbeck               Of Mice and Men                        East of Eden
1      Twain  The Adventures of Tom Sawyer  The Adventures of Huckleberry Finn
2  Hemingway       The Old Man and the Sea             For Whom the Bell Tolls"""

Resumen

- Fusión interna: solo conserva las filas con valores compartidos en la columna especificada de ambos DataFrames originales. Se hace con how='inner' (argumento por defecto).
- Fusión externa: conserva todos los valores de la columna especificada de ambos DataFrames originales, con los valores ausentes donde no haya coincidencia. Se hace con how='outer'.
- Fusión izquierda: conserva todos los valores del DataFrame izquierdo, y los valores del DataFrame derecho solo se conservan para los valores que coinciden con la columna especificada en el DataFrame izquierdo. Se hace con how='left'.
- Fusión derecha: conserva todos los valores del DataFrame derecho, y los valores del DataFrame izquierdo solo se conservan para los valores que coinciden con la columna especificada en el DataFrame derecho. Se hace con how='right'.
- Método drop(): elimina una columna de un DataFrame utilizando el parámetro axis='columns'.

Ahora es tu turno de probar tus habilidades de unión con un nuevo DataFrame en los ejercicios.

Ejercicios

1.

Tenemos dos conjuntos de datos, df_orders y df_members, que se leen en DataFrames en el precódigo.

Cada fila de la tabla df_orders representa un pedido de servicio. La tabla incluye una columna 'user_id' que registra el cliente que ha realizado cada pedido y una columna 'id' que identifica el pedido.

Cada fila de la tabla df_members representa a un cliente e incluye una columna 'id' que identifica al cliente de forma única.

Tienes que fusionar las dos tablas para obtener solo aquellos clientes que realmente hayan realizado un pedido.

- Elegir el tipo de fusión adecuado para la tarea.
- Fusiona df_memberscomo el DataFrame izquierdo, usando la columna user id.
- Fusiona df_orders como el DataFrame correcto, utilizando la columna id de usuario, no el id de pedido.
- Incluye los sufijos '_member' (izquierda) y '_order' (derecha).
- Asigna el resultado de la fusión a una variable llamada df_merged.
- Muestra df_merged.
- No elimines ninguna columna por ahora.

In [None]:
import pandas as pd

df_members = pd.read_csv('/datasets/new_members.csv')
df_orders  = pd.read_csv('/datasets/recent_orders.csv')

df_merged = df_members.merge(df_orders, left_on = 'id', right_on= 'user_id', suffixes=['_member', '_order']) 

print(df_merged)

"""   id_member      username  ...    service_id      order_timestamp
0       9836  watermelon89  ...  XMD8nVShpINn  2021-06-22Z18:32:59
1       9836  watermelon89  ...  PXAQ9MiP7BvW  2021-06-22Z18:32:59
2       9837       SUPERXD  ...  R2GA1xIVXK1o  2021-06-22Z18:39:12
3       9839    NotHotDog2  ...  NvwWjzW7FydE  2021-06-22Z18:36:21
4       9840      starrats  ...  9KyrlovWf2nH  2021-06-22Z18:34:00
5       9841     beat1box2  ...  fCobsButtJD7  2021-06-22Z18:36:55

[6 rows x 7 columns]"""

Explicación paso a paso:

Lectura de archivos CSV: El código comienza leyendo dos archivos CSV usando pd.read_csv(). El archivo new_members.csv se carga en df_members, y el archivo recent_orders.csv se carga en df_orders. Estos archivos contienen información de los miembros (clientes) y los pedidos (órdenes) respectivamente.

Fusión de los DataFrames: La función merge() se usa para fusionar ambos DataFrames en base a una columna común:


- left_on='id': Esta es la columna en df_members que se usará para realizar la fusión (en este caso, la columna que identifica a los miembros).
- right_on='user_id': Esta es la columna en df_orders que se usará para realizar la fusión (la columna que identifica al cliente que ha hecho un pedido).
- suffixes=['_member', '_order']: Si hay columnas con el mismo nombre en ambos DataFrames (como 'id' o 'username', por ejemplo), estos sufijos se añaden a los nombres de las columnas para diferenciarlas: las columnas provenientes de df_members tendrán el sufijo _member y las columnas provenientes de df_orders tendrán el sufijo _order.
- El tipo de fusión predeterminado es inner (intersección), lo que significa que solo se incluirán aquellos registros que tienen coincidencias en ambas tablas.

Resultado de la fusión: El resultado que obtuviste es un DataFrame df_merged con los siguientes 6 registros y 7 columnas:

Ejercicio

2.

Vamos a arreglarlo un poco.

Elimina la columna duplicada (en este caso, 'user_id').
Asigna el resultado de vuelta al DataFrame 'df_merged'.
Muestra el DataFrame fusionado.

In [None]:
import pandas as pd

df_members = pd.read_csv('/datasets/new_members.csv')
df_orders  = pd.read_csv('/datasets/recent_orders.csv')

df_merged = df_members.merge(df_orders,
                             left_on='id',
                             right_on='user_id',
                             suffixes=['_member', '_order'])

df_merged = df_merged.drop('user_id', axis='columns')

print(df_merged) # escribe tu código aquí

"""   id_member      username  ...    service_id      order_timestamp
0       9836  watermelon89  ...  XMD8nVShpINn  2021-06-22Z18:32:59
1       9836  watermelon89  ...  PXAQ9MiP7BvW  2021-06-22Z18:32:59
2       9837       SUPERXD  ...  R2GA1xIVXK1o  2021-06-22Z18:39:12
3       9839    NotHotDog2  ...  NvwWjzW7FydE  2021-06-22Z18:36:21
4       9840      starrats  ...  9KyrlovWf2nH  2021-06-22Z18:34:00
5       9841     beat1box2  ...  fCobsButtJD7  2021-06-22Z18:36:55

[6 rows x 6 columns]"""