# Fusionar DataFrames con merge()

En esta lección nos enfocaremos en cómo combinar diferentes DataFrames usando Pandas. Para eso vamos a aprender a utilizar funciones esenciales como **merge()**, **join()**, y **concatenate()**, cada una útil para distintos escenarios de combinación de datos.

En esta lección aprenderemos todo sobre `merge()`, y en las proximas avanzaremos con el resto.

Para poner a `merge()` en práctica, vamos a trabajar con estos datos iniciales, donde tenemos dos dataframes muy simples, pero que comparten cierta información.

In [1]:
import pandas as pd

In [2]:
df1 = pd.DataFrame({'ID': [1, 2, 3],
                    'Nombre': ['Ana', 'Luis', 'Carlos']})
df2 = pd.DataFrame({'ID': [1, 2, 4],
                    'Edad': [25, 30, 22]})

In [3]:
df1

Unnamed: 0,ID,Nombre
0,1,Ana
1,2,Luis
2,3,Carlos


In [4]:
df2

Unnamed: 0,ID,Edad
0,1,25
1,2,30
2,4,22


La función `merge()` permite combinar DataFrames **basándose en valores comunes** de una o más columnas.

Muchas veces va a suceder que tus datos van a provenir de diferentes tablas, y que esas tablas proporcionan diferentes datos sobre los mismos elementos. Puedes tener una tabla con los nombres y la información personal de tus clientes y otra tabla separada con los pedidos que esos clientes han realizado.

Imagina que quieres relacionar ambas tablas para luego poder hacer análisis más complejos. Bueno, ahí es donde entra `merge()`, que básicamente va a tomar ambos dataframes, y tu le vas a decir cuál es la **columna en común** que tienen ambos dataframes, para que haga la combinación basándose en esa coincidencia.

In [5]:
df_combinado = pd.merge(df1, df2, on='ID')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Ana,25
1,2,Luis,30


Observa que el dataframe resultante solamente va a incluir las filas en las que encontró coincidencias en los dos dataframes resultantes. Eso es porque `merge()` tiene un parámetro llamado `how`, que por defecto viene cargado con el argumento `inner`, que significa **interno**, y que hace justamente eso, mezclar solamente los registros donde hay datos.

In [6]:
df_combinado = pd.merge(df1, df2, on='ID', how='inner')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Ana,25
1,2,Luis,30


Pero a veces puede que necesites incluir registros aunque no estén completos, y en ese caso puedes modificar el parámetro `how` de tres maneras distintas según el caso (`outer`, `left` ó `right`), y eso es lo que vamos a ver ahora.

`outer` significa **externo**, y con esté modo el DataFrame resultante vas a tener todos los registros de ambos DataFrames originales, pero Pandas va a rellenar los datos faltantes con la sigla **NaN** que significa *número no válido*.

In [7]:
df_combinado = pd.merge(df1, df2, on='ID', how='outer')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Ana,25.0
1,2,Luis,30.0
2,3,Carlos,
3,4,,22.0


`left` significa **izquierda**, y de este modo Pandas va a incluir todos los registros que vienen con el DataFrame de la izquierda (es decir, el primero que ingresaste en `merge()`) y lo va a rellenar con los datos con los que tenga coincidencia en el DataFrame de la derecha. Si no encuentra información, la rellena con **NaN**.

In [8]:
df_combinado = pd.merge(df1, df2, on='ID', how='left')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Ana,25.0
1,2,Luis,30.0
2,3,Carlos,


`right` significa **derecha**, y hace lo contrario de `left`. Garantiza la presencia de todos los registros del segundo DataFrame, los completa con los datos del primero, y si no los encuentra, los rellena con **NaN**.

In [9]:
df_combinado = pd.merge(df1, df2, on='ID', how='right')
df_combinado

Unnamed: 0,ID,Nombre,Edad
0,1,Ana,25
1,2,Luis,30
2,4,,22


Otra posibilidad muy curiosa, es la que nos permite **unir todos los datos** sin dejar nada afuera, pero **manteniendo los índices originales**. Para eso contamos con los parámetros `left_index` y `right_index`:

In [10]:
df_indexado = pd.merge(df1, df2, left_index=True, right_index=True)
df_indexado

Unnamed: 0,ID_x,Nombre,ID_y,Edad
0,1,Ana,1,25
1,2,Luis,2,30
2,3,Carlos,4,22


En este caso simplemente tenemos los DataFrames puestos uno al lado del otro, y cada uno con sus respectivos índices para que se pueda comprender de dónde viene cada dato.

Este ha sido el método `merge()` para fusionar DataFrames, y hemos visto sus parámetros más importantes. Por supuesto puedes usar la ayuda para conocer el resto de sus parámetros.