# Combinando dataframes

La habilidad de combinar dos o más _dataframes_ (similar a las instrucciones tipo _join_ en las bases de datos) es muy importante para el análisis cuando los datos no se encuentran desde el principio en una tabla. Esto se hace, en __Pandas__ con el comando `merge()`.

Para desarrollar algunos ejemplos declaramos dos _dataframes_:

In [1]:
import pandas as pd

df_a = pd.DataFrame({'x1':['A','B','C'], 'x2':[1,2,3]})
df_a

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3


In [2]:
df_b = pd.DataFrame({'x1':['A','B','D'], 'x3':[True, False, True]})
df_b

Unnamed: 0,x1,x3
0,A,True
1,B,False
2,D,True


Para controlar que columnas será comparada para hacer el `merge` se utiliza el parámetro opcional `on=`:


In [3]:
pd.merge(df_a, df_b, on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,True
1,B,2,False


### Tipos de operación para dataframes

Al igual que en los sistemas de bases de datos existen cuatro lógicas para juntar dos _dataframes_:

* Las primeras dos `left` y `right` indican cual tabla va determinar los elementos que existen. 

Con `left` manda la primera tabla. Así las __lineas__ no existentes en esta tabla desaparecen y cuando falta un valor se rellenan con `NaN`:

In [4]:
pd.merge(df_a, df_b, how='left', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,True
1,B,2,False
2,C,3,


Con `right` las lineas están determinadas por la segunda tabla, 

In [5]:
pd.merge(df_a, df_b, how='right', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1.0,True
1,B,2.0,False
2,D,,True


* La tercera y cuarta son `inner` y `outer`. 

Con `inner` solo mantenemos las lineas que tienen valores para todas las columnas.

In [6]:
pd.merge(df_a, df_b, how='inner', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1,True
1,B,2,False


Mientras que con `outer` se mantienen todas las lineas:

In [7]:
pd.merge(df_a, df_b, how='outer', on='x1')

Unnamed: 0,x1,x2,x3
0,A,1.0,True
1,B,2.0,False
2,C,3.0,
3,D,,True


Como complemento, si trabajamos con dos _dataframes_ donde nuestras columnas tienen nombres distintos podemos usar las variables `left_on` y `right_on` en lugar de `on`.

### Filtrando dataframes con otros

Para filtrar un _dataframe_ usando una columna de otro _dataframe_ usamos el método `isin()` de la siguiente manera:

In [8]:
df_a[df_a.x1.isin(df_b.x1)]

Unnamed: 0,x1,x2
0,A,1
1,B,2


Para buscar los que no existen podemos usar simplemente la negación del anterior:


In [9]:
df_a[~df_a.x1.isin(df_b.x1)]

Unnamed: 0,x1,x2
2,C,3


### Unión por varias columnas:

In [10]:
df_y = pd.DataFrame({'x1':['A','B','C'], 'x2':[1,2,3]})
df_y

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3


In [11]:
df_z = pd.DataFrame({'x1':['B','C','D'], 'x2':[2,3,4]})
df_z

Unnamed: 0,x1,x2
0,B,2
1,C,3
2,D,4


In [12]:
pd.merge(df_y, df_z)

Unnamed: 0,x1,x2
0,B,2
1,C,3


In [13]:
pd.merge(df_y, df_z, how='outer')

Unnamed: 0,x1,x2
0,A,1
1,B,2
2,C,3
3,D,4
