<a href="https://colab.research.google.com/github/francomanca93/analisis-de-datos/blob/aplicaciones/3-Aplicando-pandas/12_Merge_de_DataFrames.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Merge de DataFrames

Aprenderemos a como unificar dos dataframe utilizamos parámetros en común utilizando la función **merge**.

En general cuando un **cientifico de datos** analiza muchas fuentes de información es ideal unificarlos a través de los parámetros en común. Los conceptos relacionados con merge que se verá en **pandas** funciona exactamente igual en **SQL**

En una base de datos, las tablas están o deben estar correlacionadas con llaves primarias y secundarias.

## Conceptos básicos de Merge

In [1]:
import pandas as pd

Vamos a crear dos dataframe, uno de derecha y otra de izquierda

In [2]:
df_left = pd.DataFrame(
    {'X':['x0','x1','x2','x3'],
     'W':['w0','w1','w2','w3'],
     'Y':['y0','y1','y2','y3'],
     'Mix':['y2','y3','a2','a3']},
     index =[0,1,2,3])
df_left

Unnamed: 0,X,W,Y,Mix
0,x0,w0,y0,y2
1,x1,w1,y1,y3
2,x2,w2,y2,a2
3,x3,w3,y3,a3


In [4]:
df_right = pd.DataFrame(
    {'Z':['z2','z3','z4','z5'],
     'A':['a2','a3','a4','a5'],
     'Y':['y2','y3','y4','y5']},
    index = [2,3,4,5])
df_right

Unnamed: 0,Z,A,Y
2,z2,a2,y2
3,z3,a3,y3
4,z4,a4,y4
5,z5,a5,y5


En estos dataframe creados se puede observar que tienen un parametro en común, Y, esto es importante, veamos porque. Podemos unir los dos dataframe a través de la función merge.

In [5]:
pd.merge(df_left, df_right)

Unnamed: 0,X,W,Y,Mix,Z,A
0,x2,w2,y2,a2,z2,a2
1,x3,w3,y3,a3,z3,a3


La unión se esta haciendo en función del parámetro Y y de los datos en común de ambos dataframe. 

Con esto, en general siempre es bueno especificar el tipo de unión que se hará de la siguiente manera, y sabiendo esto podemos hacer otros tipos de merge entre dataframes.

In [6]:
pd.merge(df_left, df_right, how='inner', on='Y')

Unnamed: 0,X,W,Y,Mix,Z,A
0,x2,w2,y2,a2,z2,a2
1,x3,w3,y3,a3,z3,a3


Ahora si quisieramos unificar por derecha con la columna Mix y por izquierda a través de la columna Y, lo hariamos de la siguiente manera.

In [7]:
pd.merge(df_left, df_right, how='inner', left_on='Mix', right_on='Y')

Unnamed: 0,X,W,Y_x,Mix,Z,A,Y_y
0,x0,w0,y0,y2,z2,a2,y2
1,x1,w1,y1,y3,z3,a3,y3


Ahora si quisieramos unificar por derecha con la columna Mix y por izquierda a través de la columna A, lo hariamos de la siguiente manera.

In [8]:
pd.merge(df_left, df_right, how='inner', left_on='Mix', right_on='A')

Unnamed: 0,X,W,Y_x,Mix,Z,A,Y_y
0,x2,w2,y2,a2,z2,a2,y2
1,x3,w3,y3,a3,z3,a3,y3


## Merge en profundidad.

¿Cuantos tipos de merge podemos tener? Eso lo podemos ver en la siguiente imagen:


![](http://www.datasciencemadesimple.com/wp-content/uploads/2017/09/join-or-merge-in-python-pandas-1.png)

Definamos nuevamente nuestroa dataframes y juguemos con ellos:

In [9]:
df_left = pd.DataFrame(
    {'X':['x0','x1','x2','x3'],
     'W':['w0','w1','w2','w3'],
     'Y':['y0','y1','y2','y3']},
     index =[0,1,2,3])
df_left

Unnamed: 0,X,W,Y
0,x0,w0,y0
1,x1,w1,y1
2,x2,w2,y2
3,x3,w3,y3


In [10]:
df_right = pd.DataFrame(
    {'Z':['z2','z3','z4','z5'],
     'A':['a2','a3','a4','a5'],
     'Y':['y2','y3','y4','y5']},
    index = [2,3,4,5])
df_right

Unnamed: 0,Z,A,Y
2,z2,a2,y2
3,z3,a3,y3
4,z4,a4,y4
5,z5,a5,y5


### Inner

Union de los dos dataframes con las variables que tienen en común unicamente

In [14]:
pd.merge(df_left, df_right, how='inner', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x2,w2,y2,z2,a2
1,x3,w3,y3,z3,a3


### Left

Union de los dos dataframes con las todas variables del dataframe de la derecha y los datos en común del dataframe de la izquierda.

In [15]:
pd.merge(df_left, df_right, how='left', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x0,w0,y0,,
1,x1,w1,y1,,
2,x2,w2,y2,z2,a2
3,x3,w3,y3,z3,a3


### Right

Union de los dos dataframes con las todas variables del dataframe de la izquierda y los datos en común del dataframe de la derecha.

In [16]:
pd.merge(df_left, df_right, how='right', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x2,w2,y2,z2,a2
1,x3,w3,y3,z3,a3
2,,,y4,z4,a4
3,,,y5,z5,a5


### Outer

Si quiero mantener TODOS los parametros, tanto de izquierda como de derecha lo hacemos con outer.

In [17]:
pd.merge(df_left, df_right, how='outer', on='Y')

Unnamed: 0,X,W,Y,Z,A
0,x0,w0,y0,,
1,x1,w1,y1,,
2,x2,w2,y2,z2,a2
3,x3,w3,y3,z3,a3
4,,,y4,z4,a4
5,,,y5,z5,a5


Cuando no tenemos registros de datos en el merge de los dataframe, pandas los completa con variables no numericas **NaN**

¿Como podemos hacer merge sabiendo que tenemos dos o mas columnas en comun y las queremos tomar como referencia? Redefinamos nuestro dataframe de izquierda.

In [18]:
df_left = pd.DataFrame(
    {'X':['x0','x1','x2','x3'],
     'W':['w0','w1','w2','w3'],
     'Y':['y0','y1','y2','y3'],
     'A':['a0','a1','a2','a3']})
df_left

Unnamed: 0,X,W,Y,A
0,x0,w0,y0,a0
1,x1,w1,y1,a1
2,x2,w2,y2,a2
3,x3,w3,y3,a3


In [19]:
df_right

Unnamed: 0,Z,A,Y
2,z2,a2,y2
3,z3,a3,y3
4,z4,a4,y4
5,z5,a5,y5


Vamos a hacer el merge, pero ahora especificamos la lista de las columnas donde compatiremos nuestra union

In [20]:
pd.merge(df_left, df_right, how='outer', on=['Y', 'A'])

Unnamed: 0,X,W,Y,A,Z
0,x0,w0,y0,a0,
1,x1,w1,y1,a1,
2,x2,w2,y2,a2,z2
3,x3,w3,y3,a3,z3
4,,,y4,a4,z4
5,,,y5,a5,z5


Si no especificamos las columnas de unión por defecto tomas a las que son comunes, pero esto es **mala práctica**.

In [21]:
pd.merge(df_left, df_right, how='outer')

Unnamed: 0,X,W,Y,A,Z
0,x0,w0,y0,a0,
1,x1,w1,y1,a1,
2,x2,w2,y2,a2,z2
3,x3,w3,y3,a3,z3
4,,,y4,a4,z4
5,,,y5,a5,z5


Ahora si espeficicamos una columna, pero hay datos en ambos dataframe que se comparten aparecerán dos **label** diferentes como se ve:

In [22]:
pd.merge(df_left, df_right, how='outer', on= 'A')

Unnamed: 0,X,W,Y_x,A,Z,Y_y
0,x0,w0,y0,a0,,
1,x1,w1,y1,a1,,
2,x2,w2,y2,a2,z2,y2
3,x3,w3,y3,a3,z3,y3
4,,,,a4,z4,y4
5,,,,a5,z5,y5


Podemos cambiarle el sufijo a estos dos **label** diferentes creados de la siguiente manera:

In [23]:
pd.merge(df_left, df_right, how='outer', on= 'A', suffixes=['_left', '_right'])

Unnamed: 0,X,W,Y_left,A,Z,Y_right
0,x0,w0,y0,a0,,
1,x1,w1,y1,a1,,
2,x2,w2,y2,a2,z2,y2
3,x3,w3,y3,a3,z3,y3
4,,,,a4,z4,y4
5,,,,a5,z5,y5
