# Uniones de tablas con Python Pandas

Pandas tiene una amplia documentación:
    
https://pandas.pydata.org/pandas-docs/stable/merging.html
    
En este notebook vamos a sintetizar y analizar estas uniones

<img src="https://i.stack.imgur.com/1UKp7.png" width="50%" height="50%">

# Uniones horizontales

## Uniones con índices

Un índice en pandas es un array que define el eje de registros del data frame. Creamos conjuntos de datos ilustrativos que uniremos por un campo fecha.

In [1]:
import pandas as pd
import numpy as np
ejemplo = { "variable1": [10, 20, 30, 40],
            "variable2": [100, 200, 300, 400]
}
anio=["2011", "2012", "2013", "2014"]
#Indexamos por año
df1 = pd.DataFrame(ejemplo,index=anio)
df1

Unnamed: 0,variable1,variable2
2011,10,100
2012,20,200
2013,30,300
2014,40,400


In [4]:
ejemplo = { "variable1": [50, 60, 70, 80],
            "variable3": [5000, 6000, 7000, 8000]
}
anio=["2013", "2014", "2015", "2016"]
df2 = pd.DataFrame(ejemplo,index=anio)
df2

Unnamed: 0,variable1,variable3
2013,50,5000
2014,60,6000
2015,70,7000
2016,80,8000


La estructura de una join es:
    
    pd.merge(left, right, how='inner', on=None, left_on=None, right_on=None,
         left_index=False, right_index=False, sort=True,
         suffixes=('_x', '_y'), copy=True, indicator=False,
         validate=None)

Left join:

In [24]:
left_join = pd.merge(df1, df2, how='left', on=None, left_on=None, right_on=None,
         left_index=True, right_index=True, sort=True)
left_join

Unnamed: 0,variable1_x,variable2,variable1_y,variable3
2011,10,100,,
2012,20,200,,
2013,30,300,50.0,5000.0
2014,40,400,60.0,6000.0


Une todas las columnas del data frame de la izquierda con el data frame de la derecha, en el caso que coincidan los nombres de las columnas añade los sufijos x e y (izquierda y derecha)

Outer join:

In [26]:
outer_join = pd.merge(df1, df2, how='outer', on=None, left_on=None, right_on=None,
         left_index=True, right_index=True, sort=True)
outer_join

Unnamed: 0,variable1_x,variable2,variable1_y,variable3
2011,10.0,100.0,,
2012,20.0,200.0,,
2013,30.0,300.0,50.0,5000.0
2014,40.0,400.0,60.0,6000.0
2015,,,70.0,7000.0
2016,,,80.0,8000.0


Right join:

In [29]:
right_join = pd.merge(df1, df2, how='right', on=None, left_on=None, right_on=None,
         left_index=True, right_index=True, sort=True)
right_join

Unnamed: 0,variable1_x,variable2,variable1_y,variable3
2013,30.0,300.0,50,5000
2014,40.0,400.0,60,6000
2015,,,70,7000
2016,,,80,8000


Inner_join:

In [30]:
inner_join = pd.merge(df1, df2, how='inner', on=None, left_on=None, right_on=None,
         left_index=True, right_index=True, sort=True)
inner_join

Unnamed: 0,variable1_x,variable2,variable1_y,variable3
2013,30,300,50,5000
2014,40,400,60,6000


## Uniones sin índices

Creamos los data frames necesarios para ilustrar el ejemplo:

In [3]:
ejemplo = { "variable1": [10, 20, 30, 40],
            "variable2": [100, 200, 300, 400],
            "anio":      ["2011", "2012", "2013", "2014"]
}

df1 = pd.DataFrame(ejemplo)

ejemplo = { "variable1": [50, 60, 70, 80],
            "variable3": [5000, 6000, 7000, 8000],
            "anio":      ["2013", "2014", "2015", "2016"]
}

df2 = pd.DataFrame(ejemplo)

Vemos de pasada todas las posibles uniones

In [4]:
left_join = pd.merge(df1, df2, how='left', on='anio')
outer_join = pd.merge(df1, df2, how='outer', left_on=df1['anio'], right_on=df2['anio'])
right_join = pd.merge(df1, df2, how='right', on='anio')

Uniones de tablas por campo con distinto nombre.

In [5]:
#Renombramos la variable anio
df2 = df2.rename(columns={"anio": "fecha"})
inner_join = pd.merge(df1, df2, how='inner', left_on='anio', right_on='fecha')
inner_join

Unnamed: 0,variable1_x,variable2,anio,variable1_y,variable3,fecha
0,30,300,2013,50,5000,2013
1,40,400,2014,60,6000,2014


# Uniones verticales

Concatenar data frames mediante <code>concat</code> todas las columnas:

In [28]:
concatenar = pd.concat([df1,df2])
concatenar

Unnamed: 0,variable1,variable2,variable3
2011,10,100.0,
2012,20,200.0,
2013,30,300.0,
2014,40,400.0,
2013,50,,5000.0
2014,60,,6000.0
2015,70,,7000.0
2016,80,,8000.0


Concatenar data frames solo con columnas coincidentes:

In [36]:
concatenar_inner = pd.concat([df1,df2],join="inner")
concatenar_inner

Unnamed: 0,variable1
2011,10
2012,20
2013,30
2014,40
2013,50
2014,60
2015,70
2016,80


In [37]:
concatenar_outer = pd.concat([df1,df2],join="outer")
concatenar_outer

Unnamed: 0,variable1,variable2,variable3
2011,10,100.0,
2012,20,200.0,
2013,30,300.0,
2014,40,400.0,
2013,50,,5000.0
2014,60,,6000.0
2015,70,,7000.0
2016,80,,8000.0
