# Combinación de dataframes

## Operación merge

Cuando la información está distribuía en varios dataframes, antes de proceder al análisis es necesario combinarlos para crear nuevos dataframes con toda la información necesaria. Existen varias herramientas en Pandas para combinar DataFrames. Veamos algunas de ellas junto con algunos ejemplos ilustrativos de su uso.

In [1]:
import pandas as pd     # importamos el módulo pandas

import matplotlib.pyplot as plt    # para visualización
%matplotlib inline

La función `pd.merge` permite combinar las filas de dos dataframes en función del valor de una o varias columnas. Se trata de la operación `join` al estilo del álgebra relacional. Las columnas de combinación se indican mediante una lista en el argumento `on` de la función. El argumento `how` de la función `pd.merge` permite indicar el tipo de combinación que queremos hacer (`left`, `right`, `outer` o `inner`). El resultado es un nuevo dataframe.

    * interno (inner), 
    * externo (outer), 
    * cruzado(left, right)
    
Supongamos que por un lado tenemos información de la cantidad de producción de ciertos productos en distintos paises européos, y por otro lado la información de esos productos. Los datos se muestran en dos dataframes t1 y t2.

In [6]:
d1 ={'País' : ['Estonia','Estonia', 'Ireland', 'Spain'],
     'Cantidad' : [  8.4,  6.7 ,    227,  58.9 ] , 
     'Producto' : ['A', 'B', 'A', 'Z'] }
     
d2 ={'Producto' : ['A', 'B', 'C'],
     'Descripción' : [  'Leche',  'Cereales',   'Aceite' ] }
    

In [7]:
t1 = pd.DataFrame( d1 )
t1

Unnamed: 0,País,Cantidad,Producto
0,Estonia,8.4,A
1,Estonia,6.7,B
2,Ireland,227.0,A
3,Spain,58.9,Z


In [8]:
t2 = pd.DataFrame( d2 )
t2

Unnamed: 0,Producto,Descripción
0,A,Leche
1,B,Cereales
2,C,Aceite


La función `pd.merge` permite combinar los dataframes `t1` y `t2`  usando como campos de combinación la columna `Producto`. Veamos ejemplos con distintas opciones:

In [9]:
result = pd.merge(t1, t2, on = ['Producto'])               
result

Unnamed: 0,País,Cantidad,Producto,Descripción
0,Estonia,8.4,A,Leche
1,Ireland,227.0,A,Leche
2,Estonia,6.7,B,Cereales


Por defecto la función `pd.merge` realiza la operación `inner`. La opción `inner` combina los dataframes devolviendo únicamente aquellas filas que tienen valores idénticos en las columnas que se comparan.
En el ejemplo anterior, podemos observar que desaparecen las filas donde el valor de la columna `Producto` tiene valores `C` y `Z`.

La opción `left` combina dos dataframes devolviendo aquellas filas que tienen valores idénticos en las columnas que se comparan para unir ambas tablas, y todas las filas del dataframe de la izquierda, tengan o no correspondencia con las filas del dataframe de la derecha. Las que no tengan correspondencia se rellenan con `NaN`.

In [10]:
result = pd.merge(t1, t2, on=['Producto'], how='left')
result

Unnamed: 0,País,Cantidad,Producto,Descripción
0,Estonia,8.4,A,Leche
1,Estonia,6.7,B,Cereales
2,Ireland,227.0,A,Leche
3,Spain,58.9,Z,


En este caso, no existe el valor `Z` en la columna `Producto` del dataframe de la derecha, por lo que el valor de la columna Descripción pasa a ser NaN.

La opción `outer` combina los dos dataframes devolviendo la unión de las filas devueltas por la opción `left` y `right`:

In [11]:
result = pd.merge(t1, t2,  how = 'outer', on=['Producto'])
result

Unnamed: 0,País,Cantidad,Producto,Descripción
0,Estonia,8.4,A,Leche
1,Ireland,227.0,A,Leche
2,Estonia,6.7,B,Cereales
3,Spain,58.9,Z,
4,,,C,Aceite


La función `pd.merge` es muy rica en funcionalidad y los resultados dependen del valor de sus argumentos. Con lo visto anteriormente, podríamos suponer que para poder combinar dos dataframes es necesario que las columnas de combinación se llamen igual, pero en realidad no es así. Existen otros parámetros como `right_on`, `left_on`, `right_index` , `left_index` que se utilizan para indicar cuáles son los campos de combinación en cada una de los dataframes.

# References



* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)
