<!--NAVIGATION-->
<a href="https://colab.research.google.com/github/marcoteran/machinelearning/blob/master/notebooks/00_introtopython/19_artificialintelligence_pandasdfcombination.ipynb" target="_blank"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Abrir en Colab" title="Abrir y ejecutar en Google Colaboratory"></a>

### Ejemplos de código
# Pandas: Combinando DataFrames
## Inteligencia Artificial

**Name:** Marco Teran **E-mail:** marco.tulio.teran@gmail.com,
[Website](http://marcoteran.github.io/),
[Github](https://github.com/marcoteran),
[LinkedIn](https://www.linkedin.com/in/marcoteran/).
___

Hay 3 maneras de combinar DataFrames: 
* Concatenar (concat)
* Fusionar (merge)
* Unir (join)
_______

## DataFrames de ejemplo

In [None]:
import pandas as pd

In [None]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

In [None]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

In [None]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [None]:
df1

In [None]:
df2

In [None]:
df3

## Concatenar (concat)

La concatenación básicamente pega DataFrames, uno después de otro. Hay que tener en cuenta que las dimensiones deben coincidir a lo largo del eje con el que se está concatenando. 

Puede usar ** pd.concat ** y pasar una lista de DataFrames para concatenarlos:

In [None]:
pd.concat([df1,df2,df3])

In [None]:
pd.concat([df1,df2,df3],axis=1)    # axis=1 cooncatena a lo largo de las columnas, llenando las celdas desconocidad con NaN 

_____
## Más DataFrames de ejemplo

In [None]:
izq = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                     'A': ['A0', 'A1', 'A2', 'A3'],
                     'B': ['B0', 'B1', 'B2', 'B3']})
   
der = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                          'C': ['C0', 'C1', 'C2', 'C3'],
                          'D': ['D0', 'D1', 'D2', 'D3']})    

In [None]:
izq

In [None]:
der

___

## Fusionar (merge)

La función ** merge ** permite fusionar DataFrames utilizando una lógica similar a la combinación de Tablas SQL. Por ejemplo:


In [None]:
pd.merge(izq,der, on='key')    

Otro ejemplo más completo:

In [None]:
izq = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
der = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [None]:
izq

In [None]:
der

In [None]:
pd.merge(izq, der, on=['key1', 'key2'])

### Argumento 'how'

El método merge recibe el argumento 'how'. Éste especifica cómo determinar qué claves se incluirán en la tabla resultante. Si una combinación de dichas llaves no aparece en las tablas izquierda o derecha, los valores en la tabla fusionada serán NaN. 

Aquí hay un resumen de las opciones de 'how' y sus nombres equivalentes en SQL:

	PANDAS	SQL					DESCRIPCIÓN
	inner	INNER JOIN			Usa la intersection de las llaves de ambos dataframes * Por defecto
    left	LEFT OUTER JOIN		Sólo usa las llaves del dataframe izquierdo
	right	RIGHT OUTER JOIN	Sólo usa las llaves del dataframe derecho 
	outer	FULL OUTER JOIN		Usa la unión de las llaves de ambos dataframes
	

![alt how](join-or-merge.png "How")

In [None]:
pd.merge(izq, der, how='outer', on=['key1', 'key2'])

In [None]:
pd.merge(izq, der, how='right', on=['key1', 'key2'])

In [None]:
pd.merge(izq, der, how='left', on=['key1', 'key2'])

## Unión (join)

El join es un método para combinar las columnas de dos DataFrames indexados de forma diferente en un solo DataFrame de resultados.

En vez de columnas como en el merge, en el join se utilizan los índices de los DataFrames para hacer la combinación.


In [None]:
izq = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

der = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [None]:
izq

In [None]:
der

In [None]:
izq.join(der)

In [None]:
izq.join(der, how='outer')