# Unir o combinar Data Frames

Hay tres maneras de juntar dos Data Frames:

* `concat` (apilar uno al costado del otro o uno arriba de otro)
* `merge` (unión del mismo tipo que en las base de datos del tipo SQL)
* `combine_first` (empalmar los dos juntos, eligiendo valores de uno prevaleciendo sobre el otro)

In [1]:
import numpy as np
import pandas as pd

# Creamos un par de Data Frames sencillos con los que vamos a operar
df1 = pd.DataFrame({'A':[1.0, 2.0, 3.0, 4.0], 'B':[100, 200, 300, 400]}, index=['a', 'b', 'c', 'd'])
df1

Unnamed: 0,A,B
a,1,100
b,2,200
c,3,300
d,4,400


In [2]:
df2 = pd.DataFrame({'B':[400, 300, 200, 100],'C':[10, 20, 30, 40], 'D':[0.1, 0.2, 0.3, 0.4]}, index=['c', 'd', 'e', 'f'])
df2

Unnamed: 0,B,C,D
c,400,10,0.1
d,300,20,0.2
e,200,30,0.3
f,100,40,0.4


## La concatenación es generalmente la mejor opción

In [3]:
df_a = pd.concat([df1, df2], axis=0)
df_a

Unnamed: 0,A,B,C,D
a,1.0,100,,
b,2.0,200,,
c,3.0,300,,
d,4.0,400,,
c,,400,10.0,0.1
d,,300,20.0,0.2
e,,200,30.0,0.3
f,,100,40.0,0.4


## `merge` actuando sobre índices (filas)

In [4]:
df_new1 = pd.merge(left=df1, right=df2, how='left', left_index=True, right_index=True)
df_new1

Unnamed: 0,A,B_x,B_y,C,D
a,1,100,,,
b,2,200,,,
c,3,300,400.0,10.0,0.1
d,4,400,300.0,20.0,0.2


In [5]:
df_new2 = pd.merge(left=df1, right=df2, how='right', left_index=True, right_index=True)
df_new2

Unnamed: 0,A,B_x,B_y,C,D
c,3.0,300.0,400,10,0.1
d,4.0,400.0,300,20,0.2
e,,,200,30,0.3
f,,,100,40,0.4


In [6]:
df_new3 = pd.merge(left=df1, right=df2, how='outer', left_index=True, right_index=True)
df_new3

Unnamed: 0,A,B_x,B_y,C,D
a,1.0,100.0,,,
b,2.0,200.0,,,
c,3.0,300.0,400.0,10.0,0.1
d,4.0,400.0,300.0,20.0,0.2
e,,,200.0,30.0,0.3
f,,,100.0,40.0,0.4


In [7]:
df_new4 = pd.merge(left=df1, right=df2, how='inner', left_index=True, right_index=True)
df_new4

Unnamed: 0,A,B_x,B_y,C,D
c,3,300,400,10,0.1
d,4,400,300,20,0.2


El modificador `how` puede tomar los valores:
* `'left'`: toma los índices del Data Frame de la izquierda.
* `'right'`: toma los índices del Data Frame de la derecha.
* `'outer'`: toma la unión de los índices de los dos Data Frames.
* `'inner'`: toma la intersección de los índices de los dos Data Frames.

# `join` actuando sobre filas (índices)

In [22]:
df3 = pd.DataFrame({'A':[1.0, 2.0, 3.0, 4.0], 'B':[100, 200, 300, 400]}, index=['a', 'b', 'c', 'd'])
df3

Unnamed: 0,A,B
a,1,100
b,2,200
c,3,300
d,4,400


In [23]:
df4 = pd.DataFrame({'C':[400, 300, 200, 100],'D':[10, 20, 30, 40], 'E':[0.1, 0.2, 0.3, 0.4]}, index=['a', 'b', 'c', 'd'])
df4

Unnamed: 0,C,D,E
a,400,10,0.1
b,300,20,0.2
c,200,30,0.3
d,100,40,0.4


In [26]:
df_new5 = df3.join(df4)
df_new5

Unnamed: 0,A,B,C,D,E
a,1,100,400,10,0.1
b,2,200,300,20,0.2
c,3,300,200,30,0.3
d,4,400,100,40,0.4


**Nota:**

**`join`** une Data Frames basado en índices por defecto. 

**`merge`** une Data Frames basándose en las columnas comunes por defecto.