In [16]:
import pandas as pd
import numpy as np

# Haciendo un Concat

### Creamos 2 DataFrames de 2 diccionarios

In [4]:
df_1 = pd.DataFrame({ 
    'A': ['A1', 'A2', 'A3', 'A4'],
    'B': ['B1', 'B2', 'B3', 'B4'],
    'C': ['C1', 'C2', 'C3', 'C4'],
    'D': ['D1', 'D2', 'D3', 'D4'],
})
df_1

Unnamed: 0,A,B,C,D
0,A1,B1,C1,D1
1,A2,B2,C2,D2
2,A3,B3,C3,D3
3,A4,B4,C4,D4


In [5]:
df_2 = pd.DataFrame({ 
    'A': ['A5', 'A6', 'A7', 'A8'],
    'B': ['B5', 'B6', 'B7', 'B8'],
    'C': ['C5', 'C6', 'C7', 'C8'],
    'D': ['D5', 'D6', 'D7', 'D8'],
})
df_2

Unnamed: 0,A,B,C,D
0,A5,B5,C5,D5
1,A6,B6,C6,D6
2,A7,B7,C7,D7
3,A8,B8,C8,D8


## Forma más simple de Concatenizar, agrega las filas del segundo DataFrame abajo del otro

In [6]:
pd.concat([df_1, df_2])

Unnamed: 0,A,B,C,D
0,A1,B1,C1,D1
1,A2,B2,C2,D2
2,A3,B3,C3,D3
3,A4,B4,C4,D4
0,A5,B5,C5,D5
1,A6,B6,C6,D6
2,A7,B7,C7,D7
3,A8,B8,C8,D8


## Hacemos que genere sus propios index autoincrementados

In [7]:
pd.concat([df_1, df_2], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A1,B1,C1,D1
1,A2,B2,C2,D2
2,A3,B3,C3,D3
3,A4,B4,C4,D4
4,A5,B5,C5,D5
5,A6,B6,C6,D6
6,A7,B7,C7,D7
7,A8,B8,C8,D8


## Concatenando por las columnas (axis=1), es muy raro concatenar de esta forma

In [8]:
pd.concat([df_1, df_2], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A1,B1,C1,D1,A5,B5,C5,D5
1,A2,B2,C2,D2,A6,B6,C6,D6
2,A3,B3,C3,D3,A7,B7,C7,D7
3,A4,B4,C4,D4,A8,B8,C8,D8


# Usando Merge

In [14]:
izquierda = pd.DataFrame({
    'key': ['k0', 'k1', 'k2', 'k3'],
    'A' : ['A0', 'A1', 'A2', 'A3'],
    'B' : ['B0', 'B1', 'B2', 'B3'],
}) 

izquierda

Unnamed: 0,key,A,B
0,k0,A0,B0
1,k1,A1,B1
2,k2,A2,B2
3,k3,A3,B3


In [15]:
derecha = pd.DataFrame({
    'key': ['k0', 'k1', 'k2', 'k3'],
    'C' : ['C0', 'C1', 'C2', 'C3'],
    'D' : ['D0', 'D1', 'D2', 'D3'],
}) 

derecha

Unnamed: 0,key,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,k3,C3,D3


## El merge se hace en vase a una 'key/llave' puede ser por defecto (no recomendado)

In [17]:
izquierda.merge(derecha)

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


## O podemos especificar en que columnas podemos hacer Merge

In [18]:
izquierda.merge(derecha, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [19]:
izquierda = pd.DataFrame({
    'key': ['k0', 'k1', 'k2', 'k3'],
    'A' : ['A0', 'A1', 'A2', 'A3'],
    'B' : ['B0', 'B1', 'B2', 'B3'],
}) 

izquierda

Unnamed: 0,key,A,B
0,k0,A0,B0
1,k1,A1,B1
2,k2,A2,B2
3,k3,A3,B3


## Si los 'key' no coinciden entonces retornará un error

In [20]:
derecha = pd.DataFrame({
    'key_2': ['k0', 'k1', 'k2', 'k3'],
    'C' : ['C0', 'C1', 'C2', 'C3'],
    'D' : ['D0', 'D1', 'D2', 'D3'],
}) 

derecha

Unnamed: 0,key_2,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,k3,C3,D3


## Para solucionarlo podemos especificar las llaves que son distintas

In [21]:
izquierda.merge(derecha, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,k3,C3,D3


## ¿Qué pasa si una llave esta como Nan? No lo muestra porque no hace match

In [22]:
izquierda = pd.DataFrame({
    'key': ['k0', 'k1', 'k2', 'k3'],
    'A' : ['A0', 'A1', 'A2', 'A3'],
    'B' : ['B0', 'B1', 'B2', 'B3'],
}) 

izquierda

Unnamed: 0,key,A,B
0,k0,A0,B0
1,k1,A1,B1
2,k2,A2,B2
3,k3,A3,B3


In [25]:
derecha = pd.DataFrame({
    'key_2': ['k0', 'k1', 'k2', np.nan],
    'C' : ['C0', 'C1', 'C2', 'C3'],
    'D' : ['D0', 'D1', 'D2', 'D3'],
}) 

derecha

Unnamed: 0,key_2,C,D
0,k0,C0,D0
1,k1,C1,D1
2,k2,C2,D2
3,,C3,D3


In [26]:
izquierda.merge(derecha, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


## De esta forma podemos replicar un Left Join con un Merge

In [27]:
izquierda.merge(derecha, left_on='key', right_on='key_2', how='left')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,


## De esta forma podemos replicar un Right Join con un Merge

In [28]:
izquierda.merge(derecha, left_on='key', right_on='key_2', how='right')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,,,,,C3,D3


# Trabajando con el Join, se basa en filas no en columnas (Index match)

In [31]:
izquierda = pd.DataFrame({
    'A': ['A1', 'A2', 'A3'],
    'B': ['B1', 'B2', 'B3']},
    index=['k0', 'k1', 'k2'])

izquierda

Unnamed: 0,A,B
k0,A1,B1
k1,A2,B2
k2,A3,B3


In [33]:
derecha = pd.DataFrame({
    'C': ['C0','C1','C2'],
    'D':['D0','D1','D2']},
  index=['k0','k2','k3']) 

derecha

Unnamed: 0,C,D
k0,C0,D0
k2,C1,D1
k3,C2,D2


## El join por defecto es un Left Join

In [34]:
izquierda.join(derecha)

Unnamed: 0,A,B,C,D
k0,A1,B1,C0,D0
k1,A2,B2,,
k2,A3,B3,C1,D1


## Especificamos que sea un Inner Join

In [36]:
izquierda.join(derecha, how='inner')

Unnamed: 0,A,B,C,D
k0,A1,B1,C0,D0
k2,A3,B3,C1,D1


## Especificamos que sea un Left Join

In [37]:
izquierda.join(derecha, how='left')

Unnamed: 0,A,B,C,D
k0,A1,B1,C0,D0
k1,A2,B2,,
k2,A3,B3,C1,D1


## Especificamos que sea un Right Join

In [38]:
izquierda.join(derecha, how='right')

Unnamed: 0,A,B,C,D
k0,A1,B1,C0,D0
k2,A3,B3,C1,D1
k3,,,C2,D2


## Especificamos que sea un Outer Join

In [39]:
izquierda.join(derecha, how='outer')

Unnamed: 0,A,B,C,D
k0,A1,B1,C0,D0
k1,A2,B2,,
k2,A3,B3,C1,D1
k3,,,C2,D2
