In [27]:
import pandas as pd
import numpy as np

In [4]:
df1 = pd.DataFrame({'A': ['A0','A1','A2','A3'],
 'B': ['B0','B1','B2','B3'],
 'C': ['C0','C1','C2','C3'],
 'D': ['D0','C1','C2','C3'],})

In [5]:
df2 = pd.DataFrame({'A': ['A4','A5','A6','A7'],
                    'B': ['B4','B5','B6','B7'],
                    'C': ['C4','C5','C6','C7'],
                    'D': ['D4','D5','D6','D7'],})

#Concat

In [8]:
#Concat por default ejecuta por el axis 0 o por las filas, observaremos que los indices se repiten por cada dataframe
pd.concat([df1,df2])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,C1
2,A2,B2,C2,C2
3,A3,B3,C3,C3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [9]:
#Para corregir los indices podemos ejecutar lo siguiente
pd.concat([df1,df2], ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,C1
2,A2,B2,C2,C2
3,A3,B3,C3,C3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [10]:
#Ahora concatenaremos de manera vertical por medio del axis 1
pd.concat([df1,df2],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,C1,A5,B5,C5,D5
2,A2,B2,C2,C2,A6,B6,C6,D6
3,A3,B3,C3,C3,A7,B7,C7,D7


#Merge

In [13]:
izq = pd.DataFrame({'key':['k0', 'k1', 'k2', 'k3'],
 'A':['A0','A1','A2','A3'],
 'B':['B0','B1','B2','B3']})

In [14]:
der = pd.DataFrame({'key':['k0', 'k1', 'k2', 'k3'],
 'C':['C0','C1','C2','C3'],
 'D':['D0','D1','D2','D3']})

In [21]:
#Utilizando merge para combinar dataframes. Siempre el dataframe que se encuentre dentro de los parentesis será el de la derecha, mientra que el otro, será el de la izquierda
izq.merge(der)

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [19]:
#Si queremos ser más específicos sobre en que columna debe de hacerse el merge, podemos hacer lo siguiente
izq.merge(der, on='key')

Unnamed: 0,key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [22]:
izq = pd.DataFrame({'key':['k0', 'k1', 'k2', 'k3'],
 'A':['A0','A1','A2','A3'],
 'B':['B0','B1','B2','B3']})
#En este dataframe haremos una ligera modificación cambiando la columna key
der = pd.DataFrame({'key_2':['k0', 'k1', 'k2', 'k3'],
 'C':['C0','C1','C2','C3'],
 'D':['D0','D1','D2','D3']})

In [23]:
#De esta manera, al no tener el mismo nombre de columna los dataframes, el merge va a fallar
izq.merge(der, on='key')

KeyError: ignored

In [25]:
#Para este caso, la solución es ejecutar el merge de la siguiente manera
izq.merge(der, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,k3,C3,D3


In [28]:
izq = pd.DataFrame({'key':['k0', 'k1', 'k2', 'k3'],
 'A':['A0','A1','A2','A3'],
 'B':['B0','B1','B2','B3']})
#En este dataframe haremos una ligera modificación cambiando la columna key, y además, un valor de key_2 lo volveremos nulo
der = pd.DataFrame({'key_2':['k0', 'k1', 'k2', np.nan],
 'C':['C0','C1','C2','C3'],
 'D':['D0','D1','D2','D3']})

In [29]:
#Al tener un valor nulo, y ejecutar la siguiente línea de código, el resultado omitirá la fila de la key3
izq.merge(der, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


In [30]:
#Si queremos traer aquellos valores que su llave no es nula, podemos específicar qué tipo de join estamos realizando, en este caso: left join.
izq.merge(der, left_on='key', right_on='key_2', how='left')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,


In [31]:
#Observaremos que el inner join es el valor por default
izq.merge(der, left_on='key', right_on='key_2', how='inner')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


In [34]:
#En efecto, también se puede ejecutar un right join
izq.merge(der, left_on='key', right_on='key_2', how='right')

Unnamed: 0,key,A,B,key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,,,,,C3,D3


#Join - Index match

In [40]:
#Generaremos dos dataframes con la particularidad de que los índices los indicaremos en esta ocasión
izq = pd.DataFrame({'A': ['A0','A1','A2'],
 'B': ['B0','B1','B2']},
 index=['k0','k1','k2'])
#El valor de los índices para el segundo dataframe van a tener una ligera variación
der = pd.DataFrame({'C': ['C0','C1','C2'],
 'D': ['D0','D1','D2']},
 index=['k0','k2','k3'])

In [43]:
#Realizamos un left join, que es el resultado por default
izq.join(der)

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [47]:
#Realizando un inner join
izq.join(der, how='inner')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1


In [48]:
#Realizando un right join
izq.join(der,how='right')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
k3,,,C2,D2


In [49]:
#Realizando un outer join
izq.join(der,how='outer')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1
k3,,,C2,D2
