Creando data frame

In [3]:
import pandas as pd
import numpy as np

In [4]:
df1 = pd.DataFrame({'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']
})

df2 = pd.DataFrame({'A':['A4','A5','A6','A7'],
'B':['B4','B5','B6','B7'],
'C':['C4','C5','C6','C7'],
'D':['D4','D5','D6','D7']
})

In [5]:
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [6]:
df2

Unnamed: 0,A,B,C,D
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


## Concat

In [7]:
pd.concat([df1,df2]) #Para concatenar debe de ir entre corchetes
#Por default es por filas
#Los índices heredan el índice anterior

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
0,A4,B4,C4,D4
1,A5,B5,C5,D5
2,A6,B6,C6,D6
3,A7,B7,C7,D7


In [8]:
#Para hacer que los índices sigan siendo únicos
pd.concat([df1,df2],ignore_index=True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [9]:
#Para hacerlo por columnas
pd.concat([df1,df2],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,A4,B4,C4,D4
1,A1,B1,C1,D1,A5,B5,C5,D5
2,A2,B2,C2,D2,A6,B6,C6,D6
3,A3,B3,C3,D3,A7,B7,C7,D7


## Merge

In [10]:
izq = pd.DataFrame({'Key':['k0','k1','k2','k3'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']
})

der = pd.DataFrame({'Key':['k0','k1','k2','k3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']
})

In [11]:
izq.merge(der) #Izquierda y derecha nos ayudan a identificar el lado del merge que ocupan

Unnamed: 0,Key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


El merge se hizo por columnas en común

Podemos hacer **merge** para columnas específicas

In [12]:
izq.merge(der, on='Key')

Unnamed: 0,Key,A,B,C,D
0,k0,A0,B0,C0,D0
1,k1,A1,B1,C1,D1
2,k2,A2,B2,C2,D2
3,k3,A3,B3,C3,D3


In [16]:
izq = pd.DataFrame({'Key':['k0','k1','k2','k3'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']
})

der = pd.DataFrame({'Key_2':['k0','k1','k2','k3'],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']
})

In [17]:
izq.merge(der,on='Key')

KeyError: 'Key'

Arroja error porque esa llave no existe en ambos data frames

Esto se puede solucionar fácilmente

In [18]:
izq.merge(der,left_on='Key',right_on='Key_2') 

Unnamed: 0,Key,A,B,Key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,k3,C3,D3


In [19]:
izq = pd.DataFrame({'Key':['k0','k1','k2','k3'],
'A':['A0','A1','A2','A3'],
'B':['B0','B1','B2','B3']
})

der = pd.DataFrame({'Key_2':['k0','k1','k2',np.nan],
'C':['C0','C1','C2','C3'],
'D':['D0','D1','D2','D3']
})

In [20]:
izq.merge(der,left_on='Key',right_on='Key_2') 

Unnamed: 0,Key,A,B,Key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2


Aquí no presenta el key k3, porque no existe en el segundo datframe, es un inner join

In [21]:
izq.merge(der,left_on='Key',right_on='Key_2',how='left') 

Unnamed: 0,Key,A,B,Key_2,C,D
0,k0,A0,B0,k0,C0,D0
1,k1,A1,B1,k1,C1,D1
2,k2,A2,B2,k2,C2,D2
3,k3,A3,B3,,,


El comando left, es para indicar la proridad de la izquierda

## Join - index match

Es una herramienta de pandas que sirve para hacer combinaciones pero la diferencia es que lo hace por índices

In [22]:
izq = pd.DataFrame({'A':['A0','A1','A2'],
'B':['B0','B1','B2']},index = ['k0','k1','k2'])

der = pd.DataFrame({'C':['C0','C1','C2'],
'D':['D0','D1','D2']},index = ['k0','k2','k3'])

In [23]:
izq.join(der)

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [24]:
izq.join(der, how='inner') #Lo que hace match a nivel de index deja fuera lo que no está, ambos comparten k0 y k2

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1


In [25]:
izq.join(der, how='left')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [26]:
izq.join(der, how='right')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
k3,,,C2,D2


In [29]:
izq.join(der, how='inner')

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
