# Combinar dataframes

## Concat

In [1]:
import pandas as pd

In [2]:
datos1 ={
    'A':['A0','A1','A2'],
    'B':['B0','B1','B2'],
    'C':['C0','C1','C2'],
    'D':['D0','D1','D2']
}

In [5]:
df1 = pd.DataFrame(datos1)
df1

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2


In [22]:
datos2 ={
    'A':['E4','E5','E6'],
    'B':['F4','F5','F6'],
    'C':['G4','G5','G6'],
    'D':['H4','H5','H6']
}

In [23]:
df2 = pd.DataFrame(datos2)
df2

Unnamed: 0,A,B,C,D
0,E4,F4,G4,H4
1,E5,F5,G5,H5
2,E6,F6,G6,H6


In [24]:
# Por default se hace axis=0
# Notas: los indices se heredan, por eso se usa ignore_index = True
pd.concat([df1,df2])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
0,E4,F4,G4,H4
1,E5,F5,G5,H5
2,E6,F6,G6,H6


In [25]:
pd.concat([df1,df2], ignore_index = True)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,E4,F4,G4,H4
4,E5,F5,G5,H5
5,E6,F6,G6,H6


In [26]:
pd.concat([df1,df2],axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1
0,A0,B0,C0,D0,E4,F4,G4,H4
1,A1,B1,C1,D1,E5,F5,G5,H5
2,A2,B2,C2,D2,E6,F6,G6,H6


## Merge

In [29]:
izq = {
    'key':['K0','K1','K2','K3'],
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3']   
}

der = {
    'key':['K0','K1','K2','K3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']   
}

In [30]:
df_izq = pd.DataFrame(izq)
df_der = pd.DataFrame(der)

### Merge

In [35]:
# Merge por defecto por la columna axis=1
# on: para especificar sobre que columna se hará el merge
df_izq.merge(df_der, on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


### Merge

In [36]:
izq2 = {
    'key':['K0','K1','K2','K3'],
    'A':['A0','A1','A2','A3'],
    'B':['B0','B1','B2','B3']   
}

der2 = {
    'key_2':['K0','K1','K2','K3'],
    'C':['C0','C1','C2','C3'],
    'D':['D0','D1','D2','D3']   
}

In [37]:
df_izq2 = pd.DataFrame(izq2)
df_der2 = pd.DataFrame(der2)


In [39]:
# Aunque los nombres de las columnas sean diferentes,
# busca en los datos como puede conciliarlos(los valores propiamente).
df_izq2.merge(df_der2, left_on='key', right_on='key_2')

Unnamed: 0,key,A,B,key_2,C,D
0,K0,A0,B0,K0,C0,D0
1,K1,A1,B1,K1,C1,D1
2,K2,A2,B2,K2,C2,D2
3,K3,A3,B3,K3,C3,D3


### Join

index match

Tiene un mejor performance que merge

In [41]:
izq = pd.DataFrame({'A': ['A0','A1','A2'],
  'B':['B0','B1','B2']},
  index=['k0','k1','k2'])

der =pd.DataFrame({'C': ['C0','C1','C2'],
  'D':['D0','D1','D2']},
  index=['k0','k2','k3']) 

In [43]:
# combina directamente hacía los indices
izq.join(der)

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [45]:
print(izq)
print(der)

     A   B
k0  A0  B0
k1  A1  B1
k2  A2  B2
     C   D
k0  C0  D0
k2  C1  D1
k3  C2  D2


In [46]:
# Une solamente lo común entre ambos
izq.join(der, how="inner")

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1


In [49]:
# Todo de izq y los común de izq y der
izq.join(der, how="left")

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1


In [48]:
# Todo de der y los común de izq y der
izq.join(der, how="right")

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k2,A2,B2,C1,D1
k3,,,C2,D2


In [51]:
# Todo de der y todo de izq
izq.join(der, how="outer")

Unnamed: 0,A,B,C,D
k0,A0,B0,C0,D0
k1,A1,B1,,
k2,A2,B2,C1,D1
k3,,,C2,D2


### Pivot 

In [54]:
import pandas as pd 

df6 = pd.read_csv('./data/bestsellers-with-categories.csv')

# os valores de Author pasan a formar el índice por fila y los valores de Genre pasan a formar parte de los índices por columna,
# y el User Rating se mantiene como valor.
df6.pivot_table(index='Author',columns='Genre',values='User Rating')


Genre,Fiction,Non Fiction
Author,Unnamed: 1_level_1,Unnamed: 2_level_1
Abraham Verghese,4.6,
Adam Gasiewski,,4.400000
Adam Mansbach,4.8,
Adir Levy,4.8,
Admiral William H. McRaven,,4.700000
...,...,...
Walter Isaacson,,4.566667
William Davis,,4.400000
William P. Young,4.6,
Wizards RPG Team,4.8,


### Melt

El método melt toma las columnas del DataFrame y las pasa a filas, con dos nuevas columnas para especificar la antigua columna y el valor que traía.

In [55]:
df6[['Name','Genre']].head(5)

Unnamed: 0,Name,Genre
0,10-Day Green Smoothie Cleanse,Non Fiction
1,11/22/63: A Novel,Fiction
2,12 Rules for Life: An Antidote to Chaos,Non Fiction
3,1984 (Signet Classics),Fiction
4,"5,000 Awesome Facts (About Everything!) (Natio...",Non Fiction


In [57]:
df6[['Name','Genre']].head(5).melt()


Unnamed: 0,variable,value
0,Name,10-Day Green Smoothie Cleanse
1,Name,11/22/63: A Novel
2,Name,12 Rules for Life: An Antidote to Chaos
3,Name,1984 (Signet Classics)
4,Name,"5,000 Awesome Facts (About Everything!) (Natio..."
5,Genre,Non Fiction
6,Genre,Fiction
7,Genre,Non Fiction
8,Genre,Fiction
9,Genre,Non Fiction
