# Combinació de Datasets amb merge() i Joins

In [None]:
# Importa pandas com a pd i numpy com a np.

In [11]:
import pandas as pd
import numpy as np

In [None]:
# Crea el primer DataFrame df_left amb la informació següent:

# key A   B
# K0  A0  B0
# K1  A1  B1
# K2  A2  B2
# K3  A3  B3



In [12]:
df_left = pd.DataFrame({
    'key': ['K0','K1','K2','K3'],
    'A': ['A0','A1','A2','A3'],
    'B': ['B0','B1','B2','B3']
})
df_left

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3


In [None]:
# Crea el segon DataFrame df_right amb la informació següent:
# key C   D
# K0  C0  D0
# K1  C1  D1
# K2  C2  D2
# K4  C3  D3



In [13]:
df_right = pd.DataFrame({
    'key': ['K0','K1','K2','K4'],
    'C': ['C0','C1','C2','C3'],
    'D': ['D0','D1','D2','D3']
})
df_right

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K4,C3,D3


In [None]:
# Fes un merge entre df_left i df_right usant la columna key amb el tipus d’unió 'inner'.

In [14]:
df_inner = pd.merge(df_left, df_right, on='key', how='inner')
df_inner

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2


In [None]:
# Fes el mateix merge però amb el tipus 'outer'.

In [15]:
df_outer = pd.merge(df_left, df_right, on='key', how='outer')
df_outer

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,
4,K4,,,C3,D3


In [None]:
# Fes un merge amb el tipus 'left'.

In [16]:
df_left_merge = pd.merge(df_left, df_right, on='key', how='left')
df_left_merge

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,,


In [None]:
# Fes un merge amb el tipus 'right'.

In [17]:
df_right_merge = pd.merge(df_left, df_right, on='key', how='right')
df_right_merge

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K4,,,C3,D3


In [None]:
# Crea dos nous DataFrames amb noms de columnes diferents per practicar la fusió amb claus diferents:

# df_left2
# key_left  E   F
# K0        E0  F0
# K1        E1  F1
# K2        E2  F2

# key_right G   H
# K1        G1  H1
# K2        G2  H2
# K3        G3  H3



In [18]:
df_left2 = pd.DataFrame({
    'key_left':['K0','K1','K2'],
    'E':['E0','E1','E2'],
    'F':['F0','F1','F2']
})

df_right2 = pd.DataFrame({
    'key_right':['K1','K2','K3'],
    'G':['G1','G2','G3'],
    'H':['H1','H2','H3']
})

# Merge using left_on/right_on

df_diff_keys = pd.merge(df_left2, df_right2, left_on='key_left', right_on='key_right', how='outer')

df_left2, df_right2, df_diff_keys

(  key_left   E   F
 0       K0  E0  F0
 1       K1  E1  F1
 2       K2  E2  F2,
   key_right   G   H
 0        K1  G1  H1
 1        K2  G2  H2
 2        K3  G3  H3,
   key_left    E    F key_right    G    H
 0       K0   E0   F0       NaN  NaN  NaN
 1       K1   E1   F1        K1   G1   H1
 2       K2   E2   F2        K2   G2   H2
 3      NaN  NaN  NaN        K3   G3   H3)

In [None]:
# Fes un merge múltiple:

# Usa df_left, df_right i un tercer DataFrame df_extra amb columnes key, E, F.
# Uneix els tres per tenir totes les columnes en un únic DataFrame final.

In [19]:
df_extra = pd.DataFrame({
    'key':['K0','K2','K3'],
    'E':['E0','E2','E3'],
    'F':['F0','F2','F3']
})

# Merge df_left and df_right first, then with df_extra

df_lr = pd.merge(df_left, df_right, on='key', how='outer')

df_merged_three = pd.merge(df_lr, df_extra, on='key', how='outer')

df_merged_three

Unnamed: 0,key,A,B,C,D,E,F
0,K0,A0,B0,C0,D0,E0,F0
1,K1,A1,B1,C1,D1,,
2,K2,A2,B2,C2,D2,E2,F2
3,K3,A3,B3,,,E3,F3
4,K4,,,C3,D3,,


In [None]:
# Afegeix una nova columna source a cada DataFrame ("left", "right", "extra") abans de combinar-los.
# Usa el paràmetre keys per identificar la procedència en un MultiIndex després de concatenar-los amb pd.concat.

In [20]:
# Add source column to each and use keys in concat to create a MultiIndex
left_s = df_left.assign(source='left')
right_s = df_right.assign(source='right')
extra_s = df_extra.assign(source='extra')

df_concat = pd.concat([left_s, right_s, extra_s], keys=['left','right','extra'])

df_concat

Unnamed: 0,Unnamed: 1,key,A,B,source,C,D,E,F
left,0,K0,A0,B0,left,,,,
left,1,K1,A1,B1,left,,,,
left,2,K2,A2,B2,left,,,,
left,3,K3,A3,B3,left,,,,
right,0,K0,,,right,C0,D0,,
right,1,K1,,,right,C1,D1,,
right,2,K2,,,right,C2,D2,,
right,3,K4,,,right,C3,D3,,
extra,0,K0,,,extra,,,E0,F0
extra,1,K2,,,extra,,,E2,F2
