In [1]:
import pandas as pd
import numpy as np

In [2]:
# CONCATENAZIONE

In [3]:
# Spesso i dati non si trovano su un solo Df, ma si trovano su diversi Df collegati tra loro.
# Infatti, possiamo importare in pandas Df provenienti da varie fonti, come SQL, csv, etc.
# Il metodo più semplice per collegarli è tramite la funzione pd.concat(). Con questa concatenazione
# Mettiamo il secondo dataframe sotto al primo - PEr semplicità stiamo supponendo che ci siano solo
# due Df, senza ledere la generalità 

In [4]:
# Creiamo quindi 2 Df e colleghiamoli

In [5]:
dizionario1 = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Età': [25, 30, 35],
    'Città': ['Roma', 'Milano', 'Torino']
}

df1 = pd.DataFrame(dizionario1)

dizionario2 = {
    'Nome': ['Mario', 'Alfredo', 'Cicciobello'],
    'Età': [16, 54, 2],
    'Città': ['London', 'Leicester', 'Bleble']
}

df2 = pd.DataFrame(dizionario2)

In [6]:
df1

Unnamed: 0,Nome,Età,Città
0,Alice,25,Roma
1,Bob,30,Milano
2,Charlie,35,Torino


In [7]:
df2

Unnamed: 0,Nome,Età,Città
0,Mario,16,London
1,Alfredo,54,Leicester
2,Cicciobello,2,Bleble


In [8]:
df= pd.concat([df1,df2])
df

Unnamed: 0,Nome,Età,Città
0,Alice,25,Roma
1,Bob,30,Milano
2,Charlie,35,Torino
0,Mario,16,London
1,Alfredo,54,Leicester
2,Cicciobello,2,Bleble


In [9]:
# Come mai abbiamo inserito il secondo Df sotto al primo? Perchè, di default, abbiamo axis=0!

In [10]:
df= pd.concat([df1,df2],axis=0)
df

Unnamed: 0,Nome,Età,Città
0,Alice,25,Roma
1,Bob,30,Milano
2,Charlie,35,Torino
0,Mario,16,London
1,Alfredo,54,Leicester
2,Cicciobello,2,Bleble


In [11]:
# CVD

In [12]:
# Possiamo anche concatenarli da destra a sinistra, ponendo axis=1:

In [13]:
df= pd.concat([df1,df2],axis=1)
df

Unnamed: 0,Nome,Età,Città,Nome.1,Età.1,Città.1
0,Alice,25,Roma,Mario,16,London
1,Bob,30,Milano,Alfredo,54,Leicester
2,Charlie,35,Torino,Cicciobello,2,Bleble


In [47]:
df1.columns = df2.columns

In [53]:
# INNER MERGE

In [None]:
# INNER MERGE corrisponde all'inner join di sql

In [57]:
# Primo DataFrame
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Alice', 'Bob', 'Charlie']
})

# Secondo DataFrame
df2 = pd.DataFrame({
    'ID': [2, 3, 4],
    'Città': ['Milano', 'Torino', 'Napoli']
})

# Inner join sul campo "ID"
df_merge = pd.merge(df1, df2, on='ID', how='inner')

In [61]:
df1

Unnamed: 0,ID,Nome
0,1,Alice
1,2,Bob
2,3,Charlie


In [63]:
df2

Unnamed: 0,ID,Città
0,2,Milano
1,3,Torino
2,4,Napoli


In [59]:
df_merge

Unnamed: 0,ID,Nome,Città
0,2,Bob,Milano
1,3,Charlie,Torino


In [None]:
# E' quindi evidente che vengono presi in considerazione solo le chiavi che si trovano sia in df1 sia in df2

In [None]:
# LEFT e RIGHT 

In [None]:
# LEFT MERGE

In [None]:
# Mentre nel caso della inner non è importante l'ordine delle tabelle, con la left e right è importantissimo.
# Vediamo un esempio di left join

In [71]:

# DataFrame di sinistra (df1)
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Alice', 'Bob', 'Charlie']
})

# DataFrame di destra (df2)
df2 = pd.DataFrame({
    'ID': [2, 3, 4],
    'Città': ['Milano', 'Torino', 'Napoli']
})

In [73]:
df1

Unnamed: 0,ID,Nome
0,1,Alice
1,2,Bob
2,3,Charlie


In [75]:
df2

Unnamed: 0,ID,Città
0,2,Milano
1,3,Torino
2,4,Napoli


In [79]:
# Left join
df_left = pd.merge(df1, df2, on='ID', how='left')
df_left

Unnamed: 0,ID,Nome,Città
0,1,Alice,
1,2,Bob,Milano
2,3,Charlie,Torino


In [None]:
# Viene presa in considerazione la colonna id della prima tabella. Se nella seconda ci sono valori corrispondenti, allora avverrà il merge. In caso contrario avremo NaN

In [None]:
# NB Gli indici presenti solo nella seconda tabella, come nel nostro esempio l'indice 4 presente nella seconda tabella, NON vengono presi in considerazione.

In [None]:
# RIGHT MERGE

In [85]:
df1

Unnamed: 0,ID,Nome
0,1,Alice
1,2,Bob
2,3,Charlie


In [87]:
df2

Unnamed: 0,ID,Città
0,2,Milano
1,3,Torino
2,4,Napoli


In [89]:
# In df2 abbiamo gli indici 2,3,4. In df1 abbiamo gli indici 1,2,3. Poiché è una righe join, contano solo gli indici presenti nella tabella di destra.

In [91]:
df_right = pd.merge(df2, df1, on='ID', how='left')
df_right

Unnamed: 0,ID,Città,Nome
0,2,Milano,Bob
1,3,Torino,Charlie
2,4,Napoli,


In [None]:
# Ovviamente, date due etabella A e B, la right join di A e B è pari alla left join di B e A

In [None]:
# OUTER MERGE

In [None]:
# Un outer merge in pandas restituisce tutte le righe da entrambi i DataFrame, unendo dove le chiavi corrispondono. Dove non c'è corrispondenza, i valori mancanti vengono riempiti con NaN.
# Dati due Df, A e B, svreno che la outer join tra A e B è uguale alla outer join tra B e A

In [93]:
# Primo DataFrame
df1 = pd.DataFrame({
    'ID': [1, 2, 3],
    'Nome': ['Alice', 'Bob', 'Charlie']
})

# Secondo DataFrame
df2 = pd.DataFrame({
    'ID': [3, 4],
    'Città': ['Torino', 'Napoli']
})


In [95]:
df1

Unnamed: 0,ID,Nome
0,1,Alice
1,2,Bob
2,3,Charlie


In [97]:
df2

Unnamed: 0,ID,Città
0,3,Torino
1,4,Napoli


In [103]:
df_outer = pd.merge(df2, df1, on='ID', how='outer')
df_outer

Unnamed: 0,ID,Città,Nome
0,1,,Alice
1,2,,Bob
2,3,Torino,Charlie
3,4,Napoli,
