# Unione di due dataframe

Unione
Dati due o più dataframe questi possono essere uniti (concatenazione dei dati) con il metodo `pandas.concat([elenco dataframe], axis=0, ignore_index=False, join='outer')`. Di seguito la spiegazione dei parametri:
*	Elenco dataframe: è un array dei dataframe da unire.
*	axis: se impostato a 0 (default) esegue l’unione colonna per colonna, i dati delle colonne con lo stesso nome vengono concatenati. Se impostato a 1 vengono concatenate la righe con lo stesso indice.
*	ignore_index: se impostato a False (default) nel nuovo daframe frutto dell’unione l’indice su cui non si fa l’unione vien mantenuto uguale all’originale. Quindi se si fa l’unione colonna per colonna gli indici di riga rimangono uguali, se si fa riga per riga rimangono uguali i nomi delle colonne. Se si imposta a True vengono resettati e ricalcolati.
*	join: se impostato a outer (default) mantiene tutti i dati, se impostato a inner mantiene solo i dati su cui si fa l’unione che esistono in entrambi i dataframe. Se si fa l’unione colonna per colonna, e una colonna non esiste in uno dei due dataframe con outer i suoi dati sono mantenuti e in tutte le righe dell’altro dataframe viene messo NaN, altrimenti sono cancellati. Stesso discorso se si fa l’unione riga per riga usando gli indici.


In [16]:
import pandas as pd

# Creazione di df1
dati_df1 = [
    (0, "Mario Rossi", 30, "Modena"),
    (1, "Giuseppe Verdi", 28, "Roma")
]
df1 = pd.DataFrame(dati_df1, columns=["index", "Nominativo", "Età", "Città"])
df1.set_index("index", inplace=True)

# Creazione di df2
dati_df2 = [
    (1, "Maria Bianchi", 30, "Milano"),
    (2, "Anna Rossi", 24, "Bologna")
]
df2 = pd.DataFrame(dati_df2, columns=["index", "Nominativo", "Età", "Residenza"])
df2.set_index("index", inplace=True)

display(df1)
display(df2)

Unnamed: 0_level_0,Nominativo,Età,Città
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,Mario Rossi,30,Modena
1,Giuseppe Verdi,28,Roma


Unnamed: 0_level_0,Nominativo,Età,Residenza
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Maria Bianchi,30,Milano
2,Anna Rossi,24,Bologna


Unione colonna per colonna. Le colonne senza corrispondenza vengono mantenute. L'indice non è resettato.

In [17]:
pd.concat([df1, df2], axis=0, ignore_index=False, join='outer')

Unnamed: 0_level_0,Nominativo,Età,Città,Residenza
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,Mario Rossi,30,Modena,
1,Giuseppe Verdi,28,Roma,
1,Maria Bianchi,30,,Milano
2,Anna Rossi,24,,Bologna


Unione colonna per colonna, indice resettato, colonne senza corrispondenze vengono eliminate.

In [18]:
pd.concat([df1, df2], axis=0, ignore_index=True, join='inner')

Unnamed: 0,Nominativo,Età
0,Mario Rossi,30
1,Giuseppe Verdi,28
2,Maria Bianchi,30
3,Anna Rossi,24


Unione riga per riga, fatta in base all'indice di riga.

 L'indice su cui non è fatta l'unione è mantenuto (nomi delle colonne).
Vengono mantenute le righe senza corrispondenza.


In [19]:
pd.concat([df1, df2], axis=1, ignore_index=False, join='outer')

Unnamed: 0_level_0,Nominativo,Età,Città,Nominativo,Età,Residenza
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
0,Mario Rossi,30.0,Modena,,,
1,Giuseppe Verdi,28.0,Roma,Maria Bianchi,30.0,Milano
2,,,,Anna Rossi,24.0,Bologna


Unione riga per riga, fatta in base all'indice di riga.

L'indice su cui non è fatta l'unione è resettato (nomi delle colonne).

Vengono eliminate le righe senza corrispondenza.


In [20]:
pd.concat([df1, df2], axis=1, ignore_index=True, join='inner')

Unnamed: 0_level_0,0,1,2,3,4,5
index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
1,Giuseppe Verdi,28,Roma,Maria Bianchi,30,Milano


# JOIN

I join possono essere eseguiti con il metodo `dataframeL.merge(dataframeR, how='inner', on=None, left_on=None, right_on=None, suffixes=('_x', '_y'))`

*	dataframeR è un secondo dataframe da mettere in join con quello attuale.
*	how specifica come fare il join. Di default è inner (scarta record senza corrispondenze), altrimenti esistono:
  *	left: tiene tutti i dati del dataframe di sinistra (left outer join)
  *	right: tiene tutti i dati del dataframe di destra (right outer join)
  *	outer: tiene i dati di tutti i dataframe (full outer join)
  *	cross: crea tutte le combinazioni di righe dei due dataframe
*	on specifica su quale o quali (lista di valori) attributi eseguire il join, in questo caso viene eseguita un’uguaglianza sui valori di questi attributi. Gli attributi devono avere lo stesso nome in entrambe i dataframe, altrimenti bisogna usare left_on e right_on.
*	left_on e right_on: se gli attributi su cui fare il join nei dataframe di destra e di sinistra non hanno lo stesso nome, bisogna specificarli separatamente dicendo il nome che hanno nel dataframe di sinistra (left_on) e in quello di destra (right_on).
*	suffixes: specifica quali suffissi mettere ai nomi di colonna che sono uguali nei due dataframe. Di default mette _x alle colonne di sinistra e _y a quelle di destra.

Se non si specifica nessun attributo su cui fare il join (on, left_on, right_on) il join viene eseguito su tutti gli attributi con lo stesso nome.
Il join eseguito è un equijoin, cioè farà df1.attr == df2.attr.


In [24]:
# Creazione di df1
dati_df1 = [
    ("Mario Rossi", "Modena"),
    ("Giuseppe Verdi", "Roma")
]
df1 = pd.DataFrame(dati_df1, columns=["Nominativo", "Città"])

# Creazione di df2
dati_df2 = [
    ("Maria Bianchi", 30),
    ("Mario Rossi", 24)
]
df2 = pd.DataFrame(dati_df2, columns=["Nominativo", "Età"])

display(df1)
display(df2)

Unnamed: 0,Nominativo,Città
0,Mario Rossi,Modena
1,Giuseppe Verdi,Roma


Unnamed: 0,Nominativo,Età
0,Maria Bianchi,30
1,Mario Rossi,24


`df1.merge(df2)` eseguirà un inner join con la condizione df1.Nominativo == df2.Nominativo

In [25]:
df1.merge(df2)

Unnamed: 0,Nominativo,Città,Età
0,Mario Rossi,Modena,24


Un full outer join mantiene tutti i dati, anche senza corrispondenze.

In [29]:
df1.merge(df2, how='outer')

Unnamed: 0,Nominativo,Città,Età
0,Giuseppe Verdi,Roma,
1,Maria Bianchi,,30.0
2,Mario Rossi,Modena,24.0


In questo caso non possiamo fare un merge direttamente perché l’attributo in df1 si chiama Nome mentre in df2 si chiama Nominativo, bisogna specificare manualmente su cosa fare il join.

In [32]:
# Creazione di df1
dati_df1 = [
    ("Mario Rossi", "Modena", 24),
    ("Giuseppe Verdi", "Roma", 31)
]
df1 = pd.DataFrame(dati_df1, columns=["Nome", "Città", "Età"])

# Creazione di df2
dati_df2 = [
    ("Maria Bianchi", 30),
    ("Mario Rossi", 24)
]
df2 = pd.DataFrame(dati_df2, columns=["Nominativo", "Età"])

display(df1)
display(df2)

Unnamed: 0,Nome,Città,Età
0,Mario Rossi,Modena,24
1,Giuseppe Verdi,Roma,31


Unnamed: 0,Nominativo,Età
0,Maria Bianchi,30
1,Mario Rossi,24


In [33]:
df1.merge(df2, left_on='Nome', right_on='Nominativo')

Unnamed: 0,Nome,Città,Età_x,Nominativo,Età_y
0,Mario Rossi,Modena,24,Mario Rossi,24
