# Ancora su Pandas
di Emiliano Citarella 

## Modulo 5: Combinare i Dataframes
- Utilizzo di `.concat` per combinare dataframe orizzontalmente o verticalmente
- Introduzione all'unione dei dataframe come le tabelle di database
- Comprendere i diversi tipi di giunti
- Usare `.merge` per unire i dataframe in base ai valori delle colonne in comune

In [38]:
import pandas as pd

In [5]:
# Concatenazione di stringhe
"con" + "cat" + "e" + "nation"

'concatenation'

In [6]:
# Concatenazione di liste
["con", "cat"] + ["e", "nation"]

['con', 'cat', 'e', 'nation']

In [9]:
# Concatenazione di DataFrame 
fruits = pd.DataFrame({
    "name": ["mango", "guava", "orange"],
    "quantity": [2, 1, 3]
})

vegetables = pd.DataFrame({
    "name": ["Brussels sprouts", "spinach", "broccoli"],
    "quantity": [1, 7, 4]
})

Unnamed: 0,name,quantity
0,Brussels sprouts,1
1,spinach,7
2,broccoli,4


In [10]:
#Gli argomenti predefiniti conservano l'indice originale per ogni dataframe
pd.concat([fruits, vegetables])

Unnamed: 0,name,quantity
0,mango,2
1,guava,1
2,orange,3
0,Brussels sprouts,1
1,spinach,7
2,broccoli,4


In [11]:
# Axis=0 è l'argomento predefinito per la concatenazione dei dataframe
# Questa è la concatenazione verticale, dal momento che stiamo aggiungendo riga per riga
pd.concat([fruits, vegetables], axis=0)

Unnamed: 0,name,quantity
0,mango,2
1,guava,1
2,orange,3
0,Brussels sprouts,1
1,spinach,7
2,broccoli,4


In [40]:
pd.concat([fruits, vegetables], ignore_index=True)

Unnamed: 0,name,quantity
0,mango,
1,guava,
2,orange,
3,Brussels sprouts,2.0
4,spinach,3.0
5,broccoli,4.0


In [14]:
# Concatenazione di DataFrame
fruits = pd.DataFrame({
    "name": ["mango", "guava", "orange"],
})

# Si noti che questa istanza di verdure manca di una colonna di quantità
vegetables = pd.DataFrame({
    "name": ["Brussels sprouts", "spinach", "broccoli"],
    "quantity": [2, 3, 4]

})

#Se manca una colonna da un dataframe, mancano i suoi valori, quindi la concatenazione ha successo
pd.concat([fruits, vegetables])

Unnamed: 0,name,quantity
0,mango,
1,guava,
2,orange,
0,Brussels sprouts,2.0
1,spinach,3.0
2,broccoli,4.0


In [15]:
# Axis=1 concatena i dataframe orizzontalmente
# Questa è una concatenazione a colonna
price_quality = pd.DataFrame({
    "price": [2.99, 1.99, 3.99],
    "presentation": ["frozen", "washed", "raw, bunch"] 
})

pd.concat([vegetables, price_quality], axis=1)

Unnamed: 0,name,quantity,price,presentation
0,Brussels sprouts,2,2.99,frozen
1,spinach,3,1.99,washed
2,broccoli,4,3.99,"raw, bunch"


In [16]:
# Concat può combinare un numero arbitrario di dataframe
# Questo può essere utile se hai molti frame di dati diversi da più fonti
pd.concat([vegetables, vegetables, vegetables, vegetables])

Unnamed: 0,name,quantity
0,Brussels sprouts,2
1,spinach,3
2,broccoli,4
0,Brussels sprouts,2
1,spinach,3
2,broccoli,4
0,Brussels sprouts,2
1,spinach,3
2,broccoli,4
0,Brussels sprouts,2


## Utilizzo di `.merge` per combinare dataframe su valori di colonna comuni

- Join in stile database per Pandas Dataframes
- Pandas `.join` unisce dataframe su nomi di colonna identici che esistono su entrambi i dataframe
- L'utilizzo di `.merge` può essere più flessibile, poiché a volte i nomi delle colonne non sono identici

## Tipi di  Joins
- "Inner" restituisce record che hanno valori corrispondenti in entrambe le tabelle.
- "Left" restituisce tutti i record dalla tabella di sinistra e i record abbinati dalla tabella di destra.
- "Right" restituisce tutti i record dalla tabella destra e i record abbinati dalla tabella sinistra.
- "Outer" restituisce tutti i record quando c'è una corrispondenza nella tabella sinistra o destra.


In [18]:
#Nota come role_id punta all'id sul dataframe dei ruoli
users = pd.DataFrame({
    'user_id': [1, 2, 3, 4, 5, 6],
    'name': ['bob', 'mary', 'sally', 'adam', 'jane', 'mike'],
    'role_id': [1, 2, 3, 3, None, None]
})

users

Unnamed: 0,user_id,name,role_id
0,1,bob,1.0
1,2,mary,2.0
2,3,sally,3.0
3,4,adam,3.0
4,5,jane,
5,6,mike,


In [19]:
# Nota che la colonna ID ruolo è chiamata "id" sul dataframe ruolo
roles = pd.DataFrame({
    'role_id': [1, 2, 3, 4],
    'role': ['admin', 'author', 'reviewer', 'commenter']
})

roles

Unnamed: 0,role_id,role
0,1,admin
1,2,author
2,3,reviewer
3,4,commenter


La normalizzazione è una tecnica per trasformare i dati numerici di una colonna o di un intero DataFrame in un intervallo comune, solitamente [0,1] o [−1,1]. È utile in molte analisi, come nel machine learning, dove si desidera che le diverse variabili abbiano lo stesso ordine di grandezza per evitare che variabili con valori più grandi influenzino maggiormente i risultati. \
Porta tutte le variabili su di una scala comune.


In [21]:
# Una inner join restituisce membri che esistono su entrambi i dataframe
users.merge(roles, left_on='role_id', right_on='role_id', how='inner')
# cerchiamo "l'intersezione" come la logica "and, devono esistere in entrambe o tutte le tables contemporaneamente

Unnamed: 0,user_id,name,role_id,role
0,1,bob,1.0,admin
1,2,mary,2.0,author
2,3,sally,3.0,reviewer
3,4,adam,3.0,reviewer


In [22]:
# Se lo stesso nome esatto della colonna esiste su entrambi i dataframe, possiamo usare l'argomento "on"
users.merge(roles, on='role_id', how='inner')

Unnamed: 0,user_id,name,role_id,role
0,1,bob,1.0,admin
1,2,mary,2.0,author
2,3,sally,3.0,reviewer
3,4,adam,3.0,reviewer


In [23]:
# Nota che l'unione sinistra mantiene tutti i record dal dataframe degli utenti, 
#anche se mancano sul dataframe destro
users.merge(roles, on='role_id', how='left')

Unnamed: 0,user_id,name,role_id,role
0,1,bob,1.0,admin
1,2,mary,2.0,author
2,3,sally,3.0,reviewer
3,4,adam,3.0,reviewer
4,5,jane,,
5,6,mike,,


In [25]:
# Nota che l'unione giusta mantiene tutti i record dal dataframe degli utenti, 
# anche se mancano sul dataframe giusto
users.merge(roles, left_on='role_id', right_on='role_id', how='right')

Unnamed: 0,user_id,name,role_id,role
0,1.0,bob,1.0,admin
1,2.0,mary,2.0,author
2,3.0,sally,3.0,reviewer
3,4.0,adam,3.0,reviewer
4,,,4.0,commenter


In [26]:
# L'unione esterna mantiene tutti i record di ogni dataframe, ma i valori sono associati, ove applicabile
# Le giunzioni esterne mantengono tutti i valori inclusi i nulli
# logical or
users.merge(roles, on='role_id', how='outer')

Unnamed: 0,user_id,name,role_id,role
0,1.0,bob,1.0,admin
1,2.0,mary,2.0,author
2,3.0,sally,3.0,reviewer
3,4.0,adam,3.0,reviewer
4,5.0,jane,,
5,6.0,mike,,
6,,,4.0,commenter


In [27]:
# Relazione tra ordine del dataframe e tipo di join
# Considera il risultato di iniziare con gli utenti e lasciare i ruoli di adesione
users.merge(roles, on="role_id", how='left')

Unnamed: 0,user_id,name,role_id,role
0,1,bob,1.0,admin
1,2,mary,2.0,author
2,3,sally,3.0,reviewer
3,4,adam,3.0,reviewer
4,5,jane,,
5,6,mike,,


In [28]:
# Confronta con iniziare con i ruoli e utilizzare il giusto join con gli utenti
roles.merge(users, on="role_id", how='right')

Unnamed: 0,role_id,role,user_id,name
0,1.0,admin,1,bob
1,2.0,author,2,mary
2,3.0,reviewer,3,sally
3,3.0,reviewer,4,adam
4,,,5,jane
5,,,6,mike


## Risorse aggiuntive
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.join.html
- https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html
- https://pandas.pydata.org/docs/user_guide/merging.html
- https://pandas.pydata.org/pandas-docs/stable/getting_started/comparison/comparison_with_sql.html#compare-with-sql-join

## Exercises
- Read "2020_sales.csv", "2021_sales.csv", and "2022_sales.csv" into dataframes, then concatenate these 3 dataframes vertically.
- Create a `posts` dataframe of the following information. 
```
[
    {
        "author_id": 1,
        "title": "How I Learned Python"
    },
    {
        "author_id": 2,
        "title": "How I Learned to Stop Worrying and Love Pandas"
    },
    {
        "author_id": 2,
        "title": "Quick Tutorial on Installing Anaconda"
    },
    {
        "author_id": 9,
        "title": "Learning Pandas If You Already Work With Spreadsheets"
    }
]
```
- Perform an inner join of `users` and `posts`. *Hint* Think about what data these two dataframes share in common.
- Start with `users` then left join the `posts` dataframe.
- Start with `users` then right join the `posts` dataframe.
- Finally, perform an outer join of `users` and `posts`.

In [30]:
a = pd.read_csv("2020_sales.csv")
b = pd.read_csv("2021_sales.csv")
c = pd.read_csv("2022_sales.csv")
pd.concat([a,b,c], ignore_index=True)

Unnamed: 0,year,items,units
0,2020,trucks,20
1,2020,sedans,15
2,2020,compact vehicles,14
3,2021,trucks,35
4,2021,sedans,30
5,2021,compact vehicles,17
6,2022,trucks,40
7,2022,sedans,31
8,2022,compact vehicles,35


In [32]:
posts = pd.DataFrame([
    {
        "author_id": 1,
        "title": "How I Learned Python"
    },
    {
        "author_id": 2,
        "title": "How I Learned to Stop Worrying and Love Pandas"
    },
    {
        "author_id": 2,
        "title": "Quick Tutorial on Installing Anaconda"
    },
    {
        "author_id": 9,
        "title": "Learning Pandas If You Already Work With Spreadsheets"
    }
])
posts

Unnamed: 0,author_id,title
0,1,How I Learned Python
1,2,How I Learned to Stop Worrying and Love Pandas
2,2,Quick Tutorial on Installing Anaconda
3,9,Learning Pandas If You Already Work With Sprea...


In [33]:
users

Unnamed: 0,user_id,name,role_id
0,1,bob,1.0
1,2,mary,2.0
2,3,sally,3.0
3,4,adam,3.0
4,5,jane,
5,6,mike,


In [34]:
users.merge(posts, how="inner", left_on="user_id", right_on="author_id")

Unnamed: 0,user_id,name,role_id,author_id,title
0,1,bob,1.0,1,How I Learned Python
1,2,mary,2.0,2,How I Learned to Stop Worrying and Love Pandas
2,2,mary,2.0,2,Quick Tutorial on Installing Anaconda


**Funzione merge()**

Il metodo merge() combina due DataFrame (users e posts) in base a una condizione specificata utilizzando un algoritmo di join simile a quello del SQL.

users: Primo DataFrame. \
posts: Secondo DataFrame.
+ how="inner": Specifica il tipo di join.
+ Un inner join mantiene solo le righe che hanno corrispondenze in entrambi i DataFrame. 
+ left_on="user_id": Colonna nel primo DataFrame (users) da usare come chiave. 
+ right_on="author_id": Colonna nel secondo DataFrame (posts) da usare come chiave. 

+ Chiave di unione:
La colonna user_id del DataFrame users viene confrontata con la colonna author_id del DataFrame posts.
Le righe con valori corrispondenti in entrambe le colonne saranno incluse nel risultato.
+ Inner join:
Mantiene solo le righe che hanno corrispondenze in entrambe le tabelle.
Le righe senza corrispondenze in una delle due tabelle vengono eliminate.
+ Risultato:
Un DataFrame unito contenente:
Tutte le colonne di users.
Tutte le colonne di posts.
Solo le righe con corrispondenze tra user_id e author_id.


In [35]:
users.merge(posts, how="left", left_on="user_id", right_on="author_id")

Unnamed: 0,user_id,name,role_id,author_id,title
0,1,bob,1.0,1.0,How I Learned Python
1,2,mary,2.0,2.0,How I Learned to Stop Worrying and Love Pandas
2,2,mary,2.0,2.0,Quick Tutorial on Installing Anaconda
3,3,sally,3.0,,
4,4,adam,3.0,,
5,5,jane,,,
6,6,mike,,,


users: Primo DataFrame (di sinistra). \
posts: Secondo DataFrame (di destra).

+ how="left": Specifica il tipo di join.
Un left join mantiene tutte le righe del DataFrame di sinistra (users) e aggiunge le colonne del DataFrame di destra (posts) solo dove esistono corrispondenze. Se non ci sono corrispondenze, i valori mancanti vengono riempiti con NaN.
+ left_on="user_id": Usa la colonna user_id del DataFrame di sinistra (users) come chiave.
right_on="author_id": Usa la colonna author_id del DataFrame di destra (posts) come chiave.
+ Come funziona
Chiave di unione:
Le righe di users vengono unite alle righe di posts confrontando i valori di user_id e author_id.
+ Left join:
Tutte le righe di users saranno nel risultato.
Se c'è una corrispondenza tra user_id (di users) e author_id (di posts), le colonne di posts verranno unite.
Se non c'è corrispondenza, le colonne di posts per quella riga saranno riempite con NaN.

In [36]:
users.merge(posts, how="right", left_on="user_id", right_on="author_id")

Unnamed: 0,user_id,name,role_id,author_id,title
0,1.0,bob,1.0,1,How I Learned Python
1,2.0,mary,2.0,2,How I Learned to Stop Worrying and Love Pandas
2,2.0,mary,2.0,2,Quick Tutorial on Installing Anaconda
3,,,,9,Learning Pandas If You Already Work With Sprea...


In [37]:
users.merge(posts, how="outer", left_on="user_id", right_on="author_id")

Unnamed: 0,user_id,name,role_id,author_id,title
0,1.0,bob,1.0,1.0,How I Learned Python
1,2.0,mary,2.0,2.0,How I Learned to Stop Worrying and Love Pandas
2,2.0,mary,2.0,2.0,Quick Tutorial on Installing Anaconda
3,3.0,sally,3.0,,
4,4.0,adam,3.0,,
5,5.0,jane,,,
6,6.0,mike,,,
7,,,,9.0,Learning Pandas If You Already Work With Sprea...
