# Fondamenti di Pandas e Manipolazione dei Dati

## Indice

- [1. Importazione delle Librerie](#1.-Importazione-delle-Librerie)
- [2. Strutture Dati di Pandas](#2.-Strutture-Dati-di-Pandas)
- [3. Selezione dei Dati](#3.-Selezione-dei-Dati)
- [4. Manipolazione dei Dati](#4.-Manipolazione-dei-Dati)
- [5. Sorting dei Dati](#5.-Sorting-dei-Dati)
- [6. Esercizi](#6.-Esercizi)


## 1. Importazione delle Librerie

Pandas è una libreria open-source per il linguaggio di programmazione Python, ampiamente utilizzata per l'analisi e la manipolazione dei dati. Offre strutture dati e funzioni per lavorare facilmente con dati strutturati, come tabelle e serie temporali.

Per utilizzare una libreria in Python, è necessario importarla nel proprio ambiente di lavoro utilizzando la parola chiave `import`. È una buona pratica importare tutte le librerie necessarie all'inizio del notebook.

In [None]:
import pandas as pd
import numpy as np

## 2. Strutture Dati di Pandas

Pandas fornisce due principali strutture dati:

- **Series**: array unidimensionali etichettati.
- **DataFrame**: strutture dati bidimensionali con righe e colonne etichettate.

Queste strutture sono simili a quelle di NumPy, ma con funzionalità aggiuntive per l'indicizzazione e la manipolazione dei dati.

### Series

Una **Series** è un array unidimensionale che può contenere qualsiasi tipo di dato (interi, stringhe, numeri a virgola mobile, oggetti Python, ecc.). Ogni elemento in una Series è associato a un'etichetta, chiamata **indice**.

Le Series sono simili agli array unidimensionali di NumPy, ma offrono funzionalità aggiuntive grazie agli indici.

#### Creazione di una Series

In [None]:
# Creare una Series da una lista
data = [10, 20, 30, 40]
s = pd.Series(data, name='series name')
s

È possibile specificare un indice personalizzato:

In [None]:
s_custom = pd.Series(data, index=['a', 'b', 'c', 'd'])
s_custom

#### Accesso ai dati in una Series

È possibile accedere agli elementi di una Series utilizzando l'indice, simile all'accesso agli elementi di una lista o un array NumPy.

In [None]:
# Accesso tramite indice numerico
s[0]

In [None]:
# Accesso tramite indice personalizzato
s_custom['b']

È possibile effettuare operazioni di slicing, come con le liste Python o gli array NumPy:

In [None]:
# Slicing della Series
s[1:3]

### DataFrame

Un **DataFrame** è una struttura dati bidimensionale con dati allineati in righe e colonne, simile a un foglio di calcolo o a una tabella SQL. I DataFrame offrono funzionalità avanzate per la manipolazione e l'analisi dei dati.

#### Creazione di un DataFrame

In [None]:
# Creare un DataFrame da un dizionario
data = {
    'Nome': ['Alice', 'Bob', 'Charlie'],
    'Età': [24, 27, 22],
    'Città': ['Roma', 'Milano', 'Torino']
}
df = pd.DataFrame(data, index = ['id_1','id_2','id_3'])
df

## 3. Selezione dei Dati

La selezione dei dati in Pandas è simile a quella in NumPy ma con alcune differenze importanti dovute alla presenza di indici e etichette.

### Selezione di Righe e Colonne

#### Accesso a singole colonne

È possibile selezionare una o più colonne di un DataFrame utilizzando il nome della colonna come chiave.

In [None]:
# Selezionare una singola colonna
df[['Età']]

In [None]:
# Selezionare più colonne
df[['Nome', 'Città']]

#### Accesso a righe specifiche

Utilizzando `loc` e `iloc`, possiamo selezionare righe specifiche in base all'indice o alla posizione.

In [None]:
# Usando loc (in base all'indice)
df.loc['id_1':'id_2' , ['Età']]

In [None]:
# Usando iloc (in base alla posizione)
df.iloc[0:2 , [1]]

### Indexing e Slicing

L'indexing e lo slicing in Pandas estendono le funzionalità offerte da NumPy, permettendo di utilizzare indici etichettati.

#### Differenze tra `loc` e `iloc`

- `loc`: seleziona i dati in base alle etichette (indice).
- `iloc`: seleziona i dati in base alla posizione intera (indice numerico).

**Esempio con `loc`:**

In [None]:
df.loc['id_2':,['Nome', 'Età']]

**Esempio con `iloc`:**

In [None]:
df.iloc[1:3, :2]

In NumPy, l'indexing e lo slicing si basano su indici numerici. In Pandas, grazie agli indici etichettati, `loc` permette una selezione più intuitiva quando si conoscono le etichette.

### Selezione Condizionale

#### Filtraggio dei dati basato su condizioni

È possibile filtrare i dati utilizzando condizioni booleane, simile a quanto visto in NumPy.

In [None]:
df['Età'] > 23 

In [None]:
df[df['Età'] > 23 ]

In [None]:
condiz_eta = (df['Età'] > 23) & (df['Età'] < 26)
condiz_eta

In [None]:
# Selezionare le righe dove l'età è maggiore di 23
df.loc[(df['Età'] > 23) | (df['Età'] < 26), ['Nome']]

Le maschere booleane sono un concetto chiave sia in NumPy che in Pandas per il filtraggio dei dati.

## Introduzione al Metodo `.query()` nei DataFrame di Pandas

Il metodo `.query()` è un modo efficace e leggibile per filtrare le righe di un DataFrame in base a condizioni specifiche. Questo metodo può essere particolarmente utile quando si devono applicare filtri complessi o quando si vogliono combinare condizioni multiple in modo chiaro.

### Sintassi di Base:

```python
df.query('condizione')


In [None]:
cols = ['Età', 'Nome']
df.query('Età > 23 and Età < 26').loc[:,cols]

## 4. Manipolazione dei Dati

La manipolazione dei dati in Pandas include operazioni come la gestione dei valori mancanti, la pulizia dei dati e la trasformazione.

### Valori Mancanti

I valori mancanti possono causare problemi nelle analisi e devono essere gestiti adeguatamente.

#### Tipi di Valori Mancanti

- `NaN` (Not a Number): utilizzato per valori mancanti numerici.
- `None`: oggetto Python per rappresentare l'assenza di valore.
- `pd.NA`: rappresenta valori mancanti in Pandas per tipi estesi.

In [None]:
# Creare un DataFrame con valori mancanti
data_nan = {
    'A': [1, 2, np.nan],
    'B': [4, None, 6],
    'C': [7, 8, np.nan]
}
df_nan = pd.DataFrame(data_nan)
df_nan

#### Identificazione dei Valori Mancanti

Utilizzo di `isnull()` e `notnull()` per identificare i valori mancanti.

In [None]:
# Identificare valori mancanti
df_nan.isnull().sum()

In [None]:
df_nan.head(2)

In [None]:
df_nan['A'].dtype

In [None]:
df_nan.info()

#### Risoluzione dei Valori Mancanti

- **Riempimento**: utilizzare `fillna()` per sostituire i valori mancanti con un valore specificato.
- **Rimozione**: utilizzare `dropna()` per eliminare le righe o le colonne con valori mancanti.
- **Interpolazione**: stimare i valori mancanti basandosi sui dati esistenti.

In [None]:
df_nan['A'].fillna(df_nan['A'].median())

In [None]:
# Riempire i valori mancanti con zero
df_nan_filled = df_nan.fillna(0)
df_nan_filled

In [None]:
df_nan['A'] = df_nan['A'].fillna(df_nan['A'].median())

In [None]:
df_nan.dropna()

#### Best Practices nella Gestione dei Valori Mancanti

- **Quando rimuovere**: se la quantità di dati mancanti è piccola e la rimozione non influisce sull'analisi.
- **Quando riempire**: se i dati mancanti sono significativi e la sostituzione con un valore appropriato è possibile.

### Pulizia dei Dati

La pulizia dei dati è essenziale per garantire l'accuratezza delle analisi.

#### Gestione dei Duplicati

I duplicati possono distorcere i risultati delle analisi e devono essere identificati e gestiti.

In [None]:
# Creare un DataFrame con duplicati
data_dup = {
    'Nome': ['Alice', 'Bob', 'Alice'],
    'Età': [24, 27, 24],
    'Città': ['Roma', 'Milano', 'Roma']
}
df_dup = pd.DataFrame(data_dup)
df_dup

##### Identificazione dei Duplicati

In [None]:
# Identificare duplicati
df_dup.duplicated()

##### Rimozione dei Duplicati

In [None]:
# Rimuovere duplicati
df_dup_clean = df_dup.drop_duplicates()
df_dup_clean

### Trasformazione

#### Modifica e creazione di nuove colonne

Possiamo aggiungere, modificare o eliminare colonne in un DataFrame per adattarlo alle nostre esigenze.

In [None]:
df['Anni alla pensione'] = 70 - df['Età']
df

In [None]:
cond_riforma = df['Età'] < 25

In [None]:
df.loc[cond_riforma , 'Anni alla pensione riforma'] = df.loc[cond_riforma,'Anni alla pensione']*1.3
df.loc[~cond_riforma, 'Anni alla pensione riforma'] = df.loc[~cond_riforma,'Anni alla pensione']

### Gestione degli Indici

Gli indici in Pandas permettono un accesso e una manipolazione più efficienti dei dati, abilitando funzionalità avanzate come l'unione e l'allineamento dei dati.

#### Utilizzo di `set_index()` e `reset_index()`

In [None]:
# Impostare una colonna come indice
df_indexed = df.set_index(['Nome','Città'])
df_indexed.loc[('Alice','Roma')]

In [None]:
# Resettare l'indice
df_reset = df_indexed.reset_index()
df_reset

### Operazioni sulle Colonne

#### Aggiunta, modifica e rinomina delle colonne

Possiamo rinominare le colonne per una maggiore chiarezza.

In [None]:
# Rinomina delle colonne
df_renamed = df.rename(columns={'Città': 'Residenza', 
                                'Età':'age'})
df_renamed

## 5. Sorting dei Dati

L'ordinamento dei dati è fondamentale per l'analisi e la presentazione dei risultati.

### Sort Values e Sort Index

#### Ordinamento dei dati basato su valori con `sort_values()`

Possiamo ordinare i dati in base ai valori di una o più colonne.

In [None]:
# Ordinare per età
df_sorted = df.sort_values(by='Età', ascending=False)
df_sorted

#### Ordinamento basato sugli indici con `sort_index()`

Utile quando l'indice ha un significato specifico.

In [None]:
# Ordinare per indice
df_shuffled = df.sample(frac=0.5)
df_shuffled.sort_index()

#### Ordinamenti multi-colonna

Possiamo ordinare i dati utilizzando più colonne come chiavi di ordinamento.

In [None]:
# Ordinare per età e poi per nome
df_multi_sorted = df.sort_values(by=['Età', 'Nome'], ascending = [False, True])
df_multi_sorted

## 6. Groupby

Il metodo **`groupby()`** di Pandas consente di **suddividere** un DataFrame in gruppi in base a una o più colonne, per poi applicare operazioni di **aggregazione** o **trasformazione** sui dati di ciascun gruppo. La logica che segue si può descrivere come **Split-Apply-Combine**:

1. **Split**: Dividere i dati in gruppi in base a una o più colonne.
2. **Apply**: Applicare una funzione (somma, media, ecc.) sui gruppi.
3. **Combine**: Unire i risultati in un nuovo oggetto Pandas (Series o DataFrame).

```python
df.groupby('colonna_di_raggruppamento').funzione_di_aggregazione()


In [None]:
import pandas as pd

data = {
    'Categoria': ['A', 'B', 'A', 'B', 'A', 'C'],
    'Vendite': [100, 200, 150, 250, 120, 300]
}
df = pd.DataFrame(data)

# Raggruppiamo per 'Categoria' e sommiamo le vendite
df.groupby('Categoria')['Vendite'].sum()


L'oggetto restituito da groupby() è un GroupBy object, una struttura che aspetta una funzione per elaborare i gruppi. Quando applichiamo la funzione sum(), otteniamo un'aggregazione per gruppo:

### Esempio di aggregazione multipla


In [None]:
df.groupby('Categoria').agg({
    'Vendite': ['sum', 'mean', 'count']
})['Vendite']


## 7. Esercizi

Sei stato assunto come data analyst per un'azienda che gestisce una piattaforma di streaming musicale. Ti viene fornito un dataset con le informazioni sugli ascolti degli utenti. Il dataset è il seguente:

In [None]:
# Creazione del DataFrame degli ascolti
listens_data = {
    'UserID': [101, 102, 103, 104, 105, 106],
    'Song': ['Song A', 'Song B', 'Song A', 'Song C', 'Song B', 'Song D'],
    'Artist': ['Artist X', 'Artist Y', 'Artist X', 'Artist Z', 'Artist Y', 'Artist W'],
    'Plays': [15, 2, 4, 1, 5, 2]
}
listens = pd.DataFrame(listens_data)
listens

### Esercizio 1

**Obiettivo**: Trova tutte le canzoni ascoltate dall'utente con `UserID` 103.

**Istruzioni**:
- Filtra il DataFrame `listens` per ottenere solo le righe dove `UserID` è 103.

**Hint**: Utilizza il filtraggio condizionale con maschere booleane.

In [None]:
pd.DataFrame({
    'UserID': [103],
    'Song': ['Song A'],
    'Artist': ['Artist X'],
    'Plays': [4]
})

In [None]:
cond = ...
user_103_listens = ...

assert user_103_listens.reset_index(drop=True).equals(pd.DataFrame({
    'UserID': [103],
    'Song': ['Song A'],
    'Artist': ['Artist X'],
    'Plays': [4]
})), "❌ Il risultato non è corretto!"
print("✅ Il risultato è corretto!")

### Esercizio 2

**Obiettivo**: Calcola il totale di ascolti per ogni canzone.

**Istruzioni**:
- Raggruppa i dati per 'Song' e somma i valori di 'Plays'.

**Hint**: Utilizza il metodo `groupby()` seguito da `sum()`.

In [None]:
total_plays_per_song = listens.groupby('...')['...'].sum()
total_plays_per_song

# Verifica del risultato
expected_result = pd.Series({
    'Song A': 19,
    'Song B': 7,
    'Song C': 1,
    'Song D': 2
})
assert total_plays_per_song.equals(expected_result), "❌ Il risultato non è corretto!"
print("✅ Il risultato è corretto!")


### Esercizio 3

**Obiettivo**: Identifica l'artista più popolare.

**Istruzioni**:
- Raggruppa i dati per 'Artist' e somma i valori di 'Plays'.
- Ordina i risultati in ordine decrescente.
- Individua l'artista con il numero totale di ascolti maggiore.

**Hint**: Combina `groupby()`, `sum()` e `sort_values()`.

In [None]:
artist_popularity = listens.groupby(...)[...].sum().sort_values(ascending =False)
top_artist = artist_popularity.idxmax() # cerca il
top_artist

# Verifica del risultato
expected_top_artist = pd.Index(['Artist X'])
assert top_artist == expected_top_artist, "❌ Il risultato non è corretto!"
print("✅ Il risultato è corretto!")


### Esercizio 4

**Obiettivo**: Aggiungi una nuova colonna 'Length' che indica la durata della canzone in minuti. Supponi che tutte le canzoni abbiano la stessa durata di 3 minuti.

**Istruzioni**:
- Crea una nuova colonna 'Length' nel DataFrame `listens`.

**Hint**: Assegna un valore fisso a una nuova colonna.

In [None]:
# Scrivi il tuo codice qui
listens['Length'] = ...
listens
# Verifica del risultato
expected_length_column = pd.Series([3, 3, 3, 3, 3, 3], name='Length')
assert listens['Length'].equals(expected_length_column), "❌ Il risultato non è corretto!"
print("✅ Il risultato è corretto!")

### Esercizio 5

**Obiettivo**: Trova gli utenti che hanno ascoltato più di 3 volte una canzone.

**Istruzioni**:
- Filtra il DataFrame `listens` per ottenere le righe dove 'Plays' è maggiore di 3.

**Hint**: Utilizza il filtraggio condizionale.

In [None]:
cond = listens['Plays'] > ...
heavy_listeners = listens.loc[cond, '...']
set(heavy_listeners)

# Verifica del risultato
expected_heavy_listeners = {103, 105}
assert set(heavy_listeners) == expected_heavy_listeners, "❌ Il risultato non è corretto!"
print("✅ Il risultato è corretto!")
