# Introduzione a Pandas

## Modulo 3: DataFrames 

### Pandas DataFrames - Identificazione dei valori mancanti

- Identificare e contare i valori mancanti

- Rimozione di righe con informazioni mancanti

- Eliminare le colonne da un DataFrame

In [46]:
import pandas as pd

Abbiamo creato un DataFrame `df` con valori reali e mancanti (missing values) ed abbiamo impostato la colonna "item" come indice. 

* valori mancanti (NaN) in quasi tutte le righe.
* Colonne come "fat" e "sodium" contengono stringhe con unità ("1.1g", "75mg"), quindi non sono numeriche e non possiamo fare calcoli su di esse finché non le puliamo.
* `"serving_size"` ha dati misti: stringhe per alcuni, numeri per altri (es. 2, 3) → anche qui occorre standardizzare.
* La colonna `"discount"` è completamente vuota.

In [47]:
df = pd.DataFrame([
    {
        "item": "crackers",
        "serving_size": "4 crackers",
        "calories": 10,
        "fat": "1.1g",
        "sodium": "125mg",
        "price": 2.99,
        "discount": None
    },
    {
        "item": "club soda",
        "serving_size": "8 oz",
        "calories": None,
        "fat": None,
        "sodium": "75mg",
        "price": 2.25,
        "discount": None

    },
    {
        "item": "apple",
        "serving_size": 2,
        "calories": 95,
        "fat": None,
        "sodium": None,
        "price": 1.99,
        "discount": None
    },
    {
        "item": "banana",
        "serving_size": 3,
        "calories": 105,
        "fat": "0.4g",
        "sodium": "1mg",
        "price": None,
        "discount": None
    },
    {
        "item": "spam",
        "serving_size": "1 tin",
        "calories": None,
        "fat": None,
        "sodium": None,
        "price": None,
        "discount": None
    }
])

df.set_index("item", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


# `.info()`
1. Il metodo `.info()` fornisce una panoramica strutturale del DataFrame:
- Mostra per ogni colonna: il nome, il numero di valori NON nulli e il tipo di dato.
- Non conta i valori nulli, ma quanti dati validi (non nulli) sono presenti per colonna.
- Indica anche l'indice del DataFrame (ad esempio, RangeIndex con numeri interi).
- Riporta infine la quantità totale di memoria utilizzata dal DataFrame in RAM.



In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, crackers to spam
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   serving_size  5 non-null      object 
 1   calories      3 non-null      float64
 2   fat           2 non-null      object 
 3   sodium        3 non-null      object 
 4   price         3 non-null      float64
 5   discount      0 non-null      object 
dtypes: float64(2), object(4)
memory usage: 280.0+ bytes


Il metodo `.info()` è uno strumento diagnostico utile per esplorare velocemente la struttura di un DataFrame.

In particolare, fornisce:
1. Il tipo di indice utilizzato (es. RangeIndex, DatetimeIndex, etc.) e il numero totale di righe.
2. Per ciascuna colonna:
* il nome della colonna
* il numero di valori NON nulli (cioè le celle con dati validi)
* il tipo di dato (es. int64, float64, object)
* NON mostra quanti valori nulli ci sono, ma solo quanti NON nulli.
3. Il numero totale di colonne.
4. La quantità totale di memoria occupata dal DataFrame.

Questo metodo è particolarmente utile per:
- Individuare rapidamente colonne con dati mancanti (guardando se i valori non nulli sono inferiori al numero totale di righe)
- Capire se i tipi di dato sono corretti (es. colonne numeriche non interpretate come stringhe)
- Avere un’idea della dimensione in memoria del DataFrame.

In [49]:
df.calories

item
crackers      10.0
club soda      NaN
apple         95.0
banana       105.0
spam           NaN
Name: calories, dtype: float64

# `NaN`
`NaN` sta per "Not a Number", cioè "non un numero", ed è un valore speciale utilizzato per indicare l'assenza di un dato o un valore mancante.

In Python (e librerie come Pandas o NumPy), NaN rappresenta:
* un valore numerico indefinito
* un dato assente in una cella
* un placeholder per i missing data

In [50]:
df.price

item
crackers     2.99
club soda    2.25
apple        1.99
banana        NaN
spam          NaN
Name: price, dtype: float64

NaN ci permette di fare matematica senza ricevere errori di esecuzione: le funzioni statistiche in Pandas ignorano automaticamente i NaN

In [51]:
df.calories.mean()

70.0

In [52]:
df.price.mean()

2.41

# `.value_counts`
Il metodo `.value_counts()` ignora automaticamente i valori NaN quando conta la frequenza dei valori in una colonna.

In [53]:
df.sodium.value_counts()

sodium
125mg    1
75mg     1
1mg      1
Name: count, dtype: int64

`value_counts` è una funzione molto importante perchè ci aiuta a comprendere la distribuzione di frequenza che è  utile con i diagrammi a barre per una visualizzazione rapida dei dati. 

* `.value_counts()` → conta quante volte appare ciascun valore diverso da NaN
* `dropna=False` → dice a Pandas: "Non escludere i NaN, mostrameli nel conteggio"

Sto contando tutti i valori presenti nella colonna sodium, inclusi quelli mancanti (NaN).

`dropna=False` ci permette di includere i valori mancanti nel conteggio, così possiamo sapere quante celle sono vuote in quella colonna.

In [55]:
df.sodium.value_counts(dropna=False)

sodium
None     2
125mg    1
75mg     1
1mg      1
Name: count, dtype: int64

# `None`
Il valore speciale `None` viene usato per rappresentare "nessun valore" o un dato mancante.
Quando creiamo un DataFrame e ci inseriemo una stringa mancante usando `None`, Pandas la interpreta come valore mancante, e la converte in `NaN (Not a Number)`, anche se è una colonna di tipo object (stringa).

In [27]:
df.fat

item
crackers     1.1g
club soda    None
apple        None
banana       0.4g
spam         None
Name: fat, dtype: object

In [28]:
df.sodium

item
crackers     125mg
club soda     75mg
apple         None
banana         1mg
spam          None
Name: sodium, dtype: object

# `.isna()`
Il metodo `.isna()` è lo strumento principale per individuare i valori mancanti `(NaN o None)` in Pandas.

Funziona in due modi:

1. Applicato a una singola colonna:
* Restituisce una Series booleana, con `True` dove il valore è mancante, e `False` dove è presente.

2. Applicato all'intero DataFrame:
* Restituisce una matrice (DataFrame) di valori booleani della stessa forma, con `True` per ogni cella mancante.

È molto utile in combinazione con altri metodi, come `.sum()`, `.any()`, `.all()`, o per filtrare righe con valori mancanti.

In [29]:
df.fat.isna()

item
crackers     False
club soda     True
apple         True
banana       False
spam          True
Name: fat, dtype: bool

In [30]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


In [44]:
df.isna()

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,False,False,False,False,False,True
club soda,False,True,True,False,False,True
apple,False,False,True,True,False,True
banana,False,False,False,False,True,True
spam,False,True,True,True,True,True


# Calcoliamo il numero di valori mancanti (NaN)
Possiamo calcolare il numero di valori mancanti (NaN) in ogni colonna perché in Pandas i valori booleani sono trattati come numeri:
- True = 1
- False = 0

1. Il metodo .isna() restituisce un DataFrame booleano, con True dove il valore è mancante.
2. Usando `.sum()`, Pandas somma i `True`→ cioè conta i `NaN`.

In [19]:

print("Number of nulls by column")
df.isna().sum()

Number of nulls by column


serving_size    0
calories        2
fat             3
sodium          2
price           2
discount        5
dtype: int64

In [20]:
# per comprendere la proporzione dei dati persi possiamo utilizzare mean
# in questo modo otteniamo il numero di righe di dati persi su totale degli oggetti dato. 
# serving_size percentuale zero di dati persi
print("Proportion of nulls by column")
df.isna().mean()

Proportion of nulls by column


serving_size    0.0
calories        0.4
fat             0.6
sodium          0.4
price           0.4
discount        1.0
dtype: float64

In [21]:
# possiamo realizzare il conteggio del numero di dati persi per riga
# Ricorda che .sum può essere eseguito su colonne o per riga, per riga impostando axis=1 che sovrascrive
# l'argomento di default axis = 0
print("Number of nulls by row")
df.isna().sum(axis=1)

Number of nulls by row


item
crackers     1
club soda    3
apple        3
banana       2
spam         5
dtype: int64

In [22]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


In [23]:
# Proporzione del numero di nulli per riga
# Ricorda che .sum può essere eseguito su colonne o per riga, per riga con axis=1
print("Proportion of nulls by row")
df.isna().mean(axis=1)

Proportion of nulls by row


item
crackers     0.166667
club soda    0.500000
apple        0.500000
banana       0.333333
spam         0.833333
dtype: float64

# Esercitazione
Abbiamo a disposizione un dataset che contiene informazioni nutrizionali su alcuni alimenti. \
Purtroppo, alcuni dati non sono stati registrati correttamente (mancano calorie, sodio o prezzo).

In [32]:
import pandas as pd
import numpy as np

alimenti = pd.DataFrame({
    'alimento': ['cracker', 'soda', 'mela', 'banana', 'spam'],
    'calorie': [10, np.nan, 95, 105, np.nan],
    'sodio': ['125mg', '75mg', np.nan, '1mg', np.nan],
    'prezzo': [2.99, 2.25, 1.99, np.nan, np.nan]
})
alimenti.set_index('alimento', inplace=True)
alimenti

Unnamed: 0_level_0,calorie,sodio,prezzo
alimento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cracker,10.0,125mg,2.99
soda,,75mg,2.25
mela,95.0,,1.99
banana,105.0,1mg,
spam,,,


1. Quali celle del DataFrame contengono valori mancanti?
2. Quanti valori mancanti ci sono per colonna?
3. Quante righe contengono almeno un valore mancante?
4. Visualizza solo le righe complete (senza NaN).

|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>
|<br>

In [40]:
# 1. Individuare le celle mancanti
alimenti.isna()

Unnamed: 0_level_0,calorie,sodio,prezzo
alimento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cracker,False,False,False
soda,True,False,False
mela,False,True,False
banana,False,False,False
spam,True,True,False


In [41]:
# 2. Contare i valori mancanti per colonna
alimenti.isna().sum()

calorie    2
sodio      2
prezzo     0
dtype: int64

In [42]:
# 3. Righe con almeno un NaN
alimenti.isna().any(axis=1).sum()

3

In [43]:
# 4. Righe complete
alimenti[alimenti.notna().all(axis=1)]

Unnamed: 0_level_0,calorie,sodio,prezzo
alimento,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
cracker,10.0,125mg,2.99
banana,105.0,1mg,0.0


# Gestione dei valori mancanti

- Non c'è una risposta giusta per tutti i casi.
- "Dipende" è una risposta comune nella scienza dei dati. Il contesto è importante.
- A volte i valori mancanti potrebbero significare zero, a seconda del contesto, quindi possiamo riempire zero.
- A volte, eliminare intere righe o colonne è appropriato
- A volte, riempire i valori mancanti ha senso per mantenere il resto dei dati della riga o della colonna

# `.dropna()`
Il metodo `.dropna()` è uno strumento fondamentale per eliminare le righe con valori mancanti. \
Elimina tutte le righe che contengono almeno un valore mancante (NaN o None).

### Parametri utili
* `axis=0` (default): elimina righe con NaN
* `axis=1`: elimina colonne con NaN
* `how='any'` (default): elimina se almeno un valore è mancante
* `how='all'`: elimina solo se tutti i valori sono mancanti
* `subset=['col1', 'col2']`: controlla solo certe colonne


In [56]:
df.dropna() # elimina ogni riga con valore nullo, almeno uno -> distruttivo attenzione 

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1


In [57]:
df.dropna(axis=1) # axis=1 elimina tutte le colonne con eventuali valori mancanti -> distruttivo attenzione

Unnamed: 0_level_0,serving_size
item,Unnamed: 1_level_1
crackers,4 crackers
club soda,8 oz
apple,2
banana,3
spam,1 tin


# Esercitazione

In [None]:
import pandas as pd
import numpy as np

tabella = pd.DataFrame({
    'alimento': ['mela', 'banana', 'cracker', 'soda', 'spam'],
    'calorie': [95, 105, 10, np.nan, np.nan],
    'sodio': ['1mg', '1mg', '125mg', '75mg', np.nan]
})

1. Visualizza il DataFrame originale
2. Elimina le righe con almeno un valore mancanti
3. Visualizza la tabella pulita

In [59]:
print("Tabella originale:")
print(tabella)

tabella_pulita = tabella.dropna()

print("\nTabella senza valori mancanti:")
print(tabella_pulita)

Tabella originale:
  alimento  calorie  sodio
0     mela     95.0    1mg
1   banana    105.0    1mg
2  cracker     10.0  125mg
3     soda      NaN   75mg
4     spam      NaN    NaN

Tabella senza valori mancanti:
  alimento  calorie  sodio
0     mela     95.0    1mg
1   banana    105.0    1mg
2  cracker     10.0  125mg


# Analisi di un DataFrame

In [64]:
df = pd.DataFrame([
    {
        "item": "crackers",
        "serving_size": "4 crackers",
        "calories": 10,
        "fat": "1.1g",
        "sodium": "125mg",
        "price": 2.99,
        "discount": None
    },
    {
        "item": "club soda",
        "serving_size": "8 oz",
        "calories": None,
        "fat": None,
        "sodium": "75mg",
        "price": 2.25,
        "discount": None

    },
    {
        "item": "apple",
        "serving_size": 2,
        "calories": 95,
        "fat": None,
        "sodium": None,
        "price": 1.99,
        "discount": None
    },
    {
        "item": "banana",
        "serving_size": 3,
        "calories": 105,
        "fat": "0.4g",
        "sodium": "1mg",
        "price": None,
        "discount": None
    },
    {
        "item": "spam",
        "serving_size": "1 tin",
        "calories": None,
        "fat": None,
        "sodium": None,
        "price": None,
        "discount": None
    }
])

df.set_index("item", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


Questa fase del processo è molto delicata perchè si tratta di pensare e razionalizzare le opzioni più maggiormente difendibili e stabili. 

# `.drop()`
Questo metodo rimuove righe o colonne da un DataFrame. 
* `inplace=True` modifica il DataFrame in memoria.

In [65]:
df.drop(columns="discount", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,,,


## Risorse aggiuntive
- [.isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html) è un alias per `isna`.
- [.value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) documentazione
- [Pandas .isna documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html)

# Esercitazione
- Utilizza `pd.read_csv` per leggere `"penguins.csv"` all'interno di una variabile DataDrame chiamata `penguins`
- Conta il numero di valori mancanti in ogni colonna del DF.
- Ottieni la proporzione di valori mancanti (la media) per riga. Memorizza questo su una variabile denominata`percent_missing_by_row`
- Ordina il `percent_missing_by_row` in ordine decrescente. Quante delle righe sono per lo più vuote?

In [69]:
penguins=pd.read_csv('https://raw.githubusercontent.com/emilianoyoulysses/corso_python_fondazione_pico/refs/heads/DataFrames-%26-TimeSeries/penguins.csv')
penguins

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [70]:
penguins.isna()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,True,True,True,True,True,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
339,False,False,False,False,False,False,False,False
340,False,False,False,False,False,False,False,False
341,False,False,False,False,False,False,False,False
342,False,False,False,False,False,False,False,False


In [71]:
penguins.isna().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

In [72]:
percent_missing_by_row=penguins.isna().mean(axis=1) # calcolo la media lungo le righe
percent_missing_by_row

0      0.000
1      0.000
2      0.000
3      0.625
4      0.000
       ...  
339    0.000
340    0.000
341    0.000
342    0.000
343    0.000
Length: 344, dtype: float64

In [73]:
percent_missing_by_row.sort_values(ascending=False)

271    0.625
3      0.625
8      0.125
268    0.125
218    0.125
       ...  
117    0.000
116    0.000
115    0.000
114    0.000
343    0.000
Length: 344, dtype: float64

In [74]:
percent_missing_by_row.sort_values(ascending=False).head(15)

271    0.625
3      0.625
8      0.125
268    0.125
218    0.125
11     0.125
10     0.125
9      0.125
47     0.125
178    0.125
256    0.125
233    0.000
228    0.000
234    0.000
232    0.000
dtype: float64

# Esercitazione finale - Analisi Dati Camion 
Imparare a esplorare un `DataFrame` con valori mancanti usando: info(), isna(), value_counts(), conteggio valori mancanti, e dropna().

In [1]:
import pandas as pd

df = pd.DataFrame([
    {
        "modello": "Iveco Daily",
        "peso_max_tonnellate": 3.5,
        "autonomia_km": 400,
        "alimentazione": "diesel",
        "prezzo": 32000,
        "noleggio_giornaliero": None
    },
    {
        "modello": "Mercedes Actros",
        "peso_max_tonnellate": 18,
        "autonomia_km": 1200,
        "alimentazione": "diesel",
        "prezzo": 92000,
        "noleggio_giornaliero": 230
    },
    {
        "modello": "Fiat Ducato",
        "peso_max_tonnellate": 3.3,
        "autonomia_km": None,
        "alimentazione": None,
        "prezzo": 29000,
        "noleggio_giornaliero": 80
    },
    {
        "modello": "Tesla Semi",
        "peso_max_tonnellate": 36,
        "autonomia_km": 800,
        "alimentazione": "elettrico",
        "prezzo": None,
        "noleggio_giornaliero": None
    },
    {
        "modello": "Ford Transit",
        "peso_max_tonnellate": 3.5,
        "autonomia_km": 380,
        "alimentazione": "diesel",
        "prezzo": 30000,
        "noleggio_giornaliero": 70
    }
])

df.set_index("modello", inplace=True)
df


Unnamed: 0_level_0,peso_max_tonnellate,autonomia_km,alimentazione,prezzo,noleggio_giornaliero
modello,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Iveco Daily,3.5,400.0,diesel,32000.0,
Mercedes Actros,18.0,1200.0,diesel,92000.0,230.0
Fiat Ducato,3.3,,,29000.0,80.0
Tesla Semi,36.0,800.0,elettrico,,
Ford Transit,3.5,380.0,diesel,30000.0,70.0


1. visualizza le informazioni generali;
2. conta i valori mancanti;
3. quanti modelli mancano del prezzo;
4. quanti camion per tipo di alimentazione 
5. quanti valori mancanti ci sono in totale
6. quante colonne hanno almeno un valore mancante
7. elimina i camion con almeno un valore mancante
8. elimina solo i camion senza prezzo

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, Iveco Daily to Ford Transit
Data columns (total 5 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   peso_max_tonnellate   5 non-null      float64
 1   autonomia_km          4 non-null      float64
 2   alimentazione         4 non-null      object 
 3   prezzo                4 non-null      float64
 4   noleggio_giornaliero  3 non-null      float64
dtypes: float64(4), object(1)
memory usage: 240.0+ bytes


In [3]:
df.isna().sum()

peso_max_tonnellate     0
autonomia_km            1
alimentazione           1
prezzo                  1
noleggio_giornaliero    2
dtype: int64

In [4]:
df["prezzo"].isna().sum()

1

In [5]:
df["alimentazione"].value_counts(dropna=False)

alimentazione
diesel       3
None         1
elettrico    1
Name: count, dtype: int64

In [6]:
df.isna().sum().sum()

5

In [7]:
df.columns[df.isna().any()]

Index(['autonomia_km', 'alimentazione', 'prezzo', 'noleggio_giornaliero'], dtype='object')

In [8]:
df_drop = df.dropna()
df_drop

Unnamed: 0_level_0,peso_max_tonnellate,autonomia_km,alimentazione,prezzo,noleggio_giornaliero
modello,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Mercedes Actros,18.0,1200.0,diesel,92000.0,230.0
Ford Transit,3.5,380.0,diesel,30000.0,70.0


In [9]:
df_prezzo = df.dropna(subset=["prezzo"])
df_prezzo

Unnamed: 0_level_0,peso_max_tonnellate,autonomia_km,alimentazione,prezzo,noleggio_giornaliero
modello,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Iveco Daily,3.5,400.0,diesel,32000.0,
Mercedes Actros,18.0,1200.0,diesel,92000.0,230.0
Fiat Ducato,3.3,,,29000.0,80.0
Ford Transit,3.5,380.0,diesel,30000.0,70.0
