# Lavorare sui dati mancanti

## Modulo 3

### Pandas DataFrames - Riempimento dei valori mancanti
- Riempimento dei valori mancanti
- Utilizzo di `.fillna`
- Utilizzo di `.loc` con DataFrames (simile a `.loc` su Series, ma bidimensionale con righe e colonne)

### Gestire i valori mancanti.
Gestire i valori mancanti in un dataset è fondamentale per garantire l'affidabilità delle analisi e dei modelli predittivi. Non esiste una risposta giusta per tutti i casi, a volte:
- i valori mancanti potrebbero significare zero, a seconda del contesto, e quindi possiamo riempire zero.
- eliminare intere righe o colonne è appropriato
- è appropriato riempire i valori mancanti con la media, la mediana, la modalità o un valore probabile
- gli analisti rilasciano righe con troppi valori mancanti
- gli analisti rilasciano colonne con troppi valori mancanti

In [2]:
import pandas as pd

In [4]:
df = pd.DataFrame([
    {
        "item": "crackers",
        "serving_size": "4 crackers",
        "calories": 10,
        "fat": "1.1g",
        "sodium": "125mg",
        "price": 2.99,
    },
    {
        "item": "club soda",
        "serving_size": "8 oz",
        "calories": None,
        "fat": None,
        "sodium": "75mg",
        "price": 2.25,

    },
    {
        "item": "apple",
        "serving_size": 2,
        "calories": 95,
        "fat": None,
        "sodium": None,
        "price": 1.99,
    },
    {
        "item": "banana",
        "serving_size": 3,
        "calories": 105,
        "fat": "0.4g",
        "sodium": "1mg",
        "price": None,
    },
    {
        "item": "spam",
        "serving_size": "1 tin",
        "calories": None,
        "fat": None,
        "sodium": None,
        "price": None,
    }
])

# Set the index to be the item name
df.set_index("item", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,,,


In [5]:
df.isna()

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,False,False,False,False,False
club soda,False,True,True,False,False
apple,False,False,True,True,False
banana,False,False,False,False,True
spam,False,True,True,True,True


# `.fillna()`
Serve a riempire i valori mancanti (NaN) in un DataFrame o in una Series.
* fill = riempi
* na = not available (cioè valori mancanti)
* Quindi: fillna() sostituisce i valori mancanti con qualcosa che specifichi tu.

In [6]:
df.fat = df.fat.fillna(0)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,0,,


# `.loc[]`
Ricordiamo che `.loc[]` è un selettora basato su etichette, la cui sintatti è: 
`df.loc[righe, colonne]`

* righe: l’etichetta (o condizione) delle righe da selezionare.
* colonne: l’etichetta delle colonne da selezionare.
* : vuol dire "tutte".


In [7]:
df.loc[:,]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,0,,


Seleziono un intervallo di righe nel DataFrame, utilizzando le etichette dell'indice, ovvero i nomi delle righe. 
* `.loc` seleziona basandosi su etichette (non su numeri di riga).
* `"club soda":"banana"` significa: prendi tutte le righe da "club soda" fino a "banana" inclusa.
* Funziona solo se l’indice del DataFrame è ordinato (in ordine alfabetico o quello che hai impostato).

In [8]:
df.loc["club soda":"banana"]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,


In [10]:
import pandas as pd
df.loc[df.index == "apple"] # seleziono solo la riga/righe del DF in cui indice è esattamente "apple"

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
apple,2,95.0,0,,1.99


In [19]:
df.loc[df.serving_size == 3] # selezioni tutte le righe del DF in cui la colonna è uguale a 3

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
banana,3,105.0,0.4g,1mg,


In [11]:
df.loc[df.index == "apple", "serving_size":"fat"] # seleziono riga e solo alcune colonne

Unnamed: 0_level_0,serving_size,calories,fat
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
apple,2,95.0,0


In [12]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,0,,


In [13]:
df.loc[:, "calories"]

item
crackers      10.0
club soda      NaN
apple         95.0
banana       105.0
spam           NaN
Name: calories, dtype: float64

In [15]:
df.loc[:, "calories":"price"] # tutte le righe, ma solo le colonne selezionate

Unnamed: 0_level_0,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
crackers,10.0,1.1g,125mg,2.99
club soda,,0,75mg,2.25
apple,95.0,0,,1.99
banana,105.0,0.4g,1mg,
spam,,0,,


Con migliaia di colonne questa sintassi ci aiuta enormemente a delimitare lo spazio di manovra di analisi. 

In [16]:
df.loc[df.calories.isna(), "calories"] = 0 # riempio i valori mancandi di calories con 0, solo per le righe vuote
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,0.0,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,0.0,0,,


Riempio i valori mancanti (`NaN`) nella colonna `price` con la media dei valori non mancanti della stessa colonna. 

1. `df.price.isna()` \
Creo una Serie booleana:
* → True dove il valore nella colonna price è mancante (NaN),
* → False altrove.

2. `df.loc[ ..., "price"]` \
Usa .loc per selezionare le righe con NaN in price, ma solo la colonna price.

3. `= df.price.mean()` \
Assegna a quelle celle la media aritmetica di tutti i valori non mancanti in price.

In [17]:
df.loc[df.price.isna(), "price"] = df.price.mean()
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,0.0,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,2.41
spam,1 tin,0.0,0,,2.41


# Esercitazione
Riempimento dati mancanti di un DataFrame

In [18]:
import pandas as pd

data = {
    "item": ["apple", "banana", "crackers", "club soda", "spam"],
    "calories": [95, 105, 10, None, None],
    "fat": [None, "0.4g", "1.1g", None, None],
    "price": [1.99, None, 2.99, 2.25, None]
}

df = pd.DataFrame(data)
df.set_index("item", inplace=True)

## Obiettivo 
1. Individuare i valori mancanti (NaN)
2. Riempire i NaN nella colonna price con la media
3. Riempire i NaN nella colonna calories con 0
4. Riempire i NaN nella colonna fat con la stringa "0g"

## Domande
1. Quanti valori mancanti ci sono per colonna?
2. Qual è la media della colonna `price` (ignorando i `NaN`)?
3. Usa `.loc[]` per riempire i valori mancanti in calories con 0.
4. Usa `fillna()` per riempire i valori mancanti in `fat` con `"0g"`.
5. Usa `.loc[]` per riempire i valori mancanti in price con la media.

In [19]:
df.isna().sum()


calories    2
fat         3
price       2
dtype: int64

In [20]:
media_price = df["price"].mean()
print(media_price)


2.41


In [21]:
df.loc[df["calories"].isna(), "calories"] = 0


In [22]:
df["fat"] = df["fat"].fillna("0g")


In [23]:
df.loc[df["price"].isna(), "price"] = media_price


In [25]:
print(df)


           calories   fat  price
item                            
apple          95.0    0g   1.99
banana        105.0  0.4g   2.41
crackers       10.0  1.1g   2.99
club soda       0.0    0g   2.25
spam            0.0    0g   2.41
