# Ancora su Pandas: lavorare sui dati mancanti
di Emiliano Citarella

## Modulo 3: Missing values

### Pandas DataFrames - Riempimento dei valori mancanti
- Riempimento dei valori mancanti
- Utilizzo di `.fillna`
- Utilizzo di `.loc` con DataFrames (simile a `.loc` su Series, ma bidimensionale con righe e colonne)

### Gestire i valori mancanti è un caso nella risoluzione creativa dei problemi
- Non esiste un'unica risposta giusta per tutti i casi.
- "Dipende" è una risposta comune nella scienza dei dati. Il contesto è importante.
- A volte i valori mancanti potrebbero significare zero, a seconda del contesto, quindi possiamo riempire zero.
- A volte, eliminare intere righe o colonne è appropriato
- Altre volte, è appropriato riempire i valori mancanti con la media, la mediana, la modalità o un valore probabile
- A volte, gli analisti rilasciano righe con troppi valori mancanti
- Altre volte, gli analisti rilasciano colonne con troppi valori mancanti
- I valori mancanti possono anche essere riempiti con una stima ragionevole, come un valore mediana, medio o modalità.
- Riempire troppi valori mancanti può distorcere i dati originali.

In [27]:
import pandas as pd

In [28]:
# Generiamo alcuni dati con valori mancanti. 
df = pd.DataFrame([
    {
        "item": "crackers",
        "serving_size": "4 crackers",
        "calories": 10,
        "fat": "1.1g",
        "sodium": "125mg",
        "price": 2.99,
    },
    {
        "item": "club soda",
        "serving_size": "8 oz",
        "calories": None,
        "fat": None,
        "sodium": "75mg",
        "price": 2.25,

    },
    {
        "item": "apple",
        "serving_size": 2,
        "calories": 95,
        "fat": None,
        "sodium": None,
        "price": 1.99,
    },
    {
        "item": "banana",
        "serving_size": 3,
        "calories": 105,
        "fat": "0.4g",
        "sodium": "1mg",
        "price": None,
    },
    {
        "item": "spam",
        "serving_size": "1 tin",
        "calories": None,
        "fat": None,
        "sodium": None,
        "price": None,
    }
])

# Set the index to be the item name
df.set_index("item", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,,,


In [32]:
df.isna()

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,False,False,False,False,False
club soda,False,True,True,False,False
apple,False,False,True,True,False
banana,False,False,False,False,True
spam,False,True,True,True,True


In [9]:
# Esempio di riempimento di valori nulli con un valore ragionevole
# Le mele e la club soda non hanno grassi, quindi questi valori mancanti possono essere 0
df.fat = df.fat.fillna(0)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,0,,


### Avvertimenti di Pandas

- Gli avvertimenti dei panda non sono errori. Il codice verrà eseguito. L'avvertimento è un avviso, non un errore che interrompe l'esecuzione.

- A seconda della tua versione di panda, il codice di cui sopra potrebbe produrre il seguente avviso.
```
SettingWithCopyWarning: A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_index,col_indexer] = value instead
```
- Poiché questo potrebbe avere un impatto su alcuni utenti, passeremo a lavorare con`.loc` che rappresenta un metodo molto importante perchè ci consente di isolare righe e colonne.


In [6]:
# le parentesi quadre significa che stiamo facendo indexing sul DataFrame
# Esempio di .loc's row_indexing e column_indexing ed è un 2D
# [start_row:end_row, column_start:column_end]
# [:,] restituisce tutte le righe e tutte le colonne

df.loc[:,]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,0,,


Il metodo .loc fa riferimento al DataFrame in memoria, non ad una copia. 

In [10]:
# Nota come stiamo ottenendo la gamma di file da club soda a apple
# è un range syntax molto simile allo slicing syntax di Python
# df.loc["club soda":"banana", :]

df.loc["club soda":"banana"]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
club soda,8 oz,,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,


In [12]:
import pandas as pd
# utilizzo .loc per la la sintassi di indicizzazione
# dammi la riga con idex apple

df.loc[df.index == "apple"]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
apple,2,95.0,0,,1.99


In [19]:
# utilizzo .loc come sintassi di indicizzazione
df.loc[df.serving_size == 3]

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
banana,3,105.0,0.4g,1mg,


In [20]:
# utilizzo .loc utilcome sintassi di indicizzazione e di slicing
df.loc[df.index == "apple", "serving_size":"fat"]

Unnamed: 0_level_0,serving_size,calories,fat
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
apple,2,95.0,0


In [33]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,,,


In [21]:
# Tutte le righe ma solo calorie come colonna
df.loc[:, "calories"]

item
crackers      10.0
club soda      NaN
apple         95.0
banana       105.0
spam           NaN
Name: calories, dtype: float64

In [22]:
# adesso voglio tutte le righe
# ma solo le colonne dalle calorie al prezzo 9 (incluso)
df.loc[:, "calories":"price"]

Unnamed: 0_level_0,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
crackers,10.0,1.1g,125mg,2.99
club soda,,0,75mg,2.25
apple,95.0,0,,1.99
banana,105.0,0.4g,1mg,
spam,,0,,


Con migliaia di colonne questa sintassi ci aiuta enormemente a delimitare lo spazio di manovra di analisi. 

In [34]:
# per le righe, ci focalizziamo sulle righe dove i record di calories sono vuoti, dove i campi calorie sono nulli.
# dammi la colonna calories
# la riga spam, potrebbe non essere corretta perchè spam ha valori stringhe e non numerici. 
df.loc[df.calories.isna(), "calories"] = 0
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,0.0,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,0.0,,,


In [22]:
# price non ha logica a mettere i NAN=0 
# una media potrebbe essere ragionevole qui, dal momento che questi prodotti hanno tutti uno stesso range di prezzo
df.loc[df.price.isna(), "price"] = df.price.mean()
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,0.0,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,2.41
spam,1 tin,0.0,0,,2.41


In [24]:
# torniamo su Spam
spam_calories = 1080
spam_fat = "96g"
spam_sodium = "4740mg" 
spam_price = 3.25

df.loc[df.index == "spam", "calories":"price"] = [spam_calories, spam_fat, spam_sodium, spam_price]
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,0.0,0,75mg,2.25
apple,2,95.0,0,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,1080.0,96g,4740mg,3.25


In [25]:
# Diciamo che abbiamo ricevuto alcune nuove informazioni sugli sconti
# Il responsabile aziendale dice che useremo gli sconti in futuro e i valori esistenti dovrebbero essere 0.
# Dovremo ricreare la colonna e assegnarla a zero
df["discount"] = 0

In [26]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,0
club soda,8 oz,0.0,0,75mg,2.25,0
apple,2,95.0,0,,1.99,0
banana,3,105.0,0.4g,1mg,,0
spam,1 tin,1080.0,96g,4740mg,3.25,0


## Risorse addizionali
- [.fillna](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)
- [Returning-a-view-versus-a-copy in the pandas docs](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy)
- [pandas .loc documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html)
- [pandas .iloc documentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

## Exercises
- Run the cells above to remove or fill most of the missing values from the `df` variable.
- Fill the missing sodium value with a logical choice.
- Use `pd.read_csv` to read `"penguins.csv"` into a dataframe variable named `penguins`
- Fill the missing values of the `bill_length_mm` with its average
- Fill in the missing values for `bill_depth_mm` with its average
- Fill in the missing values for `body_mass_g` with its average
- Run `.value_counts` on the `sex` column
- Fill the missing values in the `sex` column with the `mode` (Follow .mode() with [0] to access the string value)
- Run `.value_counts` on the `sex` column again, after filling the missing values

In [None]:
# Fill the missing sodium value with a logical choice.


In [None]:
# df.loc[row_indexer, column_indexer] = value


In [None]:
# Use `pd.read_csv` to read `"penguins.csv"` into a dataframe variable named `penguins`


In [None]:
# Fill the missing values of the `bill_length_mm` with its average


In [None]:
# Fill in the missing values for `bill_depth_mm` with its average


In [None]:
# Fill in the missing values for `body_mass_g` with its average


In [None]:
# Run `.value_counts` on the `sex` column


In [None]:
# Fill the missing values in the `sex` column with the `mode` (Follow .mode() with [0] to access the string value)


In [None]:
# Run `.value_counts` on the `sex` column again, after filling the missing values
