# Introduzione a Pandas
di Emiliano Citarella

## Modulo 3: DataFrames 

### Pandas DataFrames - Identificazione dei valori mancanti

- Identificare e contare i valori mancanti

- Rimozione di righe con informazioni mancanti

- Eliminare le colonne da un DataFrame

In [35]:
import pandas as pd

In [36]:
# Generiamo alcuni dati con valori mancanti.
# Creo un DataFrame da dizionari
df = pd.DataFrame([
    {
        "item": "crackers",
        "serving_size": "4 crackers",
        "calories": 10,
        "fat": "1.1g",
        "sodium": "125mg",
        "price": 2.99,
        "discount": None
    },
    {
        "item": "club soda",
        "serving_size": "8 oz",
        "calories": None,
        "fat": None,
        "sodium": "75mg",
        "price": 2.25,
        "discount": None

    },
    {
        "item": "apple",
        "serving_size": 2,
        "calories": 95,
        "fat": None,
        "sodium": None,
        "price": 1.99,
        "discount": None
    },
    {
        "item": "banana",
        "serving_size": 3,
        "calories": 105,
        "fat": "0.4g",
        "sodium": "1mg",
        "price": None,
        "discount": None
    },
    {
        "item": "spam",
        "serving_size": "1 tin",
        "calories": None,
        "fat": None,
        "sodium": None,
        "price": None,
        "discount": None
    }
])

# Imposto l'indice come nome dell'elemento. Meglio non avere numeri interi come indice. 
# nella realtà righe e colonne sono molte di più ed i casi di valori mancanti più eterogeni.
# item è un nome unico nel DataFrame

df.set_index("item", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


Dal db noto che la variabile serving_size possiede diverse tipologie di dato, di scrittura e non ha solo dati numerici. Inoltre osservo che la variabile discount non possiede dati. 

In [4]:
# Il metodo .info emette tipi di dati e conteggio dei valori non nulli, ovvero dei records che hanno qualcosa. 
# non conteggia i nulli, conteggia i non nulli
# abbiamo l'ordine dell'indice con numeri interi
# Oltre alla tipologia di dato abbiamo anche il conteggio dell'utilizzo della memoria da parte del DF

df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, crackers to spam
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   serving_size  5 non-null      object 
 1   calories      3 non-null      float64
 2   fat           2 non-null      object 
 3   sodium        3 non-null      object 
 4   price         3 non-null      float64
 5   discount      0 non-null      object 
dtypes: float64(2), object(4)
memory usage: 280.0+ bytes


In [5]:
# I valori mancanti in una colonna numerica vengono visualizzati come NaN, che significa "non un numero"
# notiamo che il tipo di dati è float64, ovvero un tipo di dato numerico
# NAN rappresenta l'assenza di un numero al contrario di uno 0 che distorcerebbe i dati
# o al contrario di una stringa che varierebbe il tipo di dato della colonna 

df.calories

item
crackers      10.0
club soda      NaN
apple         95.0
banana       105.0
spam           NaN
Name: calories, dtype: float64

In [6]:
df.price
# NAN rappresenta proprio un'assenza di un numero. 

item
crackers     2.99
club soda    2.25
apple        1.99
banana        NaN
spam          NaN
Name: price, dtype: float64

In [7]:
# NaN esiste per permetterci di fare matematica senza ottenere errori di esecuzione
# Molte funzioni matematiche ignorano i NaN, ad esempio la media
df.calories.mean()

70.0

In [11]:
df.price.mean()

2.41

In [9]:
# Per impostazione predefinita, .value_counts ignora anche i NaN
df.sodium.value_counts()

125mg    1
75mg     1
1mg      1
Name: sodium, dtype: int64

value_counts è una funzione davvero molto importante per la nostra analisi dati perchè ci aiuta a comprendere la distribuzione di frequenza che è molto utile con i diagrammi a barre per una visualizzazione rapida dei dati. 

In [40]:
# se imposto dropna=False posso contare i valori mancanti
df.sodium.value_counts(dropna=False)

None     2
125mg    1
75mg     1
1mg      1
Name: sodium, dtype: int64

In [41]:
# i valori mancanti in una stringa sono definiti NONE 
# NONE è un pezzo di dato mancante?
df.fat

item
crackers     1.1g
club soda    None
apple        None
banana       0.4g
spam         None
Name: fat, dtype: object

In [17]:
df.sodium

item
crackers     125mg
club soda     75mg
apple         None
banana         1mg
spam          None
Name: sodium, dtype: object

In [44]:
# lo strumento che utilizziamo è il metodo .isna() 
# può operare su una colonna, restituendo una serie booleana, oppure sull'intero DataFrame

df.fat.isna()

item
crackers     False
club soda     True
apple         True
banana       False
spam          True
Name: fat, dtype: bool

In [42]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


In [18]:
# .isna() può anche operare sull'intero DataFrame
df.isna()

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,False,False,False,False,False,True
club soda,False,True,True,False,False,True
apple,False,False,True,True,False,True
banana,False,False,False,False,True,True
spam,False,True,True,True,True,True


In [19]:
# possiamo calcolare dato che True=1 e False=0 
# .sum per il conteggio del numero di nulli per colonna
print("Number of nulls by column")
df.isna().sum()

Number of nulls by column


serving_size    0
calories        2
fat             3
sodium          2
price           2
discount        5
dtype: int64

In [20]:
# per comprendere la proporzione dei dati persi possiamo utilizzare mean
# in questo modo otteniamo il numero di righe di dati persi su totale degli oggetti dato. 
# serving_size percentuale zero di dati persi
print("Proportion of nulls by column")
df.isna().mean()

Proportion of nulls by column


serving_size    0.0
calories        0.4
fat             0.6
sodium          0.4
price           0.4
discount        1.0
dtype: float64

In [21]:
# possiamo realizzare il conteggio del numero di dati persi per riga
# Ricorda che .sum può essere eseguito su colonne o per riga, per riga impostando axis=1 che sovrascrive
# l'argomento di default axis = 0
print("Number of nulls by row")
df.isna().sum(axis=1)

Number of nulls by row


item
crackers     1
club soda    3
apple        3
banana       2
spam         5
dtype: int64

In [22]:
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


In [23]:
# Proporzione del numero di nulli per riga
# Ricorda che .sum può essere eseguito su colonne o per riga, per riga con axis=1
print("Proportion of nulls by row")
df.isna().mean(axis=1)

Proportion of nulls by row


item
crackers     0.166667
club soda    0.500000
apple        0.500000
banana       0.333333
spam         0.833333
dtype: float64

### Gestione dei valori mancanti

- Non c'è una risposta giusta per tutti i casi.
- "Dipende" è una risposta comune nella scienza dei dati. Il contesto è importante.
- A volte i valori mancanti potrebbero significare zero, a seconda del contesto, quindi possiamo riempire zero.
- A volte, eliminare intere righe o colonne è appropriato
- A volte, riempire i valori mancanti ha senso per mantenere il resto dei dati della riga o della colonna

In [22]:
# Esempio di rimozione dei valori nulli
# dropna elimina ogni riga con un valore nullo, almeno un valore nullo
# Poiché mancano dati in ogni riga, questo è piuttosto distruttivo...
# l'argomento axis predefinito è axis=0, che significa riga per riga
df.dropna()

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1


In [24]:
# dropna(axis=1) elimina tutte le colonne con eventuali valori mancanti
# Anche questo è troppo distruttivo per essere utile
df.dropna(axis=1)

Unnamed: 0_level_0,serving_size
item,Unnamed: 1_level_1
crackers,4 crackers
club soda,8 oz
apple,2
banana,3
spam,1 tin


In [25]:
# Esaminiamo il dataframe
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price,discount
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99,
club soda,8 oz,,,75mg,2.25,
apple,2,95.0,,,1.99,
banana,3,105.0,0.4g,1mg,,
spam,1 tin,,,,,


Questa fase del processo è molto delicata perchè si tratta di pensare e razionalizzare le opzioni più maggiormente difendibili e stabili. 

In [26]:
# La colonna degli sconti non aggiunge informazioni qui, quindi possiamo abbandonarla
# inplace modifica il DataFrame in memoria
df.drop(columns="discount", inplace=True)
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,
spam,1 tin,,,,


In [27]:
# Riassegna il df
# df.drop(index=["spam"], inplace=True) Produrrebbe lo stesso risultato
df = df[df.index != "spam"]
df

Unnamed: 0_level_0,serving_size,calories,fat,sodium,price
item,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
crackers,4 crackers,10.0,1.1g,125mg,2.99
club soda,8 oz,,,75mg,2.25
apple,2,95.0,,,1.99
banana,3,105.0,0.4g,1mg,


## Risorse aggiuntive
- [.isnull](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.isnull.html) è un alias per `isna`.
- [.value_counts](https://pandas.pydata.org/docs/reference/api/pandas.Series.value_counts.html) documentazione
- [Pandas .isna documentation](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.isna.html)

## Esercizi
- utilizziamo `pd.read_csv` per leggere `"penguins.csv"` all'interno di una variabile DataDrame chiamata `penguins`
- Scrivi il codice panda per contare il numero di valori mancanti per colonna
- Scrivi i panda necessari per ottenere la proporzione di valori mancanti per riga. Memorizza questo su una variabile denominata`percent_missing_by_row`
- Ordina il `percent_missing_by_row` Serie in ordine decrescente. Quante delle righe sono per lo più vuote?

In [47]:
penguins=pd.read_csv('penguins.csv')
penguins

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,male,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,female,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,female,2007
3,Adelie,Torgersen,,,,,,2007
4,Adelie,Torgersen,36.7,19.3,193.0,3450.0,female,2007
...,...,...,...,...,...,...,...,...
339,Chinstrap,Dream,55.8,19.8,207.0,4000.0,male,2009
340,Chinstrap,Dream,43.5,18.1,202.0,3400.0,female,2009
341,Chinstrap,Dream,49.6,18.2,193.0,3775.0,male,2009
342,Chinstrap,Dream,50.8,19.0,210.0,4100.0,male,2009


In [29]:
penguins.isna()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,sex,year
0,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False
3,False,False,True,True,True,True,True,False
4,False,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...,...
339,False,False,False,False,False,False,False,False
340,False,False,False,False,False,False,False,False
341,False,False,False,False,False,False,False,False
342,False,False,False,False,False,False,False,False


In [30]:
penguins.isna().sum()

species               0
island                0
bill_length_mm        2
bill_depth_mm         2
flipper_length_mm     2
body_mass_g           2
sex                  11
year                  0
dtype: int64

In [34]:
percent_missing_by_row=penguins.isna().mean(axis=1)
percent_missing_by_row

0      0.000
1      0.000
2      0.000
3      0.625
4      0.000
       ...  
339    0.000
340    0.000
341    0.000
342    0.000
343    0.000
Length: 344, dtype: float64

In [33]:
percent_missing_by_row.sort_values(ascending=False)

271    0.625
3      0.625
8      0.125
268    0.125
218    0.125
       ...  
117    0.000
116    0.000
115    0.000
114    0.000
343    0.000
Length: 344, dtype: float64

In [48]:
percent_missing_by_row.sort_values(ascending=False).head(15)

271    0.625
3      0.625
8      0.125
268    0.125
218    0.125
11     0.125
10     0.125
9      0.125
47     0.125
178    0.125
256    0.125
233    0.000
228    0.000
234    0.000
232    0.000
dtype: float64