In [13]:
import pandas as pd
import numpy as np

people = {
    "first": ["Corey", 'Jane', 'John','Adam', np.nan, None, 'na'], 
    "last": ["Schafer", 'Doe', 'Doe', 'Shafer', np.nan, np.nan, 'missing'], 
    "email": ["CoreyMSchafer@gmail.com", 'JaneDoe@email.com', 'JohnDoe@email.com', 'adoe@mail.com''adoe@mail.com', None, np.nan,'na'],
    "age" : [33, 44, 55, 36, np.nan, None, np.nan]
}

df = pd.DataFrame(people)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0
4,,,,
5,,,,
6,na,missing,na,


In [14]:
# Una prima possibilità x gestire i valori mancanti è semplicemente "rimuoverli"
# Questo ha senso se si tratta di valori necessari per procedere con l'analisi
df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0


In [15]:
# Di default il metodo utilizza i seguenti argomenti
# axis può essere 
# - index (rimuove le rows )
# - columns (rimuove le colonne )
# how specifica la regola sulla base della quale procedere con la cancellazione nell'asse indicato:
# - any : è sufficiente che sia presente un valore mancante
# - all : tutti i valori devono essere mancanti
df.dropna(axis='index', how='any')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0


In [16]:
df.dropna(axis='index', how='all')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0
6,na,missing,na,


In [17]:
# Per gestire valori customizzati (ad es, 'missing' o 'na') posso utilizzare la funzione replace sul DataFrame
df.replace('na', np.NaN, inplace=True)
df.replace('missing', np.NaN, inplace=True)
df

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0
4,,,,
5,,,,
6,,,,


In [18]:
# Ora dropna riesce a gestire anche questi valori
df.dropna()

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33.0
1,Jane,Doe,JaneDoe@email.com,44.0
2,John,Doe,JohnDoe@email.com,55.0
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36.0


In [19]:
# E'  possibile ottenere la mask corrispondente ai valori mancanti
df.isna()

Unnamed: 0,first,last,email,age
0,False,False,False,False
1,False,False,False,False
2,False,False,False,False
3,False,False,False,False
4,True,True,True,True
5,True,True,True,True
6,True,True,True,True


In [20]:
# Per sostituire un valore mancante con un  valore fisso (più utile con dati numerici)
df.fillna('MISSING')

Unnamed: 0,first,last,email,age
0,Corey,Schafer,CoreyMSchafer@gmail.com,33
1,Jane,Doe,JaneDoe@email.com,44
2,John,Doe,JohnDoe@email.com,55
3,Adam,Shafer,adoe@mail.comadoe@mail.com,36
4,MISSING,MISSING,MISSING,MISSING
5,MISSING,MISSING,MISSING,MISSING
6,MISSING,MISSING,MISSING,MISSING


In [21]:
df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [23]:
# Per ottenere la media della colonna age (che è una stringa) devo convertrla in numerica.
# Nel momento in  cui ci sono dei np.NaN devo  usare float e non integer (NaN è float)
df['age'] = df['age'].astype(float)

In [25]:
df.dtypes

first     object
last      object
email     object
age      float64
dtype: object

In [26]:
df['age'].mean()

42.0