# Gestire dati mancanti

In [1]:
import pandas as pd
import numpy as np

In [2]:
CSV_URL = "../datasets/iris_missing.csv"
iris = pd.read_csv(CSV_URL, )
iris.head(10)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [56]:
iris.shape # numero di righe e colonne

(150, 5)

In [54]:
iris.count() # numero di valori validi

sepal_length    147
sepal_width     140
petal_length    148
petal_width     150
species         150
dtype: int64

In [48]:
#iris.isnull().sum()
iris.isna().sum() # quanti na per colonna

sepal_length     3
sepal_width     10
petal_length     2
petal_width      0
species          0
dtype: int64

## Metodo 1: Rimuovere proprietà o esempi con valori mancanti

In [57]:
samples_count = iris.shape[0]
iris_drop = iris.dropna() # # per tutte le colonne
# iris_drop = iris.dropna(subset=["sepal_width"]) # per una colonna

print(f"Numero di esempi prima: {samples_count}")
print(f"Numero di esempi dopo: {iris_drop.shape[0]}")
iris_drop.head(10)

Numero di esempi prima: 150
Numero di esempi dopo: 135


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa
10,5.4,3.7,1.5,0.2,setosa
11,4.8,3.4,1.6,0.2,setosa
12,4.8,3.0,1.4,0.1,setosa


Se i valori mancanti corrispondono ad un unica feature e questi sono in un numero tale da invalidare l'utilità della feature, allora possiamo semplicemente rimuovere la feature dal nostro DataFrame.

In [58]:
iris_drop = iris.dropna(axis=1) # colonne con almeno 1 na
# iris_drop = iris.dropna(axis=1, how="all") # colonne con tutti na
print(iris_drop.columns)
iris_drop.head(10)

Index(['petal_width', 'species'], dtype='object')


Unnamed: 0,petal_width,species
0,0.2,setosa
1,0.2,setosa
2,0.2,setosa
3,0.2,setosa
4,0.2,setosa
5,0.4,setosa
6,0.3,setosa
7,0.2,setosa
8,0.2,setosa
9,0.1,setosa


Rinunciare a dati preziosi non è mai una buona cosa, quindi questi metodi vanno evitati ad eccezione di casi estremi, ovvero quando la maggior parte dei valori per una feature o per un esempio sono mancanti.

## Metodo 2: Imputazione dei dati mancanti

L'imputazione dei dati mancanti consiste nel sostituire i valori con una stima.<br>
Il metodo più comune è **l'imputazione con media** (mean imputation) in cui i valori mancanti vengono sostituiti con il valore medio della proprietà, altri metodi sono l'imputazione con la mediana o con valore più frequente (moda).

### Pandas

In [67]:
# per una colonna specifica
iris_imp = iris.copy()

col = "sepal_width"

replace_with = iris_imp[col].mean() # imputazione con media
#replace_with = iris['petal_length'].median() # imputazione con mediana
#replace_with = iris['petal_length'].mode() # imputazione con moda
iris_imp[col] = iris_imp[col].fillna(replace_with) #.round(2) #per arrotondare
na_count = iris_imp[col].isna().sum() #verifichiamo che la colonna "petal_length" non contenga più valori mancanti.
print(f"La colonna {col} ha {na_count} valori mancanti")
iris_imp.head(10)

La colonna sepal_width ha 0 valori mancanti


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.056429,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.056429,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


In [74]:
# per tutte le colonne
iris_imp = iris.copy()

replace_with = iris_imp.mean() # imputazione con media
#replace_with = iris.median() # imputazione con mediana
#replace_with = iris.mode() # imputazione con moda
iris_imp = iris_imp.fillna(replace_with) #.round(2) #per arrotondare
na_count = iris_imp.isna().sum().sum() #verifichiamo che il dataset non contenga più valori mancanti.
print(f"Il dataset ha {na_count} valori mancanti")
iris_imp.head(10)

Il dataset ha 0 valori mancanti


Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.056429,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.056429,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa
5,5.854422,3.9,1.7,0.4,setosa
6,4.6,3.4,1.4,0.3,setosa
7,5.0,3.4,1.5,0.2,setosa
8,4.4,2.9,1.4,0.2,setosa
9,4.9,3.1,1.5,0.1,setosa


### Scikit-learn

In [75]:
Y = iris["species"].values
X = iris.drop("species",axis=1).values

In [76]:
na_count = np.count_nonzero(np.isnan(X)) # numpy considera i na come nan
print(f"Il dataset ha {na_count} valori mancanti")

Il dataset ha 15 valori mancanti


In [79]:
import numpy as np
from sklearn.impute import SimpleImputer

imp = SimpleImputer(missing_values = np.nan, strategy = 'mean')
X_imp = imp.fit_transform(X)
# X_imp = np.round(X_imp, 2) # per arrotondare
nan_count = np.count_nonzero(np.isnan(X_imp))
print("Il dataset ha "+str(nan_count)+" valori mancanti")
X_imp[:10]

Il dataset ha 0 valori mancanti


array([[5.1 , 3.06, 1.4 , 0.2 ],
       [4.9 , 3.  , 1.4 , 0.2 ],
       [4.7 , 3.2 , 1.3 , 0.2 ],
       [4.6 , 3.06, 1.5 , 0.2 ],
       [5.  , 3.6 , 1.4 , 0.2 ],
       [5.85, 3.9 , 1.7 , 0.4 ],
       [4.6 , 3.4 , 1.4 , 0.3 ],
       [5.  , 3.4 , 1.5 , 0.2 ],
       [4.4 , 2.9 , 1.4 , 0.2 ],
       [4.9 , 3.1 , 1.5 , 0.1 ]])