# **Gestione dei valori mancanti (NaN o null)**

La gestione dei valori mancanti è molto delicata e dipende dal contesto in cui ci troviamo. Se il numero dei dati è molto grande e il numero di righe con valore NaN è molto piccolo, allora una scelta conveniente può essere eliminare quelle righe. Se invece ci troviamo in cui un'applicazione di machine learning con pochi dati, allora eliminare queste righe non è la scelta migliore. Possiamo quindi sostituire i valori mancanti con la media, se si tratta di una colonna composta da valori numerici oppure il dato più frequente nel caso di valori categoriali.

Queste sono solo alcune delle scelte che si possono fare, ma vediamole più nel dettaglio.

In [None]:
import pandas as pd
dataset1 = pd.read_csv('winemag-data-130k-v2.csv',index_col=0)

In [None]:
# Prendiamo un esempio che contiene un NaN
# In questo caso, ci viene restituista una riga, dove nella colonna 'price' troviamo NaN
dataset1.loc[dataset1.country == "Egypt"]

# Dimensione del dataset di partenza
print(dataset1.shape)

In [None]:
# Tecnica 1: eliminiamo le righe (axis=0) che contengono NaN
dfnan = dataset1.copy()
dfnan.dropna(axis=0, inplace=True)

# Stampa della dimensione del dataset, dopo l'eliminazione dei NaN
print(dfnan.shape)
# Stampa delle righe che hanno come valore di country Egypt
# Risultato: non ci sono, è stata eliminata a causa del valore NaN in price
print(dfnan.loc[dfnan.country == "Egypt"])

In [None]:
#Tecnica 2: eliminiamo le colonne (axis=1) che contengono NaN
dfnan = dataset1.copy()
dfnan.dropna(axis=1, inplace=True)

# Stampa della dimensione del dataset, dopo l'eliminazione dei NaN
# Vediamo una riduzione di colonne
print(dfnan.shape)

In [None]:
# Tecnica 3: come sostituire ai NaN un valore
dfnan = dataset1.copy()
# Utilizziamo fillna() per sostituire a NaN il valore 0
dfnan.fillna(value=0, inplace=True)

# Stampando le righe con valore "Egypt", vediamo che nella colonna 'price' abbiamo 0.0 al posto di NaN
print(dfnan.loc[dfnan.country == "Egypt"])

In [None]:
# Esempio per riempire colonne categoriche (cioè che contengono stringhe)
dfnan = dataset1.copy()

# Calcolo il numero di righe che ha valore NaN nella colonna 'country'
n_rows = dfnan[dfnan.country.isnull()].shape[0]
# Ottenere gli indici delle righe che hanno valore NaN nella colonna 'country'
nan_indices = dfnan.loc[dfnan.country.isnull()].index
# Calcolo della moda della colonna 'country'
mode_country = dfnan.country.mode()[0]
# Sostituire ai valori NaN la moda trovata
df_filled = dfnan.fillna({'country':mode_country})

# Varie stampe che potete utilizzare
print(n_rows)
print(nan_indices)
print(mode_country)
print(dfnan.loc[nan_indices,'country'])
print(df_filled.loc[nan_indices,'country'])

In [None]:
# Esempio per sostituire a valori NaN dei valori numerici
dfnan = dataset1.copy()

# Calcolo il numero di righe che ha valore NaN nella colonna 'price'
n_rows = dfnan[dfnan.price.isnull()].shape[0]
# Ottenere gli indici delle righe che hanno valore NaN nella colonna 'price'
nan_indices = dfnan.loc[dfnan.price.isnull()].index
# Calcolo della media della colonna 'price'
mean_price = dfnan.price.mean()
# Sostituire ai valori NaN la media trovata
df_filled = dfnan.fillna({'price':mean_price})

# Varie stampe
print(n_rows)
print(nan_indices)
print(mean_price)
print(dfnan.loc[nan_indices,'price'])
print(df_filled.loc[nan_indices,'price'])