<a href="https://colab.research.google.com/github/Chry593/Data-science/blob/main/Maneggiare_dati_mancanti.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### **Cleaning Missing Data**

In [2]:
import pandas as pd
import numpy as np

Si divide in step:
- identificare i dati mancanti
- identificare i dati non validi
- correggere il tutto

Simila a numpy, panda ha alcune funzioni utili per identificare i dati mancanti

In [3]:
pd.isnull(np.nan)

True

In [5]:
pd.isnull(None)

True

In [6]:
pd.isna(np.nan)

True

In [7]:
pd.isna(None)

True

Gli opposti invece:

In [8]:
pd.notnull(np.nan)

False

In [11]:
pd.notna(None)

False

In [10]:
pd.notnull(3)

True

Queste funzioni lavorano anche con dataframe e series

In [12]:
pd.isnull(pd.Series([1,np.nan,7]))

0    False
1     True
2    False
dtype: bool

In [13]:
pd.notnull(pd.Series([1,np.nan,7]))

0     True
1    False
2     True
dtype: bool

In [14]:
pd.isnull(pd.DataFrame({
    "Column A: " : [1,np.nan,7],
    "Column B: " : [np.nan,7,2],
    "Column C: " : [1,3,np.nan]
}))

Unnamed: 0,Column A:,Column B:,Column C:
0,False,True,False
1,True,False,False
2,False,False,True


### **Filtrare i dati mancanti**

In [15]:
s = pd.Series([1,2,3,np.nan,np.nan, 4])

In [16]:
pd.notnull(s)

0     True
1     True
2     True
3    False
4    False
5     True
dtype: bool

Possiamo sommare per vedere quanti valori hanno o non hanno i dati

In [17]:
pd.notnull(s).sum()

4

In [18]:
pd.isnull(s).sum()

2

Ma possiamo anche fare :

In [20]:
s[pd.isnull(s)]

3   NaN
4   NaN
dtype: float64

notnull e isnull sono metodi per le Series e Dataframe, quindi possiamo scrivere così:

In [21]:
s.isnull()

0    False
1    False
2    False
3     True
4     True
5    False
dtype: bool

In [22]:
s.notnull()

0     True
1     True
2     True
3    False
4    False
5     True
dtype: bool

In [23]:
s[s.isnull()]

3   NaN
4   NaN
dtype: float64

### **Dropping Null Values**

Quello fatto sopra non è altro che un drop quindi possiamo scrivere:

In [25]:
s.dropna()  #esclude tutti i dati mancanti

0    1.0
1    2.0
2    3.0
5    4.0
dtype: float64

### **Dropping Null Values on DataFrame**

Nei DataFrame ci sono alcune cose da considerare, perchè non andiamo a droppare la i singoli valori ma possiamo droppare solo l'intera colonna o riga. Vediamo:

In [26]:
df = pd.DataFrame({
    "Column A" : [1,np.nan,30,np.nan],
    "Column B" : [2,8,31,np.nan],
    "Column C" : [np.nan,9,32,100],
    "Column D" : [5,8,24,110],
})

In [27]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [28]:
df.isnull()

Unnamed: 0,Column A,Column B,Column C,Column D
0,False,False,True,False
1,True,False,False,False
2,False,False,False,False
3,True,True,False,False


In [30]:
df.shape

(4, 4)

In [32]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Column A  2 non-null      float64
 1   Column B  3 non-null      float64
 2   Column C  3 non-null      float64
 3   Column D  4 non-null      int64  
dtypes: float64(3), int64(1)
memory usage: 256.0 bytes


In [29]:
df.isnull().sum()

Column A    2
Column B    1
Column C    1
Column D    0
dtype: int64

In [33]:
df.dropna()  #droppa ogni riga che ha un valore Nan

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,24


In [34]:
df.dropna(axis=1)  #droppa le colonne

Unnamed: 0,Column D
0,5
1,8
2,24
3,110


In questo caso ogni colonna o riga che contiene almeno un elemento vuoto viene droppata. Possiamo controllare questa cosa con i parametri **how**, che possono essere **any** o **all**:

In [35]:
df2 = pd.DataFrame({
    "Column A" : [1,np.nan,30],
    "Column B" : [2,np.nan,31],
    "Column C" : [np.nan,np.nan,100]
})

In [36]:
df2

Unnamed: 0,Column A,Column B,Column C
0,1.0,2.0,
1,,,
2,30.0,31.0,100.0


In [38]:
df2.dropna(how="all")  #droppa le righe che hanno tutti i valori nan

Unnamed: 0,Column A,Column B,Column C
0,1.0,2.0,
2,30.0,31.0,100.0


In [39]:
df2.dropna(how="any")  #droppa le righe che hanno almeno un valore nan

Unnamed: 0,Column A,Column B,Column C
2,30.0,31.0,100.0


Possiamo anche usare i parametri **tresh** per indicare un *treshold* (minimo di numeri) di nan valori per righe/colonne da lasciare

In [41]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [49]:
df.dropna(thresh=3)

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24


In [48]:
df.dropna(thresh=3, axis = "columns")

Unnamed: 0,Column B,Column C,Column D
0,2.0,,5
1,8.0,9.0,8
2,31.0,32.0,24
3,,100.0,110


### **Filling null values**
Certe volte invece di droppare i null values, dobbiamo rimpiazzarli con altri valori. Certe volte i nan possono essere rimpiazzati con degli 0 o con altri valori, dipende dal contesto. Ecco diversi modi per rimediare :

In [50]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

**riempire nulls con valori arbitrari**

In [51]:
s.fillna(0)

0    1.0
1    2.0
2    3.0
3    0.0
4    0.0
5    4.0
dtype: float64

In [57]:
s.fillna(s.mean())  #va a riempire col valore medio

0    1.0
1    2.0
2    3.0
3    2.5
4    2.5
5    4.0
dtype: float64

In [54]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

**riempire  null con valori contiguos (close)**

L'argomento **method** è usato per riempire i null values con il valore più vicino dei not null values:

In [59]:
s.fillna(method="ffill")  #droppa valore giù finchè non raggiunge il nan

0    1.0
1    2.0
2    3.0
3    3.0
4    3.0
5    4.0
dtype: float64

In [60]:
s.fillna(method="bfill") #contrario

0    1.0
1    2.0
2    3.0
3    4.0
4    4.0
5    4.0
dtype: float64

Possono lasciare ancora null values all'estremità dei DataFrame/series

In [62]:
pd.Series([np.nan,3,np.nan,9]).fillna(method="ffill")

0    NaN
1    3.0
2    3.0
3    9.0
dtype: float64

In [67]:
pd.Series([1,3,np.nan,9,np.nan,np.nan]).fillna(method="bfill")

0    1.0
1    3.0
2    9.0
3    9.0
4    NaN
5    NaN
dtype: float64

### **Filling null values DataFrame**

il metodo fillna() funziona anche con i DataFrame, ma la differenza sta nel specificare l' axis

In [68]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [70]:
df.fillna({"Column A": 0, "Column B": 99, "Column C": df["Column C"].mean()})

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,47.0,5
1,0.0,8.0,9.0,8
2,30.0,31.0,32.0,24
3,0.0,99.0,100.0,110


In [71]:
df.fillna(method="ffill", axis = 0)

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,1.0,8.0,9.0,8
2,30.0,31.0,32.0,24
3,30.0,31.0,100.0,110


In [72]:
df.fillna(method="ffill", axis = 1)

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,2.0,5.0
1,,8.0,9.0,8.0
2,30.0,31.0,32.0,24.0
3,,,100.0,110.0


### **Riassunto comandi**

In [73]:
pd.isnull(pd.Series([1,np.nan,7]))  #False valori che sono not null, True valori che sono null

0    False
1     True
2    False
dtype: bool

In [78]:
pd.notnull(pd.Series([1,np.nan,7])) #True valori che sono not null, False i valori che sono null

0     True
1    False
2     True
dtype: bool

In [81]:
s


0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

In [80]:
pd.isnull(s).sum()  #quanti valori sono null

2

In [86]:
s[s.isnull()]  #crea serie coi valori null

3   NaN
4   NaN
dtype: float64

In [82]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [83]:
df.dropna() #droppa tutte le righe che hanno almeno un valore null

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,24


In [84]:
df.dropna(how="any")  #droppa tutte le righe che hanno almeno un valore null

Unnamed: 0,Column A,Column B,Column C,Column D
2,30.0,31.0,32.0,24


In [85]:
df.dropna(how="all")   #droppa le righe che hanno tutti valori i nan

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [87]:
df.dropna(thresh = 3)  #droppa tutto tranne quelli che hanno almeno 3 valori

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24


In [88]:
df.dropna(thresh = 3, axis = 1) #droppa tutte le colonne tranne quelle che hanno almeno 3 valori

Unnamed: 0,Column B,Column C,Column D
0,2.0,,5
1,8.0,9.0,8
2,31.0,32.0,24
3,,100.0,110


**Riempimento**

In [90]:
s

0    1.0
1    2.0
2    3.0
3    NaN
4    NaN
5    4.0
dtype: float64

In [91]:
s.fillna(0) #riempie tutti i valori nan con 0

0    1.0
1    2.0
2    3.0
3    0.0
4    0.0
5    4.0
dtype: float64

In [92]:
s.fillna(method = "ffill")

0    1.0
1    2.0
2    3.0
3    3.0
4    3.0
5    4.0
dtype: float64

In [94]:
s.fillna(method = "bfill")

0    1.0
1    2.0
2    3.0
3    4.0
4    4.0
5    4.0
dtype: float64

In [95]:
df

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,,8.0,9.0,8
2,30.0,31.0,32.0,24
3,,,100.0,110


In [96]:
df.fillna({"Column A": 0, "Column B": df["Column B"].mean(), "Column C" : 100})

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,100.0,5
1,0.0,8.0,9.0,8
2,30.0,31.0,32.0,24
3,0.0,13.666667,100.0,110


In [98]:
df.fillna(method = "ffill", axis = 0) # o 1

Unnamed: 0,Column A,Column B,Column C,Column D
0,1.0,2.0,,5
1,1.0,8.0,9.0,8
2,30.0,31.0,32.0,24
3,30.0,31.0,100.0,110
