# Data Preprocessing Project -  Dealing with Missing Numerical Values


In this project, I discuss various data preprocessing techniques to handle missing numerical values. The contents of this project are categorized into various sections which are listed in table of contents as follows:-


## Table of Contents


1.	Introduction

2.	Source dataset

3.	Dealing with missing numerical values

4.	Drop missing values with dropna()

5.	Fill missing values with a test statistic

6.	Fill missing values with Imputer

7.	Build a prediction model

8.	KNN Imputation

9.	Check with ASSERT statement

10.	References


## 1. Introduction

Negli ultimi decenni, il Machine Learning (ML) ha guadagnato un'immensa popolarità nel risolvere i problemi di business del mondo reale. È emerso come uno strumento tecnologico per le aziende che cercano di aumentare la produttività e il profitto. I praticanti di ML raccolgono dati del mondo reale e scrivono algoritmi per risolvere problemi di business. Il successo degli algoritmi di ML dipende dalla qualità dei dati. I dati devono essere privi di errori e discrepanze. Deve aderire a uno standard specifico in modo che gli algoritmi di ML possano accettarli. Ma questo non accade nella realtà.

In realtà, i dati hanno i loro limiti. I dati sono sporchi. È incompleto, rumoroso e incoerente.  I dati incompleti significano che hanno valori mancanti e mancano di alcuni attributi. I dati possono essere rumorosi perché contengono errori e outlier e quindi non producono i risultati desiderati. Infine, i dati possono essere incoerenti perché contengono discrepanze nei dati o dati duplicati.

Quindi, i professionisti del ML devono intraprendere azioni per trasformare i dati grezzi in dati standardizzati e adatti agli algoritmi di ML.  Si tratta di pulire, trasformare e standardizzare i dati per rimuovere tutte le inadeguatezze e le irregolarità nei dati. Queste azioni sono note collettivamente come **Preelaborazione dei dati**.

## 2. Source dataset


Ho usato il set di dati wiki4HE.csv per questo progetto. Ho scaricato questo set di dati dall'UCI Machine Learning Repository. Il set di dati descrive i risultati del sondaggio dei membri della facoltà di due università spagnole sull'uso didattico di Wikipedia.


Il set di dati contiene 53 attributi e 913 istanze. Dei 53 attributi, 4 sono di tipo numerico e 49 sono di tipo testo o carattere.


Il set di dati può essere trovato al seguente url-


https://archive.ics.uci.edu/ml/datasets/wiki4HE


## 3. Dealing with missing numerical values

È uno scenario molto comune che quando si guardano i dati del mondo reale, uno scienziato dei dati può imbattersi in valori mancanti. Questi valori mancanti potrebbero essere dovuti a un processo di inserimento dei dati soggetto a errori, a metodi di raccolta dei dati sbagliati, a certi valori non applicabili, a particolari campi lasciati in bianco in un'indagine o al rifiuto di rispondere da parte dell'intervistato. Qualunque sia la ragione del valore mancante, il data scientist deve trovare il modo di gestire questi valori mancanti. Sa che i valori mancanti devono essere gestiti con attenzione, perché danno risultati sbagliati se li ignoriamo semplicemente. Deve rispondere se deve cancellare questi valori mancanti o sostituirli con una statistica adeguata. Il primo passo per trattare correttamente i valori mancanti è identificarli.


L'ispezione iniziale dei dati ci aiuta a rilevare se ci sono valori mancanti nel set di dati. Può essere fatto tramite l'analisi esplorativa dei dati. Quindi, è sempre importante che uno scienziato dei dati esegua sempre l'analisi esplorativa dei dati (EDA) per identificare correttamente i valori mancanti.

In [1]:
# Import required libraries

import numpy as np

import pandas as pd

In [2]:
# Import the dataset

dataset = "dataset/uci - missing data/wiki4HE/wiki4HE.csv"

df = pd.read_csv(dataset, sep=';')



### Exploratory Data Analysis (EDA)


Di seguito è riportato l'elenco dei comandi per identificare i valori mancanti con EDA.


1.	`df.head()`

Questo produrrà le prime cinque righe del set di dati. Ci darà una visione rapida sulla presenza di 'NaN' o '?' '-1' o '0' o spazi vuoti "" nel set di dati. Se necessario, possiamo visualizzare un numero maggiore di righe specificando il numero di righe all'interno della parentesi.


In [3]:
# View the first 5 rows of the dataset

print(df.head())

   AGE  GENDER DOMAIN  PhD YEARSEXP  UNIVERSITY UOC_POSITION OTHER_POSITION  \
0   40       0      2    1       14           1            2              ?   
1   42       0      5    1       18           1            2              ?   
2   37       0      4    1       13           1            3              ?   
3   40       0      4    0       13           1            3              ?   
4   51       0      6    0        8           1            3              ?   

  OTHERSTATUS USERWIKI  ... BI2 Inc1 Inc2 Inc3 Inc4 Exp1 Exp2 Exp3 Exp4 Exp5  
0           ?        0  ...   3    5    5    5    5    4    4    4    1    2  
1           ?        0  ...   2    4    4    3    4    2    2    4    2    4  
2           ?        0  ...   1    5    3    5    5    2    2    2    1    3  
3           ?        0  ...   3    3    4    4    3    4    4    3    3    4  
4           ?        1  ...   5    5    5    4    4    5    5    5    4    4  

[5 rows x 53 columns]


**Interpretazione**

Possiamo vedere che ci sono molti valori mancanti nel set di dati. Le colonne **OTHER_POSITION** e **OTHERSTATUS** contengono valori mancanti.

La colonna **GENDER** contiene degli zeri. Potrebbe essere perché **Male** è codificato come 1 e **Female** è codificato come 0.

Dobbiamo esplorare ulteriormente il set di dati per confermare quali colonne contengono i valori mancanti.

2. `df.info()`

Questo comando è molto utile per rilevare i valori mancanti nel set di dati. Ci dirà il numero totale di osservazioni non nulle presenti, compreso il numero totale di voci. Quando il numero di voci non è uguale al numero di osservazioni non nulle, sappiamo che ci sono valori mancanti nel set di dati.




In [4]:
# View the summary of the dataframe

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 913 entries, 0 to 912
Data columns (total 53 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   AGE             913 non-null    int64 
 1   GENDER          913 non-null    int64 
 2   DOMAIN          913 non-null    object
 3   PhD             913 non-null    int64 
 4   YEARSEXP        913 non-null    object
 5   UNIVERSITY      913 non-null    int64 
 6   UOC_POSITION    913 non-null    object
 7   OTHER_POSITION  913 non-null    object
 8   OTHERSTATUS     913 non-null    object
 9   USERWIKI        913 non-null    object
 10  PU1             913 non-null    object
 11  PU2             913 non-null    object
 12  PU3             913 non-null    object
 13  PEU1            913 non-null    object
 14  PEU2            913 non-null    object
 15  PEU3            913 non-null    object
 16  ENJ1            913 non-null    object
 17  ENJ2            913 non-null    object
 18  Qu1       

**Interpretation**

Il comando precedente mostra che non ci sono valori mancanti nel set di dati. Ma questo non è vero. Il set di dati contiene valori mancanti. Potrebbe essere perché i valori mancanti sono codificati in modi diversi.

### Encode missing numerical values


I valori mancanti sono codificati in modi diversi. Possono apparire come "NaN", "NA", "?", Zero "0", "xx", meno uno "-1" o uno spazio vuoto "". Dobbiamo utilizzare vari metodi panda per gestire i valori mancanti. Tuttavia, i panda riconoscono sempre i valori mancanti come "NaN". Quindi, è essenziale convertire prima tutti i caratteri "?", Zeri "0", "xx", meno "-1" o spazi vuoti "" in "NaN". Se i valori mancanti non sono identificati come "NaN", dobbiamo prima convertire o sostituire tale voce non "NaN" con un "NaN".

### Convert '?' to ‘NaN’

`df[df == '?'] = np.nan`


In [5]:
# Convert '?' to 'NaN'

df[df == '?'] = np.nan

In [6]:
# View the first 5 rows of the dataset again

print(df.head())

   AGE  GENDER DOMAIN  PhD YEARSEXP  UNIVERSITY UOC_POSITION OTHER_POSITION  \
0   40       0      2    1       14           1            2            NaN   
1   42       0      5    1       18           1            2            NaN   
2   37       0      4    1       13           1            3            NaN   
3   40       0      4    0       13           1            3            NaN   
4   51       0      6    0        8           1            3            NaN   

  OTHERSTATUS USERWIKI  ... BI2 Inc1 Inc2 Inc3 Inc4 Exp1 Exp2 Exp3 Exp4 Exp5  
0         NaN        0  ...   3    5    5    5    5    4    4    4    1    2  
1         NaN        0  ...   2    4    4    3    4    2    2    4    2    4  
2         NaN        0  ...   1    5    3    5    5    2    2    2    1    3  
3         NaN        0  ...   3    3    4    4    3    4    4    3    3    4  
4         NaN        1  ...   5    5    5    4    4    5    5    5    4    4  

[5 rows x 53 columns]


In [7]:
# View the summary of the dataframe again

print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 913 entries, 0 to 912
Data columns (total 53 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   AGE             913 non-null    int64 
 1   GENDER          913 non-null    int64 
 2   DOMAIN          911 non-null    object
 3   PhD             913 non-null    int64 
 4   YEARSEXP        890 non-null    object
 5   UNIVERSITY      913 non-null    int64 
 6   UOC_POSITION    800 non-null    object
 7   OTHER_POSITION  652 non-null    object
 8   OTHERSTATUS     373 non-null    object
 9   USERWIKI        909 non-null    object
 10  PU1             906 non-null    object
 11  PU2             902 non-null    object
 12  PU3             908 non-null    object
 13  PEU1            909 non-null    object
 14  PEU2            899 non-null    object
 15  PEU3            816 non-null    object
 16  ENJ1            906 non-null    object
 17  ENJ2            896 non-null    object
 18  Qu1       

**Interpretazione**

Ora possiamo vedere che ci sono molte colonne contenenti valori mancanti. Dovremmo visualizzare i nomi delle colonne del dataframe.

In [8]:
# View the column names of dataframe

print(df.columns)

Index(['AGE', 'GENDER', 'DOMAIN', 'PhD', 'YEARSEXP', 'UNIVERSITY',
       'UOC_POSITION', 'OTHER_POSITION', 'OTHERSTATUS', 'USERWIKI', 'PU1',
       'PU2', 'PU3', 'PEU1', 'PEU2', 'PEU3', 'ENJ1', 'ENJ2', 'Qu1', 'Qu2',
       'Qu3', 'Qu4', 'Qu5', 'Vis1', 'Vis2', 'Vis3', 'Im1', 'Im2', 'Im3', 'SA1',
       'SA2', 'SA3', 'Use1', 'Use2', 'Use3', 'Use4', 'Use5', 'Pf1', 'Pf2',
       'Pf3', 'JR1', 'JR2', 'BI1', 'BI2', 'Inc1', 'Inc2', 'Inc3', 'Inc4',
       'Exp1', 'Exp2', 'Exp3', 'Exp4', 'Exp5'],
      dtype='object')


3. `df.describe()`

Questo mostrerà le statistiche di riepilogo di tutte le caratteristiche e le etichette osservate. La statistica più importante è il valore minimo. Se vediamo -1 o 0 nelle nostre osservazioni, possiamo sospettare un valore mancante.

In [9]:
# View the descriptive statistics of the dataframe

print(df.describe())

              AGE      GENDER         PhD  UNIVERSITY
count  913.000000  913.000000  913.000000  913.000000
mean    42.246440    0.424973    0.464403    1.123768
std      8.058418    0.494610    0.499005    0.329497
min     23.000000    0.000000    0.000000    1.000000
25%     36.000000    0.000000    0.000000    1.000000
50%     42.000000    0.000000    0.000000    1.000000
75%     47.000000    1.000000    1.000000    1.000000
max     69.000000    1.000000    1.000000    2.000000


**Interpretation**

Possiamo vedere che ci sono quattro colonne di tipi di dati interi: ** AGE **, ** GENDER **, ** PhD ** e ** UNIVERSITY **.

Nella colonna ** ETÀ **, i valori massimo e minimo sono 69 e 23. Il valore mediano è 42 e il conteggio è 913. Non sospettiamo alcun valore mancante in questa colonna.

Allo stesso modo, la spiegazione vale per le colonne ** PhD ** e ** UNIVERSITY **.

La colonna ** GENDER ** ha solo due possibili valori 0 e 1. Ciò è ragionevole perché 0 è per la femmina e 1 per il maschio.

Quindi, non troviamo alcun valore mancante nelle quattro colonne precedenti.

4.	`df.isnull()`

Il comando precedente controlla se ogni cella in un dataframe contiene valori mancanti o meno. Se la cella contiene un valore mancante, restituisce True, altrimenti restituisce False.


5.	`df.isnull.sum()`

Il comando precedente restituisce il numero totale di valori mancanti in ogni colonna nel set di dati.


In [10]:
# View missing values in each column in the dataset

print(df.isnull().sum())

AGE                 0
GENDER              0
DOMAIN              2
PhD                 0
YEARSEXP           23
UNIVERSITY          0
UOC_POSITION      113
OTHER_POSITION    261
OTHERSTATUS       540
USERWIKI            4
PU1                 7
PU2                11
PU3                 5
PEU1                4
PEU2               14
PEU3               97
ENJ1                7
ENJ2               17
Qu1                 7
Qu2                10
Qu3                15
Qu4                22
Qu5                29
Vis1               72
Vis2              117
Vis3                8
Im1                22
Im2                20
Im3                57
SA1                11
SA2                12
SA3                11
Use1               14
Use2               17
Use3                9
Use4               23
Use5               15
Pf1                11
Pf2                 6
Pf3                14
JR1                27
JR2                53
BI1                32
BI2                43
Inc1               35
Inc2      

**Interpretation**

Possiamo vedere che c'è una colonna ** YEARSEXP ** che contiene 23 valori mancanti. Nella descrizione del set di dati, viene indicato che questa colonna indica il numero di anni di esperienza di insegnamento universitario e il suo tipo di dati è numerico. Ma il comando df.info () mostra che è di tipo di dati oggetto. Quindi, dobbiamo cambiare il suo tipo di dati.

Allo stesso modo, le ultime cinque colonne ** Exp1 **, ** Exp2 **, ** Exp3 **, ** Exp4 ** e ** Exp5 ** indicano il numero di anni di esperienza. Contengono rispettivamente 13, 11, 13, 14 e 13 valori mancanti. Hanno tipi di dati numerici. Ma il comando df.info () mostra che sono di tipi di dati oggetto. Quindi, dobbiamo cambiare anche i loro tipi di dati.

Tutte le altre colonne sono di tipi di dati di testo.

Quindi, dobbiamo creare un sottoinsieme di queste colonne dal set di dati sopra.

In [11]:
# Subset the dataframe df with above columns

df_sub = df[['YEARSEXP', 'Exp1', 'Exp2', 'Exp3', 'Exp4', 'Exp5']]

In [12]:
# Check the data types of columns of df_sub

print(df_sub.dtypes)

YEARSEXP    object
Exp1        object
Exp2        object
Exp3        object
Exp4        object
Exp5        object
dtype: object


**Interpretation**

Possiamo vedere che il tipo di dati delle colonne del dataframe di df_sub è object. Dovremmo convertirlo in un tipo di dati intero.

In [13]:
# Convert columns of df_sub into integer data types

df_sub = df_sub.apply(pd.to_numeric)

In [14]:
print(df_sub.dtypes)

YEARSEXP    float64
Exp1        float64
Exp2        float64
Exp3        float64
Exp4        float64
Exp5        float64
dtype: object


**Interpretation**

Possiamo vedere che tutte le colonne di df_sub dataframe vengono convertite in tipi di dati numerici float64.

In [15]:
# View the summary of the dataframe df_sub

print(df_sub.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 913 entries, 0 to 912
Data columns (total 6 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   YEARSEXP  890 non-null    float64
 1   Exp1      900 non-null    float64
 2   Exp2      902 non-null    float64
 3   Exp3      900 non-null    float64
 4   Exp4      899 non-null    float64
 5   Exp5      900 non-null    float64
dtypes: float64(6)
memory usage: 42.9 KB
None


6. Funzioni "isna ()" e "notna ()" per rilevare i valori "NA"

Pandas fornisce le funzioni "isna ()" e "notna ()" per rilevare i valori "NA". Questi sono anche metodi su oggetti Series e DataFrame.


Esempi di comandi "isna ()" e "notna ()"


* rileva i valori "NA" nel dataframe *

"df.isna ()"


* rileva i valori "NA" in una particolare colonna nel dataframe *

`pd.isna (df [col_name])`

`df [nome_col] .notna ()`



In [16]:
# View the number of missing values in each column of dataframe df_sub

print(df_sub.isnull().sum())

YEARSEXP    23
Exp1        13
Exp2        11
Exp3        13
Exp4        14
Exp5        13
dtype: int64


**Interpretation**
Possiamo vedere che le colonne ** YEARSEXP **, ** Exp1 **, ** Exp2 **, ** Exp3 **, ** Exp4 ** e ** Exp5 ** contengono 23, 13, 11, 13, 14 e 13 valori mancanti rispettivamente.


### Gestisci i valori mancanti

Esistono diversi metodi per gestire i valori mancanti. Ogni metodo ha i suoi vantaggi e svantaggi. La scelta del metodo è soggettiva e dipende dalla natura dei dati e dai valori mancanti. Di seguito è riportato il riepilogo delle opzioni disponibili per la gestione dei valori mancanti: -

** • Elimina i valori mancanti con dropna () **

** • Riempi i valori mancanti con una statistica di prova **

** • Riempi i valori mancanti con Imputer **

** • Crea un modello di previsione **

** • Imputazioni KNN **



Ho discusso ogni metodo nelle sezioni seguenti: -


## 4. Elimina i valori mancanti con dropna ()

Questo è il metodo più semplice per gestire i valori mancanti. In questo metodo, rilasciamo etichette o colonne da un set di dati che si riferiscono a valori mancanti.


rilascia etichette o righe da un set di dati contenente valori mancanti

"df.dropna (asse = 0)"



eliminare colonne da un set di dati contenente valori mancanti

"df.dropna (asse = 1)"


Questo è il metodo Pandas dataframe ** dropna () **. Un metodo ** dropna () ** equivalente è disponibile per le serie con la stessa funzionalità.



Per eliminare una colonna specifica dal dataframe, possiamo utilizzare il metodo drop () di Pandas dataframe.



### elimina la colonna col_name dal dataframe di Pandas


`df.drop(‘col_name’, axis = 1)` 


** Una nota sul parametro dell'asse **


Il valore dell'asse può contenere (0 o "indice") o (1 o "colonne"). Il suo valore predefinito è 0.

Impostiamo axis = 0 o "index" per eliminare le righe che contengono valori mancanti.

Impostiamo asse = 1 o "colonne" per eliminare le colonne che contengono valori mancanti.



Dopo aver eliminato i valori mancanti, possiamo nuovamente verificare la presenza di valori mancanti e le dimensioni del dataframe.



controlla di nuovo i valori mancanti in ogni colonna

"df.isnull.sum ()"


controlla di nuovo le dimensioni del set di dati

"df.shape"



Ma questo metodo ha uno svantaggio. Comporta il rischio di perdere informazioni utili. Supponiamo che ci siano molti valori mancanti nel nostro set di dati. Se li rilasciamo, potremmo finire per gettare via preziose informazioni insieme ai dati mancanti. È un errore molto grave in quanto comporta la perdita di informazioni chiave. Quindi, è consigliato solo quando ci sono solo pochi valori mancanti nel nostro set di dati.


Quindi, è meglio sviluppare una strategia di imputazione in modo da poter attribuire i valori mancanti con la media o la mediana della riga o della colonna contenente i valori mancanti.


In [17]:
# Copy the dataframe df_sub

df1 = df_sub.copy()

In [18]:
# View the number of missing values in each column of dataframe df1

print(df1.isnull().sum())

YEARSEXP    23
Exp1        13
Exp2        11
Exp3        13
Exp4        14
Exp5        13
dtype: int64


**Interpretation**

La colonna ** Exp2 ** contiene il numero minimo di valori mancanti. Quindi, lascerò cadere quella colonna da df1.

In [19]:
# Drop column Exp2 from df1

df1 = df1.drop('Exp2', axis = 1)

In [20]:
# View the first five rows of dataframe df1

print(df1.head())

   YEARSEXP  Exp1  Exp3  Exp4  Exp5
0      14.0   4.0   4.0   1.0   2.0
1      18.0   2.0   4.0   2.0   4.0
2      13.0   2.0   2.0   1.0   3.0
3      13.0   4.0   3.0   3.0   4.0
4       8.0   5.0   5.0   4.0   4.0


In [21]:
# View the summary of dataframe df1

print(df1.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 913 entries, 0 to 912
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   YEARSEXP  890 non-null    float64
 1   Exp1      900 non-null    float64
 2   Exp3      900 non-null    float64
 3   Exp4      899 non-null    float64
 4   Exp5      900 non-null    float64
dtypes: float64(5)
memory usage: 35.8 KB
None


**Conclusione**

Ho eliminato la colonna ** Exp2 ** dal dataframe df1 con il comando df1.drop ().

## 5. Riempi i valori mancanti con una statistica di prova

In questo metodo, riempiamo i valori mancanti con una statistica di test come media, mediana o modalità della caratteristica particolare a cui appartiene il valore mancante. È anche possibile specificare un riempimento in avanti o un riempimento a ritroso per propagare i valori successivi all'indietro o il valore precedente in avanti.


Riempire i valori mancanti con una statistica di test come la mediana

`median = df ['col_name']. median ()`

`df ['col_name']. fillna (value = median, inplace = True)`



Possiamo anche usare replace () al posto di fillna ()

"df [" col_name "]. replace (to_replace = NaN, value = median, inplace = True)"


Se scegliamo questo metodo, dovremmo calcolare il valore mediano sul training set e usarlo per riempire i valori mancanti nel training set. Quindi dovremmo salvare il valore mediano che abbiamo calcolato. Successivamente, sostituiremo i valori mancanti nel set di test con il valore mediano per valutare il sistema.

In [22]:
# Copy the df1 dataframe

df2 = df1.copy()

In [23]:
# View the number of missing values in each column of dataframe df2

print(df2.isnull().sum())

YEARSEXP    23
Exp1        13
Exp3        13
Exp4        14
Exp5        13
dtype: int64


**Interpretation**

Possiamo vedere che la colonna ** YEARSEXP ** contiene 23 valori mancanti. Riempirò i valori mancanti nella colonna ** YEARSEXP ** con la mediana della colonna ** YEARSEXP **.

In [24]:
# Fill missing values in YEARSEXP column with median of YEARSEXP column.

median = df2['YEARSEXP'].median()

df2['YEARSEXP'].fillna(value = median, inplace = True)

In [25]:
# View the summary of df2 dataframe 

print(df2.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 913 entries, 0 to 912
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   YEARSEXP  913 non-null    float64
 1   Exp1      900 non-null    float64
 2   Exp3      900 non-null    float64
 3   Exp4      899 non-null    float64
 4   Exp5      900 non-null    float64
dtypes: float64(5)
memory usage: 35.8 KB
None


In [26]:
# Again view the number of missing values in each column of dataframe df2

print(df2.isnull().sum())

YEARSEXP     0
Exp1        13
Exp3        13
Exp4        14
Exp5        13
dtype: int64


**Interpretation**

Ho riempito tutti i valori mancanti della colonna ** YEARSEXP ** con il valore mediano della colonna ** YEARSEXP **. Ora, questa colonna non ha valori mancanti.

## 6. Riempire i valori mancanti con Imputer

Scikit-Learn fornisce la classe Imputer per gestire i valori mancanti. In questo metodo, sostituiamo il valore mancante con il valore medio dell'intera colonna delle caratteristiche. Questo può essere fatto come mostrato nel codice seguente:
`from sklearn.preprocessing import Imputer`

`imp = Imputer(missing_values='NaN',  strategy='mean', axis=0)`


`imputed_data = imp.fit_transform(df)`

`imputed_data`
Qui, ho sostituito ogni valore "NaN" con il valore medio corrispondente. Il valore medio viene calcolato separatamente per ciascuna colonna delle caratteristiche. Se invece di axis = 0, impostiamo axis = 1, i valori medi vengono calcolati per ogni riga.


Altre opzioni per il parametro della strategia sono "median" o "most_frequent". Il parametro "most_frequent" sostituisce i valori mancanti con il valore più frequente. È utile per imputare i valori delle caratteristiche categoriali.

In [27]:
# Fill missing values with Imputer

from sklearn.preprocessing import Imputer

imp = Imputer(missing_values='NaN',  strategy='mean', axis=0)

df2 = imp.fit_transform(df2)

print(df2)


ImportError: cannot import name 'Imputer' from 'sklearn.preprocessing' (C:\ProgrammiSviluppo\Anaconda3\envs\wiki4HEProject\lib\site-packages\sklearn\preprocessing\__init__.py)

In [None]:
# Imputer convert the dataframe df2 into a numpy array.

# So, we need to convert it back into the dataframe df2.

columnnames = ['YEARSEXP', 'Exp1', 'Exp3', 'Exp4', 'Exp5']

df2 = pd.DataFrame(df2, columns = columnnames)

In [None]:
# View the first 5 rows of imputed dataframe df2

print(df2.head())

In [None]:
# View the summary of the imputed dataframe df2

print(df2.info())

In [None]:
# Agian check that there are no missing values in df2

print(df2.isnull().sum())

**Interpretation**

We can see that there are no missing numerical values in the columns of dataframe df2. 

## 7.	Build a prediction model

Possiamo costruire un modello di predizione per gestire i valori mancanti. In questo metodo, dividiamo il nostro set di dati in due set - set di allenamento e set di test. L'insieme di allenamento non contiene valori mancanti e l'insieme di prova contiene valori mancanti. La variabile che contiene valori mancanti può essere trattata come una variabile obiettivo. Successivamente, creiamo un modello per prevedere la variabile obiettivo e lo usiamo per popolare i valori mancanti del set di dati di prova.

## 8.	KNN Imputation
In questo metodo, i valori mancanti di un attributo sono imputati usando il numero dato di attributi che sono più simili all'attributo i cui valori sono mancanti. La somiglianza degli attributi è determinata utilizzando una funzione di distanza.

I due metodi di cui sopra sono metodi più sofisticati per trattare i valori numerici mancanti. Quindi, non entrerò molto nei dettagli.

## 9. Check with ASSERT statement


Finally, we can check for missing values programmatically. If we drop or fill missing values, we expect no missing values. We can write an assert statement to verify this. So, we can use an assert statement to programmatically check that no missing or unexpected ‘0’ value is present. This gives confidence that our code is running properly.
Assert statement will return nothing if the value being tested is true and will throw an AssertionError if the value is false.

Asserts

•	assert 1 == 1   (return Nothing if the value is True)

•	assert 1 == 2   (return AssertionError if the value is False)



assert that there are no missing values in the dataframe

`assert pd.notnull(df).all().all()`


assert that there are no missing values for a particular column in dataframe

`assert df.column_name.notnull().all()`


assert all values are greater than 0

`assert (df >=0).all().all()`


assert no entry in a column is equal to 0

`assert (df['column_name']!=0).all().all()`






In [None]:
# assert that there are no missing values in the dataframe df2

assert pd.notnull(df2).all().all()


# When I run the above command, it returns nothing. Hence the assert statement is true. 

# So, there are no missing values in dataframe df2.


In [None]:
# assert that there are no missing values for a particular column in the dataframe

assert df2['YEARSEXP'].notnull().all()

assert df2['Exp1'].notnull().all()

assert df2['Exp3'].notnull().all()

assert df2['Exp4'].notnull().all()

assert df2['Exp5'].notnull().all()

**Interpretation**

When I run the above commands, it returns nothing. Hence the assert statements are true. Hence, there are no missing values in df2 dataframe.



This concludes our discussion on missing values.