<a href="https://colab.research.google.com/github/atarasaki/DSWP-editados/blob/main/Notebooks/2020-10-16-NB10_04__3DP_2_Missing_Value_Handling.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<center><h1><b><i>3DP_2 - MISSING VALUES HANDLING</i></b></h1></center>


# **AGENDA**:

> Consulte **Table of contents**.


___
# **REFERÊNCIAS**
* [Working with missing data](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)
* [Handling Missing Data for a Beginner](https://towardsdatascience.com/handling-missing-data-for-a-beginner-6d6f5ea53436)

___
# **3DP_MISSING VALUES HANDLING**

> Lidar com Missing Values é um dos piores pesadelos de um Cientista de dados. Especialmente, se o número de MV for grande o suficiente (geralmente acima de 5%). Nesse caso, os valores não podem ser descartados e um Cientista de Dados inteligente deve "imputar" os valores ausentes.

* Nesta sessão, vamos identificar, analisar e tratar Missing Values (MV).
* Como MV são gerados?
    * Usuário se esqueceu de preencher ou preencheu errado o campo;
    * Os dados foram perdidos durante a transferência manual de um banco de dados legado;
    * Erro de programação;
    * Os usuários optaram por não preencher um campo vinculado a suas crenças sobre como os resultados seriam usados ou interpretados.
* As funções df.isnull() e df.isna() são apropriadas para nos indicar quantas observações são MV no dataframe.

* Na prática:
    * Variáveis Contínuas/Numéricas - Podemos substituir os NaN por Média/Mediana/Moda;
	* Variáveis Categóricas - Uma alternativa é atribuir uma categoria inexistente como, por exemplo "MV" para indicar o NaN.


___
# **MACHINE LEARNING COM PYTHON (Scikit-Learn)**

![Scikit-Learn](https://github.com/MathMachado/Materials/blob/master/scikit-learn-1.png?raw=true)

## Carregar as biliotecas

In [1]:
import pandas as pd
from pandas import Series, DataFrame

import numpy as np
from sklearn import preprocessing
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline
matplotlib.style.use('ggplot')

# remove warnings to keep notebook clean
import warnings
warnings.filterwarnings('ignore')

## Dataframes
* O dataframe abaixo foi gerado aleatoriamente para entendermos como lidar com os NaN's.

In [2]:
df= pd.DataFrame({
    'idade': [32,38,np.nan,37,np.nan,36,38,32,0,np.nan],
    'salario': ['High', 'High', 'High', 'Low', 'Low', 'High', np.nan, 'Medium', 'Medium', 'High'],
    'pais': ['Spain', 'France', 'France', np.nan, 'Germany', 'France', 'Spain', 'France', np.nan, 'Spain']})

df

Unnamed: 0,idade,salario,pais
0,32.0,High,Spain
1,38.0,High,France
2,,High,France
3,37.0,Low,
4,,Low,Germany
5,36.0,High,France
6,38.0,,Spain
7,32.0,Medium,France
8,0.0,Medium,
9,,High,Spain


## Identificar os NaN's

A função df.isna() será usada para identificarmos os NaN's nos dataframes. Por exemplo:

In [3]:
df.isna()

Unnamed: 0,idade,salario,pais
0,False,False,False
1,False,False,False
2,True,False,False
3,False,False,True
4,True,False,False
5,False,False,False
6,False,True,False
7,False,False,False
8,False,False,True
9,True,False,False


In [4]:
df.isnull()

Unnamed: 0,idade,salario,pais
0,False,False,False
1,False,False,False
2,True,False,False
3,False,False,True
4,True,False,False
5,False,False,False
6,False,True,False
7,False,False,False
8,False,False,True
9,True,False,False


Qual a interpretação deste output?

Para um dataframe muito grande, vamos usar a expressão abaixo:

In [5]:
df.isna().sum()

idade      3
salario    1
pais       2
dtype: int64

In [6]:
df.isnull().sum().sort_values(ascending=False)

idade      3
pais       2
salario    1
dtype: int64

In [7]:
df.isnull().count()

idade      10
salario    10
pais       10
dtype: int64

Mais prático não é? No entanto, vamos utilizar a função abaixo, que nos ajudará mais com os NaN's:

In [8]:
def mostra_missing_value(df):
  # series com a soma das linhas com missing values para cada coluna
  total = df.isnull().sum().sort_values(ascending = False)
  # series com o percentual de missing values em cada linha, com referência no total de linhas, arredondando para 2 casas
  percent = 100*round((df.isnull().sum()/df.isnull().count()).sort_values(ascending = False), 2)
  # monta dataframe concatenando as series 'total' e 'percent', passando keys como nomes de coluna
  missing_data = pd.concat([total, percent], axis = 1, keys=['Total', 'Percentual'])
  display( total, percent )
  print(missing_data.head(10))

In [9]:
mostra_missing_value(df)

idade      3
pais       2
salario    1
dtype: int64

idade      30.0
pais       20.0
salario    10.0
dtype: float64

         Total  Percentual
idade        3        30.0
pais         2        20.0
salario      1        10.0


## A função df.dropna()
* Esta função deleta as instâncias (linhas do dataframes) onde há pelo menos 1 NaN.

In [11]:
df2 = df.dropna()
df2

Unnamed: 0,idade,salario,pais
0,32.0,High,Spain
1,38.0,High,France
5,36.0,High,France
7,32.0,Medium,France


Como podemos ver, somente as instâncias 0, 1, 5 e 7 tem atributos não NaN's.

Uma forma menos severa seria:

In [12]:
# deleta as linhas com missing values, desde que na coluna 'pais'
df3 = df.dropna(axis = 0, subset = ['pais'])
df3

Unnamed: 0,idade,salario,pais
0,32.0,High,Spain
1,38.0,High,France
2,,High,France
4,,Low,Germany
5,36.0,High,France
6,38.0,,Spain
7,32.0,Medium,France
9,,High,Spain


* Saberias explicar o que o comando acima fez?

## Tratar os NaN's de Variáveis Numéricas
* Neste exemplo, vou substituir os NaN's da variável 'idade' pela mediana. No entanto, responda a seguinte perfunta:
    * Faz sendido idade= 0?

R : depende do dataset, mas neste caso, por abordar salário, não faz sentido idade zero.

Acho que a resposta é não. Então, neste caso, 0 é um NaN. Vamos substituído pela mediana da variável:

In [13]:
display( df['idade'].mean(), df['idade'].std(), df['idade'].median() )

30.428571428571427

13.660858231423369

36.0

In [14]:
# código original
df['idade2'] = df['idade'].replace({0: df['idade'].median()})
df

Unnamed: 0,idade,salario,pais,idade2
0,32.0,High,Spain,32.0
1,38.0,High,France,38.0
2,,High,France,
3,37.0,Low,,37.0
4,,Low,Germany,
5,36.0,High,France,36.0
6,38.0,,Spain,38.0
7,32.0,Medium,France,32.0
8,0.0,Medium,,36.0
9,,High,Spain,


In [16]:
# código alternativo, explicitando valor a procurar e valor a atribuir
df['idade2'] = df['idade'].replace( to_replace=0, value=df['idade'].median() )
df

Unnamed: 0,idade,salario,pais,idade2
0,32.0,High,Spain,32.0
1,38.0,High,France,38.0
2,,High,France,
3,37.0,Low,,37.0
4,,Low,Germany,
5,36.0,High,France,36.0
6,38.0,,Spain,38.0
7,32.0,Medium,France,32.0
8,0.0,Medium,,36.0
9,,High,Spain,


In [17]:
display( df['idade2'].mean(), df['idade2'].std(), df['idade2'].median() )

35.57142857142857

2.5727509827123995

36.0

Como podemos verificar acima na variável 'idade2', o valor 0 foi substituído pela mediana da variável 'idade'.

Vamos verificar a média da variável antes da operação:

In [18]:
display( df['idade2'].mean(), df['idade2'].std(), df['idade2'].median() )

35.57142857142857

2.5727509827123995

36.0

In [19]:
df['idade3'] = df['idade2']
df

Unnamed: 0,idade,salario,pais,idade2,idade3
0,32.0,High,Spain,32.0,32.0
1,38.0,High,France,38.0,38.0
2,,High,France,,
3,37.0,Low,,37.0,37.0
4,,Low,Germany,,
5,36.0,High,France,36.0,36.0
6,38.0,,Spain,38.0,38.0
7,32.0,Medium,France,32.0,32.0
8,0.0,Medium,,36.0,36.0
9,,High,Spain,,


Aplicamos a operação:

In [20]:
# substitui missing values da coluna 'idade3' pela mediana
df['idade3'].fillna(df['idade3'].median(), inplace = True)
df

Unnamed: 0,idade,salario,pais,idade2,idade3
0,32.0,High,Spain,32.0,32.0
1,38.0,High,France,38.0,38.0
2,,High,France,,36.0
3,37.0,Low,,37.0,37.0
4,,Low,Germany,,36.0
5,36.0,High,France,36.0,36.0
6,38.0,,Spain,38.0,38.0
7,32.0,Medium,France,32.0,32.0
8,0.0,Medium,,36.0,36.0
9,,High,Spain,,36.0


Podemos observar que os valores NaN's do atributo 'idade3' foi substituído pelo valor 36.

E agora, a média após a operação:

In [21]:
display( df['idade3'].mean(), df['idade3'].std(), df['idade3'].median() )

35.7

2.110818693198342

36.0

* Qual a conclusão?
    * Houve muito impacto na distribuição da variável 'idade'?

R : mudou um pouco a média, reduziu o desvio padrão, mas a mediana foi mantida.

## Tratar NaN's de Variáveis Categóricas
* Observe a variável 'pais'. Temos alguns NaN's. As alternativas que temos são:
    * substituir os NaN's desta variável pela moda (valor mais frequente) da distribuição.
    * substiruir os NaN's por 'Undefined'.

Qual o valor (no caso, País) mais frequente ?

In [22]:
df.pais.value_counts() # equivale a df['pais'].value_counts()

France     4
Spain      3
Germany    1
Name: pais, dtype: int64

Ok, a instância 'France' é o mais frequente. Então vamos substituir os NaN's por 'France'. De forma automática, temos:

In [23]:
 df.mode()

Unnamed: 0,idade,salario,pais,idade2,idade3
0,32.0,High,France,32.0,36.0
1,38.0,,,36.0,
2,,,,38.0,


In [24]:
sMode_Of_pais = df['pais'].mode()[0]
sMode_Of_pais

'France'

In [25]:
# cria nova coluna 'pais2' e preenche os missing values com a moda
df["pais2"] = df["pais"]
df["pais2"] = df["pais2"].fillna(sMode_Of_pais)
df

Unnamed: 0,idade,salario,pais,idade2,idade3,pais2
0,32.0,High,Spain,32.0,32.0,Spain
1,38.0,High,France,38.0,38.0,France
2,,High,France,,36.0,France
3,37.0,Low,,37.0,37.0,France
4,,Low,Germany,,36.0,Germany
5,36.0,High,France,36.0,36.0,France
6,38.0,,Spain,38.0,38.0,Spain
7,32.0,Medium,France,32.0,32.0,France
8,0.0,Medium,,36.0,36.0,France
9,,High,Spain,,36.0,Spain


In [26]:
# alternativamente, cria coluna 'pais3' e preenche com valor indicativo de missing value
df["pais3"] = df["pais"].fillna('pais_mv')

In [27]:
df

Unnamed: 0,idade,salario,pais,idade2,idade3,pais2,pais3
0,32.0,High,Spain,32.0,32.0,Spain,Spain
1,38.0,High,France,38.0,38.0,France,France
2,,High,France,,36.0,France,France
3,37.0,Low,,37.0,37.0,France,pais_mv
4,,Low,Germany,,36.0,Germany,Germany
5,36.0,High,France,36.0,36.0,France,France
6,38.0,,Spain,38.0,38.0,Spain,Spain
7,32.0,Medium,France,32.0,32.0,France,France
8,0.0,Medium,,36.0,36.0,France,pais_mv
9,,High,Spain,,36.0,Spain,Spain


# **EXERCÍCIOS**


## Exercício 1
* Trate os NaN's da variável 'salario'.

In [28]:
# cria coluna salario2 e substitui por indicador de missing value
df['salario2'] = df['salario'].fillna('salario_mv')
df

Unnamed: 0,idade,salario,pais,idade2,idade3,pais2,pais3,salario2
0,32.0,High,Spain,32.0,32.0,Spain,Spain,High
1,38.0,High,France,38.0,38.0,France,France,High
2,,High,France,,36.0,France,France,High
3,37.0,Low,,37.0,37.0,France,pais_mv,Low
4,,Low,Germany,,36.0,Germany,Germany,Low
5,36.0,High,France,36.0,36.0,France,France,High
6,38.0,,Spain,38.0,38.0,Spain,Spain,salario_mv
7,32.0,Medium,France,32.0,32.0,France,France,Medium
8,0.0,Medium,,36.0,36.0,France,pais_mv,Medium
9,,High,Spain,,36.0,Spain,Spain,High


## Exercício 2 - Diabetes
* Carregue o dataframe diabeletes.csv e trate os NaN's.

In [None]:
# original
url_df= ''
df = pd.read_csv(url_df)
df.head()

In [29]:
# Pima_Diabetes.csv

df_pima = pd.read_csv('https://raw.githubusercontent.com/atarasaki/DSWP/master/Dataframes/Pima_Diabetes.csv')
df_pima.shape

(768, 9)

In [30]:
df_pima.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   num_preg        768 non-null    int64  
 1   glucose_conc    768 non-null    int64  
 2   diastolic_bp    768 non-null    int64  
 3   skin_thickness  768 non-null    int64  
 4   insulin         768 non-null    int64  
 5   bmi             768 non-null    float64
 6   diab_pred       768 non-null    float64
 7   age             768 non-null    int64  
 8   diabetes        768 non-null    int64  
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [31]:
df_pima.head()

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,skin_thickness,insulin,bmi,diab_pred,age,diabetes
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


### Carregar o dataframe

**Dica**: Algumas medidas não fazem sentido seram nulas (0). Portanto, os NaN's aqui neste dataframe são o valor 0. Portanto, substitua os NaN's (no caso, 0)das variáveis Glucose, BloodPressure, SkinThickness, Insulin e BMI por alguma medida como, por exemplo, média, mediana, moda e etc.

In [34]:
# soma das ocorrências de zeros em cada coluna
(df_pima == 0).sum()

num_preg          111
glucose_conc        5
diastolic_bp       35
skin_thickness    227
insulin           374
bmi                11
diab_pred           0
age                 0
diabetes          500
dtype: int64

In [36]:
# substituição das colunas pelas respectivas medianas
#df['idade2'] = df['idade'].replace( to_replace=0, value=df['idade'].median() )

for col in [ 'glucose_conc',	'diastolic_bp',	'skin_thickness',	'insulin',	'bmi' ]:
  df_pima[col] = df_pima[col].replace( to_replace=0, value=df_pima[col].median() )

(df_pima == 0).sum()

num_preg          111
glucose_conc        0
diastolic_bp        0
skin_thickness      0
insulin             0
bmi                 0
diab_pred           0
age                 0
diabetes          500
dtype: int64

In [37]:
df_pima.head()

Unnamed: 0,num_preg,glucose_conc,diastolic_bp,skin_thickness,insulin,bmi,diab_pred,age,diabetes
0,6,148,72,35,30.5,33.6,0.627,50,1
1,1,85,66,29,30.5,26.6,0.351,31,0
2,8,183,64,23,30.5,23.3,0.672,32,1
3,1,89,66,23,94.0,28.1,0.167,21,0
4,0,137,40,35,168.0,43.1,2.288,33,1


## Exercício 3 - Titanic
> Trate os NaN's do dataframe Titanic_With_MV.csv.

In [38]:
df_titanic = pd.read_csv('https://raw.githubusercontent.com/atarasaki/DSWP/master/Dataframes/Titanic_With_MV.csv')

In [39]:
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [40]:
# missing values
df_titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [42]:
# colunas 'Age' : mediana
df_titanic['Age'] = df_titanic['Age'].fillna( df_titanic['Age'].median() )
df_titanic.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

In [43]:
df_titanic['Cabin'].mode()

0        B96 B98
1    C23 C25 C27
2             G6
dtype: object