<h1 align="center">Tratamento de data Missing</h1>

#### Neste notebook será apresentado algumas formas de tratamento de dados faltantes em variáveis do dataset, mostrando na prática como utilizar o método usando as principais bibliotecas de python, tais como sklearn.

#### Serão apresentados os métodos de 'imputer' usando:

* Média
* Mediana
* Mais frequente
* Constante
* KNN(K-nearest neighbor)

In [2]:
#Importação das bibliotecas
from sklearn.impute import SimpleImputer
import numpy as np
import pandas as pd

In [3]:
#Configurando o número máximo de colunas exibidas
pd.options.display.max_columns = None

In [4]:
#Lendo o dataset
data = pd.read_csv("./datasets/Health_systems.csv")

#Imprimir as 10 primeiras observações
data.head(10)

Unnamed: 0,Country_Region,Province_State,World_Bank_Name,Health_exp_pct_GDP_2016,Health_exp_public_pct_2016,Health_exp_out_of_pocket_pct_2016,Health_exp_per_capita_USD_2016,per_capita_exp_PPP_2016,External_health_exp_pct_2016,Physicians_per_1000_2009-18,Nurse_midwife_per_1000_2009-18,Specialist_surgical_per_1000_2008-18,Completeness_of_birth_reg_2009-18,Completeness_of_death_reg_2008-16
0,Afghanistan,,Afghanistan,10.2,5.1,77.4,57.2,162.8,17.5,0.3,0.3,0.0,42.3,
1,Albania,,Albania,6.7,41.4,58.0,271.5,759.7,0.7,1.2,3.6,11.6,98.4,53.0
2,Algeria,,Algeria,6.6,67.7,30.9,260.4,998.2,0.0,1.8,2.2,12.1,100.0,
3,Andorra,,Andorra,10.4,49.1,41.7,3834.7,4978.7,,3.3,4.0,83.1,100.0,80.0
4,Angola,,Angola,2.9,44.1,35.2,95.2,185.8,3.6,0.2,1.3,,25.0,
5,Antigua and Barbuda,,Antigua and Barbuda,4.3,60.6,32.2,623.1,976.4,0.0,2.8,3.1,14.0,,79.0
6,Argentina,,Argentina,7.5,74.4,15.8,955.2,1531.0,0.6,4.0,2.6,50.1,100.0,100.0
7,Armenia,,Armenia,9.9,16.5,80.6,358.8,876.9,1.7,2.9,5.6,86.7,99.3,76.0
8,Australia,,Australia,9.3,68.3,18.9,5002.4,4529.9,0.0,3.6,12.7,45.1,100.0,100.0
9,Austria,,Austria,10.4,72.5,18.9,4688.3,5295.2,,5.1,8.2,109.9,100.0,100.0


<h1>Usando a Média</h1>

#### Substituição dos valores faltantes pela média da sua respectiva variável. Só pode ser usada com dados numéricos.

In [28]:
#Obter os dados
data_test = data[["External_health_exp_pct_2016"]]

#Criar a instância do imputer
imputer_mean = SimpleImputer(missing_values=np.nan, strategy="mean")

#Ajustar o método de acordo com os dados
imputer_mean.fit(data_test)

#Obter o novo dataset com os valores substituidos
data_imp = pd.DataFrame(imputer_mean.transform(data_test), columns=["External_health_exp_pct_2016"])

#Exibir as primeiras observações
data_imp.head(10)

Unnamed: 0,External_health_exp_pct_2016
0,17.5
1,0.7
2,0.0
3,9.116766
4,3.6
5,0.0
6,0.6
7,1.7
8,0.0
9,9.116766


<h1>Usando a Mediana</h1>

#### Substituição dos valores faltantes pela mediana da sua respectiva variável. Só pode ser usada com dados numéricos.

In [13]:
#Obter os dados
data_test = data[["Specialist_surgical_per_1000_2008-18"]]

#Criar a instância do imputer
imputer_median = SimpleImputer(missing_values=np.nan, strategy="median")

#Ajustar o método de acordo com os dados
imputer_median.fit(data_test)

#Obter o novo dataset com os valores substituidos
data_imp =  pd.DataFrame(imputer_median.transform(data_test), columns=["Specialist_surgical_per_1000_2008-18"])

print("Antes:\n",data_test.head(),"\n\nDepois:")

#Exibir as primeiras observações
print(data_imp.head())

Antes:
    Specialist_surgical_per_1000_2008-18
0                                   0.0
1                                  11.6
2                                  12.1
3                                  83.1
4                                   NaN 

Depois:
   Specialist_surgical_per_1000_2008-18
0                                   0.0
1                                  11.6
2                                  12.1
3                                  83.1
4                                  23.6


<h1>Usando o valor mais frequente</h1>

#### Substituição dos valores faltantes pela média da sua respectiva variável.

In [17]:
#Obter os dados
data_test = data[["Completeness_of_birth_reg_2009-18"]]

#Criar a instância do imputer
imputer_frequent = SimpleImputer(missing_values=np.nan, strategy="most_frequent")

#Ajustar o método de acordo com os dados
imputer_frequent.fit(data_test)

#Obter o novo dataset com os valores substituidos
data_imp = pd.DataFrame(imputer_frequent.transform(data_test), columns=["Completeness_of_birth_reg_2009-18"])

print("Antes:\n",data_test.head(10),"\n\nDepois:")

#Exibir as 10 primeiras observações
print(data_imp.head(10))

Antes:
    Completeness_of_birth_reg_2009-18
0                               42.3
1                               98.4
2                              100.0
3                              100.0
4                               25.0
5                                NaN
6                              100.0
7                               99.3
8                              100.0
9                              100.0 

Depois:
   Completeness_of_birth_reg_2009-18
0                               42.3
1                               98.4
2                              100.0
3                              100.0
4                               25.0
5                              100.0
6                              100.0
7                               99.3
8                              100.0
9                              100.0


<h1>Usando uma constante</h1>

#### Substituição dos valores faltantes por um valor definido/constante.

In [20]:
#Obter os dados
data_test = data[["Province_State"]]

#Criar a instância do imputer
imputer_constant = SimpleImputer(missing_values=np.nan, strategy="constant", fill_value="Impute")

#Ajustar o método de acordo com os dados
imputer_constant.fit(data_test)

#Obter o novo dataset com os valores substituidos
data_imp = pd.DataFrame(imputer_constant.transform(data_test), columns=["Province_State"])

print("Antes:\n",data_test.head(10),"\n\nDepois:")

#Exibir as 10 primeiras observações
print(data_imp.head(10))

Antes:
   Province_State
0            NaN
1            NaN
2            NaN
3            NaN
4            NaN
5            NaN
6            NaN
7            NaN
8            NaN
9            NaN 

Depois:
  Province_State
0         Impute
1         Impute
2         Impute
3         Impute
4         Impute
5         Impute
6         Impute
7         Impute
8         Impute
9         Impute


<h1>Usando KNN</h1>

#### Substituição dos valores faltantes com relação aos seus k vizinhos.

In [22]:
#Importando a biblioteca system
import sys

#Aumentando o limite de recursão do Sistema Operacional
sys.setrecursionlimit(100000) 

#Obtendo os dados
data_test = data[["Specialist_surgical_per_1000_2008-18","Completeness_of_birth_reg_2009-18","Completeness_of_death_reg_2008-16"
]]

#Importando o método
from sklearn.impute import KNNImputer

#Instanciando o método
imputer_KNN = KNNImputer(n_neighbors = 5)

#Ajustando e substituindo os valores faltantes do dataset
data_imp = pd.DataFrame(imputer_KNN.fit_transform(data_test), columns=["Specialist_surgical_per_1000_2008-18","Completeness_of_birth_reg_2009-18","Completeness_of_death_reg_2008-16"
])

print("Antes:\n",data_test.head(10),"\n\nDepois:")

#Exibindo as 10 primeiras observações
print(data_imp.head(10))

Antes:
    Specialist_surgical_per_1000_2008-18  Completeness_of_birth_reg_2009-18  \
0                                   0.0                               42.3   
1                                  11.6                               98.4   
2                                  12.1                              100.0   
3                                  83.1                              100.0   
4                                   NaN                               25.0   
5                                  14.0                                NaN   
6                                  50.1                              100.0   
7                                  86.7                               99.3   
8                                  45.1                              100.0   
9                                 109.9                              100.0   

   Completeness_of_death_reg_2008-16  
0                                NaN  
1                               53.0  
2               